Une technique qui améliore les réponses LLM en récupérant du contexte pertinent depuis des bases de connaissances externes.
Le Retrieval-Augmented Generation (RAG) adresse la limitation fondamentale des Large Language Models : ils ne peuvent répondre qu'à partir de leurs données d'entraînement. Le RAG résout cela en ajoutant une étape de récupération avant la génération. Le système recherche dans une base de données vectorielle de vos documents propriétaires, récupère les morceaux les plus pertinents et les injecte dans le prompt du LLM comme contexte.
Vos documents sont découpés en morceaux, convertis en embeddings vectoriels et stockés dans une base de données vectorielle.
La question de l'utilisateur est convertie en vecteur en utilisant le même modèle d'embedding.
La base de données vectorielle effectue une recherche de similarité pour trouver les morceaux de documents les plus pertinents.
Les morceaux récupérés sont injectés comme contexte dans le prompt du LLM, et le modèle génère une réponse fondée.
Les employés posent des questions en langage naturel et obtiennent des réponses sourced depuis la documentation interne.
Un chatbot qui répond aux questions produit en utilisant votre documentation réelle, réduisant le risque d'hallucination.
Les avocats interrogent des bases de jurisprudence et reçoivent des réponses citées et contextuelles.
Connaître la définition, c'est l'étape un. L'intégrer dans votre produit, c'est l'étape deux. C'est là que nous intervenons.