Skip to content

RAG : Génération augmentée par récupération

Préface

Pourquoi ChatGPT raconte-t-il parfois « n'importe quoi avec aplomb » ? Les connaissances des grands modèles de langage proviennent de leurs données d'entraînement, mais ces données ont une date limite et n'incluent pas les documents internes de votre entreprise. Le RAG (Retrieval-Augmented Generation, génération augmentée par récupération) est la technologie centrale qui résout ce problème — permettre à l'IA de « consulter des documents » avant de répondre.

Qu'allez-vous apprendre dans cet article ?

Après avoir étudié ce chapitre, vous obtiendrez :

  • Compréhension des concepts fondamentaux : comprendre ce qu'est le RAG, pourquoi il est nécessaire et comment il résout le problème des « hallucinations » des grands modèles
  • Connaissance du pipeline complet : maîtriser le flux de bout en bout, du chargement de documents, du découpage, de la vectorisation jusqu'à la récupération et la génération
  • Capacité de choix technologique : connaître les avantages et inconvénients des différentes stratégies de découpage et méthodes de récupération, et pouvoir choisir en fonction du contexte
  • Vision de l'évolution architecturale : comprendre le parcours évolutif du RAG, de Naive à Advanced puis Modular
  • Capacité de décision pratique : savoir quand utiliser le RAG et quand utiliser le fine-tuning
ChapitreContenuConcepts clés
Chapitre 1Pipeline de base du RAGIndexation, récupération, génération — les trois phases
Chapitre 2Stratégies de découpage de texteDécoupage fixe, découpage sémantique, découpage récursif
Chapitre 3Techniques de récupérationRécupération vectorielle, par mots-clés, hybride
Chapitre 4Évolution architecturaleNaive RAG → Advanced RAG → Modular RAG
Chapitre 5RAG vs Fine-tuningComparaison des scénarios d'application des deux approches

0. Vue d'ensemble : pourquoi les grands modèles ont-ils besoin de « consulter des documents » ?

Imaginez que vous êtes un professeur érudit, ayant lu d'innombrables livres. Mais si quelqu'un vous demande « Quel était le chiffre d'affaires de l'entreprise hier ? », vous ne pourrez certainement pas répondre — car cette information ne figure pas dans les livres que vous avez lus.

Les grands modèles de langage font face au même dilemme :

  • Connaissances avec une date limite : les données d'entraînement de GPT-4 s'arrêtent à une certaine date, il ne sait rien de ce qui s'est passé après
  • Absence de connaissances privées : les documents internes de votre entreprise, les manuels produits, les données clients, le modèle ne les a jamais vus
  • Tendance aux hallucinations : lorsque le modèle n'est pas sûr de la réponse, il a tendance à « inventer » une réponse qui semble plausible

L'idée centrale du RAG

La solution du RAG est très intuitive : avant de laisser le modèle répondre, aidez-le d'abord à trouver des documents de référence pertinents. C'est comme un examen à livre ouvert — vous n'avez pas besoin de mémoriser toutes les connaissances, juste de savoir où chercher et comment chercher.

RAG = Récupération (Retrieval) + Augmentation (Augmented) + Génération (Generation)


1. Pipeline de base du RAG : indexation, récupération, génération

Le flux de travail du RAG peut être divisé en deux phases : l'indexation hors ligne et la requête en ligne.

La phase hors ligne est comme le travail de catalogage dans une bibliothèque — classer, numéroter et ranger tous les livres pour faciliter les recherches futures. La phase en ligne est le processus où un lecteur vient chercher des informations à la bibliothèque — trouver les livres pertinents en fonction de la question, puis synthétiser les informations pour donner une réponse.

选择问题:
💬
用户提问
我们公司的年假政策是什么?
🔍
语义检索
📋
上下文组装
🤖
LLM 生成
返回结果
用户提问 — 详细说明
用户向系统提出一个自然语言问题。这个问题会被转化为向量表示,用于后续的语义检索。
1 / 5

Les trois phases fondamentales

  1. Phase d'indexation (Indexing) : charger les documents bruts, les nettoyer, les découper, puis les transformer en vecteurs via un modèle d'embedding et les stocker dans une base de données vectorielle. C'est un travail de préparation unique.
  2. Phase de récupération (Retrieval) : lorsque l'utilisateur pose une question, transformer également la question en vecteur et rechercher les fragments de document les plus similaires dans la base de données vectorielle.
  3. Phase de génération (Generation) : concaténer les fragments de document récupérés et la question de l'utilisateur en un prompt, et le soumettre au grand modèle pour générer la réponse finale.
PhaseEntréeSortieTechnologie clé
IndexationDocuments brutsBase de données vectorielleDécoupage de texte, modèle d'embedding
RécupérationQuestion utilisateurTop-K fragments de documentSimilarité vectorielle, reranking
GénérationQuestion + contexteRéponse finaleIngénierie de prompt, LLM

2. Découpage de texte : faire entrer l'éléphant dans le réfrigérateur

Le découpage de texte est l'étape la plus facilement négligée du RAG, mais celle qui a le plus d'impact sur les résultats. Pourquoi faut-il découper ? Parce que la fenêtre de contexte des grands modèles est limitée, nous ne pouvons pas y mettre un livre entier. Plus important encore, la qualité du découpage détermine directement la qualité de la récupération.

Imaginez que vous cherchez un point de connaissance dans un livre à la bibliothèque. Si le livre entier est un seul « bloc », même s'il est récupéré, cela ne sert à rien — vous devez encore parcourir tout le livre. Mais si on découpe par chapitre, voire par paragraphe, on peut localiser précisément le contenu dont vous avez besoin.

输入文本
固定大小
按照固定的字符数切分文本,是最简单直接的分块方式。通常会设置一定的重叠区域(overlap),避免在切分边界丢失上下文。
块大小: 80 字符重叠: 20 字符
分块结果 共 0 个块
请输入文本后查看分块结果
策略优点缺点适用场景
📏 固定大小实现简单,块大小均匀可能在句子中间截断结构化程度低的长文本
📝 按句子保持句子完整性块大小不均匀文章、报告等自然文本
🧠 语义分块主题连贯,语义完整计算成本高,需要嵌入模型多主题混合的复杂文档
🔄 递归分块兼顾结构与大小实现较复杂通用场景,推荐默认选择

Choix de la stratégie de découpage

  • Découpage par taille fixe : découper selon le nombre de caractères ou de tokens, simple et brutal mais peut couper la sémantique
  • Découpage récursif : d'abord par paragraphe, puis par phrase si le paragraphe est trop long, préserve l'intégrité sémantique
  • Découpage sémantique : utiliser le modèle d'embedding pour juger les frontières sémantiques, découper là où la similarité change brusquement
  • Découpage par structure de document : utiliser les informations structurelles comme les titres Markdown, les balises HTML pour découper

Il n'y a pas de « meilleure » stratégie de découpage, seulement celle qui convient le mieux à vos données. Il est généralement conseillé de commencer par le découpage récursif, avec une taille de chunk de 200-500 tokens et un chevauchement (overlap) de 10-20 %.


3. Techniques de récupération : comment trouver le contenu le plus pertinent ?

Une fois le découpage terminé, la question clé suivante est : l'utilisateur pose une question, comment trouver les fragments les plus pertinents parmi des milliers de fragments de document ?

C'est comme chercher un livre dans une immense bibliothèque. Vous pouvez chercher par mots-clés du titre (récupération par mots-clés), ou décrire le contenu souhaité pour qu'un bibliothécaire vous aide (récupération sémantique), la meilleure approche étant de combiner les deux (récupération hybride).

选择查询:
1
查询编码
2
向量搜索
3
重排序
4
Top-K 选择
查询编码
将用户的自然语言查询通过嵌入模型(如 text-embedding-ada-002)转化为高维向量表示。这个向量捕捉了查询的语义信息。
查询文本
如何申请年假?
↓ 嵌入模型编码
查询向量
0.12-0.450.780.33-0.210.560.89-0.14
Méthode de récupérationPrincipeAvantagesInconvénients
Récupération par mots-clés (BM25)Basée sur la fréquence des termes et la fréquence inverse de documentCorrespondance exacte, rapideNe comprend pas la sémantique, inefficace pour les synonymes
Récupération vectorielleBasée sur la similarité cosinus des vecteurs d'embeddingComprend la sémantique, prend en charge la correspondance floueInsensible aux noms propres
Récupération hybrideFusion des résultats vectoriels et par mots-clésCombine précision et sémantiqueNécessite un réglage des poids, complexité plus élevée

Reranking (réordonnancement)

Après avoir récupéré les documents candidats, une étape de « reranking » est généralement nécessaire. La récupération initiale vise le rappel (ne rien manquer), le reranking vise la précision (placer les plus pertinents en premier). Les modèles de reranking courants incluent Cohere Rerank, BGE Reranker, etc., qui utilisent des encodeurs croisés pour noter finement les paires requête-document.


4. Évolution architecturale : du simple à l'intelligent

La technologie RAG a connu trois générations d'évolution en seulement deux ans, chaque génération résolvant les points douloureux de la précédente.

最基础的 RAG 架构,流程简单直接:索引 → 检索 → 生成。适合快速原型验证,但在复杂场景下效果有限。
📄
文档加载
✂️
文本分块
🔢
向量化
🔍
检索
🤖
生成
点击流程节点查看详细说明
架构特点
实现简单,上手快
适合结构化知识库
⚠️检索质量依赖分块策略
无法处理复杂查询
架构演进路线
Naive RAG
2023
Advanced RAG
2024
Modular RAG
2025

Comparaison des trois générations d'architecture RAG

  • Naive RAG (2023) : le pipeline le plus basique « indexation → récupération → génération », simple à implémenter mais aux résultats limités. Problèmes : qualité de récupération instable, incapacité à traiter les requêtes complexes, introduction facile de contexte bruité.
  • Advanced RAG (2024) : ajoute au Naive RAG des optimisations comme la réécriture de requête, la récupération hybride, le reranking et la compression de contexte, améliorant significativement la précision de récupération et la qualité de génération.
  • Modular RAG (2025) : décompose le RAG en modules interchangeables, prend en charge le routage décisionnel, la récupération adaptative, l'auto-réflexion et d'autres capacités avancées. Peut choisir dynamiquement le pipeline de traitement optimal selon le type de requête.

5. RAG vs Fine-tuning : lequel choisir ?

Lorsque vous voulez qu'un grand modèle maîtrise des connaissances dans un domaine spécifique, il y a généralement deux voies : le RAG et le fine-tuning (ajustement fin). Elles ne sont pas mutuellement exclusives, mais complémentaires.

Pour faire une analogie : le fine-tuning, c'est comme envoyer un élève en cours particuliers, pour intérioriser les connaissances dans le cerveau ; le RAG, c'est comme donner un livre de référence à l'élève, qu'il peut consulter pendant l'examen. Les deux approches ont leurs avantages et inconvénients, tout dépend de vos besoins spécifiques.

RAG 检索增强生成
VS
Fine-tuning 微调
知识更新速度
实时更新,修改文档即生效
需要重新训练,周期长
实施成本
搭建检索系统,成本适中
💰
需要 GPU 资源和标注数据
回答风格控制
依赖 Prompt 工程
🎨
可深度定制输出风格
幻觉控制
有据可查,可追溯来源
🎯
仍可能产生幻觉
推理延迟
需要额外的检索步骤
⏱️
直接生成,无额外开销
私有数据安全
数据留在本地,不进入模型
🔒
数据融入模型权重
一句话总结
RAG 像是给模型配了一个实时更新的参考书库,适合知识频繁变化的场景; 微调像是让模型上了一门专业课,适合需要特定风格或领域深度的场景。 实际项目中,两者常常结合使用。
DimensionRAGFine-tuning
Mise à jour des connaissancesEn temps réel, il suffit de modifier les documentsNécessite un réentraînement
CoûtFaible (pas besoin d'entraînement GPU)Élevé (nécessite des ressources d'entraînement)
ExplicabilitéÉlevée (sources traçables)Faible (connaissances internalisées dans les poids)
Scénarios adaptésQuestions-réponses sur base de connaissances, recherche documentaireTransfert de style, optimisation de tâches spécifiques
Contrôle des hallucinationsBon (références consultables)Moyen (hallucinations toujours possibles)

Conseils pratiques

Dans la plupart des scénarios, essayez d'abord le RAG. Les avantages du RAG : pas besoin d'entraînement, connaissances mises à jour en temps réel, réponses traçables aux sources. N'envisagez le fine-tuning que lorsque vous devez changer le « modèle de comportement » du modèle (format de sortie, style linguistique, mode de raisonnement). La solution la plus puissante est souvent la combinaison RAG + fine-tuning.


Résumé

Le RAG est l'une des technologies les plus pratiques pour faire « atterrir » les grands modèles aujourd'hui. Sa valeur centrale réside dans le fait que les réponses du modèle sont vérifiables, les connaissances sont mises à jour en temps réel et les hallucinations sont effectivement contrôlables.

Récapitulatif des points clés de ce chapitre :

  1. Le problème central résolu par le RAG : connaissances obsolètes des grands modèles, absence de données privées, tendance aux hallucinations
  2. Pipeline en trois phases : indexation (préparation hors ligne) → récupération (recherche en ligne) → génération (réponse synthétisée)
  3. Le découpage est la base : la qualité du découpage détermine directement la qualité de la récupération, choisir la bonne stratégie est crucial
  4. La récupération est la clé : la récupération hybride + reranking est actuellement la meilleure combinaison
  5. L'architecture évolue : du Naive RAG au Modular RAG, le système devient de plus en plus intelligent et flexible
  6. RAG et fine-tuning sont complémentaires : dans la plupart des cas, essayez d'abord le RAG, envisagez le fine-tuning quand vous devez changer le comportement du modèle

Lectures complémentaires