Le RAG (Retrieval-Augmented Generation, ou génération augmentée par récupération) est la technique qui permet à un LLM de répondre à partir de VOS documents, pas seulement de ce qu’il a appris à l’entraînement.
| Critère | LLM seul | RAG | Fine-tuning |
|---|---|---|---|
| Coût de mise en place | Très faible | Moyen (€€) | Élevé (€€€€) |
| Données fraîches (J+1) | Non | Oui (re-indexation) | Non (re-train requis) |
| Citations / traçabilité | Non | Oui (source du chunk) | Non |
| Style/ton spécifique | Limité | Moyen | Excellent |
| Idéal pour | Questions générales | Données métier, FAQ, support | Voix de marque, niche |
Pourquoi en a-t-on besoin ?
Un LLM générique ne connaît pas vos process internes, votre catalogue produit, vos contrats. Le RAG comble ce gap : il indexe vos documents, retrouve les passages pertinents à chaque question, et les injecte dans le prompt pour que le LLM génère une réponse contextualisée.
Comment ça fonctionne
1. Vos documents sont découpés en chunks et convertis en embeddings (vecteurs). 2. Stockés dans une base vectorielle (pgvector, Pinecone). 3. Question utilisateur : converti en vecteur, comparé aux chunks. 4. Top 3-5 chunks pertinents sont injectés dans le prompt LLM. 5. Le LLM répond en se basant sur ces chunks.
Cas d’usage typiques
Chatbot interne sur la doc RH. Assistant commercial qui connaît votre catalogue. Support client basé sur votre base de connaissances. Recherche sémantique dans des contrats juridiques.
Stack technique typique d’un RAG en 2026
La pile standard se compose de : (1) un loader de documents (LangChain, LlamaIndex) qui ingère PDF, DOCX, HTML, Notion, Google Drive ; (2) un text splitter qui découpe en chunks de 500-1000 tokens avec un recouvrement de 10-20 % ; (3) un modèle d’embedding (OpenAI text-embedding-3-large, Cohere embed-v4, ou Mistral embed pour la souveraineté) ; (4) une base vectorielle (pgvector pour rester en PostgreSQL, Pinecone/Weaviate/Qdrant pour le SaaS spécialisé) ; (5) un LLM pour la génération finale. Le tout orchestré par LangChain, LlamaIndex ou un code custom.
Optimisation : ce qui change tout
Un RAG mal optimisé renvoie des réponses moyennes. Les techniques qui font la différence : (a) le re-ranking, un deuxième modèle (Cohere Rerank, BGE reranker) qui repondère les chunks après la recherche vectorielle ; (b) la recherche hybride, combiner vectoriel + keyword search (BM25) pour ne pas rater les requêtes très spécifiques ; (c) le query rewriting, réécrire la question de l’utilisateur avant la recherche pour mieux matcher le style des documents ; (d) la métadonnée filtering, filtrer par date, auteur, type de document avant la recherche sémantique.
Sécurité et conformité du RAG en France
Côté RGPD : les chunks indexés peuvent contenir des données personnelles, il faut un mécanisme de suppression à la demande (right to be forgotten). Côté souveraineté : pour des données sensibles, choisir une base vectorielle hébergée en France (Scaleway pgvector, OVH) et un modèle d’embedding qui ne sort pas les données (Mistral embed, ou modèle open-source self-hosted). Côté traçabilité AI Act : chaque réponse doit pouvoir citer la source utilisée, c’est précisément ce que le RAG permet, c’est aussi son grand avantage compliance.
Les pièges à éviter
Erreurs courantes en entreprise
Chunks trop gros ou trop petits
Trop gros (2000+ tokens), le LLM se perd dans le bruit. Trop petits (200 tokens), il manque de contexte. Sweet spot : 500-800 tokens avec 100-150 tokens de recouvrement entre chunks adjacents.
Pas de re-ranking après la recherche vectorielle
La recherche vectorielle seule trouve des chunks "proches sémantiquement" mais pas forcément "pertinents pour la question". Sans re-ranker, vous perdez 20 à 40 % de précision sur les réponses.
Indexer toute la doc sans curation
Indexer 50 000 documents non triés produit un RAG bruyant. Mieux vaut indexer 500 documents bien sélectionnés et à jour. La qualité du corpus pèse plus que la quantité.
Quand ne PAS l’utiliser
N’utilisez pas un RAG quand vos données sont déjà bien structurées dans une base SQL et que SQL répondrait mieux à la question. N’utilisez pas un RAG pour des questions très numériques (chiffres exacts d’un rapport), le LLM va paraphraser et perdre la précision.
🇫🇷 Contexte français
Le RAG est aujourd’hui le pattern qui combine le mieux puissance de l’IA et exigences réglementaires françaises : (1) traçabilité, chaque réponse cite le document source, ce qui est exigible sous l’AI Act ; (2) gouvernance des données, votre corpus reste sur vos serveurs (pgvector dans PostgreSQL France), le LLM ne le voit qu’au moment d’une requête ; (3) droit à l’oubli RGPD, vous supprimez un document, il disparaît du RAG. Pour une PME française, c’est l’architecture la plus défendable devant un audit CNIL ou un client exigeant.
Questions fréquentes
C’est quoi RAG en IA ?
RAG (Retrieval-Augmented Generation) est une technique qui permet à un LLM de répondre en se basant sur VOS documents plutôt que sur sa connaissance générique. Concrètement : on indexe vos documents, à chaque question le système retrouve les passages pertinents, et le LLM répond en se basant uniquement sur ces passages.
Quelle est la différence entre RAG et fine-tuning ?
Le RAG ajoute des connaissances au moment de chaque requête (sans réentraîner le modèle). Le fine-tuning modifie le modèle lui-même pour qu’il apprenne un style ou un domaine. Le RAG est moins cher, plus rapide à mettre à jour, et permet la traçabilité. Le fine-tuning est plus puissant pour des cas de voix de marque ou de niche très spécialisée.
Combien coûte un RAG en entreprise ?
Pour une PME, un RAG correctement implémenté tourne entre 6 000 et 25 000 € de build initial (selon la complexité des sources et le nombre de cas d’usage), puis 100 à 600 €/mois d’hébergement et API LLM. Comptez 4 à 8 semaines de déploiement.
Le RAG est-il conforme RGPD ?
Oui, à condition de respecter 3 règles : (1) base vectorielle hébergée dans un cadre conforme RGPD (UE ou hors UE avec garanties), (2) mécanisme de suppression d’un document (droit à l’oubli), (3) modèle d’embedding qui ne réutilise pas vos données pour s’entraîner. Mistral embed + pgvector hébergé en France coche les 3 cases nativement.
Exemple concret
Un cabinet de conseil RAG-ifie ses 800 missions passées : ses consultants posent une question et obtiennent en 5 secondes les passages pertinents de toutes les missions similaires.
À retenir
Le RAG est aujourd’hui le pattern standard pour brancher l’IA sur vos données sans réentraîner un modèle. Plus rapide, plus sûr, plus économique.