RAG:検索拡張生成
はじめに
なぜChatGPTは時に「もっともらしく嘘をつく」のか? 大規模言語モデルの知識は訓練データに由来しますが、訓練データには締め切りがあり、あなたの会社の内部文書も含まれていません。RAG(Retrieval-Augmented Generation、検索拡張生成)は、この問題を解決するコア技術です — AIに回答する前に「資料を調べさせる」技術です。
この記事で何を学べるか?
この章を終えると、以下のことが身につきます:
- コア概念の理解:RAGとは何か、なぜ必要なのか、大規模モデルの「ハルシネーション」問題をどう解決するか
- 完全なワークフローの理解:ドキュメントの読み込み、チャンク分割、ベクトル化から検索、生成までのエンドツーエンドプロセスの習得
- 技術選択の能力:異なるチャンク分割戦略と検索方法の長所と短所を理解し、シナリオに応じて選択できる
- アーキテクチャの進化の視点:Naive から Advanced、さらに Modular へのRAGの進化ルートの理解
- 実践的な意思決定能力:いつRAGを使い、いつファインチューニングを使うべきかを知る
| 章 | 内容 | コア概念 |
|---|---|---|
| 第1章 | RAGの基本ワークフロー | インデックス、検索、生成の3段階 |
| 第2章 | テキストチャンク分割戦略 | 固定チャンク、意味的チャンク、再帰的チャンク |
| 第3章 | 検索技術 | ベクトル検索、キーワード検索、ハイブリッド検索 |
| 第4章 | アーキテクチャの進化 | Naive RAG → Advanced RAG → Modular RAG |
| 第5章 | RAG vs ファインチューニング | 適用シナリオの比較 |
0. 概要:なぜ大規模モデルは「資料を調べる」必要があるのか?
あなたが博識な教授で、無数の本を読んでいると想像してください。しかし、誰かが「昨日の会社の売上データは?」と聞いても、あなたは確実に答えられません — その情報はあなたが読んだ本の中にないからです。
大規模言語モデルも全く同じジレンマに直面しています:
- 知識に締め切りがある:GPT-4の訓練データはある時点で打ち切られており、それ以降の出来事を知らない
- プライベートな知識が欠如している:あなたの会社の内部文書、製品マニュアル、顧客データをモデルは見たことがない
- ハルシネーション(幻覚)を起こしやすい:モデルが答えに確信がない場合、もっともらしい回答を「捏造」する傾向がある
RAGのコアアイデア
RAGの解決策は非常に直感的です:モデルに回答させる前に、まず関連する参考文献を見つけるのを助ける。 まるで持ち込み可の試験のように — すべてを暗記する必要はなく、どこにあり、どう探すかを知っていればよい。
RAG = 検索(Retrieval)+ 拡張(Augmented)+ 生成(Generation)
1. RAGの基本ワークフロー:インデックス、検索、生成
RAGのワークフローは2つのフェーズに分けられます:オフラインインデックスとオンラインクエリです。
オフラインフェーズは図書館の目録作成のようなもの — すべての本を分類し、番号を付け、棚に配置して、将来の検索を容易にします。オンラインフェーズは、読者が図書館に来て資料を調べるプロセスです — 質問に基づいて関連する本を見つけ、情報を総合して回答を提供します。
3つのコア段階
- インデックス段階:元のドキュメントを読み込み、クリーニング、チャンク分割し、埋め込みモデルを通じてベクトルに変換してベクトルデータベースに保存します。これは一度だけの準備作業です。
- 検索段階:ユーザーが質問したとき、質問もベクトルに変換し、ベクトルデータベースで最も類似するドキュメントチャンクを検索します。
- 生成段階:検索されたドキュメントチャンクとユーザーの質問をまとめてPromptにし、大規模モデルに渡して最終回答を生成します。
| 段階 | 入力 | 出力 | キー技術 |
|---|---|---|---|
| インデックス | 元のドキュメント | ベクトルデータベース | テキストチャンク、埋め込みモデル |
| 検索 | ユーザーの質問 | Top-K ドキュメントチャンク | ベクトル類似度、リランキング |
| 生成 | 質問 + コンテキスト | 最終回答 | プロンプトエンジニアリング、LLM |
2. テキストチャンク分割:象を冷蔵庫に入れる
テキストチャンク分割はRAGで最も見過ごされやすいが、最も影響の大きいステップです。なぜチャンク分割が必要なのか?大規模モデルのコンテキストウィンドウには限りがあり、本全体を詰め込むことはできないからです。さらに重要なのは、チャンクの品質が検索の品質を直接決定することです。
図書館で本の特定の知識ポイントを探していると想像してください。本全体が1つの「チャンク」であれば、見つかっても役に立ちません — まだ本全体をめくらなければなりません。しかし、章や段落ごとにチャンク分割されていれば、必要な内容を正確に特定できます。
| 策略 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 📏 固定大小 | 实现简单,块大小均匀 | 可能在句子中间截断 | 结构化程度低的长文本 |
| 📝 按句子 | 保持句子完整性 | 块大小不均匀 | 文章、报告等自然文本 |
| 🧠 语义分块 | 主题连贯,语义完整 | 计算成本高,需要嵌入模型 | 多主题混合的复杂文档 |
| 🔄 递归分块 | 兼顾结构与大小 | 实现较复杂 | 通用场景,推荐默认选择 |
チャンク分割戦略の選択
- 固定サイズチャンク:文字数やトークン数で分割 — シンプルだが意味を切断する可能性がある
- 再帰的チャンク:まず段落で分割し、段落が長すぎる場合は文で分割 — 意味的な完全性を維持
- 意味的チャンク:埋め込みモデルを使用して意味的境界を検出し、類似度が急激に低下する箇所で分割
- ドキュメント構造チャンク:Markdownの見出しやHTMLタグなどの構造情報を利用してチャンク分割
「最良の」チャンク分割戦略はなく、あなたのデータに最も適した戦略があります。一般的には、再帰的チャンクから始め、チャンクサイズ200-500トークン、オーバーラップ10-20%を推奨します。
3. 検索技術:最も関連する内容をどう見つけるか?
チャンク分割が完了した後、次の重要な問題は:ユーザーが質問したとき、何千ものドキュメントセグメントから最も関連するものをどう見つけるか?
これは巨大な図書館で本を探すようなものです。書名のキーワードで検索する(キーワード検索)、求めている内容を説明して図書館員に手伝ってもらう(意味的検索)、あるいはその両方を組み合わせる(ハイブリッド検索)のが最良の方法です。
| 検索方法 | 原理 | 利点 | 欠点 |
|---|---|---|---|
| キーワード検索(BM25) | 単語の出現頻度と逆文書頻度に基づく | 完全一致、高速 | 意味を理解できない、同義語に対応できない |
| ベクトル検索 | 埋め込みベクトルのコサイン類似度に基づく | 意味を理解、ファジーマッチングをサポート | 固有名詞への感度が低い |
| ハイブリッド検索 | キーワードとベクトル検索結果を融合 | 精度と意味のバランス | 重みの調整が必要、複雑性が高い |
リランキング(Reranking)
候補ドキュメントを検索した後、通常は「リランキング」のステップが必要です。初期検索は再現率(できるだけ見落とさないこと)に焦点を当て、リランキングは精度(最も関連性の高いものを上位に配置すること)に焦点を当てます。一般的なリランキングモデルにはCohere Rerank、BGE Rerankerなどがあり、これらはクロスエンコーダを使用してquery-documentペアを精密にスコアリングします。
4. アーキテクチャの進化:シンプルからインテリジェントへ
RAG技術はわずか2年で3世代の進化を遂げ、各世代は前の世代の課題を解決しています。
3世代のRAGアーキテクチャの比較
- Naive RAG(2023):最も基本的な「インデックス → 検索 → 生成」ワークフロー。実装はシンプルだが効果は限定的。問題点:検索品質が不安定、複雑なクエリに対応できない、ノイズの多いコンテキストを導入しやすい。
- Advanced RAG(2024):Naive RAGをベースに、クエリ書き換え、ハイブリッド検索、リランキング、コンテキスト圧縮などの最適化ステップを追加し、検索精度と生成品質を大幅に向上。
- Modular RAG(2025):RAGをプラグイン可能なモジュールに分解し、ルーティング決定、適応的検索、自己反省などの高度な機能をサポート。クエリタイプに基づいて最適な処理ワークフローを動的に選択可能。
5. RAG vs ファインチューニング:どちらを選ぶべきか?
大規模モデルに特定ドメインの知識を習得させたい場合、通常2つの道があります:RAGとファインチューニングです。これらは相互に排他的ではなく、補完的な関係にあります。
例えで言えば:ファインチューニングは学生を研修クラスに送るようなもので、知識を脳内に内在化させます。RAGは学生に参考書を渡すようなもので、試験中に閲覧できます。どちらのアプローチにも長所と短所があり、重要なのはあなたの具体的なニーズです。
| 次元 | RAG | ファインチューニング |
|---|---|---|
| 知識の更新 | リアルタイム更新、ドキュメントの変更のみ | 再訓練が必要 |
| コスト | 低い(GPU訓練不要) | 高い(訓練リソースが必要) |
| 説明可能性 | 高い(ソースを追跡可能) | 低い(知識は重みに内在化) |
| 適用シナリオ | ナレッジベースQ&A、ドキュメント検索 | スタイル転送、特定タスクの最適化 |
| ハルシネーション制御 | 良好(参照根拠がある) | 一般的(ハルシネーションの可能性あり) |
実践的アドバイス
ほとんどのシナリオでは、まずRAGを試してください。RAGの利点は:訓練が不要、知識をリアルタイムで更新可能、回答の出所を追跡可能です。モデルの「行動パターン」(出力形式、言語スタイル、推論方法など)を変更する必要がある場合にのみ、ファインチューニングを検討してください。最も強力なソリューションは、多くの場合RAG + ファインチューニングの組み合わせです。
まとめ
RAGは現在、大規模モデルを実用化するための最も実用的な技術の一つです。そのコアバリューは、モデルの回答を検証可能にし、知識をリアルタイムで更新可能にし、ハルシネーションを効果的に制御できることにあります。
この章の重要なポイントの振り返り:
- RAGが解決するコア問題:モデルの知識が古い、プライベートデータが欠如、ハルシネーションを起こしやすい
- 3段階のワークフロー:インデックス(オフライン準備)→ 検索(オンライン検索)→ 生成(包括的回答)
- チャンク分割が基盤:チャンクの品質が検索の品質を直接決定するため、適切なチャンク分割戦略の選択が極めて重要
- 検索が鍵:ハイブリッド検索 + リランキングが現在、最も効果的な組み合わせ
- アーキテクチャの進化:Naive RAGからModular RAGへ、システムはますますインテリジェントで柔軟になっている
- RAGとファインチューニングは補完的:ほとんどのシナリオでまずRAGを試し、モデルの動作を変更する必要がある場合にファインチューニングを検討
参考資料
- LangChain RAGチュートリアル - 最も人気のあるRAGフレームワークの実践ガイド
- LlamaIndexドキュメント - RAGに特化したフレームワーク、豊富なデータコネクタを提供
- RAG Survey論文 - RAG技術の包括的なサーベイ
- Chunking Strategies - Pineconeによるチャンク分割戦略の詳細ガイド
- ベクトルデータベース比較 - 主要なベクトルデータベースの機能比較