「を社内に入れたが、欲しい答えが返ってこない」という相談が、この1年で爆発的に増えています。原因は無数にありますが、9割は5つの典型パターンに集約されます。今回は、症状別の切り分けマップを共有します。
5つの典型パターン
P1: 検索精度(再現率)が低い
ユーザーの質問と関連する文書が、そもそもベクトル検索でヒットしていないパターン。原因は「 モデルの言語対応」「クエリと文書の表現ギャップ」「インデックスの粒度」など。
P2: チャンク分割が不適切
「文書途中で切れて、文脈が壊れた状態でベクトル化」が起きているパターン。固定長分割の罠です。
P3: 古い情報を返す
の更新が遅延、もしくは「更新したのに古い文書がまだ取得される」。インデックス再構築のフローが定常運用に組み込まれていないケース。
P4: 業務文脈・略語の喪失
「うちの会社」「あの案件」「先方」のような社内コンテキストや略語、敬語と平易表現の差異で検索ヒットしない。 単体では解けない。 か による Query Expansion が必要。
P5: 出典が示されない /
「答えは合ってるけど、根拠の文書がない」「微妙に誤った数字を返す」。 の鉄則として、必ず出典文書とそのチャンクを LLM に渡し、「出典外の情報は答えるな」とプロンプト制約をかけます。
自診断チェックリスト
- □ 想定質問10個に対して、関連文書がヒットするか確認した(再現率)
- □ 出てきた回答が、ヒットした文書から導出可能か確認した(出典整合性)
- □ 文書更新後5分以内に新情報が反映されるか確認した
- □ 社内略語・固有名詞での質問が機能するか確認した
- □ 「分からない」と正しく返せるか確認した
に診断を任せる
prompt:RAG ヘルスチェック
この RAG システムを5つの典型パターンで診断してください。
## チェック項目
1. P1 検索再現率: テスト質問10個 × 関連文書3つを準備、ヒット率測定
2. P2 チャンク品質: ランダム抽出100チャンクの可読性チェック
3. P3 鮮度: 過去1ヶ月の更新文書が反映されているか
4. P4 業務文脈: 社内用語リスト @docs/glossary.md で検索テスト
5. P5 出典整合性: 回答 vs 引用元の差分検出
## 出力
- 各パターンのスコア(0-100)
- 改善優先度TOP3
- 具体的な改善PR案
## ソース
@rag-system/ 想定される実行結果(例示)
## RAG 診断結果
### P1 検索再現率: **62/100**(要改善)
- テスト質問10個中、関連文書TOP3に正解含むのが 6.2/10
- 主原因: Embedding モデル(all-MiniLM-L6-v2)が日本語性能不足
- 推奨: multilingual-e5-large への移行
### P2 チャンク品質: **74/100**
- 固定512トークン分割 → 28%のチャンクで文中切断
- 推奨: セマンティック分割(句読点・改行ベース)
### P3 鮮度: **88/100**
- 1日1回のフルインデックス更新 → 概ね問題なし
- 推奨: 重要文書はリアルタイム更新キュー
### P4 業務文脈: **45/100**(最優先改善)
- 社内用語50個中、22個が検索でヒットせず
- 推奨: glossary を Query Expansion 層に組み込み
### P5 出典整合性: **81/100**
- 回答の92%に出典付与、8%でズレあり
- 推奨: 出典強制プロンプトの厳格化
## 改善優先度
1. **P4 業務文脈**: glossary 連携で +25点見込み(PR案 #321)
2. **P1 検索再現率**: Embedding 切替で +20点(PR案 #322)
3. **P2 チャンク**: セマンティック分割で +12点(PR案 #323)次回予告
EP.02 では、チャンク戦略の5つの分割方法と、それぞれの選び方を実装例とともに掘り下げます。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。