モデルは「OpenAI 一択」と言われがちですが、日本語ナレッジベース運用では別の選択肢が刺さるケースも多いです。今回は、現場で4モデルを比較した結果を共有します。
現場でよく検討する4モデル
| モデル | 日本語性能 | 次元数 | コスト/1Mトークン | 運用 |
|---|---|---|---|---|
| OpenAI text-embedding-3-large | ★★★★ | 3072 | $0.13 | のみ |
| OpenAI text-embedding-3-small | ★★★ | 1536 | $0.02 | API のみ |
| multilingual-e5-large | ★★★★ | 1024 | 自前ホスト | GPU 必要 |
| Cohere embed-multilingual-v3 | ★★★★ | 1024 | $0.10 | API |
「コスト」より大事な選定軸
コストは、文書量が膨大でない限り月数千円〜1万円程度。コストよりも「再インデックス可能性」「データ主権」「リランカーとの相性」のほうが重要です。
「データを社外に出せない」案件で multilingual-e5
金融・医療・行政系では「文書をOpenAIに送れない」前提があります。multilingual-e5-large を自前GPU でホストすれば、データ社外流出ゼロでを構築可能。GPU は g5.xlarge(月 $700 程度)でも十分。
次元数を増やせば精度が上がるわけではない
3072次元の方が1024次元より優秀そうに見えますが、ナレッジベースが小さい(数千文書)と、次元の呪いで逆効果なことも。文書数1万未満なら1024次元で十分なケースが多い。
でA/Bテストを並列実行
prompt:4モデル並列ベンチマーク
4つの Embedding モデルでA/Bテストを並列実行してください。
## 対象
- text-embedding-3-large
- text-embedding-3-small
- multilingual-e5-large
- cohere/embed-multilingual-v3
## 評価セット
@eval/queries.json (100質問 × 関連文書3つ正解付き)
## メトリクス
- Recall@5
- MRR
- 1クエリあたりレイテンシ
- コスト見積もり(月100万クエリ想定)
## 出力
- ベンチマーク結果テーブル
- 推奨モデルと根拠(3行)
- 切替手順(PR案) 想定される実行結果(例示)
## 並列ベンチマーク結果
| モデル | Recall@5 | MRR | レイテンシ | 月コスト |
|---|---|---|---|---|
| openai-3-large | 0.82 | 0.61 | 280ms | $1,200 |
| openai-3-small | 0.71 | 0.49 | 240ms | $200 |
| multilingual-e5-large | 0.85 | 0.64 | 350ms | $720(GPU固定費) |
| cohere-multi-v3 | 0.79 | 0.58 | 310ms | $1,000 |
## 推奨: multilingual-e5-large
1. 日本語ナレッジでは精度TOP(Recall@5 = 0.85)
2. コストはGPU固定費 $720/月で青天井にならない
3. データを社外に出さない要件にも合致
## 切替PR案
- 既存 Pinecone インデックス(次元 1536)を破棄、1024次元で再構築
- 全文書 50万件の再Embedding に推定 4時間
- リハーサル用 staging 環境で実施推奨
PR #421 を生成しました。次回予告
EP.04 では、(再ランク)を入れるとなぜ精度が跳ねるのか、いつ要らないかを実装で解説します。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。