ふくふくHukuhuku Inc.
EP.03RAG 9分公開: 2026-05-10

embedding-vec モデル選定の意外な落とし穴

OpenAI text-embedding-3 / multilingual-e5 / Cohere。日本語性能・コスト・運用面で判断する選定ガイド。

#embedding-vec#RAG
シェア

モデルは「OpenAI 一択」と言われがちですが、日本語ナレッジベース運用では別の選択肢が刺さるケースも多いです。今回は、現場で4モデルを比較した結果を共有します。

現場でよく検討する4モデル

モデル日本語性能次元数コスト/1Mトークン運用
OpenAI text-embedding-3-large★★★★3072$0.13 のみ
OpenAI text-embedding-3-small★★★1536$0.02API のみ
multilingual-e5-large★★★★1024自前ホストGPU 必要
Cohere embed-multilingual-v3★★★★1024$0.10API

「コスト」より大事な選定軸

コストは、文書量が膨大でない限り月数千円〜1万円程度。コストよりも「再インデックス可能性」「データ主権」「リランカーとの相性」のほうが重要です。

「データを社外に出せない」案件で multilingual-e5

金融・医療・行政系では「文書をOpenAIに送れない」前提があります。multilingual-e5-large を自前GPU でホストすれば、データ社外流出ゼロでを構築可能。GPU は g5.xlarge(月 $700 程度)でも十分。

次元数を増やせば精度が上がるわけではない

3072次元の方が1024次元より優秀そうに見えますが、ナレッジベースが小さい(数千文書)と、次元の呪いで逆効果なことも。文書数1万未満なら1024次元で十分なケースが多い。

でA/Bテストを並列実行

prompt:4モデル並列ベンチマーク
4つの Embedding モデルでA/Bテストを並列実行してください。

## 対象
- text-embedding-3-large
- text-embedding-3-small
- multilingual-e5-large
- cohere/embed-multilingual-v3

## 評価セット
@eval/queries.json (100質問 × 関連文書3つ正解付き)

## メトリクス
- Recall@5
- MRR
- 1クエリあたりレイテンシ
- コスト見積もり(月100万クエリ想定)

## 出力
- ベンチマーク結果テーブル
- 推奨モデルと根拠(3行)
- 切替手順(PR案)
想定される実行結果(例示)
## 並列ベンチマーク結果

| モデル | Recall@5 | MRR | レイテンシ | 月コスト |
|---|---|---|---|---|
| openai-3-large | 0.82 | 0.61 | 280ms | $1,200 |
| openai-3-small | 0.71 | 0.49 | 240ms | $200 |
| multilingual-e5-large | 0.85 | 0.64 | 350ms | $720(GPU固定費) |
| cohere-multi-v3 | 0.79 | 0.58 | 310ms | $1,000 |

## 推奨: multilingual-e5-large
1. 日本語ナレッジでは精度TOP(Recall@5 = 0.85)
2. コストはGPU固定費 $720/月で青天井にならない
3. データを社外に出さない要件にも合致

## 切替PR案
- 既存 Pinecone インデックス(次元 1536)を破棄、1024次元で再構築
- 全文書 50万件の再Embedding に推定 4時間
- リハーサル用 staging 環境で実施推奨

PR #421 を生成しました。

次回予告

EP.04 では、(再ランク)を入れるとなぜ精度が跳ねるのか、いつ要らないかを実装で解説します。

シェア

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。

シリーズの外も探す:

まずは、現状を聞かせてください。

要件が固まっていなくて大丈夫です。現状診断と方針提案までを無料でお手伝いします。

無料相談フォームへ hello [at] hukuhuku [dot] co [dot] jp