ふくふくHukuhuku Inc.
EP.11Prep 8分公開: 2026-05-10

カテゴリ変数のエンコーディング:One-Hot / Target / Hashing

性別・国・都道府県・商品カテゴリ ── 機械学習に渡すには数値化が必要。OneHot/Label/Target/Frequency/Hashing の使い分け。

#エンコーディング#feature
シェア

カテゴリ変数を数値化する方法は複数あり、選び方を間違えると精度が落ちたり、リークが起きたりします。

5 つのエンコーディング

手法向くケース落とし穴
One-Hotカテゴリ数 < 10高基数で次元爆発
Label順序がある(小→中→大)順序ない場合に使うとモデルが誤解
Target高基数 + ビジネス意味のあるラベルリーク注意(CV 内で学習)
Frequency「人気度」が予測に効きそうシンプルだが効くこと多し
Hashingメモリ制約あり、未知カテゴリ多い衝突で精度低下

Target Encoding のリーク防止

Out-of-fold Encoding 必須

Target Encoding は訓練データのターゲットを学習に使うため、そのままだとテストデータに情報が漏れる。CV foldごとに再計算するか、`category_encoders` の `TargetEncoder(smoothing=...)` を使う。

ふくふくの進め方

パイプラインのエンコーディング設計、特徴量選定まで含めて 1〜2 週間でご相談承ります。

次回予告

EP.12 は数値特徴量のスケーリング。Standardize / MinMax / の使い分け。

シェア

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。

シリーズの外も探す:

まずは、現状を聞かせてください。

要件が固まっていなくて大丈夫です。現状診断と方針提案までを無料でお手伝いします。

無料相談フォームへ hello [at] hukuhuku [dot] co [dot] jp