カテゴリ変数を数値化する方法は複数あり、選び方を間違えると精度が落ちたり、リークが起きたりします。

5 つのエンコーディング

Target Encoding のリーク防止

Out-of-fold Encoding 必須

Target Encoding は訓練データのターゲットを学習に使うため、そのままだとテストデータに情報が漏れる。CV foldごとに再計算するか、`category_encoders` の `TargetEncoder(smoothing=...)` を使う。

パイプラインのエンコーディング設計、特徴量選定まで含めて 1〜2 週間でご相談承ります。

EP.12 は数値特徴量のスケーリング。Standardize / MinMax / の使い分け。

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。