スケーリングは 前処理の基本だが、モデルによって必要性が違う。本記事では適用判断と手法選定を整理します。
4 つの手法
| 手法 | 計算 | 向くケース |
|---|---|---|
| StandardScaler | (x - μ) / σ | 正規分布に近い、最も使われる |
| MinMaxScaler | (x - min) / (max - min) → [0, 1] | 画像、NN 入力 |
| RobustScaler | (x - median) / IQR | 外れ値が多いとき |
| Log 変換 | log(x + 1) | 裾の重い分布(金額・滞在時間) |
モデル別の必要性
| モデル | スケーリング | 理由 |
|---|---|---|
| 線形回帰 / ロジ回 | 必須 | 係数が特徴量スケールに依存 |
| SVM | 必須 | 距離計算が支配される |
| KNN | 必須 | 距離計算 |
| ニューラルネット | 必須 | 勾配が爆発 / 消失 |
| / ランダムフォレスト / GBDT | 不要 | 分割基準は順序のみ |
| XGBoost / LightGBM | 不要 | 同上 |
ふくふくの進め方
前処理パイプラインの設計、特徴量エンジニアリングまで含めてご支援します。
次回予告
EP.13 は時系列データの前処理。リサンプリング・補間・差分系列。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。