前処理は「分析の8割」と言われる本当の理由
「綺麗なデータでまっとうな分析を出すこと」が分析業の本業。本シリーズでは欠損・名寄せ・重複・スケーリング ── データ品質を作り込む全工程を、ケース別の落とし穴つきで体系化する。
欠損値の扱い:削除・補完・フラグ化のトレードオフ
「平均値で補完」は最も安易で、最もバイアスを持ち込みやすい選択。MCAR/MAR/MNAR の分類、削除・補完・フラグ化の使い分け。
外れ値の検出と除去:3σは思ったより使えない
「3σ から外れたら除去」は正規分布前提。実データの多くは歪んだ分布で、IQR・MAD・Winsorize の方が安全。判定式と Python 実装、可視化まで。
型変換:日付・数値・カテゴリの落とし穴
「2025/01/01」「2025-1-1」「Jan 1, 2025」「令和7年元日」── 同じ日付がこの世には何百通り存在する。型変換の地雷集。
文字列正規化:全角半角・大小文字・Unicode 合字
「ふくふく」「フクフク」「FUKUFUKU」「Fuku Fuku」── 全部同じ会社。だが文字列としては別物。Unicode 正規化と日本語固有の正規化を体系的に。
名寄せの基礎:完全一致からファジーマッチングへ
「合同会社ふくふく」「(同)ふくふく」「ふくふく合同会社」「Fukufuku LLC」── 全部同じ会社。これを統合する作業が「名寄せ」。完全一致 → 正規化マッチ → ファジーマッチ → 機械学習 の段階的アプローチ。
住所の正規化:「1-2-3」「1丁目2-3」「1丁目2番3号」を統一する
日本の住所は表記揺れの宝庫。番地のハイフン・全角半角・「丁目」の有無まで、地味だが必須の正規化。
会社名の名寄せ:法人番号 api を活用する
国税庁の法人番号 API を使うと、税務署登録の法人名と 13 桁の法人番号でほぼ完璧な名寄せができる。グループ会社の整理にも。
重複排除(Dedup)の戦略:どのレコードを「正」とするか
重複が見つかったとき、どのレコードを残すか。最新を残す / 最古を残す / 最も情報が豊富なものを残す── 3 つの戦略を使い分ける。
結合の前処理:JOIN キー設計と「漏れ」の防止
「JOIN したら行数が 10 倍になった」「LEFT JOIN したら欠損だらけ」── キー設計の失敗が顕在化する瞬間。設計と検証の作法。
カテゴリ変数のエンコーディング:One-Hot / Target / Hashing
性別・国・都道府県・商品カテゴリ ── 機械学習に渡すには数値化が必要。OneHot/Label/Target/Frequency/Hashing の使い分け。
数値特徴量のスケーリング:Standardize / MinMax / robust
「線形回帰には標準化、決定木には不要」は本当か? スケーリングが必要なモデル / 不要なモデルを判別する。
時系列データの前処理:リサンプリング・補間・差分
1 分粒度の IoT センサーデータを 15 分平均にする、抜け値を線形補間で埋める、季節調整、差分系列。
テキスト前処理:トークナイズ・正規化・ストップワード
形態素解析、ストップワード除去、n-gram、Lemmatization。日本語固有の難しさ(MeCab / SudachiPy / Janome)と、llm 時代の変化。
前処理パイプラインの再現性:dbt / sklearn Pipeline / Polars LazyFrame
ノートブックで仕上げた前処理を、本番に乗せる。スキーマテスト・データ品質テスト・差分検知。
時系列の周期性を発見する:「うちは波があるよね」を仕入計画に変える分析手法
売上・トラフィック・在庫の時系列に「気づいていない周期性」が隠れていることは多い。曜日効果・月次サイクル・四半期波動・景気循環を、自己相関・STL分解・fft で炙り出し、機会損失の解消につなげる実装ガイド。
まずは、現状を聞かせてください。
要件が固まっていなくて大丈夫です。現状診断と方針提案までを無料でお手伝いします。