ふくふくHukuhuku Inc.
SERIES

前処理の現場:データ品質を作る人の仕事

欠損・名寄せ・住所/会社名の正規化・重複排除・スケーリング。「分析の8割は前処理」と言われる領域を、ケース別・落とし穴つきで体系化。

対象読者: データエンジニア / データアナリスト / データサイエンティスト
シェア
16 記事
01EP.1 9分

前処理は「分析の8割」と言われる本当の理由

「綺麗なデータでまっとうな分析を出すこと」が分析業の本業。本シリーズでは欠損・名寄せ・重複・スケーリング ── データ品質を作り込む全工程を、ケース別の落とし穴つきで体系化する。

2026-05-10読む
02EP.2📔 Colab 9分

欠損値の扱い:削除・補完・フラグ化のトレードオフ

「平均値で補完」は最も安易で、最もバイアスを持ち込みやすい選択。MCAR/MAR/MNAR の分類、削除・補完・フラグ化の使い分け。

2026-05-10読む
03EP.3📔 Colab 12分

外れ値の検出と除去:3σは思ったより使えない

「3σ から外れたら除去」は正規分布前提。実データの多くは歪んだ分布で、IQR・MAD・Winsorize の方が安全。判定式と Python 実装、可視化まで。

2026-05-10読む
04EP.4📔 Colab 8分

型変換:日付・数値・カテゴリの落とし穴

「2025/01/01」「2025-1-1」「Jan 1, 2025」「令和7年元日」── 同じ日付がこの世には何百通り存在する。型変換の地雷集。

2026-05-10読む
05EP.5📔 Colab 8分

文字列正規化:全角半角・大小文字・Unicode 合字

「ふくふく」「フクフク」「FUKUFUKU」「Fuku Fuku」── 全部同じ会社。だが文字列としては別物。Unicode 正規化と日本語固有の正規化を体系的に。

2026-05-10読む
06EP.6📔 Colab 13分

名寄せの基礎:完全一致からファジーマッチングへ

「合同会社ふくふく」「(同)ふくふく」「ふくふく合同会社」「Fukufuku LLC」── 全部同じ会社。これを統合する作業が「名寄せ」。完全一致 → 正規化マッチ → ファジーマッチ → 機械学習 の段階的アプローチ。

2026-05-10読む
07EP.7 8分

住所の正規化:「1-2-3」「1丁目2-3」「1丁目2番3号」を統一する

日本の住所は表記揺れの宝庫。番地のハイフン・全角半角・「丁目」の有無まで、地味だが必須の正規化。

2026-05-10読む
08EP.8📔 Colab 8分

会社名の名寄せ:法人番号 api を活用する

国税庁の法人番号 API を使うと、税務署登録の法人名と 13 桁の法人番号でほぼ完璧な名寄せができる。グループ会社の整理にも。

2026-05-10読む
09EP.9📔 Colab 8分

重複排除(Dedup)の戦略:どのレコードを「正」とするか

重複が見つかったとき、どのレコードを残すか。最新を残す / 最古を残す / 最も情報が豊富なものを残す── 3 つの戦略を使い分ける。

2026-05-10読む
10EP.10📔 Colab 8分

結合の前処理:JOIN キー設計と「漏れ」の防止

「JOIN したら行数が 10 倍になった」「LEFT JOIN したら欠損だらけ」── キー設計の失敗が顕在化する瞬間。設計と検証の作法。

2026-05-10読む
11EP.11 8分

カテゴリ変数のエンコーディング:One-Hot / Target / Hashing

性別・国・都道府県・商品カテゴリ ── 機械学習に渡すには数値化が必要。OneHot/Label/Target/Frequency/Hashing の使い分け。

2026-05-10読む
12EP.12 7分

数値特徴量のスケーリング:Standardize / MinMax / robust

「線形回帰には標準化、決定木には不要」は本当か? スケーリングが必要なモデル / 不要なモデルを判別する。

2026-05-10読む
13EP.13📔 Colab 8分

時系列データの前処理:リサンプリング・補間・差分

1 分粒度の IoT センサーデータを 15 分平均にする、抜け値を線形補間で埋める、季節調整、差分系列。

2026-05-10読む
14EP.14📔 Colab 9分

テキスト前処理:トークナイズ・正規化・ストップワード

形態素解析、ストップワード除去、n-gram、Lemmatization。日本語固有の難しさ(MeCab / SudachiPy / Janome)と、llm 時代の変化。

2026-05-10読む
15EP.15📔 Colab 10分

前処理パイプラインの再現性:dbt / sklearn Pipeline / Polars LazyFrame

ノートブックで仕上げた前処理を、本番に乗せる。スキーマテスト・データ品質テスト・差分検知。

2026-05-10読む
16EP.16📔 Colab 18分

時系列の周期性を発見する:「うちは波があるよね」を仕入計画に変える分析手法

売上・トラフィック・在庫の時系列に「気づいていない周期性」が隠れていることは多い。曜日効果・月次サイクル・四半期波動・景気循環を、自己相関・STL分解・fft で炙り出し、機会損失の解消につなげる実装ガイド。

2026-05-10読む

まずは、現状を聞かせてください。

要件が固まっていなくて大丈夫です。現状診断と方針提案までを無料でお手伝いします。

無料相談フォームへ hello [at] hukuhuku [dot] co [dot] jp