「変数が4個以上」「相関を網羅的に見たい」── データサイエンス現場の入口で必ず使うグラフ群。
対応マトリクス
| グラフ | matplotlib | Excel | ||
|---|---|---|---|---|
| 散布図 | ✅ | ✅ | ✅ | ✅ |
| 散布図行列 | ✅ | ❌ | ⚠️ 自作 | ❌ |
| 相関ヒートマップ | ✅ | ⚠️ | ✅ | ✅(条件付き書式) |
| パラレル座標 | ✅ | ❌ | ✅ | ❌ |
1. 散布図
用途:2変数の関係性。年齢 × 収入、広告費 × 売上、気温 × 来店数。 強み:相関・・クラスターが一目。 弱み:点が重なると密度が分からない(ヘックスビンで対処)。

2. 散布図行列(pair plot)
用途:4〜10 個の変数の全ペア相関を一望。アヤメの分類でデータサイエンス入門の定番。 強み:変数間の関係が網羅的。クラスタリングや特徴量選択の入口。 弱み:変数数が増えると爆発(10変数で 100 セル)。

3. 相関ヒートマップ
用途:相関係数の行列を色で。赤=正の相関、青=負の相関。多変量の前処理で必須。 強み:50変数規模でも一望可。 弱み:相関係数だけでは「関係の形」までは分からない(散布図と併用)。

4. パラレル座標プロット
用途:複数の縦軸を並べて、各データを「折れ線」として描く。スポーツ選手のスペック、製品のスペック比較、業界別 比較。 強み:個別データの傾向が見える、クラスタリングの可視化。 弱み:データ数が多すぎると毛玉。色分けと透明度設定が肝。

アヤメで散布図行列 + 相関ヒートマップ
Python
import seaborn as snsimport matplotlib.pyplot as plt
iris = sns.load_dataset("iris")
# 散布図行列sns.pairplot(iris, hue="species", height=2.2)plt.show()
# 相関ヒートマップplt.figure(figsize=(7, 5))sns.heatmap(iris.drop(columns=["species"]).corr(), annot=True, cmap="RdBu_r", center=0, vmin=-1, vmax=1)plt.title("Iris features correlation")plt.show()次回予告
EP.08 は進捗・KPI系:KPIカード・スコアカード・ゲージ・バーンアップ。経営ダッシュボードの主役たち。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。