代表値 = 「データを 1 つの数字で代表させる」値。平均 (mean)・中央値 (median)・最頻値 (mode) の 3 種類があり、状況によって使い分けます。本記事では、「平均年収 600 万」が誤解を生む理由 を実演します。
1. 3 つの代表値
| 代表値 | 計算方法 | 向く場面 | 弱点 |
|---|---|---|---|
| 平均 (mean) | 全部足して個数で割る | 正規分布的なデータ | 外れ値に弱い |
| 中央値 (median) | 並べて真ん中 | 外れ値ある時 (年収・物件) | 計算がやや遅い |
| 最頻値 (mode) | 最も多い値 | カテゴリデータ | 数値が連続だと使いにくい |
2. Python で実演
10 人の年収データ
Python
import numpy as npfrom scipy import stats
# 9 人が 300 万、1 人が 4000 万incomes = [300, 300, 300, 300, 300, 300, 300, 300, 300, 4000]
# 平均print(f"平均: {np.mean(incomes):.0f} 万円") # 670 万円
# 中央値print(f"中央値: {np.median(incomes):.0f} 万円") # 300 万円
# 最頻値mode = stats.mode(incomes, keepdims=True)print(f"最頻値: {mode.mode[0]} 万円 (出現 {mode.count[0]} 回)")# 300 万円 (9 回)「平均」と「中央値」の違いは年収で 370 万円!
この 10 人グループの実態は「ほぼ全員 300 万円」だが、平均は 670 万円。「年収の平均」が政治家やメディアで使われる時、しばしばこの錯覚で人々を誤らせます。
3. 「真ん中」を取るべきデータ
- 年収・所得: 一握りの高所得者が平均を引上げる
- 物件価格: 一部の高級物件が平均を引上げる
- 売上 (顧客別): 大口顧客がいるとき
- 反応時間: ハングしたケースで極端に遅いデータが混入
- SNS フォロワー数: インフルエンサーの存在で歪む
4. 平均が使える条件
- 正規分布に近い (左右対称、釣鐘型)
- 外れ値が少ない
- サンプル数が十分 (n ≥ 30 が目安)
- 例: 身長・体重・テストの点数 (一定範囲なら)
5. 自分で実験してみよう
Colab で動かしてみよう
Python
import numpy as npimport matplotlib.pyplot as plt
# 自分のクラスのテストの点数を入れてみるscores = [45, 50, 60, 65, 70, 70, 72, 75, 78, 80, 85, 90, 95]
# ヒストグラムで分布を見るplt.hist(scores, bins=10, color='steelblue', edgecolor='black')plt.axvline(np.mean(scores), color='red', linestyle='--', label=f'平均 {np.mean(scores):.1f}')plt.axvline(np.median(scores), color='green', linestyle='--', label=f'中央値 {np.median(scores):.1f}')plt.xlabel('点数')plt.ylabel('人数')plt.legend()plt.show()6. 落とし穴チェックリスト
- ❌ 平均だけで結論を出す → 中央値とヒストグラムも並べて確認
- ❌ 小サンプル (n < 10) で平均を語る → ばらつきが大きすぎる
- ❌ 外れ値を除外せず平均 → 異常な 1 件が結論を歪める
- ✅ 平均 + 中央値 + 標準偏差を並べる → 全体像が見える
7. 次の話
EP.03 では 散らばり (分散・標準偏差) を扱います。「平均が同じでも、ばらつき方は全然違う」ことを実感します。
この記事の感想を教えてください
あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、 ふくふくが 実際に内容を拡充したり続編記事を公開 します。 送信したリアクションはお使いのブラウザに記録され、再カウントされません。