なぜ「平均年収 600 万」は誤解を生む？

**1 人の年収 1 億円が、平均を 100 万円押し上げる** ため。10 人グループで 9 人が 300 万、1 人が 4000 万なら、平均 670 万・中央値 300 万。「平均」だけ聞くと多くの人が「自分は低い」と感じるが、実は中央値で見れば妥当、というケース。

中央値はいつ使う？

**外れ値の影響を受けたくない時**。年収・物件価格・売上のように「一部の極端値」がある場合は中央値が代表的。「真ん中の人はどれくらいか」を知りたい時。

最頻値はどこで活躍？

**カテゴリデータ** (好きな色・血液型・職業)。数値でも「最も多い値」を知りたい時 (店舗で最も売れているサイズ等)。「典型的な値」を知るのに有効。

3 つを同時に出したい時

Python なら `df.describe()` で平均・中央値・四分位が一発。`from scipy import stats; stats.mode(data)` で最頻値も。Excel なら =AVERAGE() / =MEDIAN() / =MODE() を並べて表示。

「平均」を意図的に使い分ける例

営業: 「平均給与は業界 1 位」→ 一握りの高給取り込みなら可能。**ニュース等で平均を出された時は「中央値はいくら?」と聞き返す習慣を**。

代表値：平均・中央値・最頻値、どれを使うか（Statistics EP.2）

代表値 = 「データを 1 つの数字で代表させる」値。平均 (mean)・中央値 (median)・最頻値 (mode) の 3 種類があり、状況によって使い分けます。本記事では、「平均年収 600 万」が誤解を生む理由 を実演します。

1. 3 つの代表値

代表値	計算方法	向く場面	弱点
平均 (mean)	全部足して個数で割る	正規分布的なデータ	外れ値に弱い
中央値 (median)	並べて真ん中	外れ値ある時 (年収・物件)	計算がやや遅い
最頻値 (mode)	最も多い値	カテゴリデータ	数値が連続だと使いにくい

2. Python で実演

10 人の年収データ

Python

import numpy as npfrom scipy import stats
# 9 人が 300 万、1 人が 4000 万incomes = [300, 300, 300, 300, 300, 300, 300, 300, 300, 4000]
# 平均print(f"平均: {np.mean(incomes):.0f} 万円")  # 670 万円
# 中央値print(f"中央値: {np.median(incomes):.0f} 万円")  # 300 万円
# 最頻値mode = stats.mode(incomes, keepdims=True)print(f"最頻値: {mode.mode[0]} 万円 (出現 {mode.count[0]} 回)")# 300 万円 (9 回)

「平均」と「中央値」の違いは年収で 370 万円!

この 10 人グループの実態は「ほぼ全員 300 万円」だが、平均は 670 万円。「年収の平均」が政治家やメディアで使われる時、しばしばこの錯覚で人々を誤らせます。

3. 「真ん中」を取るべきデータ

年収・所得: 一握りの高所得者が平均を引上げる
物件価格: 一部の高級物件が平均を引上げる
売上 (顧客別): 大口顧客がいるとき
反応時間: ハングしたケースで極端に遅いデータが混入
SNS フォロワー数: インフルエンサーの存在で歪む

4. 平均が使える条件

正規分布に近い (左右対称、釣鐘型)
外れ値が少ない
サンプル数が十分 (n ≥ 30 が目安)
例: 身長・体重・テストの点数 (一定範囲なら)

5. 自分で実験してみよう

Colab で動かしてみよう

Python

import numpy as npimport matplotlib.pyplot as plt
# 自分のクラスのテストの点数を入れてみるscores = [45, 50, 60, 65, 70, 70, 72, 75, 78, 80, 85, 90, 95]
# ヒストグラムで分布を見るplt.hist(scores, bins=10, color='steelblue', edgecolor='black')plt.axvline(np.mean(scores), color='red', linestyle='--', label=f'平均 {np.mean(scores):.1f}')plt.axvline(np.median(scores), color='green', linestyle='--', label=f'中央値 {np.median(scores):.1f}')plt.xlabel('点数')plt.ylabel('人数')plt.legend()plt.show()

6. 落とし穴チェックリスト

❌ 平均だけで結論を出す → 中央値とヒストグラムも並べて確認
❌ 小サンプル (n < 10) で平均を語る → ばらつきが大きすぎる
❌ 外れ値を除外せず平均 → 異常な 1 件が結論を歪める
✅ 平均 + 中央値 + 標準偏差を並べる → 全体像が見える

7. 次の話

EP.03 では 散らばり (分散・標準偏差) を扱います。「平均が同じでも、ばらつき方は全然違う」ことを実感します。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

代表値：平均・中央値・最頻値、どれを使うか