分散と標準偏差の違い

**標準偏差は分散の平方根** (σ = √分散)。分散は単位が「元のデータの 2 乗」(点数なら点²) になり直感に反するので、平方根を取って単位を戻したのが標準偏差。**実用ではほぼ標準偏差を使う**。

標本標準偏差と母標準偏差の違い

**標本** (手元のデータ) なら n-1 で割る (ベッセル補正)、**母集団全体** なら n で割る。Python の `np.std()` はデフォルト母集団 (ddof=0)、`np.std(data, ddof=1)` で標本。pandas の df.std() はデフォルト標本。

四分位 (Q1 / Q3) ってなに？

**データを並べて 25%・75% 位置にある値**。Q1 = 下位 25%、Q3 = 上位 25%。**箱ひげ図** はこれをベースに描く。「中央値の周辺の 50% がどの範囲にあるか」を視覚化できる。

外れ値の判定方法は？

**IQR (四分位範囲) ルール**: Q3 + 1.5×IQR より上、Q1 - 1.5×IQR より下を外れ値とする。**3σ ルール**: 平均 ± 3σ を超える値。実務では IQR の方が外れ値に強くて推奨。

ばらつきが大きいデータどうする？

(1) 外れ値を除外、(2) 対数変換 (log) で歪みを減らす、(3) サブグループに分けて比較、(4) 中央値・四分位で代表させる、等。「ばらつき = 悪」ではなく、**ばらつき自体が情報**。

散らばり：分散・標準偏差・四分位、ばらつきを測る（Statistics EP.3）

「平均が同じ = 同じデータ」は大間違い。本記事では 2 つのクラス の例を使って、平均が同じでも全く違うデータの実態を、標準偏差 で見破ります。

1. 平均が同じでも実態が違う例

2 クラスのテストの点数

Python

import numpy as npimport matplotlib.pyplot as plt
# クラス A: 全員 70 点付近 (ばらつき小)class_a = [68, 69, 70, 70, 70, 71, 72]
# クラス B: 30 点と 100 点が半々 (ばらつき大)class_b = [30, 30, 35, 70, 100, 100, 105]
print(f"クラス A: 平均 {np.mean(class_a):.1f}、標準偏差 {np.std(class_a, ddof=1):.1f}")print(f"クラス B: 平均 {np.mean(class_b):.1f}、標準偏差 {np.std(class_b, ddof=1):.1f}")# クラス A: 平均 70.0、標準偏差 1.4# クラス B: 平均 67.1、標準偏差 36.4

平均はほぼ同じ (70 vs 67) なのに、標準偏差は 25 倍差。クラス B には深刻な学力差がある可能性が、平均だけ見ても分からない。

2. 散らばりを測る 3 指標

指標	計算方法	意味
分散 (variance)	(各値 − 平均)² の平均	ばらつきの大きさ (単位は元の 2 乗)
標準偏差 (σ)	√分散	ばらつきの大きさ (単位が元と同じ)
四分位範囲 (IQR)	Q3 − Q1	中央 50% のデータが収まる幅

3. Python での計算

標準偏差・四分位

Python

import numpy as np
data = [68, 69, 70, 70, 70, 71, 72, 30, 100, 110]
# 標準偏差 (標本)print(f"σ: {np.std(data, ddof=1):.2f}")
# 四分位q1 = np.percentile(data, 25)q2 = np.percentile(data, 50)  # = 中央値q3 = np.percentile(data, 75)iqr = q3 - q1print(f"Q1: {q1}, Q2: {q2}, Q3: {q3}, IQR: {iqr}")
# 外れ値判定 (IQR ルール)lower = q1 - 1.5 * iqrupper = q3 + 1.5 * iqroutliers = [x for x in data if x < lower or x > upper]print(f"外れ値: {outliers}")

4. 箱ひげ図で視覚化

matplotlib で箱ひげ図

Python

import matplotlib.pyplot as plt
class_a = [68, 69, 70, 70, 70, 71, 72]class_b = [30, 30, 35, 70, 100, 100, 105]
fig, ax = plt.subplots(figsize=(8, 5))ax.boxplot([class_a, class_b], labels=['クラス A', 'クラス B'])ax.set_ylabel('点数')ax.set_title('2 クラスの点数分布')plt.show()# クラス A は箱が小さい (ばらつき小)、クラス B は大きい

5. 標準偏差の実用感覚

σ が小さい: 全員が平均近辺、安定 (品質管理で重要)
σ が大きい: ばらつきが激しい、外れ値や複数集団の混在を疑う
正規分布なら: 平均 ± 1σ に約 68%、± 2σ に 95%、± 3σ に 99.7% (EP.05 で深掘り)
標準化 (z-score): 平均 0、σ 1 に揃える (異なる単位のデータ比較に)

6. 落とし穴

ddof の取違え: 標本なら ddof=1、母集団なら ddof=0 を意識
外れ値の扱い: 削除 vs 残す、判断は分析目的次第
変動係数の利用: 単位が違う場合は σ ÷ 平均で比較 (CV)
正規分布前提のσ: 歪んだ分布で σ を語っても意味薄い

7. 次の話

EP.04 では 度数分布とヒストグラム を扱います。「分布の形」を見ることで、データの本質がもっと見えるようになります。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

散らばり：分散・標準偏差・四分位、ばらつきを測る

1. 平均が同じでも実態が違う例

2. 散らばりを測る 3 指標

3. Python での計算

4. 箱ひげ図で視覚化

5. 標準偏差の実用感覚

6. 落とし穴

7. 次の話

この記事の感想を教えてください

まずは、現状を聞かせてください。