ヒストグラムと棒グラフは違う？

**ヒストグラム** は数値データを階級 (bin) に分けて頻度を見る (横軸は連続)。**棒グラフ** はカテゴリデータの集計 (横軸は離散)。横軸の意味が違う。bin の取り方で印象が変わるので注意。

bin (階級) の数はいくつにする？

経験則: **n の平方根** (例: 100 個なら 10 bin) または **Sturges の式 (1 + log2(n))**。Python の matplotlib は自動だが、bins=N で指定可能。bin が多すぎると凸凹、少なすぎると粗すぎ、調整して見やすくする。

歪んだ分布の見分け方

**右に裾が長い** = 右歪み (年収・売上等)。**左に裾が長い** = 左歪み (テストの満点付近)。**ピーク 1 つの釣鐘型** = 正規分布に近い。**ピーク 2 つ** = 二峰性 (集団が混ざっている疑い)。

二峰性って何が問題？

「**異なる 2 集団のデータが混ざっている**」可能性。例: テストの点数で「文系クラスと理系クラスを混ぜた結果、ピーク 2 つ」。1 つの分布として平均を取ると意味が薄い。サブグループで分割して再分析すべき。

対数変換すべき時

**右に大きく歪んだデータ** (年収・閲覧数・地震マグニチュード等)。`np.log(data)` を取ると正規分布に近づき、平均・標準偏差が意味を持つようになる。元データの単位 → log 後の単位に注意。

度数分布とヒストグラム：分布を見ることの威力（Statistics EP.4）

統計分析の第一歩は「ヒストグラムで分布の形を見る」。代表値や標準偏差を計算する前に、まず形を見ないと、誤った分析をします。本記事では 5 種類の分布 を実例で見比べます。

1. 5 種類の分布パターン

分布	形	代表例
正規分布	釣鐘型 (左右対称)	身長・体重・テスト点数
右歪み (right-skewed)	右に裾が長い	年収・売上・閲覧数
左歪み (left-skewed)	左に裾が長い	テストの満点付近、寿命
二峰性 (bimodal)	ピーク 2 つ	男女混合の身長、文/理系混合の点数
一様 (uniform)	横一直線	サイコロの目

2. Python で 5 種類描く

Colab で動かす

Python

import numpy as npimport matplotlib.pyplot as plt
np.random.seed(42)fig, axes = plt.subplots(2, 3, figsize=(12, 7))
# 1. 正規分布data1 = np.random.normal(170, 7, 1000)  # 身長 (平均 170、σ 7)axes[0,0].hist(data1, bins=30, color='steelblue')axes[0,0].set_title('正規分布 (身長)')
# 2. 右歪み (対数正規)data2 = np.random.lognormal(6, 0.6, 1000)  # 年収相当axes[0,1].hist(data2, bins=30, color='salmon')axes[0,1].set_title('右歪み (年収)')
# 3. 左歪みdata3 = 100 - np.random.exponential(10, 1000)data3 = data3[data3 > 0]axes[0,2].hist(data3, bins=30, color='gold')axes[0,2].set_title('左歪み (満点近辺)')
# 4. 二峰性 (2 集団混合)data4 = np.concatenate([np.random.normal(40, 5, 500),                         np.random.normal(80, 5, 500)])axes[1,0].hist(data4, bins=30, color='mediumorchid')axes[1,0].set_title('二峰性 (混合集団)')
# 5. 一様分布data5 = np.random.uniform(0, 100, 1000)axes[1,1].hist(data5, bins=30, color='mediumseagreen')axes[1,1].set_title('一様分布 (ランダム)')
axes[1,2].axis('off')plt.tight_layout()plt.show()

3. 形によって変わる分析手法

分布の形	代表値	推奨手法
正規分布	平均 + σ	t 検定、線形回帰
右歪み	中央値、対数変換後の平均	ノンパラメトリック検定 / 対数変換
左歪み	中央値	ノンパラメトリック検定
二峰性	サブグループごと	サブグループ分割 → 個別分析
一様	範囲	「ランダム性」自体を検定

4. 対数変換で正規分布に近づける

歪んだデータを log 変換

Python

import numpy as npimport matplotlib.pyplot as plt
# 右歪みの年収データ (対数正規)income = np.random.lognormal(6, 0.6, 1000)  # 単位: 万円相当
fig, axes = plt.subplots(1, 2, figsize=(10, 4))axes[0].hist(income, bins=40)axes[0].set_title('元データ (右歪み)')axes[1].hist(np.log(income), bins=40)axes[1].set_title('log 変換後 (正規分布に近づく)')plt.show()

5. ヒストグラム作成のコツ

bin 数は調整必須: 自動 → 違和感あれば bins=N で変更
density=True: 累積を 1 にして確率密度として描く
alpha=0.5: 複数分布を重ねる時、透明にすると比較しやすい
KDE (kernel density estimation): seaborn の `sns.kdeplot()` で滑らかな線で描く
Excel でも作れる: 「データ分析 → ヒストグラム」、bin 範囲を手動指定推奨

6. 次の話

EP.05 では 正規分布と 68-95-99.7 ルール を扱います。「身長 180cm 以上は何 % か」を計算で答えられるようになります。

この記事の感想を教えてください

あなたの 1 クリックで、本当にこの記事は更新されます。「もっと詳しく」「続編希望」が一定数集まった記事は、ふくふくが 実際に内容を拡充したり続編記事を公開 します。送信したリアクションはお使いのブラウザに記録され、再カウントされません。

免責事項

本記事は執筆時点の情報および実装例として公開しているものであり、内容の正確性・完全性・最新性を保証するものではありません。各データソース・API・SaaS の仕様・利用規約・料金は予告なく変更される場合があります。
コード・コマンド・手順を実装や本番運用に流用する際は、必ず最新の公式ドキュメントおよび利用規約を確認のうえ、ご自身の責任で適切な検証・テストを行ってください。
本記事の情報を利用したことにより生じた損害（データ消失・サービス中断・契約違反・第三者からの請求等）について、合同会社ふくふくおよび執筆者は一切の責任を負いません。
本記事は技術・実装上の解説を目的としたものであり、法務・税務・コンプライアンス・経営上のアドバイスを構成するものではありません。実際の判断にあたっては、必要に応じて専門家にご相談ください。
記事中で紹介する第三者のサービス・製品・OSS・データ提供者については、各提供元の利用規約・ライセンス条件が優先されます。

度数分布とヒストグラム：分布を見ることの威力