「クラスの身長で、165cmから170cmの人は何人くらいいるだろう?」 「明日の気温が20℃から25℃になる可能性はどのくらい?」 「テストの点数で、平均点付近に人が集まるのはなぜ?」
こんなことを考えたことはありませんか?
実は、こういった「連続的に変化する数値がどんな風に分布しているか」を表現するのに便利な道具があるんです。
それが「確率密度関数」です。
名前は難しそうに聞こえますが、実はグラフの一種だと思えば、とても理解しやすくなります。 データの「形」を表現する、とても便利な道具なんですよ。
この記事では、身近な例を使いながら、確率密度関数の考え方をゼロから分かりやすく説明していきます。
まずはヒストグラムから始めよう

階級別のグラフで考える
確率密度関数を理解する第一歩は、「ヒストグラム」から始めることです。
例えば、40人のクラスで身長を調べたとしましょう。
- 150~155cm:2人
- 155~160cm:5人
- 160~165cm:12人
- 165~170cm:14人
- 170~175cm:5人
- 175~180cm:2人
これを棒グラフにしたものがヒストグラムです。 横軸が身長、縦軸が人数を表していて、データがどこに集中しているかが一目で分かりますね。
この例では、165~170cmあたりに人が多く集まっていることが分かります。
もっと細かく分けてみると…
では、5cm刻みではなく、1cm刻みにしたらどうなるでしょうか? さらに0.5cm刻み、0.1cm刻みと、どんどん細かくしていくと…
棒グラフの棒がどんどん細くなって、最終的には滑らかな曲線に近づいていきます。
この「究極に細かくした時の曲線」が、確率密度関数のイメージなんです。
確率密度関数って何?
基本的な考え方
確率密度関数は、「連続的な数値がどのように分布しているかを表す曲線」です。
サイコロの目のように「1、2、3、4、5、6」と飛び飛びの値ではなく、身長や体重、気温のように「連続的に変化する値」を扱うときに使います。
重要なポイントは、確率密度関数の「高さ」が、その値の「出やすさ」を表していることです。
- グラフが高い部分:その値になりやすい
- グラフが低い部分:その値になりにくい
なぜ「密度」という言葉を使うの?
「確率」ではなく「確率密度」という理由、気になりますよね。
実は、連続的な値の場合、「ちょうど165.000…cmの確率」のようにピンポイントの確率を考えると、限りなくゼロに近くなってしまうんです。
だから代わりに、「165cmから166cmの間の確率」のように、範囲で考える必要があります。
確率密度は、この「単位あたりの確率の濃さ」を表しているんですね。 人口密度が「単位面積あたりの人の多さ」を表すのと同じイメージです。
身近な例で理解しよう

例1:日本人成人男性の身長
日本人成人男性の身長は、平均約171cm付近を中心とした山型の分布になっています。
確率密度関数で表すと:
- 171cm付近が最も高い(最も多い)
- 160cmや180cmに向かって徐々に低くなる
- 150cm以下や190cm以上はほとんどない
この形を見れば、「165cmから175cmの男性が多い」ということが視覚的に分かるんです。
例2:1日の気温変化
ある地域の6月の最高気温を確率密度関数で表すと:
- 25℃付近が最も高い山になる
- 20℃や30℃の方向に向かって低くなる
- 15℃以下や35℃以上はめったにない
天気予報で「明日の最高気温は24~26℃でしょう」と言うとき、実はこの確率密度関数の情報を使っているんですよ。
例3:電車の到着時間のズレ
「8時00分発」の電車の実際の発車時刻を確率密度関数で表すと:
- 8時00分ピッタリが最も高い
- 前後1~2分のズレは時々ある
- 5分以上のズレはめったにない
この分布を知っていれば、「2分前には駅に着いていれば大丈夫」といった判断ができますね。
代表的な確率密度関数の形
正規分布(ベル型カーブ)
最も有名な確率密度関数が「正規分布」です。 釣り鐘のような左右対称の山型で、別名「ベルカーブ」とも呼ばれます。
特徴:
- 平均値を中心に左右対称
- 平均値に近いほど出やすい
- 端に行くほど急激に少なくなる
身長、体重、テストの点数など、自然界や社会の多くの現象がこの形になります。
なぜこんなに多くのものが正規分布になるかというと、「たくさんの小さな偶然が重なった結果」は正規分布に近づくという性質があるからなんです。
一様分布(フラットな形)
すべての値が同じくらいの確率で出る分布です。 確率密度関数は水平な直線になります。
例:
- サイコロを転がした時の出る角度(0度から360度)
- ルーレットの出る数字
- 0から1の間のランダムな数
指数分布(急降下型)
最初が高くて、急激に下がっていく形の分布です。
例:
- 電球の寿命
- コールセンターへの電話の間隔
- 地震が起きるまでの時間
「待ち時間」に関する現象でよく見られる形ですね。
確率密度関数の便利な使い方

範囲の確率を求める
確率密度関数の最大の利点は、「ある範囲に入る確率」を計算できることです。
例えば、身長の確率密度関数があれば:
- 「160cmから170cmの人の割合」
- 「175cm以上の人の割合」
- 「平均±5cmに入る人の割合」
こういったことが分かります。
グラフで言うと、曲線の下の面積が確率を表しているんです。
予測や判断に使う
確率密度関数を知っていると、様々な予測や判断ができます。
品質管理の例: 工場で作る部品の長さが正規分布に従うなら、「規格外の製品が出る確率」を計算できます。 これにより、不良品率を予測したり、検査の基準を決めたりできるんです。
データの特徴を掴む
確率密度関数の形を見るだけで、データの特徴が分かります。
- 山が一つ:単純な分布
- 山が二つ:二つのグループが混ざっている可能性
- 左右非対称:偏りがある
- 裾が長い:極端な値が出やすい
この「形」の情報は、データ分析でとても重要な手がかりになります。
よくある疑問と回答
Q:確率と確率密度の違いは?
A:確率は「その事象が起こる可能性」を0から1の数値で表したもの。 確率密度は「単位あたりの確率の濃さ」を表したものです。
確率密度の値自体は1を超えることもありますが、ある範囲で積分(面積を求める)すると、必ず0から1の間の確率になります。
Q:離散型と連続型の違いは?
A:離散型は「飛び飛びの値」を扱います(サイコロの目、人数など)。 連続型は「連続的な値」を扱います(身長、時間、温度など)。
離散型では「確率」をそのまま使いますが、連続型では「確率密度」を使う必要があるんです。
Q:なぜ正規分布がそんなに重要なの?
A:理由は主に3つあります。
- 自然界の多くの現象が正規分布に従う
- 「中心極限定理」により、多くの分布が正規分布に近づく
- 数学的に扱いやすく、計算がしやすい
統計学の多くの手法が正規分布を前提にしているのも、これらの理由からなんですね。
Q:確率密度関数はどうやって作るの?
A:実際のデータから確率密度関数を推定する方法はいくつかあります。
- ヒストグラムを滑らかにする方法
- 理論的な分布(正規分布など)を当てはめる方法
- カーネル密度推定という手法を使う方法
最近はコンピューターで簡単に計算できるようになっているので、エクセルや統計ソフトを使えば誰でも作れますよ。
実生活での活用例
医療での応用
血圧や血糖値の分布を確率密度関数で表すことで、「正常範囲」を科学的に決められます。
例えば、健康な人の血圧分布を調べて、「95%の人が入る範囲」を正常範囲とする、といった具合です。
金融での応用
株価の変動を確率密度関数でモデル化することで、リスク評価ができます。
「明日の株価が5%以上下がる確率」を計算して、投資判断に使うんです。
機械学習での応用
AIが画像認識をする時、「この画像が猫である確率」を計算するのに確率密度関数の考え方を使っています。
特徴量の分布を学習することで、判別精度を上げているんですね。
まとめ
確率密度関数は、連続的に変化するデータの分布を表す「曲線」です。
難しそうな名前ですが、要は「どの値がどれくらい出やすいかを表したグラフ」だと思えば、ぐっと身近に感じられるはずです。
身長の分布、気温の変化、テストの点数分布など、私たちの周りには確率密度関数で表現できる現象がたくさんあります。
この曲線の形を理解することで:
- データの特徴が掴める
- 将来の予測ができる
- 適切な判断基準が作れる
といったメリットがあるんです。
統計やデータ分析というと難しく感じるかもしれませんが、基本的な考え方は「データの形を見る」というシンプルなもの。
確率密度関数は、そのための強力な道具なんです。
次にグラフや統計データを見る機会があったら、「これはどんな確率密度関数になるかな?」と考えてみてください。 データの見方が変わって、もっと面白く感じられるはずですよ。
コメント