中心極限定理とは?平均の分布に関する定理をやさしく解説

数学

統計学を勉強していると、かならず出てくるのが「中心極限定理」です。

でも、多くの人がこんなふうに感じています:

  • 名前が難しそう
  • 何を言っているのかわからない
  • 数式が出てきて頭がこんがらがる

しかし、この定理はとても大切で、次のような場面で活やくしています:

  • データ分析
  • 検定や推定
  • ビジネスの意思決定
  • 品質管理

この記事では、中心極限定理をやさしく解説し、どんなときに役立つのか、実際の例まで紹介します。

スポンサーリンク

中心極限定理ってなに?

一言でいうと

どんな分布のデータでも、平均をとったら正規分布に近づくという定理です。

もう少し正確にいうと

母集団の分布がどんな形でも、十分に大きいサンプルサイズで平均をとると、その平均値の分布は正規分布に近づく

これが中心極限定理の正体です。

図でイメージしてみよう

例えば、母集団がこんな偏った形(右肩下がり)だったとします:

データの数
|■■■■■■
|■■■■
|■■
|
+-----------
 小さい値 → 大きい値

でも、この母集団から何度もサンプルを取って平均を計算し、その平均値をたくさん集めると、こんなきれいな山型(正規分布)になります:

平均値の数
    ■
   ■■■
  ■■■■■
 ■■■■■■■
■■■■■■■■■
-----------
平均値

これが中心極限定理のすごいところです!

大雑把にいうと、たくさんの平均値を集めたグラフはきれ〜になるんです。

同じ集団からいくつもサンプルをとって、その平均値たちを集めたグラフというのがポイント。

なぜこんなことが起こるの?

平均の性質を考えてみよう

サンプルの平均を計算するとき、次のことが起こります:

  1. 極端に大きい値極端に小さい値が混ざる
  2. それらが打ち消し合う
  3. 結果として真ん中あたりの値に落ち着きやすい

これを何度も繰り返すと、平均値は母集団の真の平均の周りに集まってきます。

具体例:サイコロで考えてみよう

6面のサイコロを例に考えてみましょう。

1回だけ振る場合

  • 1、2、3、4、5、6のどれも同じ確率で出る
  • 分布は平たい形(一様分布)

30回振って平均を計算する場合

  • 極端に大きい値(6ばかり)が出ることは少ない
  • 極端に小さい値(1ばかり)が出ることも少ない
  • だいたい3.5前後の値になりやすい

これを1000セット繰り返すと

  • 1000個の平均値ができる
  • これらの平均値は3.5の周りに山型に集まる
  • つまり正規分布っぽくなる!

どんなときに使われるの?

中心極限定理は、統計学のあらゆる場面で活やくしています。

品質管理での応用

  • 製品の重さのばらつきを調べるとき
  • 不良品の割合を推定するとき
  • 製造ラインの平均性能を評価するとき

マーケティングでの応用

  • アンケートの平均点を統計的に検定するとき
  • 顧客満足度の平均値を推定するとき
  • A/Bテストの結果を比較するとき

なぜこんなに使われるの?

中心極限定理があるおかげで、「母集団の分布を知らなくても、平均なら正規分布を使って計算できる」という強力な理屈が成り立つからです。

これがないと、統計学の多くの手法が使えなくなってしまいます。

実際の例で理解を深めよう

例1:コンビニの売上データ

あるコンビニチェーンの1日の売上を考えてみましょう。

元のデータの特徴

  • 平日は低め、週末は高め
  • セールの日は極端に高い
  • 分布は右に偏っている(一部の店舗が非常に高い売上)

10店舗の平均売上を計算してみる

  • 極端に高い店舗と低い店舗が混ざる
  • 平均値は真ん中あたりに落ち着く

これを100回繰り返すと

  • 100個の平均売上ができる
  • これらは正規分布っぽく集まる
  • 全体の平均売上を推定できる

例2:学校のテストの点数

元のデータの特徴

  • できる生徒は90点以上
  • 苦手な生徒は30点以下
  • 分布は二つの山がある形(二峰性分布)

20人のクラス平均を計算してみる

  • 高得点者と低得点者が混ざる
  • クラス平均は60点前後になりやすい

50クラスの平均を集めると

  • 50個のクラス平均ができる
  • これらは60点の周りに正規分布っぽく集まる

中心極限定理の重要なポイント

ポイント1:母集団の形は関係ない

母集団の分布中心極限定理は成り立つ?
正規分布
一様分布
右に偏った分布
左に偏った分布
二峰性分布
どんな形でも

ポイント2:サンプルサイズが重要

  • サンプルサイズが大きいほど、正規分布に近づく
  • 小さすぎると正規分布にならない
  • 一般的には30以上が目安

これはどの統計でも言えることなんですが、サンプルの数が多いのは重要。

ポイント3:平均の分布だけの話

中心極限定理が言っているのは「平均の分布」についてだけです。

  • 元のデータそのものが正規分布になるわけではない
  • 個々のデータ点は元の分布のまま
  • 平均を計算した結果だけが正規分布に近づく

中心極限定理が使えない場合もある?

注意が必要なケース

実は、中心極限定理が成り立たない場合もあります:

母集団の分散が無限大の場合

  • コーシー分布など特殊な分布
  • 実際のデータではほとんど起こらない

データに強い相関がある場合

  • 時系列データで強いトレンドがある
  • 季節性が非常に強い

外れ値が多すぎる場合

  • 平均が安定しない
  • ロバスト統計を使う必要がある

まとめ

中心極限定理の重要性

中心極限定理は、統計学のルールの一つです。

この定理があるおかげで:

  • 複雑な母集団でも安心して統計解析ができる
  • 検定や推定が成り立つ
  • データ分析の幅が大きく広がる

覚えておきたいポイント

  1. どんな分布でも、平均をとると正規分布に近づく
  2. 平均の分布についての定理(元データではない)
  3. 統計学の多くの手法の基盤

コメント

タイトルとURLをコピーしました