カイ2乗分布とは?サイコロの偏りから血液型占いまで、「偶然かどうか」を見極める統計の道具

「このサイコロ、6の目が出やすい気がする…本当にイカサマ?」 「男女で商品の好みに違いはあるの?それとも偶然?」 「アンケート結果の差は意味があるの?たまたまなの?」

こんな疑問を持ったことはありませんか?

実は、こういった「偶然なのか、意味がある違いなのか」を科学的に判断する方法があるんです。

それが「カイ2乗分布(カイじじょうぶんぷ)」を使った検定です。

名前は難しそうですが、考え方はとてもシンプル。 「予想と現実のズレがどれくらい大きいか」を数値化して、そのズレが偶然起こりうる範囲なのかを判断する道具なんです。

この記事では、身近な例を使いながら、カイ2乗分布の考え方と使い方をゼロから分かりやすく説明していきます。

スポンサーリンク

まずは簡単な例から理解しよう

サイコロで考える「ズレ」の大きさ

普通のサイコロを60回振ったとしましょう。

理想的には、各目が10回ずつ出るはずですよね。 でも実際は:

  • 1の目:8回
  • 2の目:11回
  • 3の目:9回
  • 4の目:12回
  • 5の目:10回
  • 6の目:10回

このくらいのバラつきなら「まあ、偶然の範囲内かな」と思いますよね。

では、こんな結果だったらどうでしょう?

  • 1の目:3回
  • 2の目:5回
  • 3の目:8回
  • 4の目:9回
  • 5の目:10回
  • 6の目:25回

6の目が25回も!これは「偶然にしては出すぎ」と感じるはず。

カイ2乗分布は、この「偶然の範囲内かどうか」を数学的に判断してくれる道具なんです。

「ズレの大きさ」を数値化する

ズレの大きさを計算する基本的な考え方は:

  1. 期待値(理想的な回数)と実際の回数の差を見る
  2. その差を二乗する(プラスもマイナスも同じように扱うため)
  3. すべての項目で計算して合計する

この合計値が大きければ「ズレが大きい」、小さければ「ズレが小さい」と判断します。

カイ2乗分布って何?

基本的な考え方

カイ2乗分布は、「ランダムなズレがどれくらいの大きさになりやすいか」を表す確率分布です。

特徴:

  • 0以上の値しか取らない(ズレの大きさなので負にならない)
  • 左側(0に近い方)が高く、右側に向かって低くなる山型
  • 右側に長い尾を引く形(極端に大きなズレも稀に起こる)

この分布を使うことで、「今回のズレは偶然起こりうる範囲なのか」が分かるんです。

自由度という考え方

カイ2乗分布には「自由度」というパラメータがあります。

自由度とは、簡単に言うと「自由に動ける項目の数」のこと。

サイコロの例では:

  • 6つの目があるけど、合計は60回と決まっている
  • 5つの目の回数が決まれば、最後の1つは自動的に決まる
  • だから自由度は5

自由度が変わると、カイ2乗分布の形も変わります。 自由度が大きいほど、分布の山が右に移動して、なだらかになっていきます。

どんな場面で使われるの?

1. 適合度検定(期待通りかチェック)

「実際のデータが、予想した分布に合っているか」を調べます。

例:コンビニの来客数

  • 月曜:100人(予想:120人)
  • 火曜:110人(予想:120人)
  • 水曜:130人(予想:120人)
  • 木曜:125人(予想:120人)
  • 金曜:135人(予想:120人)

このバラつきは偶然の範囲内?それとも曜日による違いが本当にある?

カイ2乗検定で判断できます。

2. 独立性検定(関係があるかチェック)

「2つの要因に関係があるか」を調べます。

例:性別と商品の好み

        商品A  商品B
男性     30人   20人
女性     15人   35人

男女で好みに違いがある?それとも偶然このような結果になった?

これもカイ2乗検定で分かります。

3. 分散の検定

データのバラつき具合が想定通りかを調べます。

例:工場の品質管理

  • 製品の重さのバラつきが規格内に収まっているか
  • 機械の精度が保たれているか

こういった品質チェックにも使われます。

実際の活用例

例1:お菓子の個数チェック

あるお菓子の袋に「6色のチョコが均等に入っています」と書いてあります。 100個入りの袋を開けてみたら:

  • 赤:20個
  • 青:18個
  • 黄:15個
  • 緑:14個
  • 橙:17個
  • 紫:16個

本当に均等と言えるでしょうか?

カイ2乗検定をすると、「この程度のバラつきは偶然の範囲内」という結果になります。 メーカーの言う通り、ほぼ均等に入っていると判断できるんです。

例2:webサイトのABテスト

ECサイトで、ボタンの色を変えたら購入率が変わるか調べたいとします。

Aパターン(青ボタン):

  • 訪問者1000人中、50人が購入

Bパターン(赤ボタン):

  • 訪問者1000人中、65人が購入

15人の差は意味がある?

カイ2乗検定の結果、「偶然とは考えにくい差」と判明したら、赤ボタンの方が効果的だと判断できます。

例3:アンケート調査の分析

「朝型・夜型と、コーヒー・紅茶の好み」に関係があるか調査:

        コーヒー  紅茶
朝型      45人    15人
夜型      25人    35人

カイ2乗検定をすると、「関係がある」という結果に。 朝型の人はコーヒー好き、夜型の人は紅茶好きの傾向があると分かります。

カイ2乗検定の手順

ステップ1:仮説を立てる

まず2つの仮説を立てます:

  • 帰無仮説:「違いはない(偶然だ)」
  • 対立仮説:「違いがある(偶然ではない)」

最初は「違いはない」と仮定して、それが正しいか検証していきます。

ステップ2:期待値を計算

もし「違いがない」なら、どんな結果になるはずかを計算します。

サイコロなら各目10回ずつ、男女の好みなら性別に関係なく同じ割合、といった具合です。

ステップ3:カイ2乗値を計算

実際の値と期待値のズレを計算して、カイ2乗値を求めます。

計算のイメージ:

  • 各項目で(実際の値 – 期待値)を計算
  • それを二乗
  • 期待値で割る
  • 全部足し合わせる

ステップ4:判定する

計算したカイ2乗値を、基準値(カイ2乗分布表から読み取る)と比較します。

  • カイ2乗値 < 基準値:偶然の範囲内
  • カイ2乗値 > 基準値:偶然とは考えにくい

一般的には、「偶然起こる確率が5%未満」なら、偶然ではないと判断します。

よくある疑問と注意点

Q:なぜ「二乗」するの?

A:プラスのズレもマイナスのズレも同じように扱うためです。

例えば、+5と-5は方向は逆でも、ズレの大きさは同じ。 二乗すればどちらも25になって、公平に評価できるんです。

また、大きなズレほど重視される効果もあります。

Q:いつでも使えるの?

A:ある程度のデータ数が必要です。

目安として、各項目の期待値が5以上あることが条件。 データが少なすぎると、正確な判定ができません。

例えば、サイコロを6回しか振らない場合は使えません。 最低でも30回、できれば60回以上振る必要があります。

Q:「有意差がある」って何?

A:「偶然では説明しにくい差がある」という意味です。

統計では「有意水準5%」をよく使います。 これは「もし本当は差がないのに、偶然こんな結果になる確率は5%未満」という意味。

つまり、「95%以上の確信を持って、差があると言える」ということなんです。

Q:カイ2乗検定の限界は?

A:以下の点に注意が必要です:

  1. 因果関係は分からない
    • 関係があることは分かっても、どちらが原因かは分からない
  2. 効果の大きさは分からない
    • 「差がある」ことは分かっても、その差が実用的に意味があるかは別問題
  3. サンプルの偏りは考慮されない
    • データの取り方が偏っていたら、結果も偏る

身近な使用例をもっと詳しく

選挙の出口調査

選挙速報で「当選確実」が早く出るのは、カイ2乗検定も活用されているから。

出口調査の結果が、単なる偶然のバラつきなのか、本当の差なのかを判定しているんです。

医薬品の効果判定

新薬とプラセボ(偽薬)で、効果に差があるかを調べます。

        改善    変化なし
新薬     80人    20人
プラセボ  60人    40人

この差が統計的に意味があれば、薬の効果が認められます。

マーケティング調査

年代別の商品購入率に差があるか:

        購入   非購入
20代    30人   70人
30代    45人   55人
40代    40人   60人

差があれば、年代別に違うアプローチが必要だと分かります。

データ分析での実践的な使い方

Excelでの簡単な実行方法

ExcelにはCHISQ.TEST関数があり、簡単にカイ2乗検定ができます。

  1. データを表形式で入力
  2. =CHISQ.TEST(実際の値の範囲, 期待値の範囲)
  3. 結果が0.05未満なら「有意差あり」

プログラミング不要で、誰でも使えます。

結果の解釈のコツ

P値(確率値)の読み方:

  • P < 0.01:非常に強い証拠(99%以上の確信)
  • P < 0.05:十分な証拠(95%以上の確信)
  • P < 0.10:弱い証拠(90%以上の確信)
  • P ≥ 0.10:証拠不十分

ただし、P値だけで判断せず、実際の差の大きさも確認することが大切です。

まとめ

カイ2乗分布とカイ2乗検定は、「偶然か、意味がある違いか」を科学的に判断する道具です。

ポイントをまとめると:

  • 期待値と実際の値のズレを数値化する
  • そのズレが偶然の範囲内かを判定する
  • サイコロから医薬品まで、幅広く活用される
  • データ数が十分あれば、誰でも使える

統計というと難しく感じるかもしれませんが、基本的な考え方は「常識的な判断を数学的に裏付ける」ということ。

「なんとなく違う気がする」を「統計的に有意な差がある」と言えるようになるんです。

次にアンケート結果や実験データを見るときは、「これって偶然?それとも意味がある?」と考えてみてください。

カイ2乗検定を知っていれば、データの見方が変わって、より正確な判断ができるようになりますよ。

コメント

タイトルとURLをコピーしました