フリードマン検定 完全ガイド – 同じ人の繰り返し測定を比較する統計手法をやさしく解説

数学
スポンサーリンク
  1. はじめに:この検定はいつ使うの?
    1. クラスカル・ウォリス検定との違い
    2. なぜ「順位」を使うの?
    3. 開発者について
  2. 日常生活で理解する:ワイン品評会の例
    1. 5人のソムリエがワインを評価
    2. 各ソムリエの中で順位をつける
    3. 結果の解釈
  3. なぜ「同じ人」で測ることが大切なの?
    1. 個人差というノイズを除去できる
    2. より少ない人数で検証可能
  4. 反復測定ANOVAとどう使い分ける?
    1. 2つの検定の違い
    2. 使い分けの目安
  5. 実社会での活用事例
    1. ビジネス:新商品の香水評価
    2. 教育:英語学習アプリの効果測定
    3. スポーツ:マラソントレーニング法の比較
    4. 心理学:ストレス管理技法の効果
    5. 食品業界:スナックの塩分量テスト
  6. 実際に計算してみよう:6つのステップ
    1. ステップ1:データを整理
    2. ステップ2:各人の中で順位をつける
    3. ステップ3:各条件の順位を合計
    4. ステップ4:検定統計量を計算
    5. ステップ5:p値を求める
    6. ステップ6:結論を出す
  7. 同じ値が出たらどうする?
    1. 同順位(タイ)の処理方法
  8. 事後検定:どの条件間に差があるか調べる
    1. なぜ必要なの?
    2. ウィルコクソンの符号順位検定
  9. 実用的なソフトウェア活用法
    1. Excelでの実施方法
    2. 無料統計ソフトの活用
  10. いつ使える?前提条件をチェック
    1. 必須の条件
    2. 最適な使用場面
  11. サンプルサイズ:何人必要?
    1. 最小限必要な人数
    2. 見つけたい効果の大きさによる必要数
  12. コクランのQ検定との違い
    1. データが「はい/いいえ」の場合
    2. 使い分けの整理
  13. ケンドールの一致係数(W)って何?
    1. 評価者間の一致度を表す
    2. 実践的な意味
  14. よくある間違いと正しい方法
    1. ❌ 間違い1:別々の人のデータに使う
    2. ❌ 間違い2:2条件で使う
    3. ❌ 間違い3:平均値で報告
    4. ❌ 間違い4:事後検定なしで断言
  15. 結果の報告:テンプレートと実例
    1. 標準的な報告形式
    2. 良い報告例
    3. 悪い報告例
    4. 視覚的な表現
  16. 実践的な活用のコツ
    1. データ収集時の注意点
    2. 解釈時の注意点
  17. まとめ:フリードマン検定の価値
    1. この検定の強み
    2. 活用分野
    3. 成功のポイント

はじめに:この検定はいつ使うの?

「同じ生徒が3つの勉強法を試したら、どれが一番効果的?」 「同じ患者さんに3種類の薬を使ったら、どれが一番効く?」

こんな疑問に答えてくれるのが、フリードマン検定です。

この検定の最大の特徴は、同じ人や物を複数回測定したデータを比較できることです。

クラスカル・ウォリス検定との違い

前回紹介したクラスカル・ウォリス検定は「異なるグループ」を比較しました。

一方、フリードマン検定は「同じ対象の異なる条件」を比較します。

例えば:

  • クラスカル・ウォリス:3つの学校の生徒の成績を比較(別々の生徒)
  • フリードマン:同じ生徒が3つの勉強法を試した結果を比較(同じ生徒)

なぜ「順位」を使うの?

この検定も、データを「順位」に変換して分析します。

だから、データの形が歪んでいても正確な結果が得られるんです。

開発者について

1937年、ミルトン・フリードマンという経済学者が開発しました。

後にノーベル経済学賞を受賞した有名な学者です。統計手法の開発でも大きな貢献をしたんですね。

日常生活で理解する:ワイン品評会の例

5人のソムリエがワインを評価

5人のソムリエが、同じ3種類のワイン(A、B、C)を試飲して、100点満点で採点する場面を想像してください。

実際の点数:

ソムリエ1: ワインA=85点、ワインB=92点、ワインC=78点
ソムリエ2: ワインA=88点、ワインB=95点、ワインC=82点
ソムリエ3: ワインA=79点、ワインB=88点、ワインC=75点
ソムリエ4: ワインA=90点、ワインB=93点、ワインC=86点
ソムリエ5: ワインA=82点、ワインB=89点、ワインC=77点

各ソムリエの中で順位をつける

ここがポイント!各ソムリエの中で順位をつけるんです。

ソムリエ1の中では:A=2位、B=1位、C=3位
ソムリエ2の中では:A=2位、B=1位、C=3位
ソムリエ3の中では:A=2位、B=1位、C=3位
ソムリエ4の中では:A=2位、B=1位、C=3位
ソムリエ5の中では:A=2位、B=1位、C=3位

結果の解釈

この例では、ワインBが全員から1位評価を受けています!

フリードマン検定は、こういう「一貫した傾向」を統計的に確認してくれるんです。

なぜ「同じ人」で測ることが大切なの?

個人差というノイズを除去できる

同じ人を繰り返し測定する最大のメリットは、個人差を除いた純粋な効果を見られることです。

ダイエット法の比較で考えてみよう

❌ 対応なし(別々の人)の場合:

  • Aダイエット:太りやすい体質の人10名
  • Bダイエット:普通体質の人10名
  • Cダイエット:痩せやすい体質の人10名

→ 体質の違いで結果が変わってしまう!

✅ 対応あり(同じ人)の場合:

  • 同じ10人が、A→B→Cの順番で全部試す

→ 体質の違いを除いて、純粋なダイエット効果を比較できる!

より少ない人数で検証可能

個人差を除去できるので、少ない人数でも信頼できる結果が得られます。

別々の人なら30人ずつ必要な場合も、同じ人なら10人で十分なことがあるんです。

反復測定ANOVAとどう使い分ける?

2つの検定の違い

反復測定ANOVA(精密な体重計)

  • データが釣鐘型(正規分布)
  • より詳細な分析が可能
  • 統計的な前提条件が厳しい

フリードマン検定(順位で比較)

  • データの形は何でもOK
  • シンプルで頑健
  • 前提条件が緩い

使い分けの目安

反復測定ANOVAを使うべき場面

✅ データが釣鐘型に分布 ✅ 各条件のバラツキが同じくらい ✅ 血圧や体温のような連続的な測定値 ✅ より詳細な分析(交互作用など)が必要

フリードマン検定を使うべき場面

✅ データが歪んでいる、外れ値がある ✅ 満足度や痛みレベルなどの順序データ ✅ サンプル数が少ない(10人以下) ✅ シンプルで確実な結果が欲しい

実社会での活用事例

ビジネス:新商品の香水評価

ある化粧品会社の実例を紹介します。

調査内容:

  • 新しい香水3種類を開発
  • 20人のモニターが各香水を1週間ずつ使用
  • 10段階で評価

結果:

  • 香水B(平均順位1.3)が最高評価
  • 香水A(平均順位2.1)が中間
  • 香水C(平均順位2.6)が最低評価

統計的に有意な差(p < 0.001)が確認されました。

成果: 香水Bを主力商品として販売し、初年度売上目標を20%上回る成功!

教育:英語学習アプリの効果測定

高校での実践例です。

実験内容: 25人の生徒が3つの英語学習アプリを各1ヶ月使用

  • リスニング重視アプリ
  • 文法重視アプリ
  • 会話重視アプリ

結果: 文法重視アプリが最も効果的(平均順位1.4、p = 0.001)

成果: 学校は文法重視アプリを正式採用。全校生徒のTOEIC平均点が45点上昇!

スポーツ:マラソントレーニング法の比較

陸上部での研究事例です。

実験内容: 12人のマラソン選手が3つのトレーニング法を各4週間実施

  • インターバルトレーニング
  • LSD(長距離をゆっくり走る)
  • テンポ走(一定ペースで走る)

結果:

  • インターバル:平均順位1.5(最も効果的)
  • テンポ走:平均順位2.0
  • LSD:平均順位2.5

有意差あり(p = 0.012)

成果: インターバル中心のプログラムに変更し、チーム全体の平均タイムが2分30秒短縮!

心理学:ストレス管理技法の効果

企業でのメンタルヘルス対策の例です。

実験内容: 従業員15人が3つのストレス管理技法を各2週間実践

  • 瞑想
  • 運動
  • 音楽療法

結果:

  • 瞑想:最も効果的(平均順位1.2)
  • 運動:中程度(平均順位2.1)
  • 音楽療法:効果は限定的(平均順位2.7)

有意差あり(p < 0.001)

成果: 企業は瞑想プログラムを福利厚生に導入。病欠率が30%減少!

食品業界:スナックの塩分量テスト

食品メーカーでの商品開発例です。

実験内容: 30人のパネリストが塩分量の異なる3種類のスナックを試食

  • 低塩
  • 中塩
  • 高塩

結果:

  • 中塩:平均順位1.3(最高評価)
  • 低塩:平均順位2.2
  • 高塩:平均順位2.5

有意差あり(p < 0.001)

成果: 中塩バージョンを採用し、発売3ヶ月で売上目標達成!

実際に計算してみよう:6つのステップ

ステップ1:データを整理

各人について、全条件での測定値を横に並べます。

ステップ2:各人の中で順位をつける

例:ある人の3条件での得点
75点、82点、79点

↓ 順位に変換

3位、1位、2位

ステップ3:各条件の順位を合計

  • 条件A:全員の順位を合計
  • 条件B:全員の順位を合計
  • 条件C:全員の順位を合計

ステップ4:検定統計量を計算

以下の公式を使います(覚えなくても大丈夫!):

χ² = [12 / (n×k×(k+1))] × Σ(Ri²) - 3×n×(k+1)
  • n = 対象数(人数)
  • k = 条件数
  • Ri = 各条件の順位合計

ステップ5:p値を求める

統計表から臨界値を確認します。

ステップ6:結論を出す

p < 0.05 なら「条件間に有意差あり」と判断します。

同じ値が出たらどうする?

同順位(タイ)の処理方法

同じ値が出た場合は、平均順位を割り当てます。

例:80、85、85、90 の場合

普通なら:1位、2位、3位、4位

同順位処理:1位、2.5位、2.5位、4位
(2位と3位の平均 = 2.5)

事後検定:どの条件間に差があるか調べる

なぜ必要なの?

フリードマン検定は「どこかに差がある」ことは分かりますが、具体的にどの条件間に差があるかは教えてくれません。

火災報知器が鳴っても、どの部屋が燃えているかは分からないのと同じです。

ウィルコクソンの符号順位検定

最も一般的な事後検定です。

各条件ペアを比較し、ボンフェローニ補正を適用します。

3条件の場合の例:

比較するペア:3つ
補正後の有意水準 = 0.05 ÷ 3 = 0.017

条件A vs 条件B:p = 0.008 → 有意差あり
条件A vs 条件C:p = 0.023 → 有意差なし(補正後)
条件B vs 条件C:p = 0.001 → 有意差あり

実用的なソフトウェア活用法

Excelでの実施方法

Excelには専用関数がないため、少し手間がかかりますが:

  1. データを表形式で入力
  2. RANK.AVG関数で順位付け
  3. SUM関数で順位合計を計算
  4. 検定統計量を計算
  5. CHISQ.DIST.RT関数でp値を求める

無料統計ソフトの活用

JASP(最もおすすめ)

  • 直感的な操作画面
  • 自動的に事後検定も実施
  • 効果量も算出
  • グラフも自動生成
  • jasp-stats.orgから無料ダウンロード

R言語(プログラミングができる人向け)

# 基本的なコード
friedman.test(value ~ condition | subject, data = mydata)

オンライン計算ツール

  • Social Science Statistics(簡単)
  • GraphPad(高機能)
  • VassarStats(教育向け)

いつ使える?前提条件をチェック

必須の条件

同じ対象を繰り返し測定したデータ ✅ 3つ以上の条件がある(2条件なら別の検定を使う) ✅ 順序がわかるデータ(1位、2位…または大、中、小など) ✅ 各対象が互いに独立している

最適な使用場面

理想的な例:

  • 同じ患者への3つの治療法の効果比較
  • 同じ学生の複数科目の成績比較
  • 同じ製品の異なる時点での品質評価
  • パネリストによる複数商品の評価

避けるべき場面:

  • 別々の人のデータ(対応なし)
  • 2条件だけの比較
  • データが完全に正規分布している(反復測定ANOVAの方が良い)

サンプルサイズ:何人必要?

最小限必要な人数

絶対最小: 6人(これ以下では統計的に無意味)

推奨最小: 12人(中程度の効果を検出可能)

理想的: 20人以上(小さな効果も検出可能)

見つけたい効果の大きさによる必要数

大きな効果(明らかに違う) → 8-10人で十分

中程度の効果(微妙な違い) → 15-20人必要

小さな効果(わずかな違い) → 30人以上必要

コクランのQ検定との違い

データが「はい/いいえ」の場合

データが二値(はい/いいえ、成功/失敗など)の場合:

  • コクランのQ検定を使う
  • フリードマン検定は使えない

例: 同じ人が3つの薬を試して「効いた/効かなかった」を記録 → コクランのQ検定が適切

使い分けの整理

データの種類による選択:
- 二値データ → コクランのQ検定
- 順序データ → フリードマン検定
- 連続データ(非正規分布) → フリードマン検定
- 連続データ(正規分布) → 反復測定ANOVA

ケンドールの一致係数(W)って何?

評価者間の一致度を表す

ケンドールのWは、評価者の意見がどれくらい一致しているかを示します。

  • W = 0:完全にバラバラ
  • W = 1:完全に一致
  • W > 0.7:高い一致度
  • W = 0.4-0.7:中程度
  • W < 0.4:低い一致度

実践的な意味

商品評価の例:

10人が5つの商品を順位付け

  • W = 0.82:みんなの意見が一致 → 優劣が明確
  • W = 0.35:意見がバラバラ → 好みが分かれる

この指標で、結果の信頼性を判断できます。

よくある間違いと正しい方法

❌ 間違い1:別々の人のデータに使う

誤り: 30人を3グループに分けて比較 正解: クラスカル・ウォリス検定を使う

❌ 間違い2:2条件で使う

誤り: 前後の2時点で比較 正解: ウィルコクソンの符号順位検定を使う

❌ 間違い3:平均値で報告

誤り: 「条件Aの平均は85点」 正解: 「条件Aの平均順位は1.5」または中央値を報告

❌ 間違い4:事後検定なしで断言

誤り: 「有意だったので、AはBより優れている」 正解: 事後検定で個別に確認が必要

結果の報告:テンプレートと実例

標準的な報告形式

[条件数]つの[条件名]における[測定項目]の違いを検討するため、
フリードマン検定を実施した。

その結果、条件間に統計的に有意な差が認められた
(χ²([自由度]) = [検定統計量], p = [p値], W = [効果量])。

ウィルコクソンの符号順位検定による事後比較の結果、
[具体的な差とp値]。

これらの結果は、[実践的な意味]を示唆している。

良い報告例

「3つの学習アプリの効果を比較するため、25人の生徒が各アプリを1ヶ月ずつ使用し、テストを受けた。

フリードマン検定の結果、アプリ間に有意な差が認められた(χ²(2) = 15.68, p < 0.001, W = 0.31)。

事後検定により、文法重視アプリ(平均順位1.4)は、リスニング重視(平均順位2.3, p = 0.002)および会話重視(平均順位2.3, p = 0.001)より有意に高い効果を示した。」

悪い報告例

「p値が小さいので差がある。文法アプリが最も良い。」

(具体的な数値や効果量がなく、不十分です)

視覚的な表現

おすすめの図表:

  1. 箱ひげ図:各条件での分布を並べて表示
  2. 順位プロット:平均順位をエラーバー付きで
  3. 個人プロファイル図:各人の条件間変化を線で結ぶ

実践的な活用のコツ

データ収集時の注意点

  1. 順序効果を防ぐ:条件の実施順序をランダムに
  2. 十分な間隔:前の条件の影響が残らないように
  3. 欠測データに注意:1つでも欠けるとその人全体を除外
  4. 練習効果:同じテストの繰り返しは要注意

解釈時の注意点

  1. 統計的有意 ≠ 実用的重要性:効果量も確認
  2. 個人差も大切:平均だけでなく個人の反応も見る
  3. 一般化の限界:サンプルが代表的か考慮
  4. 因果関係の注意:相関と因果は別物

まとめ:フリードマン検定の価値

この検定の強み

フリードマン検定は、同じ対象を繰り返し測定したデータで3つ以上の条件を比較する強力なツールです。

メリット:

  • データが正規分布しなくてもOK
  • 順序尺度でも使える
  • サンプル数が少なくても大丈夫
  • 個人差を除いた純粋な効果を検出

活用分野

  • ビジネス:商品評価
  • 教育:学習効果の検証
  • スポーツ:トレーニング法の比較
  • 医療:治療法の選択
  • 食品:味覚テスト

成功のポイント

  1. 「対応のあるデータ」専用であることを理解
  2. 適切な場面で使用する
  3. 統計的有意性だけでなく効果量も確認
  4. 事後検定で詳細を明らかに

個人差という「ノイズ」を除去できるこの手法を活用することで、より精度の高い比較分析が可能になります。

データに基づいた確かな意思決定のために、ぜひ活用してみてください!

コメント

タイトルとURLをコピーしました