はじめに:この検定はいつ使うの?
「同じ生徒が3つの勉強法を試したら、どれが一番効果的?」 「同じ患者さんに3種類の薬を使ったら、どれが一番効く?」
こんな疑問に答えてくれるのが、フリードマン検定です。
この検定の最大の特徴は、同じ人や物を複数回測定したデータを比較できることです。
クラスカル・ウォリス検定との違い
前回紹介したクラスカル・ウォリス検定は「異なるグループ」を比較しました。
一方、フリードマン検定は「同じ対象の異なる条件」を比較します。
例えば:
- クラスカル・ウォリス:3つの学校の生徒の成績を比較(別々の生徒)
- フリードマン:同じ生徒が3つの勉強法を試した結果を比較(同じ生徒)
なぜ「順位」を使うの?
この検定も、データを「順位」に変換して分析します。
だから、データの形が歪んでいても正確な結果が得られるんです。
開発者について
1937年、ミルトン・フリードマンという経済学者が開発しました。
後にノーベル経済学賞を受賞した有名な学者です。統計手法の開発でも大きな貢献をしたんですね。
日常生活で理解する:ワイン品評会の例

5人のソムリエがワインを評価
5人のソムリエが、同じ3種類のワイン(A、B、C)を試飲して、100点満点で採点する場面を想像してください。
実際の点数:
ソムリエ1: ワインA=85点、ワインB=92点、ワインC=78点
ソムリエ2: ワインA=88点、ワインB=95点、ワインC=82点
ソムリエ3: ワインA=79点、ワインB=88点、ワインC=75点
ソムリエ4: ワインA=90点、ワインB=93点、ワインC=86点
ソムリエ5: ワインA=82点、ワインB=89点、ワインC=77点
各ソムリエの中で順位をつける
ここがポイント!各ソムリエの中で順位をつけるんです。
ソムリエ1の中では:A=2位、B=1位、C=3位
ソムリエ2の中では:A=2位、B=1位、C=3位
ソムリエ3の中では:A=2位、B=1位、C=3位
ソムリエ4の中では:A=2位、B=1位、C=3位
ソムリエ5の中では:A=2位、B=1位、C=3位
結果の解釈
この例では、ワインBが全員から1位評価を受けています!
フリードマン検定は、こういう「一貫した傾向」を統計的に確認してくれるんです。
なぜ「同じ人」で測ることが大切なの?
個人差というノイズを除去できる
同じ人を繰り返し測定する最大のメリットは、個人差を除いた純粋な効果を見られることです。
ダイエット法の比較で考えてみよう
❌ 対応なし(別々の人)の場合:
- Aダイエット:太りやすい体質の人10名
- Bダイエット:普通体質の人10名
- Cダイエット:痩せやすい体質の人10名
→ 体質の違いで結果が変わってしまう!
✅ 対応あり(同じ人)の場合:
- 同じ10人が、A→B→Cの順番で全部試す
→ 体質の違いを除いて、純粋なダイエット効果を比較できる!
より少ない人数で検証可能
個人差を除去できるので、少ない人数でも信頼できる結果が得られます。
別々の人なら30人ずつ必要な場合も、同じ人なら10人で十分なことがあるんです。
反復測定ANOVAとどう使い分ける?
2つの検定の違い
反復測定ANOVA(精密な体重計)
- データが釣鐘型(正規分布)
- より詳細な分析が可能
- 統計的な前提条件が厳しい
フリードマン検定(順位で比較)
- データの形は何でもOK
- シンプルで頑健
- 前提条件が緩い
使い分けの目安
反復測定ANOVAを使うべき場面
✅ データが釣鐘型に分布 ✅ 各条件のバラツキが同じくらい ✅ 血圧や体温のような連続的な測定値 ✅ より詳細な分析(交互作用など)が必要
フリードマン検定を使うべき場面
✅ データが歪んでいる、外れ値がある ✅ 満足度や痛みレベルなどの順序データ ✅ サンプル数が少ない(10人以下) ✅ シンプルで確実な結果が欲しい
実社会での活用事例

ビジネス:新商品の香水評価
ある化粧品会社の実例を紹介します。
調査内容:
- 新しい香水3種類を開発
- 20人のモニターが各香水を1週間ずつ使用
- 10段階で評価
結果:
- 香水B(平均順位1.3)が最高評価
- 香水A(平均順位2.1)が中間
- 香水C(平均順位2.6)が最低評価
統計的に有意な差(p < 0.001)が確認されました。
成果: 香水Bを主力商品として販売し、初年度売上目標を20%上回る成功!
教育:英語学習アプリの効果測定
高校での実践例です。
実験内容: 25人の生徒が3つの英語学習アプリを各1ヶ月使用
- リスニング重視アプリ
- 文法重視アプリ
- 会話重視アプリ
結果: 文法重視アプリが最も効果的(平均順位1.4、p = 0.001)
成果: 学校は文法重視アプリを正式採用。全校生徒のTOEIC平均点が45点上昇!
スポーツ:マラソントレーニング法の比較
陸上部での研究事例です。
実験内容: 12人のマラソン選手が3つのトレーニング法を各4週間実施
- インターバルトレーニング
- LSD(長距離をゆっくり走る)
- テンポ走(一定ペースで走る)
結果:
- インターバル:平均順位1.5(最も効果的)
- テンポ走:平均順位2.0
- LSD:平均順位2.5
有意差あり(p = 0.012)
成果: インターバル中心のプログラムに変更し、チーム全体の平均タイムが2分30秒短縮!
心理学:ストレス管理技法の効果
企業でのメンタルヘルス対策の例です。
実験内容: 従業員15人が3つのストレス管理技法を各2週間実践
- 瞑想
- 運動
- 音楽療法
結果:
- 瞑想:最も効果的(平均順位1.2)
- 運動:中程度(平均順位2.1)
- 音楽療法:効果は限定的(平均順位2.7)
有意差あり(p < 0.001)
成果: 企業は瞑想プログラムを福利厚生に導入。病欠率が30%減少!
食品業界:スナックの塩分量テスト
食品メーカーでの商品開発例です。
実験内容: 30人のパネリストが塩分量の異なる3種類のスナックを試食
- 低塩
- 中塩
- 高塩
結果:
- 中塩:平均順位1.3(最高評価)
- 低塩:平均順位2.2
- 高塩:平均順位2.5
有意差あり(p < 0.001)
成果: 中塩バージョンを採用し、発売3ヶ月で売上目標達成!
実際に計算してみよう:6つのステップ
ステップ1:データを整理
各人について、全条件での測定値を横に並べます。
ステップ2:各人の中で順位をつける
例:ある人の3条件での得点
75点、82点、79点
↓ 順位に変換
3位、1位、2位
ステップ3:各条件の順位を合計
- 条件A:全員の順位を合計
- 条件B:全員の順位を合計
- 条件C:全員の順位を合計
ステップ4:検定統計量を計算
以下の公式を使います(覚えなくても大丈夫!):
χ² = [12 / (n×k×(k+1))] × Σ(Ri²) - 3×n×(k+1)
- n = 対象数(人数)
- k = 条件数
- Ri = 各条件の順位合計
ステップ5:p値を求める
統計表から臨界値を確認します。
ステップ6:結論を出す
p < 0.05 なら「条件間に有意差あり」と判断します。
同じ値が出たらどうする?

同順位(タイ)の処理方法
同じ値が出た場合は、平均順位を割り当てます。
例:80、85、85、90 の場合
普通なら:1位、2位、3位、4位
同順位処理:1位、2.5位、2.5位、4位
(2位と3位の平均 = 2.5)
事後検定:どの条件間に差があるか調べる
なぜ必要なの?
フリードマン検定は「どこかに差がある」ことは分かりますが、具体的にどの条件間に差があるかは教えてくれません。
火災報知器が鳴っても、どの部屋が燃えているかは分からないのと同じです。
ウィルコクソンの符号順位検定
最も一般的な事後検定です。
各条件ペアを比較し、ボンフェローニ補正を適用します。
3条件の場合の例:
比較するペア:3つ
補正後の有意水準 = 0.05 ÷ 3 = 0.017
条件A vs 条件B:p = 0.008 → 有意差あり
条件A vs 条件C:p = 0.023 → 有意差なし(補正後)
条件B vs 条件C:p = 0.001 → 有意差あり
実用的なソフトウェア活用法
Excelでの実施方法
Excelには専用関数がないため、少し手間がかかりますが:
- データを表形式で入力
RANK.AVG
関数で順位付けSUM
関数で順位合計を計算- 検定統計量を計算
CHISQ.DIST.RT
関数でp値を求める
無料統計ソフトの活用
JASP(最もおすすめ)
- 直感的な操作画面
- 自動的に事後検定も実施
- 効果量も算出
- グラフも自動生成
- jasp-stats.orgから無料ダウンロード
R言語(プログラミングができる人向け)
# 基本的なコード
friedman.test(value ~ condition | subject, data = mydata)
オンライン計算ツール
- Social Science Statistics(簡単)
- GraphPad(高機能)
- VassarStats(教育向け)
いつ使える?前提条件をチェック
必須の条件
✅ 同じ対象を繰り返し測定したデータ ✅ 3つ以上の条件がある(2条件なら別の検定を使う) ✅ 順序がわかるデータ(1位、2位…または大、中、小など) ✅ 各対象が互いに独立している
最適な使用場面
理想的な例:
- 同じ患者への3つの治療法の効果比較
- 同じ学生の複数科目の成績比較
- 同じ製品の異なる時点での品質評価
- パネリストによる複数商品の評価
避けるべき場面:
- 別々の人のデータ(対応なし)
- 2条件だけの比較
- データが完全に正規分布している(反復測定ANOVAの方が良い)
サンプルサイズ:何人必要?
最小限必要な人数
絶対最小: 6人(これ以下では統計的に無意味)
推奨最小: 12人(中程度の効果を検出可能)
理想的: 20人以上(小さな効果も検出可能)
見つけたい効果の大きさによる必要数
大きな効果(明らかに違う) → 8-10人で十分
中程度の効果(微妙な違い) → 15-20人必要
小さな効果(わずかな違い) → 30人以上必要
コクランのQ検定との違い

データが「はい/いいえ」の場合
データが二値(はい/いいえ、成功/失敗など)の場合:
- コクランのQ検定を使う
- フリードマン検定は使えない
例: 同じ人が3つの薬を試して「効いた/効かなかった」を記録 → コクランのQ検定が適切
使い分けの整理
データの種類による選択:
- 二値データ → コクランのQ検定
- 順序データ → フリードマン検定
- 連続データ(非正規分布) → フリードマン検定
- 連続データ(正規分布) → 反復測定ANOVA
ケンドールの一致係数(W)って何?
評価者間の一致度を表す
ケンドールのWは、評価者の意見がどれくらい一致しているかを示します。
- W = 0:完全にバラバラ
- W = 1:完全に一致
- W > 0.7:高い一致度
- W = 0.4-0.7:中程度
- W < 0.4:低い一致度
実践的な意味
商品評価の例:
10人が5つの商品を順位付け
- W = 0.82:みんなの意見が一致 → 優劣が明確
- W = 0.35:意見がバラバラ → 好みが分かれる
この指標で、結果の信頼性を判断できます。
よくある間違いと正しい方法
❌ 間違い1:別々の人のデータに使う
誤り: 30人を3グループに分けて比較 正解: クラスカル・ウォリス検定を使う
❌ 間違い2:2条件で使う
誤り: 前後の2時点で比較 正解: ウィルコクソンの符号順位検定を使う
❌ 間違い3:平均値で報告
誤り: 「条件Aの平均は85点」 正解: 「条件Aの平均順位は1.5」または中央値を報告
❌ 間違い4:事後検定なしで断言
誤り: 「有意だったので、AはBより優れている」 正解: 事後検定で個別に確認が必要
結果の報告:テンプレートと実例
標準的な報告形式
[条件数]つの[条件名]における[測定項目]の違いを検討するため、
フリードマン検定を実施した。
その結果、条件間に統計的に有意な差が認められた
(χ²([自由度]) = [検定統計量], p = [p値], W = [効果量])。
ウィルコクソンの符号順位検定による事後比較の結果、
[具体的な差とp値]。
これらの結果は、[実践的な意味]を示唆している。
良い報告例
「3つの学習アプリの効果を比較するため、25人の生徒が各アプリを1ヶ月ずつ使用し、テストを受けた。
フリードマン検定の結果、アプリ間に有意な差が認められた(χ²(2) = 15.68, p < 0.001, W = 0.31)。
事後検定により、文法重視アプリ(平均順位1.4)は、リスニング重視(平均順位2.3, p = 0.002)および会話重視(平均順位2.3, p = 0.001)より有意に高い効果を示した。」
悪い報告例
「p値が小さいので差がある。文法アプリが最も良い。」
(具体的な数値や効果量がなく、不十分です)
視覚的な表現
おすすめの図表:
- 箱ひげ図:各条件での分布を並べて表示
- 順位プロット:平均順位をエラーバー付きで
- 個人プロファイル図:各人の条件間変化を線で結ぶ
実践的な活用のコツ
データ収集時の注意点
- 順序効果を防ぐ:条件の実施順序をランダムに
- 十分な間隔:前の条件の影響が残らないように
- 欠測データに注意:1つでも欠けるとその人全体を除外
- 練習効果:同じテストの繰り返しは要注意
解釈時の注意点
- 統計的有意 ≠ 実用的重要性:効果量も確認
- 個人差も大切:平均だけでなく個人の反応も見る
- 一般化の限界:サンプルが代表的か考慮
- 因果関係の注意:相関と因果は別物
まとめ:フリードマン検定の価値
この検定の強み
フリードマン検定は、同じ対象を繰り返し測定したデータで3つ以上の条件を比較する強力なツールです。
メリット:
- データが正規分布しなくてもOK
- 順序尺度でも使える
- サンプル数が少なくても大丈夫
- 個人差を除いた純粋な効果を検出
活用分野
- ビジネス:商品評価
- 教育:学習効果の検証
- スポーツ:トレーニング法の比較
- 医療:治療法の選択
- 食品:味覚テスト
成功のポイント
- 「対応のあるデータ」専用であることを理解
- 適切な場面で使用する
- 統計的有意性だけでなく効果量も確認
- 事後検定で詳細を明らかに
個人差という「ノイズ」を除去できるこの手法を活用することで、より精度の高い比較分析が可能になります。
データに基づいた確かな意思決定のために、ぜひ活用してみてください!
コメント