符号検定:データの「方向」だけで判定する統計手法

数学

符号検定(Sign test)は、2つの条件の間で「どちらが良いか」を判定する統計手法です。

複雑な計算なしにプラス(+)とマイナス(-)の符号だけで判定できます。 数値の大きさを無視して方向性だけに注目することで、どんなデータ分布でも使える「万能型」の検定手法なのです。

医療から品質管理まで、幅広い分野で活用されています。

スポンサーリンク

符号検定の基本的な仕組みと原理

符号検定の核心は、驚くほどシンプルな原理に基づいています。

新しい勉強法の効果を調べる例

10人の生徒のテスト結果を比較する場面を想像してください。

各生徒について記録するのは:

  • 成績が上がった
  • 成績が下がった

これだけです。

もし勉強法に効果がなければ、上がる人と下がる人はちょうど半々(5人ずつ)になるはずです。 これは、効果のないコインを投げたときに表と裏が半々に出るのと同じ原理です。

偏りから効果を判定

実際の結果:

  • 8人が成績向上
  • 2人が成績低下

これは偶然では説明しにくい偏りです。

符号検定の判定方法:

  1. この偏りが「たまたま」起きる確率を計算
  2. それが十分に小さければ(通常5%未満)
  3. 「本当に効果がある」と判断

なぜ数値の大きさを無視するのか

数値の大きさを無視することで:

  • 成績が1点上がった生徒も同じ「プラス」
  • 10点上がった生徒も同じ「プラス」

極端な値に影響されない頑健な検定を実現しています。

なぜ符号だけで検定できるのか:二項分布の活用

符号検定が機能する理由は、二項分布という確率分布を巧みに利用しているからです。 これは「コイン投げの数学」とも言えます。

コイン投げとの関係

公平なコインを10回投げたとき:

  • 表が8回以上出る確率:約5.5%

同様に、効果のない処置で:

  • 10人中8人以上が改善する確率:約5.5%

この確率が低いので「効果がある」と判断できるのです。

身近な例:コーラとペプシ

クラスで「コーラとペプシ、どちらが美味しいか」を調査する場面を考えてください。

もし本当に差がなければ:

  • クラスの半分がコーラを選ぶ
  • クラスの半分がペプシを選ぶ

しかし30人中25人がコーラを選んだら? これは「偶然とは考えにくい」と判断できます。

符号検定は、この「偶然では説明しにくい偏り」を数学的に評価する方法なのです。

符号検定が活躍する具体的な場面

医療分野での活用

病院で新薬の効果を調べる際の評価:

  • 改善した
  • 悪化した
  • 変化なし

20人の患者の結果:

  • 15人が改善
  • 3人が悪化
  • 2人が変化なし

符号検定の処理:

  1. 「変化なし」を除外
  2. 15対3という偏りが統計的に意味があるか判定

症状の改善度を正確に数値化できない場合でも、方向性だけで薬の有効性を評価できるのが大きな利点です。

心理学研究での応用

カウンセリングの効果を評価する研究では、患者の不安レベルを記録します:

  • 増加
  • 減少

不安の程度を正確に測定することは困難です。 しかし、方向性なら患者自身が判断できます。

10人の患者のうち8人で不安が減少。 この結果から、カウンセリングの有効性を統計的に示すことができます。

品質管理での使用例

工場で製造工程を改善した後の調査:

各生産ラインの不良品率を評価:

  • 減った
  • 増えた

正確な不良品数の計測が困難でも:

  • 現場責任者の判断を集計
  • 改善効果を統計的に検証

符号検定の計算手順:ステップバイステップ

小標本(25以下)での手順

例題

10人の生徒が新しい学習アプリを1ヶ月使用。 使用前後のテスト点数を比較します。

ステップ1:データの符号化

  • 生徒A:65点→72点(向上:+)
  • 生徒B:80点→78点(低下:-)
  • 生徒C:70点→70点(同点:0、除外)

以下同様に記録します。

ステップ2:符号の集計

  • プラス(向上):7人
  • マイナス(低下):2人
  • タイ(同点):1人→除外
  • 有効サンプル数:9人

ステップ3:検定統計量の決定

両側検定の場合:少ない方の数値=2

ステップ4:確率の計算

「9回のコイン投げで2回以下しか表が出ない確率」を計算:

  • 二項分布の公式:P(X≤2) = 0.090
  • 両側検定なので2倍:p値 = 0.180

ステップ5:判定

  • p値(0.180)> 有意水準(0.05)
  • 結論:統計的に有意な効果は認められない

大標本(25以上)での正規近似法

標本数が大きい場合、計算を簡略化するため正規分布による近似を使用します。

100人の顧客満足度調査:

  • 60人が「向上」
  • 35人が「低下」
  • 5人が「不変」

計算手順:

  1. 有効サンプル数:n = 95(不変を除外)
  2. 期待値:μ = 95/2 = 47.5
  3. 標準偏差:σ = √(95/4) = 4.87
  4. Z統計量:Z = (60 – 47.5)/4.87 = 2.57
  5. p値を標準正規分布表から求める

ウィルコクソンの符号順位検定との違い

情報の使い方の違い

バスケットボールの練習効果の例

符号検定

  • 各選手が「上達した」か「下達した」かだけを記録

ウィルコクソン符号順位検定

  • 上達の「程度」も順位付けして考慮
    • 選手A:5点向上(順位3位)
    • 選手B:10点向上(順位1位)
    • 選手C:2点低下(順位5位)

ウィルコクソン検定は「どれだけ変化したか」の情報も使います。 一般的により強力ですが、データが対称的でない場合は符号検定の方が適しています。

使い分けの基準

符号検定を選ぶ場合

  • 変化の大きさを測定できない(「良い/悪い」のみ)
  • データに極端な外れ値がある
  • サンプル数が10未満

ウィルコクソンを選ぶ場合

  • 変化量を順位付けできる
  • より高い検出力が必要
  • データの分布が比較的対称

符号検定のメリット・デメリット

主なメリット

  1. 究極のシンプルさ
    • 中学生でも理解・実施可能
  2. 仮定の少なさ
    • データ分布の形を問わない
  3. 外れ値への頑健性
    • 極端な値に影響されない
  4. 小標本対応
    • 6ペア程度から使用可能
  5. 解釈の明快さ
    • 「何人が改善したか」という直感的な結果

主なデメリット

  1. 検出力の低さ
    • t検定の約64%の効率性
  2. 情報の損失
    • 変化の大きさを無視
  3. 効果量の不明
    • 「どれくらい」改善したかは分からない
  4. 大標本の必要性
    • 同じ効果を検出するのに約1.5倍のサンプルが必要

実際の使用例:分野別の具体例

医療分野:がん治療の評価

ある臨床試験の内容:

  • 非ホジキンリンパ腫患者10名
  • 生存期間を200週と比較

記録方法:

  • 200週を超えて生存(+)
  • それ以前に亡くなった(-)

結果:7名が200週を超えて生存

この結果から治療の有効性を統計的に示しました。 数値の正確な測定が困難な生存時間データでも、符号検定なら分析できます。

心理学:運動前後の集中力テスト

実験内容:

  • 15人の学生が運動前後で集中力テストを受験
  • 12人が向上、3人が低下

結果:p=0.018

運動が集中力向上に効果的であることを示しました。 集中力の正確な数値化は困難ですが、向上/低下の判定なら容易です。

マーケティング:ブランド選好調査

調査方法:

  • 消費者100人にコーラとペプシを試飲
  • どちらを好むか調査

結果:

  • 65人がコーラを選択
  • 35人がペプシを選択

この偏りが偶然である確率を符号検定で計算し、ブランド選好の有意差を検証します。

タイ(同順位)の扱い方

基本的な対処法:除外

最も一般的な方法は、タイ(変化なし)のデータを分析から完全に除外することです。

例:20人中3人がタイの場合

  • 残り17人だけで検定を行う

この方法の根拠: 「変化がないデータは方向性について何も教えてくれない」

タイが多い場合の代替手法

  1. 修正符号検定
    • タイの2/3をプラスとして扱う
  2. 三項検定
    • プラス、マイナス、タイを3つの結果として分析
  3. ランダム化
    • タイをランダムにプラス/マイナスに振り分け

Excelでの実施方法

基本的な実装手順

  1. データ入力
    • A列:処置前のデータ
    • B列:処置後のデータ
  2. 差の計算
    • C列:=B2-A2
  3. 符号の判定
    • D列:=IF(C2>0,1,IF(C2<0,-1,0))
  4. 符号の集計
    • プラスの数:=COUNTIF(D:D,1)
    • マイナスの数:=COUNTIF(D:D,-1)
  5. p値の計算 =2*BINOM.DIST(MIN(プラス数,マイナス数), プラス数+マイナス数,0.5,TRUE)

他のソフトウェアでの実施

SPSS

「分析」→「ノンパラメトリック検定」→「対応のある2標本」→「符号検定」

R言語

binom.test(プラスの数, 有効サンプル数, p=0.5)

Python

from scipy import stats
p_value = 2 * stats.binom.cdf(min(n_pos, n_neg), n_total, 0.5)

検定力と効率性の実際

符号検定の検定力(本当に差があるときに、それを検出できる確率)は、パラメトリック検定と比較して低めです。

効率性の比較

  • 対t検定:正規分布データで約64%の効率
  • 対ウィルコクソン検定:約67%の効率

これは「同じ効果を検出するのに1.5倍のサンプルが必要」という意味です。

符号検定が有利な場合

データが正規分布から大きく外れる場合:

  • 符号検定の方がより高い検定力を示すことがある
  • 特に外れ値が多いデータでは効率がt検定の2倍に達することも

符号検定の前提条件と制約

必須条件

  1. 対応のあるデータ
    • 各データに論理的なペアが必要
  2. 独立性
    • 各ペアの結果は他のペアに影響しない
  3. 順序尺度以上
    • 「どちらが大きい」を判定できるデータ
  4. 連続性
    • タイを最小化するため、基本的に連続的な分布

使用すべきでない場合

  • 独立した2群の比較(対応がない)
  • 効果の大きさを知る必要がある
  • データが明らかに正規分布に従う
  • タイが全体の20%を超える

実務での注意点とよくある間違い

よくある間違いトップ5

  1. タイの誤った処理
    • タイをサンプル数に含めてしまう
  2. 独立性の無視
    • 関連のあるデータを独立として扱う
  3. 過度の使用
    • より適切な検定があるのに符号検定を使う
  4. 結果の過大解釈
    • 「有意差あり」を「大きな効果」と誤解
  5. 小標本での近似法使用
    • 25未満で正規近似を使う

実務での推奨事項

データ収集段階で注意すべきこと

  • ペアの対応関係を明確に記録
  • タイを減らすため、測定精度を上げる
  • 外れ値の原因を記録しておく

分析段階での確認事項

  • タイの割合を確認(20%超なら要注意)
  • 複数の検定法で結果を確認
  • 効果の方向性だけでなく、実務的な意味も考慮

報告時の留意点

  • 使用した検定法の理由を明記
  • タイの処理方法を説明
  • 検定力の限界を認識した解釈

まとめ:符号検定を使いこなすために

符号検定は、統計学の「スイスアーミーナイフ」のような存在です。

最も鋭い刃ではありません。 しかし、どんな状況でも確実に機能する信頼性があります。

符号検定の最大の魅力

  • データの分布を気にせず使える
  • 外れ値に振り回されない
  • シンプルに「どちらが良いか」を判定できる

中学3年生でも理解できるこのシンプルな手法。 実は医療現場から品質管理まで幅広く活用されています。

大切なこと

「完璧な精度」よりも「確実な判定」が求められる場面で、符号検定は今後も重要な役割を果たし続けるでしょう。

統計的検定を選ぶ際は、最も強力な手法ではなく、データと目的に最も適した手法を選ぶことが大切です。

次回データ分析をする際は、符号検定も選択肢の一つとして考えてみてください。 シンプルだからこそ、確実な結果が得られることもあるのです。

コメント

タイトルとURLをコピーしました