四分位範囲(IQR)とは?データのばらつきを理解する統計の基本

数学

四分位範囲(しぶんいはんい)は、データの散らばり具合を示す統計指標の1つです。英語では「Interquartile Range」といい、IQRと略されます。

簡単に言うと、データの真ん中50%がどれくらい広がっているかを表す数値です。

例えば、あるクラスの数学のテストの点数が以下のようだったとします。

30点、45点、60点、65点、70点、75点、80点、85点、90点、95点

この場合、真ん中の50%のデータ(60点〜85点)の広がりが四分位範囲になります。

スポンサーリンク

まずは「四分位数」を理解しよう

四分位範囲を理解するには、まず四分位数(しぶんいすう)を知る必要があります。

四分位数とは?

四分位数とは、データを小さい順に並べて、4等分する3つの区切り値のことです。

データを小さい順に並べたとき:

  • 第1四分位数(Q1): 25%の位置にある値
  • 第2四分位数(Q2): 50%の位置にある値(=中央値)
  • 第3四分位数(Q3): 75%の位置にある値

この3つの値があることで、データ全体を以下の4つの領域に分けることができます。

[最小値]―[Q1]―[Q2]―[Q3]―[最大値]
  25%   25%  25%  25%

各領域には、データ全体の約25%ずつが含まれます。

具体例で確認しよう

10人の生徒のテストの点数を見てみましょう。

データ: 50, 55, 60, 65, 70, 75, 80, 85, 90, 95

ステップ1: データを小さい順に並べる
(すでに並んでいます)

ステップ2: 中央値(Q2)を求める
10個のデータなので、5番目と6番目の平均
Q2 = (70 + 75) ÷ 2 = 72.5

ステップ3: 第1四分位数(Q1)を求める
1番目から5番目までの中央値
Q1 = (55 + 60) ÷ 2 = 57.5

ステップ4: 第3四分位数(Q3)を求める
6番目から10番目までの中央値
Q3 = (85 + 90) ÷ 2 = 87.5

四分位範囲の計算方法

四分位範囲は、とてもシンプルな計算で求められます。

四分位範囲の計算式

四分位範囲(IQR) = Q3 - Q1

第3四分位数から第1四分位数を引くだけです!

さっきの例で計算してみよう

Q1 = 57.5
Q3 = 87.5

四分位範囲(IQR) = 87.5 – 57.5 = 30

つまり、このクラスのテストの点数は、真ん中50%の範囲が30点分広がっているということになります。

四分位範囲は何を教えてくれるの?

四分位範囲は、データの散らばり具合を教えてくれます。

四分位範囲が大きい場合

データが広く散らばっている
→ バラツキが大きい

四分位範囲が小さい場合

データが密集している
→ バラツキが小さい

クラス比較の例

2つのクラスのテストの点数を比較してみましょう。

クラスA:
50, 60, 65, 70, 75, 80, 85, 90, 95, 100

  • Q1 = 62.5
  • Q3 = 87.5
  • IQR = 25

クラスB:
20, 40, 50, 60, 70, 80, 90, 95, 98, 100

  • Q1 = 45
  • Q3 = 92.5
  • IQR = 47.5

クラスBの方が四分位範囲が大きいので、クラスBの方が点数のバラツキが大きいとわかります。

クラスAは比較的均一に得点が分布しているのに対し、クラスBは低得点者と高得点者の差が大きいと解釈できます。

四分位範囲と箱ひげ図

四分位範囲は、箱ひげ図(はこひげず)という図と密接に関連しています。

箱ひげ図とは?

箱ひげ図は、データの分布を視覚的に表すグラフです。

    |                      
    |     [====箱====]   ―ひげ―
    |―ひげ―  |      |          |
    |        Q1    Q2    Q3   最大値
  最小値           (中央値)

箱ひげ図の構成要素:

  • : Q1からQ3までの範囲(=四分位範囲!)
  • 箱の中の線: 中央値(Q2)
  • ひげ: 最小値と最大値まで伸びる線

箱の部分が四分位範囲

箱ひげ図の「箱」の部分が、そのまま四分位範囲を表しています。

つまり、箱が大きい = 四分位範囲が大きい = データのバラツキが大きいということです。

四分位範囲と標準偏差の違い

データのばらつきを表す指標には、四分位範囲のほかに標準偏差もあります。この2つは何が違うのでしょうか?

標準偏差

  • すべてのデータを使って計算する
  • 平均からの距離を基準にする
  • 正規分布のデータに最適
  • 外れ値の影響を受けやすい

四分位範囲

  • データの中央50%だけを使う
  • パーセンタイルを基準にする
  • どんな分布でも使える
  • 外れ値の影響を受けにくい

どちらを使うべき?

正規分布(左右対称の釣鐘型)のデータ:
→ 標準偏差が便利

偏った分布や外れ値があるデータ:
→ 四分位範囲が適している

四分位範囲を使った外れ値の検出

四分位範囲の重要な応用として、外れ値(アウトライア)の検出があります。

外れ値とは?

外れ値とは、他のデータから極端に離れた値のことです。

例: 1, 2, 3, 4, 5, 100
→ 100は明らかに外れ値

IQR法による外れ値の判定

一般的に、以下の範囲を超える値を外れ値とみなします。

下限: Q1 – 1.5 × IQR
上限: Q3 + 1.5 × IQR

この範囲の外にあるデータが外れ値です。

具体例

以下のデータで外れ値を見つけてみましょう。

データ: 10, 12, 14, 15, 16, 17, 18, 19, 20, 50

計算:

  • Q1 = 13(25%点の位置)
  • Q3 = 19(75%点の位置)
  • IQR = 19 – 13 = 6

外れ値の範囲:

  • 下限 = 13 – 1.5 × 6 = 13 – 9 = 4
  • 上限 = 19 + 1.5 × 6 = 19 + 9 = 28

結果:
50は28を超えているので、50は外れ値と判定されます。

なぜ「1.5」なのか?

「1.5 × IQR」という基準は、正規分布を前提とした場合に適切な範囲を設定するためです。

この基準を使うと、正規分布のデータでは約99.3%のデータが範囲内に収まります。つまり、本当に極端な値(全体の0.7%程度)だけを外れ値として検出できるのです。

極端な外れ値の判定

さらに極端な外れ値を見つけたい場合は、3 × IQRを使うこともあります。

極端な外れ値の範囲:

  • 下限 = Q1 – 3 × IQR
  • 上限 = Q3 + 3 × IQR

四分位範囲の利点

四分位範囲には、いくつかの大きな利点があります。

1. 外れ値に強い(ロバスト性)

四分位範囲は、データの中央50%だけを使うため、極端な値があっても影響を受けません。

例:
元のデータ: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
IQR = 6.5 – 3.5 = 3

外れ値追加: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000
IQR = 7 – 3.5 = 3.5(ほとんど変化なし!)

一方、標準偏差は1000の影響で大きく変わってしまいます。

2. シンプルで理解しやすい

計算が簡単で、「真ん中50%の広がり」という直感的な意味を持っています。

3. どんな分布にも使える

正規分布でなくても、偏った分布でも使えます。

四分位範囲の実用例

四分位範囲は様々な場面で活用されています。

医療・健康

  • 患者の検査値の正常範囲を定義する
  • 治療効果のばらつきを評価する

ビジネス

  • 売上データの安定性を評価する
  • 給与の分布を分析する
  • 顧客の購買金額のばらつきを見る

教育

  • テストの点数の散らばりを評価する
  • クラス間の成績のばらつきを比較する

品質管理

  • 製品の品質のばらつきを監視する
  • 異常な製品(外れ値)を検出する

データ分析・機械学習

  • データの前処理で外れ値を除去する
  • 特徴量のスケールを理解する

四分位範囲の注意点

四分位範囲を使う際の注意点もあります。

1. データの端の情報が失われる

四分位範囲は中央50%だけを見るため、両端25%ずつの情報は含まれません。

データの全体像を把握したい場合は、範囲(最大値 – 最小値)や標準偏差も併せて確認すると良いでしょう。

2. 四分位数の計算方法が複数ある

厳密には、四分位数の計算方法には複数の定義があります。

ソフトウェアや統計ツールによって微妙に異なる結果が出ることがありますが、実用上はほとんど問題ありません。

3. サンプルサイズが小さいと不安定

データが少ない場合、四分位範囲は不安定になることがあります。

最低でも10〜20個以上のデータがあると良いでしょう。

5数要約

四分位範囲と関連する概念として、5数要約があります。

5数要約とは、以下の5つの値でデータを要約する方法です。

  1. 最小値
  2. 第1四分位数(Q1)
  3. 中央値(Q2)
  4. 第3四分位数(Q3)
  5. 最大値

この5つの値があれば、データの分布をかなり把握できます。そして、箱ひげ図はこの5数要約を視覚化したものなのです。

論文での記載方法

研究論文などで四分位範囲を使う場合、以下のように記載します。

記載例:
年齢: 45歳(IQR 38-52)

これは、中央値が45歳で、第1四分位数が38歳、第3四分位数が52歳であることを示しています。

括弧内は(Q1-Q3)の形式で、四分位範囲を表しています。

まとめ

四分位範囲(IQR)は、データの散らばり具合を示す重要な統計指標です。

四分位範囲の重要ポイント:

  • IQR = Q3 – Q1(第3四分位数 – 第1四分位数)
  • データの中央50%の広がりを表す
  • 外れ値の影響を受けにくい
  • 箱ひげ図の「箱」の部分がIQR
  • 外れ値の検出に使える(1.5 × IQR法)
  • どんな分布のデータにも使える

使い分けのヒント:

  • 正規分布のデータ: 標準偏差が便利
  • 偏ったデータや外れ値がある: 四分位範囲が適切
  • データ全体を把握したい: 5数要約や箱ひげ図を活用

データ分析では、平均値や標準偏差だけでなく、四分位範囲も活用することで、データの特性をより深く理解できます。特に、外れ値の影響を避けたい場合や、データが正規分布していない場合には、四分位範囲が非常に役立つ指標となります。

統計を学ぶときは、複数の指標を組み合わせて使うことで、データを多角的に評価できることを覚えておきましょう!

コメント

タイトルとURLをコピーしました