四分位範囲(しぶんいはんい)は、データの散らばり具合を示す統計指標の1つです。英語では「Interquartile Range」といい、IQRと略されます。
簡単に言うと、データの真ん中50%がどれくらい広がっているかを表す数値です。
例えば、あるクラスの数学のテストの点数が以下のようだったとします。
30点、45点、60点、65点、70点、75点、80点、85点、90点、95点
この場合、真ん中の50%のデータ(60点〜85点)の広がりが四分位範囲になります。
まずは「四分位数」を理解しよう

四分位範囲を理解するには、まず四分位数(しぶんいすう)を知る必要があります。
四分位数とは?
四分位数とは、データを小さい順に並べて、4等分する3つの区切り値のことです。
データを小さい順に並べたとき:
- 第1四分位数(Q1): 25%の位置にある値
- 第2四分位数(Q2): 50%の位置にある値(=中央値)
- 第3四分位数(Q3): 75%の位置にある値
この3つの値があることで、データ全体を以下の4つの領域に分けることができます。
[最小値]―[Q1]―[Q2]―[Q3]―[最大値]
25% 25% 25% 25%
各領域には、データ全体の約25%ずつが含まれます。
具体例で確認しよう
10人の生徒のテストの点数を見てみましょう。
データ: 50, 55, 60, 65, 70, 75, 80, 85, 90, 95
ステップ1: データを小さい順に並べる
(すでに並んでいます)
ステップ2: 中央値(Q2)を求める
10個のデータなので、5番目と6番目の平均
Q2 = (70 + 75) ÷ 2 = 72.5
ステップ3: 第1四分位数(Q1)を求める
1番目から5番目までの中央値
Q1 = (55 + 60) ÷ 2 = 57.5
ステップ4: 第3四分位数(Q3)を求める
6番目から10番目までの中央値
Q3 = (85 + 90) ÷ 2 = 87.5
四分位範囲の計算方法
四分位範囲は、とてもシンプルな計算で求められます。
四分位範囲の計算式
四分位範囲(IQR) = Q3 - Q1
第3四分位数から第1四分位数を引くだけです!
さっきの例で計算してみよう
Q1 = 57.5
Q3 = 87.5
四分位範囲(IQR) = 87.5 – 57.5 = 30
つまり、このクラスのテストの点数は、真ん中50%の範囲が30点分広がっているということになります。
四分位範囲は何を教えてくれるの?
四分位範囲は、データの散らばり具合を教えてくれます。
四分位範囲が大きい場合
データが広く散らばっている
→ バラツキが大きい
四分位範囲が小さい場合
データが密集している
→ バラツキが小さい
クラス比較の例
2つのクラスのテストの点数を比較してみましょう。
クラスA:
50, 60, 65, 70, 75, 80, 85, 90, 95, 100
- Q1 = 62.5
- Q3 = 87.5
- IQR = 25
クラスB:
20, 40, 50, 60, 70, 80, 90, 95, 98, 100
- Q1 = 45
- Q3 = 92.5
- IQR = 47.5
クラスBの方が四分位範囲が大きいので、クラスBの方が点数のバラツキが大きいとわかります。
クラスAは比較的均一に得点が分布しているのに対し、クラスBは低得点者と高得点者の差が大きいと解釈できます。
四分位範囲と箱ひげ図
四分位範囲は、箱ひげ図(はこひげず)という図と密接に関連しています。
箱ひげ図とは?
箱ひげ図は、データの分布を視覚的に表すグラフです。
|
| [====箱====] ―ひげ―
|―ひげ― | | |
| Q1 Q2 Q3 最大値
最小値 (中央値)
箱ひげ図の構成要素:
- 箱: Q1からQ3までの範囲(=四分位範囲!)
- 箱の中の線: 中央値(Q2)
- ひげ: 最小値と最大値まで伸びる線
箱の部分が四分位範囲
箱ひげ図の「箱」の部分が、そのまま四分位範囲を表しています。
つまり、箱が大きい = 四分位範囲が大きい = データのバラツキが大きいということです。
四分位範囲と標準偏差の違い
データのばらつきを表す指標には、四分位範囲のほかに標準偏差もあります。この2つは何が違うのでしょうか?
標準偏差
- すべてのデータを使って計算する
- 平均からの距離を基準にする
- 正規分布のデータに最適
- 外れ値の影響を受けやすい
四分位範囲
- データの中央50%だけを使う
- パーセンタイルを基準にする
- どんな分布でも使える
- 外れ値の影響を受けにくい
どちらを使うべき?
正規分布(左右対称の釣鐘型)のデータ:
→ 標準偏差が便利
偏った分布や外れ値があるデータ:
→ 四分位範囲が適している
四分位範囲を使った外れ値の検出
四分位範囲の重要な応用として、外れ値(アウトライア)の検出があります。
外れ値とは?
外れ値とは、他のデータから極端に離れた値のことです。
例: 1, 2, 3, 4, 5, 100
→ 100は明らかに外れ値
IQR法による外れ値の判定
一般的に、以下の範囲を超える値を外れ値とみなします。
下限: Q1 – 1.5 × IQR
上限: Q3 + 1.5 × IQR
この範囲の外にあるデータが外れ値です。
具体例
以下のデータで外れ値を見つけてみましょう。
データ: 10, 12, 14, 15, 16, 17, 18, 19, 20, 50
計算:
- Q1 = 13(25%点の位置)
- Q3 = 19(75%点の位置)
- IQR = 19 – 13 = 6
外れ値の範囲:
- 下限 = 13 – 1.5 × 6 = 13 – 9 = 4
- 上限 = 19 + 1.5 × 6 = 19 + 9 = 28
結果:
50は28を超えているので、50は外れ値と判定されます。
なぜ「1.5」なのか?
「1.5 × IQR」という基準は、正規分布を前提とした場合に適切な範囲を設定するためです。
この基準を使うと、正規分布のデータでは約99.3%のデータが範囲内に収まります。つまり、本当に極端な値(全体の0.7%程度)だけを外れ値として検出できるのです。
極端な外れ値の判定
さらに極端な外れ値を見つけたい場合は、3 × IQRを使うこともあります。
極端な外れ値の範囲:
- 下限 = Q1 – 3 × IQR
- 上限 = Q3 + 3 × IQR
四分位範囲の利点
四分位範囲には、いくつかの大きな利点があります。
1. 外れ値に強い(ロバスト性)
四分位範囲は、データの中央50%だけを使うため、極端な値があっても影響を受けません。
例:
元のデータ: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
IQR = 6.5 – 3.5 = 3
外れ値追加: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1000
IQR = 7 – 3.5 = 3.5(ほとんど変化なし!)
一方、標準偏差は1000の影響で大きく変わってしまいます。
2. シンプルで理解しやすい
計算が簡単で、「真ん中50%の広がり」という直感的な意味を持っています。
3. どんな分布にも使える
正規分布でなくても、偏った分布でも使えます。
四分位範囲の実用例
四分位範囲は様々な場面で活用されています。
医療・健康
- 患者の検査値の正常範囲を定義する
- 治療効果のばらつきを評価する
ビジネス
- 売上データの安定性を評価する
- 給与の分布を分析する
- 顧客の購買金額のばらつきを見る
教育
- テストの点数の散らばりを評価する
- クラス間の成績のばらつきを比較する
品質管理
- 製品の品質のばらつきを監視する
- 異常な製品(外れ値)を検出する
データ分析・機械学習
- データの前処理で外れ値を除去する
- 特徴量のスケールを理解する
四分位範囲の注意点
四分位範囲を使う際の注意点もあります。
1. データの端の情報が失われる
四分位範囲は中央50%だけを見るため、両端25%ずつの情報は含まれません。
データの全体像を把握したい場合は、範囲(最大値 – 最小値)や標準偏差も併せて確認すると良いでしょう。
2. 四分位数の計算方法が複数ある
厳密には、四分位数の計算方法には複数の定義があります。
ソフトウェアや統計ツールによって微妙に異なる結果が出ることがありますが、実用上はほとんど問題ありません。
3. サンプルサイズが小さいと不安定
データが少ない場合、四分位範囲は不安定になることがあります。
最低でも10〜20個以上のデータがあると良いでしょう。
5数要約
四分位範囲と関連する概念として、5数要約があります。
5数要約とは、以下の5つの値でデータを要約する方法です。
- 最小値
- 第1四分位数(Q1)
- 中央値(Q2)
- 第3四分位数(Q3)
- 最大値
この5つの値があれば、データの分布をかなり把握できます。そして、箱ひげ図はこの5数要約を視覚化したものなのです。
論文での記載方法
研究論文などで四分位範囲を使う場合、以下のように記載します。
記載例:
年齢: 45歳(IQR 38-52)
これは、中央値が45歳で、第1四分位数が38歳、第3四分位数が52歳であることを示しています。
括弧内は(Q1-Q3)の形式で、四分位範囲を表しています。
まとめ
四分位範囲(IQR)は、データの散らばり具合を示す重要な統計指標です。
四分位範囲の重要ポイント:
- IQR = Q3 – Q1(第3四分位数 – 第1四分位数)
- データの中央50%の広がりを表す
- 外れ値の影響を受けにくい
- 箱ひげ図の「箱」の部分がIQR
- 外れ値の検出に使える(1.5 × IQR法)
- どんな分布のデータにも使える
使い分けのヒント:
- 正規分布のデータ: 標準偏差が便利
- 偏ったデータや外れ値がある: 四分位範囲が適切
- データ全体を把握したい: 5数要約や箱ひげ図を活用
データ分析では、平均値や標準偏差だけでなく、四分位範囲も活用することで、データの特性をより深く理解できます。特に、外れ値の影響を避けたい場合や、データが正規分布していない場合には、四分位範囲が非常に役立つ指標となります。
統計を学ぶときは、複数の指標を組み合わせて使うことで、データを多角的に評価できることを覚えておきましょう!

コメント