箱ひげ図とは
箱ひげ図は、データの散らばりを「視覚的」に把握するための図です。
その名の通り、「箱 ( 四角形 )」と「ひげ ( 直線 )」から成ります。
データの散らばりは、分散、標準偏差、四分位数などの数値で表されますが、
箱ひげ図で視覚化するのは、「四分位数」で表される散らばりになります。
四分位数を理解していないと、箱ひげ図は理解できないので、
まずは、四分位数を理解するようにしてください。
箱ひげ図が示すもの
箱ひげ図は、以下のものを示すことができます。
最大値、最小値
第1四分位数、中央値、第3四分位数
外れ値 ( 他の値から大きく外れた値 )
こちらが基本の形になります。( 上図 )
箱ひげ図は、いくつかの書き方がありますが、
広く利用されているのは、四分位範囲の1.5倍の値を利用した、
外れ値を示す箱ひげ図です。( 下図:最小値の〇が外れ値 )
こちらの箱ひげ図では、ひげの長さが短くなり、
ひげの外側にあるデータは、「〇」で表すようになります。
ひげの長さの決め方( 下端 )
まず、四分位範囲(図における値:2)の1.5倍(3)の値の分、
第1四分位数(5)から下に移動(2)し、
その間(5~2)で一番小さいデータ(2.5)がひげの下端になります。
ひげの長さの決め方( 上端 )
四分位範囲(2)の1.5倍(3)の値の分、
第3四分位数(7)から上に移動(10)し、
その間(7~10)で一番大きいデータ(8.5)がひげの上端になります。
下端と上端より外にあるデータは、すべて「〇」で表され、外れ値とされます。
試される想像力
ここからは、箱ひげ図のイメージを掴むための説明です。
最後に注意書きをしていますが、あくまでイメージのための話です。
一番左は、真横からヒストグラムだと思ってください。
いつも見ているような、ヒストグラムです。
このヒストグラムを上から覗いたような図が、箱ひげ図になります。
四分位数の特徴より、
最小値から第1四分位数、第1四分位数から中央値、
中央値から第3四分位数、第3四分位数から最大値のデータの個数は同じです。
データの数が同じなのに、間隔が狭いということは、
分布が急激に上がっている (または下がっている)ことを表し、
逆に、間隔が広いということは、ゆるやかに変化していると言えます。
また、そもそもは散らばりを表現する図なので、
そのことも忘れてはいけません。
【注意】
箱ひげ図は、必ずしも山が1つの分布を表しているとは限りません。
山が2つ以上の分布を表していることもあります。
ただ、箱ひげ図は、山が1つの分布を表すときに有効であり、
2つ以上の特殊な分布では、十分な情報の集約ができないため、
イメージとして、1つ山を使うのは、大きく間違っていないと思います。
まとめ
箱ひげ図は、データの散らばりを「視覚的」に把握するための図です。
「四分位数」で表される散らばりを表現するため、
四分位数を理解しなければ、箱ひげ図の理解はできません。
箱ひげ図は、最大値、最小値、第1四分位数、中央値、第3四分位数、
外れ値 ( 他の値から大きく外れた値 )を表現することができます。
コメント