【統計】箱ひげ図とは何か?試される想像力

統計

箱ひげ図とは

箱ひげ図は、データの散らばりを「視覚的」に把握するための図です。

その名の通り、「箱 ( 四角形 )」と「ひげ ( 直線 )」から成ります。
 

データの散らばりは、分散、標準偏差、四分位数などの数値で表されますが、

箱ひげ図で視覚化するのは、「四分位数」で表される散らばりになります。
 

四分位数を理解していないと、箱ひげ図は理解できないので、

まずは、四分位数を理解するようにしてください。

箱ひげ図が示すもの

箱ひげ図は、以下のものを示すことができます。

最大値、最小値
第1四分位数、中央値、第3四分位数
外れ値 ( 他の値から大きく外れた値 )

こちらが基本の形になります。( 上図 )
 

箱ひげ図は、いくつかの書き方がありますが、

広く利用されているのは、四分位範囲の1.5倍の値を利用した、

外れ値を示す箱ひげ図です。( 下図:最小値の〇が外れ値 )

こちらの箱ひげ図では、ひげの長さが短くなり、

ひげの外側にあるデータは、「〇」で表すようになります。
 

ひげの長さの決め方( 下端 )

まず、四分位範囲(図における値:2)の1.5倍(3)の値の分、
第1四分位数(5)から下に移動(2)し、
その間(5~2)で一番小さいデータ(2.5)がひげの下端になります。 

 
ひげの長さの決め方( 上端 )

四分位範囲(2)の1.5倍(3)の値の分、
第3四分位数(7)から上に移動(10)し、
その間(7~10)で一番大きいデータ(8.5)がひげの上端になります。

下端と上端より外にあるデータは、すべて「〇」で表され、外れ値とされます。

試される想像力

ここからは、箱ひげ図のイメージを掴むための説明です。

最後に注意書きをしていますが、あくまでイメージのための話です。

一番左は、真横からヒストグラムだと思ってください。

いつも見ているような、ヒストグラムです。

このヒストグラムを上から覗いたような図が、箱ひげ図になります。

 
四分位数の特徴より、

最小値から第1四分位数、第1四分位数から中央値、

中央値から第3四分位数、第3四分位数から最大値のデータの個数は同じです。
 

データの数が同じなのに、間隔が狭いということは、

分布が急激に上がっている (または下がっている)ことを表し、

逆に、間隔が広いということは、ゆるやかに変化していると言えます。

また、そもそもは散らばりを表現する図なので、

そのことも忘れてはいけません。

【注意】
箱ひげ図は、必ずしも山が1つの分布を表しているとは限りません。
山が2つ以上の分布を表していることもあります。

ただ、箱ひげ図は、山が1つの分布を表すときに有効であり、
2つ以上の特殊な分布では、十分な情報の集約ができないため、
イメージとして、1つ山を使うのは、大きく間違っていないと思います。

まとめ

箱ひげ図は、データの散らばりを「視覚的」に把握するための図です。

「四分位数」で表される散らばりを表現するため、

四分位数を理解しなければ、箱ひげ図の理解はできません。
 

箱ひげ図は、最大値、最小値、第1四分位数、中央値、第3四分位数、

外れ値 ( 他の値から大きく外れた値 )を表現することができます。

 

統計
株牧場へ1億円の投資を目指す物語

コメント

タイトルとURLをコピーしました