中央値ってどんな値?
中央値とは、データを小さい順に並べたときに、ちょうど真ん中にくる値のことを指しています。
例えば、下記のように5人の年収のデータがあるとします。
この場合の中央値は、400万円となります。
ちなみに、人数が偶数だった場合は、真ん中の2つの値を足して2で割ります。
例えば、下記のように6人の年収のデータがあるとします。
この場合の中央値は、450万円となります。
このように、中央値も平均値と同じく、データ全体の様子を1つの数値で表した、いわゆる「統計量」の一種なのです。
(「統計量」の中でも、「要約統計量」や「代表値」と呼ばれます。)
年収では、なぜ中央値を使うのか
年収で中央値が使われる理由は、中央値と平均値に次のような特徴があるからです。
・中央値・・・外れ値に強い (影響を受けにくい)
・平均値・・・外れ値に弱い (影響を受けやすい)
※外れ値とは、超珍しいレアな値で、普通じゃない値のことです。
例えば、下記のように5人の年収のデータがあるとします。
中央値は最初の例示から変わらず、400万円ですが、
平均値については、2080万円です。
このように、平均値は、外れ値の影響を受けます。
みなさんが知りたい年収は、普通の人たちの年収であり、ごく一部の特殊な年収 (外れ値) は考慮してほしくありませんよね?
従って、年収の基準を算出するときには、中央値が使われてます。
【補足】
年収に関しては、高い方にだけ外れ値があり、低い方にはありません。
「年間の収入」なので、どんなに低い年収でも、0円を下回ることがないからです。
なので、年収の平均値は高い方の外れ値の影響を受けて、中央値よりも高く算出される傾向にあります。
中央値と平均値が近い値なら平均値を使うのが無難
算出方法が異なる中央値と平均値ですが、2つの値が近い値となるデータ群もあります。
それは、平均値を基準にして、低い方にも高い方にも、同程度の個数が同程度の範囲に散らばっているようなデータです。
例えば、成人男性の身長は、だいたいみんな150cm~200cmの範囲であり、5mmや50mなんて人はいません。そして、平均値より高い人も低い人も、同程度の人数がいることは、イメージできると思います。
このような時は、中央値と平均値は近い値になりますので、どちらを使っても大丈夫でしょう。
ただし、どちらを使っても大丈夫なのであれば、平均値を使うことをおすすめします。
その理由は、下記の2点です。
・平均値は、みんなが知ってる統計量であるため。
・平均値は、データ全体を参照した値であるため。
最終的には、データから抽出したい情報がなんなのかにも依存しますが、上記の身長の例のように、外れ値がなく、中央値のメリットが活かせないようなデータなら、すべての値を参照している平均値を使いましょう。
まとめ
ここまでの話のまとめです。
外れ値を無視してランキング中位に着目したいときは中央値、データ全体の値を参照したいときは平均値を使いましょう。
自分の年収を比較する基準を調べたいときに、大富豪の年収なんて考慮されてたら困りますよね…笑 知りたいのは普通の人たちの年収なので、こういう場合には、中央値を参考にしましょう。
コメント