【統計】中央値とは何か?平均値との違いについて解説!

統計
スポンサーリンク

ブログランキング・にほんブログ村へ

中央値ってどんな値?

中央値とは、データを小さい順に並べたときに、ちょうど真ん中にくる値のことを指しています。

例えば、下記のように5人の年収のデータがあるとします。

この場合の中央値は、400万円となります。

ちなみに、人数が偶数だった場合は、真ん中の2つの値を足して2で割ります。
例えば、下記のように6人の年収のデータがあるとします。

この場合の中央値は、450万円となります。

このように、中央値も平均値と同じく、データ全体の様子を1つの数値で表した、いわゆる「統計量」の一種なのです。
(「統計量」の中でも、「要約統計量」や「代表値」と呼ばれます。)

年収では、なぜ中央値を使うのか

年収で中央値が使われる理由は、中央値と平均値に次のような特徴があるからです。

 ・中央値・・・外れ値に強い (影響を受けにくい)
 ・平均値・・・外れ値に弱い (影響を受けやすい)

※外れ値とは、超珍しいレアな値で、普通じゃない値のことです。

例えば、下記のように5人の年収のデータがあるとします。

中央値は最初の例示から変わらず、400万円ですが、
平均値については、2080万円です。

このように、平均値は、外れ値の影響を受けます。

みなさんが知りたい年収は、普通の人たちの年収であり、ごく一部の特殊な年収 (外れ値) は考慮してほしくありませんよね?

従って、年収の基準を算出するときには、中央値が使われてます。

【補足】
年収に関しては、高い方にだけ外れ値があり、低い方にはありません。
「年間の収入」なので、どんなに低い年収でも、0円を下回ることがないからです。

なので、年収の平均値は高い方の外れ値の影響を受けて、中央値よりも高く算出される傾向にあります。

中央値と平均値が近い値なら平均値を使うのが無難

算出方法が異なる中央値と平均値ですが、2つの値が近い値となるデータ群もあります。

それは、平均値を基準にして、低い方にも高い方にも、同程度の個数が同程度の範囲に散らばっているようなデータです。

例えば、成人男性の身長は、だいたいみんな150cm~200cmの範囲であり、5mmや50mなんて人はいません。そして、平均値より高い人も低い人も、同程度の人数がいることは、イメージできると思います。

このような時は、中央値と平均値は近い値になりますので、どちらを使っても大丈夫でしょう。

ただし、どちらを使っても大丈夫なのであれば、平均値を使うことをおすすめします。
その理由は、下記の2点です。

 ・平均値は、みんなが知ってる統計量であるため。
 ・平均値は、データ全体を参照した値であるため。

最終的には、データから抽出したい情報がなんなのかにも依存しますが、上記の身長の例のように、外れ値がなく、中央値のメリットが活かせないようなデータなら、すべての値を参照している平均値を使いましょう。

まとめ

ここまでの話のまとめです。

外れ値を無視してランキング中位に着目したいときは中央値、データ全体の値を参照したいときは平均値を使いましょう。

自分の年収を比較する基準を調べたいときに、大富豪の年収なんて考慮されてたら困りますよね…笑 知りたいのは普通の人たちの年収なので、こういう場合には、中央値を参考にしましょう。

スポンサーリンク
スポンサーリンク

ブログランキング・にほんブログ村へ

統計

コメント