こんにちは、フジボウルの根岸です。
世の中で平均◯◯という言葉はよく耳にしますね。
平均点、平均年収、平均年齢などなど。
これらは、「平均値」を用いて求められていると思いますが、似たよう言葉で「中央値」というものがあるのをご存知でしょうか。
今回は「平均値」、「中央値」の違いをその求め方から見ていきたいと思います。
例えば、以下のような数値データがあったとします
70,80,10,20,60,80,100
平均値は全ての数値を足して、その個数で割った値で
この場合は、
(70+80+10+20+60+80+100)/7 = 60
になります。
対して、中央値は数値データを昇順に並べた際の真ん中の値で
この場合は、数値データを昇順に並べて
10,20,60,70,80,80,100
その真ん中の値
70
になります。
この例ですと、データの個数が奇数なので真ん中の数値が1つに決まりますが、
もしデータ個数が偶数の場合は、真ん中の2つ数値の平均値が中央値になります。
例えば、70,80,10,20,60,80,100,100の場合、
数値データを昇順に並べて
10,20,60,70,80,80,90,100
真ん中の2つの数値の平均値
(70+80)/2 = 75
が中央値になります。
基本、色々な場面で平均値が用いられることが多いですが、
極端に大きな値が含まれている場合などは、中央値を用いた場合が良いときがあります。
「平均値」、「中央値」のようにデータ群の特徴を表すものを「代表値」と呼ぶそうです。
「代表値」には、他にも最もデータ数の多い値を指す「最頻値」というものもあり、
70,80,10,20,60,80,100の例で言うとデータ2つ存在する80が最頻値になります。
これらは、それぞれ内容を理解し状況に応じて使い分けていくことで、より求めたい統計値が得られそうですね。