わくわく計算ライフ

ドムプラをキメつづけるブログになりつつある。

うろ覚えの平均値/中央値

なんかちょくちょく出てくるので、正確なところが不安にならないように、整理しておきまっしょい。
どちらも概念的には「真ん中らへん」を意味しますが細かいところが結構違うので。

1. 平均値

定義は、

すべてのサンプルの値を合計し、それをサンプル総数で割ったもの

数式で書くと N個のサンプルの値がそれぞれ x_kである場合の平均値は

 \displaystyle avg = \frac{1}{N} \sum_{k=1}^N x_k

特徴としては、割り算があることから往々にて値は実数になります。
また、平均値ぴったりの人というのは案外居ません。

よく「一般的な年収の範囲を見るのに平均値を使うな!」ってオコな方が居ますが、値がめちゃくちゃでかい人(もしくは小さい)人が居るとその人が平均に対する寄与が大きくなってうまく真ん中らへんを表せないことが起きます。
具体的には、日本だと年収350万~400万ぐらいの人が多いのですが、中に超大企業の取締役や会社を何個も持っているような方だと30億とかの日ともいます。
30億もあると良くいる年収のレンジの人々のざっくり800倍から1000倍程度になってしまうので大分影響力デカいです。

ちなみに国税庁のところにおいてある統計は平均値を使っていますが「給与所得者の」平均となっています。
いわゆる給与で数億もらっている人は殆ど居ないので、概ね給与所得者でありボリュームゾーンであるサラリーマンの実態を図るのには良い値と言えそうです。
給与が3,000万ぐらいの人は金融業界だといたりしますが、さすがに億越えはあんまり給与所得者では居ないので、これだけでも「普通じゃない人」を計算の対象から除外しています。

平均値が良く使われるのは、物理現象とかとリンクしていること(重心とか)と計算が簡単というとこでしょうか。

2. 中央値

平均値と比べると一気にうろ覚え度が高くなる代表値。
文章でざっくり書くと「大きさの順で並べたときのちょうど真ん中の順位の値」なんですが

  • そもそも並べないと中央値がわからない
  • 簡単な数式で書けない
  • 実は2パターンある

と、微妙にメンドクサイのです。以下に説明していきます。

サンプル数 Nが奇数の場合 :
これは素直。ざっくりの文章の通り、大きい順(または小さい順)に並べて真ん中の順位のサンプルの値を取り出せば終わり。
N=5なら3番目、7なら4番目、  N=2n + 1 なら n番目の値を取ってくれば良い。
サンプルの中に必ず含まれる値であることが大きな特徴と言えるでしょう。

サンプル数 Nが偶数の場合 :
偶数のケースでは順位的に最も中央に近い2個のサンプルの値の平均値が中央値となります。
例えば、4個あった場合は並べ変えたあとの2番目と3番目の平均値となります。
中央に近い2個のサンプルの値が同一であるということが多いのですが、これが異なる場合。
例えば、1, 2, 3, 4と値があった場合は2と3の平均である2.5が中央値になり、これはサンプル中には存在しない値となります。
ちなみにこのケースの場合だけは「中央値を下回るのサンプルが半分を占める」こととなります。
中央値がサンプル中に存在する値である場合は、中央値と同じ値のサンプルが少なくとも2個存在することになるので中央値を下回るサンプルは必ず半分未満となります。  

整数のデータの集計に対して「中央値が整数なのはおかしい!」っていう人がたまにいますが、あの人たちは平均値と勘違いしているのではなくサンプル数が偶数かつ、たまたま中央に最も近い2つの値が違うケースをわざわざデータを並べて確認してくれている丁寧な人々なんですよ!(白目)

3. まとめ

語感だけで、結構適当に扱われている平均値/中央値(特に中央値)、うろ覚えだと明日刺されるのはあなたかもしれない(大げさ)。