平均が「嘘をつく」とき——中央値・最頻値との使い分け方

雑学・教養
スポンサーリンク
スポンサーリンク

「この業界の平均年収は700万円」という数字を見て、なんとなく「みんな700万円前後」のイメージを持ったことはないでしょうか。ところが実際には、少数の高所得者がその数字を大きく押し上げているだけで、多くの人は500万円台という例も珍しくありません。

平均・中央値・最頻値はいずれも「データを一言で表す代表値」ですが、それぞれが映し出す現実は異なります。どの値を見るかで、同じデータから正反対の印象を受けることがあるのです。

平均・中央値・最頻値 早見表

代表値計算方法外れ値の影響向いているデータ
平均値合計 ÷ 個数大きく受ける外れ値が少ない均一なデータ
中央値並べて真ん中の値ほぼ受けない年収・資産・価格など偏りがあるデータ
最頻値最も多く出る値受けないサイズ・得点など「山」を読みたいデータ

3つの代表値と「ズレる理由」

平均値が外れ値に引っ張られる仕組み

平均値(mean)は、すべての値を足して個数で割った値です。計算しやすく直感的なため、統計でもっとも頻繁に使われています。ただし、極端に大きい値や小さい値(外れ値)が1つ混ざると、その影響を強く受けます。

5人の年収が「400万・450万・500万・550万・1,500万」だった場合、合計は3,400万円なので平均は680万円です。しかし中央値(3番目の人)は500万円。たった1人の外れ値が平均を180万円も押し上げています。

グラフの赤い破線が平均(680万円)、緑の破線が中央値(500万円)です。Eさんの外れ値が平均を大きく引き上げているのが一目でわかります。

中央値が「実態に近い」理由

中央値(median)は、値を小さい順に並べたとき中央に来る値です。外れ値がどれだけ極端でも、順位が変わらなければ中央値は動きません。年収や資産のように分布が右に偏りやすいデータでは、中央値のほうが多くの人が属する帯域を正確に示します。

国税庁や厚生労働省の統計でも、平均値と中央値の両方を掲載しているケースが増えています。この2つが大きく離れているほど、データに偏りがあることのサインです。

最頻値が「多数派」を見つける

最頻値(mode)は、もっとも多く出現する値です。「クラス全体でいちばん多い点数は何点か」「売れ筋のサイズはどれか」を知りたいときに力を発揮します。年収のように1円単位でバラける連続データでは定まりにくいこともありますが、「500万円台」「600万円台」のように区間に区切って集計するのが一般的です。

実際のデータで確かめる

年収データ——外れ値が平均を歪める例

「300万・350万・400万・450万・2,000万」という5人のデータで比べると、平均700万円・中央値400万円という差が生まれます。しかし「この業界は高収入だ」という判断は早計です。最頻値はすべて1回ずつのため「なし」で、データが少ない場合に最頻値が定まらないことも多い点は注意が必要です。

テストの点数——3つが一致するとき

「60・70・70・70・80」という5人の点数では、平均70点・中央値70点・最頻値70点と3つが揃います。バラつきが少なく均一なデータでは、どの代表値を使っても実態と大きくズレません。逆に「3つの値が大きく違う」ときこそ、データに偏りや外れ値がある証拠です。

どこで使うべきか——場面別の選び方

ビジネス・社会統計では中央値を基準に

購買者の所得分布・社員の給与・物件価格など「上位に大きな値が偏りやすい」データには中央値が有効です。平均だけ見ると実態より楽観的な判断になりがちで、意思決定や価格設定の根拠には向きません。

マーケティング・在庫管理では最頻値で「山」を探す

「Mサイズが最も売れている」「70点台が最多」のように需要の山を知りたいときは最頻値が直感に合います。在庫の優先順位や広告の訴求対象を絞るとき、最頻値は現場感覚に近い答えを出してくれます。

ニュースの「平均」を疑う視点

「平均所得が上昇」という見出しを見たとき、それが本当に多くの人の生活が豊かになったことを示しているのか、一部の高所得者層が押し上げているだけなのか——中央値と一緒に確認しないとわかりません。報道では平均値だけが取り上げられることが多いのですが、「中央値はいくらか」「最頻値(最も多い層)はどこか」を探す習慣が、数字に振り回されないリテラシーになります。

3つの代表値は「どれが正しいか」ではなく「何を知りたいかで選ぶ」ものです。目的に応じて使い分ける視点を持つだけで、同じデータから見える景色が大きく変わります。