読者です 読者をやめる 読者になる 読者になる

焦点

でっかいことに焦点を

【リブロジ030】2.4 散布図とヒストグラム

理系が文系に伝える実践的ロジック。

ロジックを活用して

業務のアウトプットを

チームで極大化しよう、というコンセプト。

 

今回は、「散布図とヒストグラム」です。

今回の話が分かると、

前回の平均値と中央値の話がさらに腑に落ちる、

数量データを得たときにグラフにせざるを得なくなる、

その結果正しい判断に繋がりやすくなる という効能があります!(あるよ!)

 

ということで。 まずは散布図から。

 

散布図とは横軸と縦軸を用意してそれぞれの点のデータをグラフ上に示した図。

散布図に図示する目的は

・データの概略の把握、

・ミスの有り無しの確認、

・着目すべき特異点の発見、

などなどです。

 

例えば横軸に年齢、縦軸に身長を取って、

各個人のデータをプロットしていったもの。

 

f:id:kohei327:20160812083807j:plain

 

こんなの! データは超適当です。

年齢が上がっていくと身長は伸びていき、 あるところから横ばい。

そらそうですね、というデータです。

 

ここでもし 赤に塗ったような点(外れ値と呼んだりします)が入ってたら、

f:id:kohei327:20160812083856j:plain

 

 

・何かの間違いか?

・それとも着目すべき特異点か?

ということに気づき(やすくなり)ます。

 

これが数字の表だとなかなか気づかない。

人間の感覚って大事。

この外れ値に気づかず平均値を出したり、

標準偏差(次回以降にやりましょう)を出すと、

判断を誤ってしまいます。

 

中央値は外れ値の影響を受けにくいからいいんやけどね

(例えば間違えて身長2000cmが入ってた場合の平均値と中央値を考えてみて下さい^^)

 

ということで、「まずは散布図にする!」ということが1点目。

 

もう一つのヒストグラム

今度はn=20(サンプル数20)で年収のデータを取ったとして(こちらも適当です)、

 

f:id:kohei327:20160812083909j:plain

 

こんなの。

 

縦軸がn数(何人いたか)、

横軸が区間です。

 

先の散布図はそれぞれのデータを直接プロット。

このヒストグラムはある区間幅を用意して、

その幅にあるサンプルがいくつか?という表し方です。

 

これは前回の通り右側にずーっと伸びていきますね。

 

同じヒストグラムも、例えば20代男性の身長にすると、きっと下記のようになります。

 

f:id:kohei327:20160812083926j:plain

 

中央が一番数が多く、左右均等に分布する。

こうなると、平均値と中央値が同じになります。

一般的に(上記はn数が少ないけど)ランダムに分布しているものは

サンプル数を増やしていくと、「正規分布」という分布に近づいていくと言われています。

 

その仮定を元にして出したのがお受験で出てくる「偏差値」ですね。

この話は次回にしましょうか。

ちょっとヘビー。

 

ということで2点目は、データの分布を知るために、

特に平均値の信憑性を確認するためには、

ヒストグラムも有効です。

 

あ、外れ値の確認にももちろん使えます。

最後のグラフで身長2000cmが混じっちゃってたらすごい右に1つだけ出てくるからね。

ありえない。

でも表だと(特にてんぱってるときは)見逃しちゃうので、

【忙しい時ほどグラフ化!】

【まずは散布図とヒストグラム!】

の二つが今回の結論、です。

 

かなり駆け足になっちゃってるけど伝わったかな?

 

とりあえず宿題!

1.散布図とヒストグラムの例をネットから探してみて下さい

2.それらについて、平均値と中央値が同じになるかどうか判断してみて下さい

 

 

以上、よろしくです!