【リブロジ030】2.4 散布図とヒストグラム
理系が文系に伝える実践的ロジック。
ロジックを活用して
業務のアウトプットを
チームで極大化しよう、というコンセプト。
今回は、「散布図とヒストグラム」です。
今回の話が分かると、
前回の平均値と中央値の話がさらに腑に落ちる、
数量データを得たときにグラフにせざるを得なくなる、
その結果正しい判断に繋がりやすくなる という効能があります!(あるよ!)
ということで。 まずは散布図から。
散布図とは横軸と縦軸を用意してそれぞれの点のデータをグラフ上に示した図。
散布図に図示する目的は
・データの概略の把握、
・ミスの有り無しの確認、
・着目すべき特異点の発見、
などなどです。
例えば横軸に年齢、縦軸に身長を取って、
各個人のデータをプロットしていったもの。
こんなの! データは超適当です。
年齢が上がっていくと身長は伸びていき、 あるところから横ばい。
そらそうですね、というデータです。
ここでもし 赤に塗ったような点(外れ値と呼んだりします)が入ってたら、
・何かの間違いか?
・それとも着目すべき特異点か?
ということに気づき(やすくなり)ます。
これが数字の表だとなかなか気づかない。
人間の感覚って大事。
この外れ値に気づかず平均値を出したり、
標準偏差(次回以降にやりましょう)を出すと、
判断を誤ってしまいます。
中央値は外れ値の影響を受けにくいからいいんやけどね
(例えば間違えて身長2000cmが入ってた場合の平均値と中央値を考えてみて下さい^^)
ということで、「まずは散布図にする!」ということが1点目。
もう一つのヒストグラム。
今度はn=20(サンプル数20)で年収のデータを取ったとして(こちらも適当です)、
こんなの。
縦軸がn数(何人いたか)、
横軸が区間です。
先の散布図はそれぞれのデータを直接プロット。
その幅にあるサンプルがいくつか?という表し方です。
これは前回の通り右側にずーっと伸びていきますね。
同じヒストグラムも、例えば20代男性の身長にすると、きっと下記のようになります。
中央が一番数が多く、左右均等に分布する。
こうなると、平均値と中央値が同じになります。
一般的に(上記はn数が少ないけど)ランダムに分布しているものは
サンプル数を増やしていくと、「正規分布」という分布に近づいていくと言われています。
その仮定を元にして出したのがお受験で出てくる「偏差値」ですね。
この話は次回にしましょうか。
ちょっとヘビー。
ということで2点目は、データの分布を知るために、
特に平均値の信憑性を確認するためには、
ヒストグラムも有効です。
あ、外れ値の確認にももちろん使えます。
最後のグラフで身長2000cmが混じっちゃってたらすごい右に1つだけ出てくるからね。
ありえない。
でも表だと(特にてんぱってるときは)見逃しちゃうので、
【忙しい時ほどグラフ化!】
【まずは散布図とヒストグラム!】
の二つが今回の結論、です。
かなり駆け足になっちゃってるけど伝わったかな?
とりあえず宿題!
1.散布図とヒストグラムの例をネットから探してみて下さい
2.それらについて、平均値と中央値が同じになるかどうか判断してみて下さい
以上、よろしくです!