読者です 読者をやめる 読者になる 読者になる

焦点

でっかいことに焦点を

【リブロジ031】2.5 軸の取り方について

理系が文系に伝えるロジック、の略ですね。

りぶろじ。

 

主に仕事でロジックを活用していこうと。

おまけで私生活にも役立つこと間違いなし。

 

さて、世間はお盆休みが過ぎたあたりですかね。

今年の夏季休暇はいわゆるディープラーニングで画像認識プログラムを作ろうとしてぼちぼち遊んでみました。

現在のところインストールと画像の入出力にやっと至ったところで、もう一息、といいたいところではあるけれど、、、。

ともあれ、久しぶりにがっつりターミナルで遊ぶのは面白いですね。

 

ということで今日のテーマ。

「軸の取り方」について。

先週、散布図とヒストグラムの説明をしました。

 

kohei327.hatenablog.com

 

ここで軸の取り方について

注意しておくべき項目がいくつかあるので

さらっとまとめを。

 

基本的には他人のグラフに対する確認項目です。

①最も感度がいい値を軸に取っているか 

②軸の選択に恣意性はないか

区間の選択は正しいか(ヒストグラム

④軸の始まりと終わりを確認する(ゼロ点はどこ?)

おまけ:軸に単位は書き込んであるか

 

では一つずつ。

①最も感度がいい値を軸に取っているか 

いきなりですが、グラフ化って世の中に無限にあるデータから

2種類の値を抜き出して図示すること(2次元の場合ね)。

見たい変化を縦軸に、その変化の特質を最も表す値を横軸に。

その選択が適切にできているか。

 

例えば、縦軸を身長に取った場合、横軸として

・年齢

・年代

・体重

・地域 

・人種

・栄養状態

・スポーツの競技

など色々考えられます(上3つは散布図、下4つはヒストグラムかな)。

知りたい変化に対し、適切な横軸を取っているか。

 

自分でグラフを作る場合は、多少試行錯誤が必要です。

試行錯誤の前には、仮説が必要。

仮説無しに試行錯誤すると時間がいくらあっても足りない上、二度手間になることが多い。

 

②軸の選択に恣意性はないか

①で変化がわかりやすい軸を選んでいるか、の確認をしました。

ここで注意なのが、確かに変化はでているけど、

欲しい結果を導くために恣意的に軸を選んでいないかという観点。

 

ここで、因果関係と相関関係ってのがあって、

【因果関係】何かの要因Aが真の原因となり、結果Bがでてくる。

【相関関係】要因Cがあって結果Dが出てきているけど、真の原因Eが隠れている。

・因果関係の例:道が狭く曲がり角が多く見通しが悪い(A)と事故が増える(B)

・相関関係の例:事故注意の看板が多い(C)と事故が増える(D)。これは真の原因(E、今回はAなど)が隠れている。

 

後者の例でも看板の数を調べて横軸に、事故の数を縦軸に取ると

右上がりの線が(おそらく)得られて関係あり!となっちゃうけど、

看板が多いことは本当の要因ではない(はず)。

 

相関関係と因果関係の区別をちゃんとしよう、

それがグラフの場合には「恣意的に軸を選んでいないか」という確認事項になります。

 

区間の選択は正しいか(ヒストグラム

ヒストグラムって危険な面もあり、

階級幅の取り方で見え方、強いては判断が変わってくる。

 

ちょっと極端な例を見つけたのでリンクさせていただきます。

2-3. 階級幅の決め方 | 統計学の時間 | 統計WEB

ここまで極端だと誰でもすぐ分かるけど、

上手にやると結論を好きな方に導くことも可能です

(刃物みたいなもの、有用な使い方も危ない使い方も使用者次第)。

 

本当に確認するなら自分でデータをいじってみる必要がありますが、

目安として、棒の数をデータ数のルート(n=50なら7、n=100なら10)程度にするといいと言われています。

ここから大幅に逸脱していると注意、というのを基本的な判断にしてみてください。

 

④軸の始まりと終わりを確認する(ゼロ点はどこ?)

新聞とかでもあるけど、軸を途中で省略するパターン。

縦軸が年収の場合、軸の値を

 例1:0、100万、200万、、、

 例2:0|600万、700万、、、

としてみると、例1に比べ例2は、スペース節約できる反面全体の年収が低めに見える。

 

人の感覚って結構簡単に印象操作されるので、

軸を途中で省略しているときは注意。

 

また逆に、意図的に上の方をカットすることもできちゃうので、

軸の始まりと終わりは必ず確認が必要。

 

おまけ:軸に単位は書き込んであるか

これは自分で作るとき。

たまに単位を忘れるときがあるけど、

自分でもわからなくなるので注意しましょう

(円なのか千円なのか万円なのか億円なのか、、、)。

 

ざざっといったけど、

要はグラフって人の視覚で判断するツール。

変化を見出すために色々加工が必要だけど、

意図的に印象操作されないように数字に注意していこう、

そういったお話でした。

 

ということで宿題!

1.ヒストグラムで棒の数はどの程度にするのが目安?(③の復習ですね)

2.下記サイトのグラフから3つ選んで感想を教えて下さい

だまされない!テレビ・ネットの印象操作グラフ10事例 - NAVER まとめ

↑には解説があるけど、

解説がなくても変な(恣意的な)グラフを見たときに

自分で判断できるようになろう!

 

 

ほな!