データ分析が上手くいかない原因 その②
データ分析が上手く行かない場合、要因として4つの切り口があります。
1.何のためにやるかが曖昧
2.データが不十分で分析のしようがない
3.データは充分にあるが分析自体が上手くない
4.分析はちゃんとできているものの、そのレポート(資料作成and/or口頭での報告)が上手くない
今回は2.の説明をします。
現場で相談を受けて一番多いのはこのパターンですね。。
不十分には複数の角度があり、それを大きく分けると
① 量が足りない
② 質が足りない
になります。
量が足りないについては、
①-1 種類が足りない
①-2 種類の中の数が足りない
と分解できます。
例えるなら、家庭においてどのような料理が作られているか調べるというお題があった場合に、①-1は、1人暮らしの家庭ばかりを調べてしまっているパターン。全体像を捉えようと思ったら、性別、世帯数、所得、地域、職業など、できる限り幅広く抑えたほうがより全体像に近いデータが得られますね。
①-2は、幅広くしているけど、1つの種類ごとのデータが少なすぎるパターン。何が課題かというと、上記の例で続ければ、もし測定データがたまたま変な家庭だったり、普通の家庭でも測定ミス(ヒアリング結果の転記ミスなど)があった場合、そこに引きずられてしまい、全体の判断を誤る危険性がある点。種類ごとに、3つ以上(2つだと、どちらがおかしいか判断つきづらい)の点は確保した方が望ましい。ただし、機械学習のように大量にデータを取る場合は、種類さえ確保していれば、1つの種類内のデータは1点でも全体像に影響を与えないことも多いので、頭の片隅においておくと良いかもしれません。
質が足りないについては、
②-1 測定データが絡み合ってしまっている(独立性が無い)
②-2 偏りが大きい
②-3 ばらつきが大きい
②-4 正規分布に従わない
②-5 データの抜けが多すぎる
と分解できます。
ちょっと細かくなっているので、やらねばならぬことという軸でいえば、できる限りちらして測定するという点に集約されます。
ということで、これらを満たすように実験計画を「実験の前に」組むことが理想です。
というか、それをやっておかないと、結局データ不足で再実験になったら被害は甚大、最悪、開発期間2倍、コスト2倍にもなりえます。
それを対応するために色々と対応もあるのですが、まずは、できるだけ幅広い視点で実験計画を組んでみて、それからデータを取得し、その上でデータ分析に進みましょう!