【データサイエンティスト030】どこからせめていくか
2017年2月1日から、データサイエンティストでサービス化をめがけてのそっと活動をスタートしたブログ。
2月中にサービスは出なかったけれど、色々と本を読んだりサービスを使ってみたりして見えてくる世界が広がってはきた。
ということで今日は現時点の悩みと解決策を紹介して、これからやってみよう!という人の一歩目つまづきを解消できればいいな、ということで。
プロになると素人の困りごとが逆にわかりにくくなるしね(教えることのプロならわかるのかも?)
ということで。自分が困ったこと順にいこうか。
・データサイエンティストってそもそも何?
→多数の(エクセルでしんどいくらいの)データを解釈してビジネスの結果に反映できるスキルを持った人。スキルは統計やITのハード系とビジネスや人間関係のソフト系に分けられる。ソフト系?ってなるけど、結局ビジネスで結果を出すために何に困っているのか、どうなりたいのか、そのためにどれだけのリソースが使えるのか、そういったことを明らかにするためにはソフト系の技術がやっぱり必要になる。ただ、一人でハードからソフトまで全てを担える人材(イメージはYahoo!の村上執行役員みたいなひと?)はほぼ存在しないメタモン状態なのが現状のようで、各スキルそれぞれに特化した人材をチームとして組み合わせて業務でアウトプットに繋げようとしているみたい。
・なんでデータサイエンティストが騒がれているの?
→上につながるけど、たくさんのデータが簡単に取れるようになったから。iPhoneから始まるスマホは一つの転機だったと思う。iPhoneなんてセンサーの塊で光学、加速度、GPS、さらには気圧計まで入ってるし。そういったデータを目的をもって分析して定量的な判断材料に料理してあげる人が求められるようになってきた。ただ勝手に集まってきたデータをこねるより仮説をもってデータを集めた方が精度が高いという記述もみられるけど、これからPCで寄与度の高い項目を自動抽出できるようになるとただただデータを集めてくる方法もありになるのかな。まぁ集まってきたデータを予備分析としてスクリーニング程度に使って、ABスプリットテスト(ウェブで2種類の広告をランダムに表示して効果が出た方を採用する手法。実際はCDE、、とやってるんでしょうきっと)で本分析し方針決定するという手法が今のところは落とし所になるかな。
・データサイエンティスト、目指してみよう!まず何をすればいい?
→うーん、それは俺も悩み中。笑 ハード系スキルを身に付けるなら個人的には構造化プログラミングのPADがいいんやけど超下火。PADは、フローチャートみたいに(違うんやけど)プログラムを構造化して検討に使える上、フローチャートに比べ仕上がりがそのままプログラム言語に落としやすいので個人的に気に入ってるんやけどなぁ。なんでか盛り上がってない。ただオブジェクト思考になるとクラス図やアクティビティ図が上位概念として必要になるみたい。習うより慣れろ、の文化が(日本の?)プログラマーの少なくとも一部には流れている気配もする。
ハード系スキルで、PADの次はPythonかな。多分。統計好きなイカれ気味の人にはRが激おすすめ。凝った処理がいっぱい標準装備されている。ネットでも比較的情報があるし。ただPythonやRを自分でやろうとしても挫折するので(俺は挫折したので、か)、現時点でPythonに関してはUdemyの講座がいいかな。今まで悩んでたことが嘘のように解決してどんどん進んでいる。Rに関してはよくわからないけど、、、身近で好きな人を見つけるのが近道かな。まぁPythonでもUdemyには限らないけど、時間をショートカットするため、自力でごりごりにこだわらずいろんなサービスを活用していってみることをオススメしたい。
ソフト系スキルは難しいけどまずはロジックかな。MECEに分ける、的な。そして一般的な問題解決手法を息を吸って吐くように使えるべし。つって俺ができてるみたいに書いてすみません。この手の本はたくさんあるので自主学習した上で、実務でたたかれもまれて身に付けることもいいかと。ハード系スキルに比べるとソフト系スキルを持っている人の数は圧倒的に多いやろうし。
ということで今日はこの辺で。
時々自分の悩んでいることを書き下して残しておこうと思う。
【データサイエンティスト029】さて3月の目標
データサイエンティストにめがけて活動を続けているブログ。
2月は身辺雑記に等しいレベルだったので、今月は、読んでくれる人に実りのある内容にしたいなと思います。
知りたいことは何なのかしら。
自分が知りたいことを半月前の自分に分かるように書こうか。
キーワードをちゃんと残しておけば検索で引っかかるはずなので中身に注力しよう。
2月に書き出したものも含めて深堀したい内容を書き出す。
【Pythonを使って分析するサービスにしたい】
- 欠測値、異常値の可視化と修正
- トレンドの図示と把握
- 絶対量、変化率それぞれの観点から特徴的な項目を抽出。
【データサイエンティストというキーワードで??となる内容を分かりやすく説明したい】
やっぱり下の記事内容に戻るかな。
少し分かるようにはなったけど人に説明できるレベルにない。まず自分で理解してみる、理解を深めるために記事にする。
ということで今日も実りが無い記事を生んでしまった、、、。
やっぱり業務化しないと深まらないね。
今やりたいこと(機械設計)とこちらの両立をするためにどんな手段があるか。
色々と悩みながらまずは前に進んでいこう。
【データサイエンティスト028】2月振り返り
結局、サービス出せず、、、。
ということで。2月の頭からデータサイエンティストを切り口に活動してきたこのブログ。
下記の本を参考に色々と進めてきました。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
お勉強をいくらしてもよう分からんままなのでブログで定期的な(日課の)取り組みにしながらお勉強をしつつ、お勉強にとどまらずサービス化しようとしてきました。
結局挫折。
できたことできなかったことで一回振り返ってみる。
【できたこと】
- データサイエンティストの概要が分かってきた(気がする)
- Udemyを知ってPython練習をスタートできた(現在全講座のうち30%修了)
- Tableau(タブロー)を知ってトライアル版で完成度の高さをしった(やりたい分析は大体できる)
- 出したいサービスの案(データを入れると時系列とパイチャートにして出してくれるやつ(エクセルとの差別化は使いやすさ、時間削減、おしゃれさかな?)
【できなかったこと】
- サービス化
- プログラミングスキルを実務に
- そもそも何がしたいかを明確に仕切れていない(差別性)
ということで一旦区切りとします。
当面Udemy講座とTableauでイメージ作りに励みます。
しかしこのブログも読んで頂いている人に申し訳ないな。
もっと読む価値がある記事か、読んで楽しい記事にしたいところ。
自分としては毎日文章を書くことは一定の効果があるんじゃないかとは思えるけれども。
もっと難しい、本気の論文の文章を書かなくては。
大学を出てからちゃんとした文章を書いていない。
パラグラフを立ててまとまった内容を書くということを次にしてみようか。
3000字くらいで何らかの内容を深めてみる。このブログでしか読めない角度の内容にしたいね。 今ある程度分かる内容を書いてみて、どれかの掛け算で書いてみよう。
- データサイエンティスト系(超入門)
- ビジネスで使えるロジック(初中級?初級か。)
- 一般的な統計的手法(中級)
- 実験計画法(中~上級)
- タグチメソッド(中級)
- 瞑想
- 日本の歴史
- 空海
- 身体の使い方
- 健康情報
- 交渉術
うーん、浅いのばっかりということが一番の課題かしら。
深めるためにも絞って具体的活動を進めていこう。
ということで五月雨式のブログになってしまいましたが、まとめると、
- 2月にサービス出せず(すみません)
- 考えをまとめるためと、文章力を磨くために3000字程度、硬い文章で記事を書いてみる。内容は上記の掛け算(このブログでしか読めない内容にしたい)
ということになりますか。
申し訳ありませんが3月もお付き合い頂けるとうれしく思います。
【データサイエンティスト027】PYTHON で マラソン!
2017年2月から、データサイエンティスト的スキルお勉強のために活動をスタートした。
ただのお勉強で終わるのもなんなので(つーか本をいくら読んでもようわからんかった)、今月中にサービスを出そうと頑張るべく下記のバイブルを読んで基礎的なところから模索し始めた。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
流行り始めてから早数年、上記の本が第2版に改訂されるまでの時間が経ってからのスタート。
遅いとも言えるし、独学で勉強するには情報が広がってきているとも言える、かな。
ということで下記のようなサービスも見つけてスタート(キャンペーン探すといいかも)。
もうここ一週間くらいは隙間隙間で上記のサイトお勉強進めているけどまだ25%。ボリューミーだ。
合間でどんなサービスなら欲しいかな、と検討。
機能を絞るなら
・大量のデータを突っ込んだら時系列の折れ線グラフと最新のパイチャートを出してくれるプログラム
かな。エクセルでやると地味に面倒。狭いかもやけど、自分が今一番欲しい!やつに絞ることにした。
それをPythonで実現するスキルを目掛けてここ数日頑張り中、、、
あと1日、明日でなんとかなるか。
【データサイエンティスト026】PYTHON PYTHON PYTHON!!!
2017年2月、データサイエンティストにのっかってみてサービスでも出しながら勉強しようかと模索を始めた。
やべぇ、残り二日。
下記のサイトでコツコツPythonの勉強に取り組んでいます。
無駄の無い動画と説明で非常に快適。
全くプログラミング噛んだことが無い人はちょっと辛いかも。
一方マクロでも何でもやったことがある人はとりあえずやってることはできるようになるレベルの適切な講義。
うーん、面白いけれど時間が追いつかん。
残り、2日!
【データサイエンティスト025】サービスを検討③
タブローTableauさんに打ちのめされる、、
2017年2月、バズワードのデータサイエンティストにのっかってみて何か出ないかと模索を始めた 。
25日、タブローTableauさんの完成度に改めて衝撃を受けております、、、さすがすぎる。
背景からいくと、下記の本を読んでみたけどぜーんぜん頭に入らず。それでも、今の自分に必要そうだという感覚を得たので、一念発起、このブログでサービス化をやるぞと、そういうことで、スタートしました。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
お勉強してプログラムも自分で書いてみて多少見通しが良くなってきた今日この頃。
いよいよこの業界を席巻しているタブローTableauさんを少しかじってみました。
まず導入事例を見てみるとリクルートさんやPepsiCoさんなどわらわら出てくる出てくる。
何をするソフトかというと、大量のデータをサクサクとビジュアライズして分析できるもの。
エクセルではちょっと、、、という量、項目数も一項目あたりのデータ数もいずれも、そんなデータと向き合うなら導入すべき!かなと。
会社の行動原理もさすが良く掴んでいてミニマムスタンドアローン1パッケージ保守費混み24万円という稟議などいらない絶妙な価格設定。
大企業ならこの金額を出しても十分ペイするでしょうと。
地図プロットとかもしてくれるしね。
ここでは、タブローさんを最高位としてベンチマークしつつ、中小とか、大企業でも上司がぐちゃぐちゃ言ってくるような人に向けた簡易版を設計して進めていこう。
エクセルではつらい、数十万出すほどでもない。
うん、ニーズはありそうだ(つか今俺が欲しい)。
今僕がぶち当たってるのは過去五年分の月次データ、項目数が二万以上。
欠測値とか異常値もばんばん入ってるし目でどうこうするのは時間的、モチベーション的に無理がある、、、。
したいことは
- 欠測値、異常値の可視化と修正
- トレンドの図示と把握
- 絶対量、変化率それぞれの観点から特徴的な項目を抽出。
この3つ。
これらをPythonさんで何とかやっていこう。
やべぇ、あと3日!
【データサイエンティスト024】サービスを検討②
だんだん追い込まれてきた・・・!
データサイエンティストの本を参考に勉強しつつ2月中に何らかのサービスを出そうと奮闘?している連載。
これがその本。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
この本を皮切りにRも含めて今月プログラミングで色々と遊んだ。
やっぱ計算が超早いな。エクセルとは比べ物にならない。
ただエクセルがいいのはRやPythonに比べ計算の過程が残りやすいこと(気がしている。方法はあるんやろうけど)。
物の本でも「いくらRと仲良くなってもエクセルとは離れられない」という記述をみたことがあるし。
一長一短やろうから適宜ツールに惑わされないようにやっていこう。
ということでサービス。
データぶち込んでグラフ化するというやつにしようと思って今はPythonゴリゴリやっているところ。
実際にやるとあちらこちらでひっかかるいつものやつ。
負けずにコツコツやっていこう。
手を動かすので時間切れになりなかなかTableauまで届かない。
明日は土曜日、なんとかなるかしら。
ほぼ雑談になってしまった今日の記事。
あと4日!