焦点

でっかいことに焦点を

【データサイエンティスト033】さて何を書こうか、という段階で。

バズワードを過ぎて定着してきた感のあるデータサイエンティスト。

いわゆる先行者利益はほぼかっさらわれた(特にGoogleさんとか)やろうけどまぁ二歩三歩遅れでぼちぼち進んでいこうかしらという。

ということで現状はUdemyの講座(なんと2万人以上受講!すげーな。一人1万円なら2億円?手取り1割なら2000万円。先行者すげー。)とTableau(タブロー)でちまちまやっているところ。

Udemyの講座は104項目あって(時間は5分〜20分、平均10分やとすると1000分、16時間ちょっと。倍速再生できるので実時間は半分の8時間ちょっとか)、やっと32講座。まじめに全部打ち込もう(URL以外)としていて、import pandas as pd とか打ちすぎて目をつぶってもいける。

Tableauは2週間限定ということでいろんな機能を試している。使えば使うほど奥が深い。。お洒落かつこれが分析か!という内容の事例が1日一つ挙げられていて、テンションが上がると同時にちょっと重たい気分になる。レベルの差を感じて。。つって最近そんな風に凹むこともなかったのでいい機会。ちょっとずつ一気にやっていこう。

 

それがこれ。

public.tableau.com

 

ということでまたまた身辺雑記になってしまった。

データサイエンティスト、目指している人がいれば横目でみて追い越して置いてけぼりにしてもらえれば。。

もしすでに俺はそうだ!という人がいれば薄目で眺めていて下さい。

 

うん、なんか暗いな。笑

 

明日からまた頑張っていこうー!

【データサイエンティスト032】PADについて②

バズワードのデータサイエンティストでなんかできないかなブログ。

ちょっと現在UdemyとかTableauでお勉強中なので発信する内容がない苦境なう。

よってちょっとでも読む人に実りがありそうなことを書いて時間稼ぎをしようかという作戦。

 

ということでPADを説明してみる。

構造化プログラミングをするために内容を図示して考えよう、というもので、マクロなどには非常に役立つはず。

まぁいまやろうとしているデータサイエンティスト関連には力及ばずかもしれないけど知ってて損はないはずなのでご興味があればぜひ。

 

ということで昨日、PADは3つの要素、「連接」「選択」「反復」で出来ているというところまでお話をしました。

 

そもそもPADってどんなもんかっていうと、

5分で習得!PADで構造化プログラミング – ワーカプレイヤー

こういう素敵なサイトがあったので活用させていただきやす。

まぁこれ嫁、で終わっちゃうけど、せっかくなので実務上気をつけたほうがいいことをメモしておこう。

  • とにかく描く
  • なので隙間タップリに描く
  • 鉛筆と消しゴムが良い(フリクションでも可)
  • サブルーチンは別の紙に描く
  • パソコン触りたくなるけど抜かりないPAD(どんなツッコミにも耐えられる)ができるまで粘る

しょうもないけどこの辺は簡単なようで重要。

 

使い方でわからないところあれば(上記の記事が秀逸なのでないと思うけど)コメントもらえればわかる範囲でお答えします。

 

PADについて知る方が増えればこれ幸い、ということで。

 

【データサイエンティスト031】PADについて

データサイエンティストでサービスを作ることを目指してちまちまやってるブログ、

あまりの自分のレベルの浅さを反省し、現状はUdemyのPython講座を進めつつ、データ分析ツールのTableauを無料トライ期間中でためさせて頂いて感覚をつかんでいる最中。

 

その模様を実況中継するのも飽きてきたし、読む方のメリットが無いので、ここではちょっと身のある内容を書くようにしようと思う。

 

今日は僕が昔授業でならった構造化プログラミングのPAD(Problem Analysis Diagram)について説明してみます。

 

これを知っているとエクセルマクロレベルのプログラムならさくっと考えがまとまるし、そのまとまった考えをスムーズにプログラム化できる。

逆にフローチャートだと考えがまとまりにくく、何とかフローチャートができてもそれをプログラム化する際にもう一度考える必要が出てくるので時間がかかったりミスが増えたりすることも(←個人の見解です、もちろん好き嫌いもあります、気分害された方すみません)。

 

まーあまり知られてないので今回知った方は食わず嫌いせず一度試してみて頂ければ。

 

PADとは何かっていうと図形でプログラムの考え方を記述する手法。構造化プログラミングと呼ばれる、全体と部分を明確に定義して(抽象化して仮想機会を動かして)誰にでも分かりやすく、ミス無く作れるような手法に適する。PADの歴史は古く、昭和54年(!)に日立製作所の中で生まれ、世界で広める動きも。 

PADプログラミング (岩波コンピュータサイエンス)

PADプログラミング (岩波コンピュータサイエンス)

 

 

プログラムで行う手続きをわずか3つに集約した点が画期的。それは「連接」「選択」「反復」。この組み合わせでどれだけ大きなプログラムも書けるという概念。しかもこの考えに則って作ったプログラムは後からでも非常に分かりやすいし再利用もしやすい。

 

ではそのPADはどうやって使うかというと、、、また明日!

 

【データサイエンティスト030】どこからせめていくか

2017年2月1日から、データサイエンティストでサービス化をめがけてのそっと活動をスタートしたブログ。

 

2月中にサービスは出なかったけれど、色々と本を読んだりサービスを使ってみたりして見えてくる世界が広がってはきた。

ということで今日は現時点の悩みと解決策を紹介して、これからやってみよう!という人の一歩目つまづきを解消できればいいな、ということで。

プロになると素人の困りごとが逆にわかりにくくなるしね(教えることのプロならわかるのかも?)

 

ということで。自分が困ったこと順にいこうか。

・データサイエンティストってそもそも何?

  →多数の(エクセルでしんどいくらいの)データを解釈してビジネスの結果に反映できるスキルを持った人。スキルは統計やITのハード系とビジネスや人間関係のソフト系に分けられる。ソフト系?ってなるけど、結局ビジネスで結果を出すために何に困っているのか、どうなりたいのか、そのためにどれだけのリソースが使えるのか、そういったことを明らかにするためにはソフト系の技術がやっぱり必要になる。ただ、一人でハードからソフトまで全てを担える人材(イメージはYahoo!の村上執行役員みたいなひと?)はほぼ存在しないメタモン状態なのが現状のようで、各スキルそれぞれに特化した人材をチームとして組み合わせて業務でアウトプットに繋げようとしているみたい。

・なんでデータサイエンティストが騒がれているの?

  →上につながるけど、たくさんのデータが簡単に取れるようになったから。iPhoneから始まるスマホは一つの転機だったと思う。iPhoneなんてセンサーの塊で光学、加速度、GPS、さらには気圧計まで入ってるし。そういったデータを目的をもって分析して定量的な判断材料に料理してあげる人が求められるようになってきた。ただ勝手に集まってきたデータをこねるより仮説をもってデータを集めた方が精度が高いという記述もみられるけど、これからPCで寄与度の高い項目を自動抽出できるようになるとただただデータを集めてくる方法もありになるのかな。まぁ集まってきたデータを予備分析としてスクリーニング程度に使って、ABスプリットテスト(ウェブで2種類の広告をランダムに表示して効果が出た方を採用する手法。実際はCDE、、とやってるんでしょうきっと)で本分析し方針決定するという手法が今のところは落とし所になるかな。

・データサイエンティスト、目指してみよう!まず何をすればいい?

  →うーん、それは俺も悩み中。笑 ハード系スキルを身に付けるなら個人的には構造化プログラミングのPADがいいんやけど超下火。PADは、フローチャートみたいに(違うんやけど)プログラムを構造化して検討に使える上、フローチャートに比べ仕上がりがそのままプログラム言語に落としやすいので個人的に気に入ってるんやけどなぁ。なんでか盛り上がってない。ただオブジェクト思考になるとクラス図やアクティビティ図が上位概念として必要になるみたい。習うより慣れろ、の文化が(日本の?)プログラマーの少なくとも一部には流れている気配もする。

 ハード系スキルで、PADの次はPythonかな。多分。統計好きなイカれ気味の人にはRが激おすすめ。凝った処理がいっぱい標準装備されている。ネットでも比較的情報があるし。ただPythonやRを自分でやろうとしても挫折するので(俺は挫折したので、か)、現時点でPythonに関してはUdemyの講座がいいかな。今まで悩んでたことが嘘のように解決してどんどん進んでいる。Rに関してはよくわからないけど、、、身近で好きな人を見つけるのが近道かな。まぁPythonでもUdemyには限らないけど、時間をショートカットするため、自力でごりごりにこだわらずいろんなサービスを活用していってみることをオススメしたい。

 ソフト系スキルは難しいけどまずはロジックかな。MECEに分ける、的な。そして一般的な問題解決手法を息を吸って吐くように使えるべし。つって俺ができてるみたいに書いてすみません。この手の本はたくさんあるので自主学習した上で、実務でたたかれもまれて身に付けることもいいかと。ハード系スキルに比べるとソフト系スキルを持っている人の数は圧倒的に多いやろうし。

 

ということで今日はこの辺で。

時々自分の悩んでいることを書き下して残しておこうと思う。

【データサイエンティスト029】さて3月の目標

データサイエンティストにめがけて活動を続けているブログ。

 

2月は身辺雑記に等しいレベルだったので、今月は、読んでくれる人に実りのある内容にしたいなと思います。

 

知りたいことは何なのかしら。

自分が知りたいことを半月前の自分に分かるように書こうか。

 

キーワードをちゃんと残しておけば検索で引っかかるはずなので中身に注力しよう。

 

2月に書き出したものも含めて深堀したい内容を書き出す。

 

Pythonを使って分析するサービスにしたい】

 

  • 欠測値、異常値の可視化と修正
  • トレンドの図示と把握
  • 絶対量、変化率それぞれの観点から特徴的な項目を抽出。

【データサイエンティストというキーワードで??となる内容を分かりやすく説明したい】

やっぱり下の記事内容に戻るかな。

kohei327.hatenablog.com

 少し分かるようにはなったけど人に説明できるレベルにない。まず自分で理解してみる、理解を深めるために記事にする。

 

ということで今日も実りが無い記事を生んでしまった、、、。

 

やっぱり業務化しないと深まらないね。

今やりたいこと(機械設計)とこちらの両立をするためにどんな手段があるか。

色々と悩みながらまずは前に進んでいこう。

 

【データサイエンティスト028】2月振り返り

結局、サービス出せず、、、。

 

ということで。2月の頭からデータサイエンティストを切り口に活動してきたこのブログ。

下記の本を参考に色々と進めてきました。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

お勉強をいくらしてもよう分からんままなのでブログで定期的な(日課の)取り組みにしながらお勉強をしつつ、お勉強にとどまらずサービス化しようとしてきました。

結局挫折。

 

できたことできなかったことで一回振り返ってみる。

【できたこと】

  • データサイエンティストの概要が分かってきた(気がする)
  • Udemyを知ってPython練習をスタートできた(現在全講座のうち30%修了)

 

www.udemy.com 

  •  Tableau(タブロー)を知ってトライアル版で完成度の高さをしった(やりたい分析は大体できる)
  • 出したいサービスの案(データを入れると時系列とパイチャートにして出してくれるやつ(エクセルとの差別化は使いやすさ、時間削減、おしゃれさかな?)

【できなかったこと】

  • サービス化
  • プログラミングスキルを実務に
  • そもそも何がしたいかを明確に仕切れていない(差別性)

 

ということで一旦区切りとします。

当面Udemy講座とTableauでイメージ作りに励みます。

 

しかしこのブログも読んで頂いている人に申し訳ないな。

もっと読む価値がある記事か、読んで楽しい記事にしたいところ。

 

自分としては毎日文章を書くことは一定の効果があるんじゃないかとは思えるけれども。

もっと難しい、本気の論文の文章を書かなくては。

大学を出てからちゃんとした文章を書いていない。

パラグラフを立ててまとまった内容を書くということを次にしてみようか。

 

3000字くらいで何らかの内容を深めてみる。このブログでしか読めない角度の内容にしたいね。 今ある程度分かる内容を書いてみて、どれかの掛け算で書いてみよう。

  • データサイエンティスト系(超入門)
  • ビジネスで使えるロジック(初中級?初級か。)
  • 一般的な統計的手法(中級)
  • 実験計画法(中~上級)
  • タグチメソッド(中級)
  • 瞑想
  • 日本の歴史
  • 空海
  • 身体の使い方
  • 健康情報
  • 交渉術

うーん、浅いのばっかりということが一番の課題かしら。

深めるためにも絞って具体的活動を進めていこう。

 

 

ということで五月雨式のブログになってしまいましたが、まとめると、

  • 2月にサービス出せず(すみません)
  • 考えをまとめるためと、文章力を磨くために3000字程度、硬い文章で記事を書いてみる。内容は上記の掛け算(このブログでしか読めない内容にしたい)

ということになりますか。

申し訳ありませんが3月もお付き合い頂けるとうれしく思います。

【データサイエンティスト027】PYTHON で マラソン!

2017年2月から、データサイエンティスト的スキルお勉強のために活動をスタートした。

ただのお勉強で終わるのもなんなので(つーか本をいくら読んでもようわからんかった)、今月中にサービスを出そうと頑張るべく下記のバイブルを読んで基礎的なところから模索し始めた。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 流行り始めてから早数年、上記の本が第2版に改訂されるまでの時間が経ってからのスタート。

遅いとも言えるし、独学で勉強するには情報が広がってきているとも言える、かな。

 

ということで下記のようなサービスも見つけてスタート(キャンペーン探すといいかも)。


もうここ一週間くらいは隙間隙間で上記のサイトお勉強進めているけどまだ25%。ボリューミーだ。

 

合間でどんなサービスなら欲しいかな、と検討。

機能を絞るなら

 ・大量のデータを突っ込んだら時系列の折れ線グラフと最新のパイチャートを出してくれるプログラム

かな。エクセルでやると地味に面倒。狭いかもやけど、自分が今一番欲しい!やつに絞ることにした。

 

それをPythonで実現するスキルを目掛けてここ数日頑張り中、、、

 

あと1日、明日でなんとかなるか。