焦点

でっかいことに焦点を

【データサイエンティスト028】2月振り返り

結局、サービス出せず、、、。

 

ということで。2月の頭からデータサイエンティストを切り口に活動してきたこのブログ。

下記の本を参考に色々と進めてきました。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

お勉強をいくらしてもよう分からんままなのでブログで定期的な(日課の)取り組みにしながらお勉強をしつつ、お勉強にとどまらずサービス化しようとしてきました。

結局挫折。

 

できたことできなかったことで一回振り返ってみる。

【できたこと】

  • データサイエンティストの概要が分かってきた(気がする)
  • Udemyを知ってPython練習をスタートできた(現在全講座のうち30%修了)

 

www.udemy.com 

  •  Tableau(タブロー)を知ってトライアル版で完成度の高さをしった(やりたい分析は大体できる)
  • 出したいサービスの案(データを入れると時系列とパイチャートにして出してくれるやつ(エクセルとの差別化は使いやすさ、時間削減、おしゃれさかな?)

【できなかったこと】

  • サービス化
  • プログラミングスキルを実務に
  • そもそも何がしたいかを明確に仕切れていない(差別性)

 

ということで一旦区切りとします。

当面Udemy講座とTableauでイメージ作りに励みます。

 

しかしこのブログも読んで頂いている人に申し訳ないな。

もっと読む価値がある記事か、読んで楽しい記事にしたいところ。

 

自分としては毎日文章を書くことは一定の効果があるんじゃないかとは思えるけれども。

もっと難しい、本気の論文の文章を書かなくては。

大学を出てからちゃんとした文章を書いていない。

パラグラフを立ててまとまった内容を書くということを次にしてみようか。

 

3000字くらいで何らかの内容を深めてみる。このブログでしか読めない角度の内容にしたいね。 今ある程度分かる内容を書いてみて、どれかの掛け算で書いてみよう。

  • データサイエンティスト系(超入門)
  • ビジネスで使えるロジック(初中級?初級か。)
  • 一般的な統計的手法(中級)
  • 実験計画法(中~上級)
  • タグチメソッド(中級)
  • 瞑想
  • 日本の歴史
  • 空海
  • 身体の使い方
  • 健康情報
  • 交渉術

うーん、浅いのばっかりということが一番の課題かしら。

深めるためにも絞って具体的活動を進めていこう。

 

 

ということで五月雨式のブログになってしまいましたが、まとめると、

  • 2月にサービス出せず(すみません)
  • 考えをまとめるためと、文章力を磨くために3000字程度、硬い文章で記事を書いてみる。内容は上記の掛け算(このブログでしか読めない内容にしたい)

ということになりますか。

申し訳ありませんが3月もお付き合い頂けるとうれしく思います。

【データサイエンティスト027】PYTHON で マラソン!

2017年2月から、データサイエンティスト的スキルお勉強のために活動をスタートした。

ただのお勉強で終わるのもなんなので(つーか本をいくら読んでもようわからんかった)、今月中にサービスを出そうと頑張るべく下記のバイブルを読んで基礎的なところから模索し始めた。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 流行り始めてから早数年、上記の本が第2版に改訂されるまでの時間が経ってからのスタート。

遅いとも言えるし、独学で勉強するには情報が広がってきているとも言える、かな。

 

ということで下記のようなサービスも見つけてスタート(キャンペーン探すといいかも)。


もうここ一週間くらいは隙間隙間で上記のサイトお勉強進めているけどまだ25%。ボリューミーだ。

 

合間でどんなサービスなら欲しいかな、と検討。

機能を絞るなら

 ・大量のデータを突っ込んだら時系列の折れ線グラフと最新のパイチャートを出してくれるプログラム

かな。エクセルでやると地味に面倒。狭いかもやけど、自分が今一番欲しい!やつに絞ることにした。

 

それをPythonで実現するスキルを目掛けてここ数日頑張り中、、、

 

あと1日、明日でなんとかなるか。

【データサイエンティスト026】PYTHON PYTHON PYTHON!!!

2017年2月、データサイエンティストにのっかってみてサービスでも出しながら勉強しようかと模索を始めた。

やべぇ、残り二日。

下記のサイトでコツコツPythonの勉強に取り組んでいます。

www.udemy.com

無駄の無い動画と説明で非常に快適。

全くプログラミング噛んだことが無い人はちょっと辛いかも。

一方マクロでも何でもやったことがある人はとりあえずやってることはできるようになるレベルの適切な講義。

 

うーん、面白いけれど時間が追いつかん。

 

残り、2日!

 

【データサイエンティスト025】サービスを検討③

タブローTableauさんに打ちのめされる、、

 

2017年2月、バズワードのデータサイエンティストにのっかってみて何か出ないかと模索を始めた 。

25日、タブローTableauさんの完成度に改めて衝撃を受けております、、、さすがすぎる。

 

背景からいくと、下記の本を読んでみたけどぜーんぜん頭に入らず。それでも、今の自分に必要そうだという感覚を得たので、一念発起、このブログでサービス化をやるぞと、そういうことで、スタートしました。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

お勉強してプログラムも自分で書いてみて多少見通しが良くなってきた今日この頃。

いよいよこの業界を席巻しているタブローTableauさんを少しかじってみました。

www.tableau.com

 

まず導入事例を見てみるとリクルートさんやPepsiCoさんなどわらわら出てくる出てくる。

 

何をするソフトかというと、大量のデータをサクサクとビジュアライズして分析できるもの。

エクセルではちょっと、、、という量、項目数も一項目あたりのデータ数もいずれも、そんなデータと向き合うなら導入すべき!かなと。

 

会社の行動原理もさすが良く掴んでいてミニマムスタンドアローン1パッケージ保守費混み24万円という稟議などいらない絶妙な価格設定。

 

大企業ならこの金額を出しても十分ペイするでしょうと。

地図プロットとかもしてくれるしね。

 

ここでは、タブローさんを最高位としてベンチマークしつつ、中小とか、大企業でも上司がぐちゃぐちゃ言ってくるような人に向けた簡易版を設計して進めていこう。

 

エクセルではつらい、数十万出すほどでもない。

うん、ニーズはありそうだ(つか今俺が欲しい)。

今僕がぶち当たってるのは過去五年分の月次データ、項目数が二万以上。

欠測値とか異常値もばんばん入ってるし目でどうこうするのは時間的、モチベーション的に無理がある、、、。

 

したいことは

  • 欠測値、異常値の可視化と修正
  • トレンドの図示と把握
  • 絶対量、変化率それぞれの観点から特徴的な項目を抽出。

この3つ。

これらをPythonさんで何とかやっていこう。

 

やべぇ、あと3日!

 

 

 

 

 

 

 

【データサイエンティスト024】サービスを検討②

だんだん追い込まれてきた・・・!

 

データサイエンティストの本を参考に勉強しつつ2月中に何らかのサービスを出そうと奮闘?している連載。

これがその本。

 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

この本を皮切りにRも含めて今月プログラミングで色々と遊んだ。

やっぱ計算が超早いな。エクセルとは比べ物にならない。

ただエクセルがいいのはRやPythonに比べ計算の過程が残りやすいこと(気がしている。方法はあるんやろうけど)。

 

物の本でも「いくらRと仲良くなってもエクセルとは離れられない」という記述をみたことがあるし。

一長一短やろうから適宜ツールに惑わされないようにやっていこう。

 

ということでサービス。

データぶち込んでグラフ化するというやつにしようと思って今はPythonゴリゴリやっているところ。

実際にやるとあちらこちらでひっかかるいつものやつ。

負けずにコツコツやっていこう。

 

手を動かすので時間切れになりなかなかTableauまで届かない。

明日は土曜日、なんとかなるかしら。

 

ほぼ雑談になってしまった今日の記事。

あと4日!

【データサイエンティスト023】サービスを検討

データサイエンティストの本を参考に勉強しつつ2月中に何らかのサービスを出そうと格闘?している連載。

これがその本。

 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 そして昨日と同じくUdemyのサイトでもお勉強ちぅです。

www.udemy.com

 

お勉強はお勉強として。

 

今日はtableauまで届かなかったので(すみません、、、)特に書くことはないのですが、、。

 

ないならないか。

 

 

明日はTableauをやりつつ新たなサービスの種を模索する、ということで。

 

あと5日!

【データサイエンティスト022】サービスを絵にする④

データサイエンティストの本を参考に勉強しつつ2月中に何らかのサービスを出そうと奮闘?している連載。

本はこれ。  

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 あとUdemyでも勉強開始ちぅ。超いい感じ。あんなに苦戦したnumpyもすいすい。

www.udemy.com

動画にして良かったことの一つ(しょぼい版)は、読み方がわかること。

numpyなんてどうやって読むか本ではわからなかったもんね。

 

ということで本筋のこのブログ。

数日前にサービスを絵にしてさっそくコードにしてデバッグして、、、と息巻いていたけれど、しかしながら、の現状。

 

さてさて。

昨日は下記3つのアイデアを少し深掘りした。

    • データベースの形を綺麗にして投げ返す
    • 時系列/層別/主成分分析 などなど無数にある手法でグラフ化し、意味付きで投げ返す
    • 今後のデータを予測して精度とともに投げ返す

この中で2つ目を昨日は自動分析ツールかなぁという話までいった。

自動分析ツールで一回考えてみようか。

そのまますると月並み感が満載。

ターゲットはエクセルしか手元にない人、でいこうか。

いったんTableau使ってみなわからんかな。それは明日やってみるとして。

 

大量のデータ(〜10万)を集約して時系列にまとめてクラスター分析できるようにする程度のツールから入ろうか。

ほぼRの基本そのままやな。

 

付加価値は何があるか。どこが嬉しい?

ざっくりした(欠測値の多い)データでも判断してくれる。

最速で答えが出る(これは今のパソコンでこの情報量なら問題ないか・・・)。

xlsxファイルからボタン一つでグラフ化してくれる。

入出力周りの簡素化が差別化、か。

まずはシンプルイズベストで作ってみよう。

 

ここまでシンプルになったら絵はいらんな。

明日Tableauで遊んでみて、あとはUdemyを進めて、サンプルソフトでも作りにかかってみよう。

 

方針決定!

あと6日!