焦点

でっかいことに焦点を

【データサイエンティスト016】ここまでの振り返り③と今後の計画

(旅でネット無し→風邪でダウンしてたので、携帯に書き溜めた分を19日にまとめてアップしてます)

 

データサイエンティストの本を参考に勉強しつつ2月中に何らかのサービスを出そうと画策しているブログ。

 

前半2週間が光の速さで過ぎていったので

後半2週間に突入する前後で振り返りと今後の計画を立てました。

 

前回二日間ただ振り返って過ぎましたが3日目にして今後の計画まで完了!

f:id:kohei327:20170219214513j:plain

ちっちゃくなったけど左下が今後の計画ですね。

17日~28日の11日ってあれ、一日数え間違えてるけどまぁということで残り6時間。

それで5項目を一気に進める。

 

1.ビジネスモデル考える

2.サービスを絵にする

3.ゴリゴリプログラム書く

4.デバッグする

5.販売サイト作る

 

5.は規約とかあるから別途考えるとしても1~4はできる。

 

颯爽と進めていこう。

 

【データサイエンティスト015】ここまでの振り返り②

(旅でネット無し→風邪でダウンしてたので、携帯に書き溜めた分を19日にまとめてアップしてます)

データサイエンティストで2月中に何らかのサービスを出そうとして画策中。

2週間やってみたけど、、、という現状なので一旦振り返りをし、残り2週間の計画を立てようとしています。

 

今回はこの2週間の振り返りから~~

~~~

とにかく内容が浅い。具体的には、自分で取り組んでいないから「お勉強」レベルになっていてサービスにするにはてんでお話にならん。

追い込まれていないから遊び程度で留まっているのやろうか。

当初の想定が甘く、予想以上に難易度が高いことも要因に挙げていいとは思う。

だがここから巻き返すにはどうするか。

 

こういう時には王道作戦を用いよう。

この本で学びました。

年収2000万の仕事術―高収入の秘密、すべて教えます

年収2000万の仕事術―高収入の秘密、すべて教えます

 

内容はめっちゃいい本なんやけどなー。キャッチーな名前で評価が下げられちゃっている。

 

ということで。王道作戦。

①現状把握

②原因分析

③複数対策樹立

裏目展開(元の本とは言葉違うけど、要は対策を実施する前に、対策が逆に悪影響を与えることがないかを検討すること)

 

①②が振り返りになるのでざっくりと。

①現状把握

 ・毎日取り組む時間が確保できていない

 ・2月末までにサービス化したいが、お勉強レベルで実践無し

 ・アウトプットイメージがないままモヤモヤ進めている

 

うーん、テキストやとつらいのでマインドマップでがんばってみる。

 

続きはまた明日。

 

【データサイエンティスト014】ここまでの振り返り

(旅でネット無し→風邪でダウンしてたので、携帯に書き溜めた分を19日にまとめてアップしてます)

データサイエンティストを目指してコツコツブログ。
本日までを一旦振り返る。
データサイエンティスト養成読本を参考に、ここまでは中身のお勉強をしてきました。

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

要約すると、
・データサイエンティストに求められるスキル(ハードスキル、ソフトスキル。ハードはIT系と分析系に分解でき、ソフトは分解されずビジネス系と表現される)。
・データ分析のためにこれだけは覚えておきたい基礎知識として、下記項目の概要。
ーデータベース操作言語のSQL(シークウェル)を言語とするデータベースのRDBMS(Relational Database Management System)
Google起点の分散処理Hadoop
ーWEB情報を集めて活用するWEBスクレイピング
ーデータ分析の便利サービスTableau(タブロー)。
になるかな。

最終何らかのサービスを生み出すとしてこの二週間の棚卸しとあと二週間でどこまでやるか設定しよう。

ということで、次回はデータサイエンティストに関係ない話を展開します。。

 

【データサイエンティスト013】Tableau(タブロー)について①

データサイエンティスト本を参考にサービスを生み出すまでを画策し連載中。

 

今回はデータを可視化できる分析ツールTableauについてお勉強。

どこかで見たな、思ったらRの本で見たんやった。

 

3ヶ月くらいかけて作った処理もTableauに入ってて全部置き換えたと書いてあった。

面白い。

そういうプログラム、Tableauそのものではなく、各企業でしこしこ手作業でしている処理を自動化できれば商売になるね。

それだけハードルは高いけど。

せっかく今は企業にいるので企業内処理としてトライできるし模索を続けよう。

 

ということでTableauについて。

ー大量データをずがーんと処理

ーオシャレグラフをがっつり出せる

ー県別に塗り分けもしてくれる(売り上げに応じた色分け、など)

ー当然クロス分析も

ーダッシュボードに要点を集約できる

ー結構な金額がする(企業ならあり、個人でペイできるかは、、、)、ただし2週間の試用ができるので味見は可能

 

うーん、欲しくなるしいったん試してみよう

 

エクセルしこしこも良いけどデータ数が万を超えてくると難しかったり重くなったりするしね。

 

 

 

【データサイエンティスト012】WEBスクレイピングについて②

えー、データサイエンティストの本を参考にしつつ、何らかのサービスまで持っていきたいと悪戦苦闘している戦いブログ。

ということで。

個人的に今週休みとなり、旅先で検討中です。

 

昨日からWEBスクレイピングについて勉強中。

WEBスクレイピングとは、オンラインで公開されている情報を集めてきて、データ分析に活用しようという手法。

 

今日はできることをまとめて書いてみる。

なかなかに面白い。

 

wiki情報を集約(企業の売り上げ額とか)

wikiの項目文字数をカウント(これは取ってくる意味が今の所掴めてない)

 

この本はあくまで導入ということで適度なディレイなどにも言及頂いているけど先は長く奥は深そう。

 

実際に自分でやってみたいけど、とりあえず、明日は次のTableau(タブロー)についてお勉強してみる。

 

 

【データサイエンティスト011】WEBスクレイピングについて①

データサイエンティストのサービスを生み出そうとしてやり始めたシリーズ。

甘いもんじゃ無いねぇと思いつつぼちぼち進めて参ります。

 

といことで昨日からWEBスクレイピングに突入。

WEBスクレイピングとは、WEBから公開情報を集めてデータ分析に活用すること。

スクレイピング(scraping)の意味は、擦り付けたりすることやかき集めること、転じて、元々異なる用途、形式のデータを抽出して活用すること、らしい。

 

例えば気象情報など色々な情報をネットに公開して頂いているので使い方さえわかれば非常に応用範囲は広い。

 

使うためには大きく2つのツールを活用する必要があり、まずWEB情報を取得するアクセスツール、次に取得したデータを活用できるように加工するスクレイピングツール。ただし、両方の機能を包含したツールもある。

 

こうやって表面的な内容はまぁええので明日は実際にトライしてみる。。!

 

 

 

【データサイエンティスト010】データ分析の基礎知識 深堀してみる②

データサイエンティストの本を参考にサービス出したいなとスタートして早10日。

当初は毎日10分最低やろう、としてたけど(当たり前の話で)ぜんぜん進まないので後半は30分~1時間取り組み中。

 

といいながらなかなか進まないねぇ。

まず今日も今日とてこの本の話ですと紹介しておく。

 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 さて。

では今回はSQLを実際に試してみる実録を。実録悪戦苦闘ブログ。

ということで早速。

  • 今回の目的:qgAdminⅢ(フリーで豊富な機能を有するSQLソフト)を実際に導入して遊び、感覚を掴んでみる。
  • 背景:データサイエンティストという言葉が世界で飛び交っている中、統計好きとしてはぜひ一度遊んでみて、何らかのサービスにも仕立ててみたいと思う今日この頃。
  • やること:インストール~テストプログラムで遊んでみる

それでは順に。

・・・・

と思ったけどこれは作戦ミスだ!

データベースが無いとあやつるものもないのでやること無し!

 

まぁわかったこととして

  • SQLはデータベースを操る言語。データの読み込みやデータベースの管理ができる。近年、SQLを使わずにデータベースを操るNoSQLというものも出てきている。コマンドプロンプトGUIに置き換えられているのと同じ動きかな。
  • 大量にデータを取ってそれから意味を抽出する。概念はわかるけど実際のところは実務で悪戦苦闘が必要やなぁこれは。どっかにデータがないのかしら。

この二つかな。

 

・・・・

 

ということで次の項に進んだらあるやんデータ!

ウェブスクレイピング

公開されている様々なデータベースを活用して自前データの不足分を補完しよう、という素敵な手法。

 

今の自分には自前データはないのでウェブスクレイピングで遊んでみよう。

 

文章にしちゃうとまじ3分程度の内容。最初はこつこつあがくしかないかなぁ。

何かしら講習でもないかしら。

自分でつくればいいのか。

もう一遊び!