【データサイエンティスト005】ハードスキルの理解⑤
今日からHadoopと格闘してみる。その流れを。最後にはまとめたい。
いきなりで申し訳ないけれどSlideShareでよさげなのあったから共有ー。
・Hadoopとはなんか並列処理をしてくれるらしい。
・高速にデータ処理ができる?
・Intelからログインページがあるけど登録したらいいのかしら、、、。
今日はこのくらいで!
【データサイエンティスト004】ハードスキルの理解④
さて、2月はデータサイエンティスト強化月間としてこのブログ上に考えを整理しつつサービスを生み出すまでを時系列で記録していこうかと。
現在のバイブルは、こちら!
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
この本で紹介されているデータサイエンティストに必要な技術のうち、ハードスキルというデータ処理側のスキルから、関連用語を引っ張ってきて1行ずつで整理していこうという取り組みをしています。
おとといからやり始めたけどまだ終わらない。笑
さて今日も今日とて続きから。
- Mahout: Hadoop上で動き容易に使える機械学習用のフレームワーク。
- MADlib: In Database分析で用いられるオープンソースライブラリ、MADはMagnetic、Agile、Deepの頭文字。
- Jubatus(ユバタス): オンラインの機械学習向けフレームワーク。
- KXEN: データマイニング(大量データからの意味抽出)で用いられる商用ソフトウェアの一つ。
- KNIME: データ分析用の統合環境、スクショ見る限りではRStudioを彷彿とさせる感じ。
- AlpineMiner: データマイニングソフトウェアの一つ、Greenplum databaseとシームレスに統合されているらしい。
少しは参考になるかしら。まだまだこれから。
ぼちぼちやっていきます!
【データサイエンティスト003】ハードスキルの理解②
【読書録17003】社長失格
波乱万丈を超える。
ちょっとした紹介で読んでみた本。アマゾンのカテゴリ別ランキングで1位。なんのカテゴリかってそりゃ、「企業再生・倒産」ですよお兄さん。
いやぁ、大学から企業しちゃう特殊な人がどのようにのし上がって、今回は37億円の負債を抱えて自己破産してしまうか。それを丹念に遡って書いた本。
あとがきには、失敗談を書き残して後世のためになればと思ってこの本を出版した、とある。まぁそうなんでしょう。実際に収入になったらありがたいのは当然としても、ここまで振り返るのはさすがに辛いやろうなぁ。たくさんの反省の弁や、一部当時からのわだかまりが抜けていないところはその旨も正直に書いてある(ストレートには書いてないけどどう読んでもそうやんね、、、みたいな)。
この世に真実はないけど、信頼と誠実さで頑張っていくしかないなぁ。
一番厳しい時にどれだけ周りに人が残ってくれるか。
いや、誰も残ってくれないにしても一番厳しい時に自分と向き合って乗り越えていけるか。
人としてのタイプは全然(180度?ねじれの位置?)違うけど佐藤優さんの本を読んだ時と似た衝撃を受けたな。
この本には、そういった人生面からの学びはもちろん技術発展を見通す人の思考回路も一部読み取れる、、、ような気がする。なんせ20年前のインターネット創世記から、広告で稼ぐフリーモデルを発案、実現、短期間だけとはいえビジネスとして運営している。結局肝は顧客データベース。顧客データベースを握るには立ち上げ時のスピード。著者の作った会社は様々な要因で潰れてしまったし、タラレバを言うのは何の意味もないけれど、もし立ち上がってスケールできていればアマゾンやGoogleに対抗しうる存在になったのかしら。その2社とフェイスブックでインターネットがある世界の情報はほぼ掴まれているような。日本では楽天もあるしLINEもあるので必ずしも後進ではないにせよ、そのようなワクワク感すら持たせるダイナミズムを感じとることができる著書。
ソニーやホンダの例をあげるまでもなく、ベンチャー創世記には2人の違うタイプの人がタッグを組まないと難しいのかもしれない。
そんなことをつらつらと考えさせてくれる良書。
ぜひどうぞ。
【データサイエンティスト002】ハードスキルの理解①
2月から始めたこの企画。2月中になんらかのサービスにつながるかしら。
とりあえず毎回バイブルの紹介から。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
前回の記事、
で紹介したように、ハードスキルに惹かれるのでそれを進めていこう。
まず現状棚卸ししてみる。レベルを次のように定義する:0: 聞いたことない、1: 聞いたことだけある、2: 触ったことある、3: とりあえず使える、4: バリバリいける!
- レベル0: RDBMS関連、SQL、Hadoop関数、HDFS関連、MapReduce関連、pig、Mathout、MADlib、Jubatus、各種機械学習に関する知識、KXEN、KNIME、AlpineMiner
- レベル1: Hive、Perl、SAS、SPSS
- レベル2: Linuxコマンド
- レベル3: R
- レベル4:各種統計解析に関する知識
うん、恥部やな。笑 まーここから一人前になれたらそれはそれですごいっつーかみんな最初は初心者やっつーことで。
これらを端から潰していくのは非現実的やからなぁ。
とはいえさっぱりわからないレベルゼロを本中心に1行ずつでまとめてみる。
- RDBDS: SQLという言語を主なデータベース言語とするデータベース。
- SQL(エスキューエルまたはシークェル): データベースを扱う言語、ネットで無料体験も用意されている(Oracle Application Express)。明日はこれで遊ぼう。
- Hadoop関数: Googleが発表した論文を基にオープンソースとして作られた分散処理フレームワーク、広義ではソフトウェアを含む開発プロジェクト全体をHadoopと呼ぶことも。
時間切れ、続きは明日!
【データサイエンティスト001】 ちょっくら目指してみる。
前から興味があってちょっとRをかじったりしていたけれど良書を発見したので2月は掘り返してみることにする。
実体験を積んでもう少しディープなことができるように。
いろんなデータは手元にあるので活用できる下地を。
ということでその良書の紹介から。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
データを扱うスキルに加えてビジネス上どのように展開するか、まで広く網羅。
ただこの本を評価できるようなレベルにないので2月は愚直にやってみよう。
1日10分、今月は280分で4時間40分。どこまでできるか。
ということで1回目。
必要なスキルは大きく2種類に分けられ、ハードスキルとソフトスキル。
もう1段階ブレイクダウンすると、ハードスキルはIT系スキルと分析系スキルの2種類に分けられ、ソフトスキルはビジネス系スキルの1種類、合計3種類ですね。
私はやっぱりハードスキルに惹かれるなー。かっちょええ。そのハードスキルに必要なものは、データ分析フェーズにもよるけど、
- RDBMS(Relational Database Management System:SQL(1970年以降スタンダードなデータベース言語)をおもなデータベース言語とするデータベース))とSQLの知識・実務経験。さらにHadoopと関連知識(JAVA、HDFS (Hadoop Distributed File System)、MapReduce、HIVE、pigなど)が必要かも。Linuxコマンドによるデータ処理も。
- 統計解析や機械学習に関する知識、R、Python、Perl、Mahout、MADlibなどのライブラリ、リアルタイム処理をするならJubatus。
- GUIを持つツールを利用する場面もあるとか。SASやSPSS(統計分析ツール)場合によってはKXEN、ローカル限定ならKNIMEも。
うーん、面白くなってきた。笑
ソフトスキル=ビジネス系スキルはいろんな本もあるし、今は業務でも実践的に学んでいるので、ハード系スキルをつけよう。
今月中に何らかのサービスとしてアウトプットできると最高。
ぼちぼちお願いしますー。
【読書録17002】入門考える技術・書く技術【スライド編】
プレゼン関連シリーズ。
今回は、名著、考える技術書く技術の翻訳をされた方が実務経験からまとめられた本。
この手の本はいくつか見たけど、本書のレベルの高さは異色。
コンセプトは、プレゼン資料でなく、スライドレポートを作るということ。
スライドレポートとは、『プレゼン資料』と『文書報告書』の両方で使える資料のこと。
『聴衆』と『読み手』いずれにも訴求しながら、結論と次のアクションに繋げる資料。
実務経験があればこのレベルの高さが分かってもらえるのではと、、、。
通常のプレゼンは、主が人で従がスライド。一方、報告書は、主が資料で人の補足説明が無くても通るものでないと意味がない。
この両方を包含する資料を作ることをターゲットに、考え方の基本からサンプル事例まで網羅してくれている本。
なんせサンプル事例が企業買収 笑
具体的な例としてはほぼ関係無くても、企業買収はおそらく最大級にお金が動く案件であり、そこで通用するものならよりシンプルな案件で通用しないわけがないでしょう、と。
いうことで
・考え方を整理したい人
・投資銀行の資料の作り方(骨太バージョン)を知りたい人
・自分でもスライドレポートを作れるようになりたい人
は一度手に取ってみて損はないと思います。
そしてこれが名著の原著。
息を吸って吐くように使えるようになるまでくり返し読んで染み込ませたい。
- 作者: バーバラミント,Barbara Minto,山崎康司
- 出版社/メーカー: ダイヤモンド社
- 発売日: 1999/03
- メディア: 単行本
- 購入: 76人 クリック: 775回
- この商品を含むブログ (280件) を見る
ほな!