【データサイエンティスト002】ハードスキルの理解①
2月から始めたこの企画。2月中になんらかのサービスにつながるかしら。
とりあえず毎回バイブルの紹介から。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
前回の記事、
で紹介したように、ハードスキルに惹かれるのでそれを進めていこう。
まず現状棚卸ししてみる。レベルを次のように定義する:0: 聞いたことない、1: 聞いたことだけある、2: 触ったことある、3: とりあえず使える、4: バリバリいける!
- レベル0: RDBMS関連、SQL、Hadoop関数、HDFS関連、MapReduce関連、pig、Mathout、MADlib、Jubatus、各種機械学習に関する知識、KXEN、KNIME、AlpineMiner
- レベル1: Hive、Perl、SAS、SPSS
- レベル2: Linuxコマンド
- レベル3: R
- レベル4:各種統計解析に関する知識
うん、恥部やな。笑 まーここから一人前になれたらそれはそれですごいっつーかみんな最初は初心者やっつーことで。
これらを端から潰していくのは非現実的やからなぁ。
とはいえさっぱりわからないレベルゼロを本中心に1行ずつでまとめてみる。
- RDBDS: SQLという言語を主なデータベース言語とするデータベース。
- SQL(エスキューエルまたはシークェル): データベースを扱う言語、ネットで無料体験も用意されている(Oracle Application Express)。明日はこれで遊ぼう。
- Hadoop関数: Googleが発表した論文を基にオープンソースとして作られた分散処理フレームワーク、広義ではソフトウェアを含む開発プロジェクト全体をHadoopと呼ぶことも。
時間切れ、続きは明日!