【データサイエンティスト009】データ分析の基礎知識 深堀してみる。
データサイエンティストのバイブルを参考にしつつ
今月でサービスを出せないかしらという企画。
バイブルはこれ。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
2月1日から格闘しているけど面白いものが出せるどころか
中身の難解さにぶち当たり苦戦中。。
昨日の記事ではこの本の中身を明らかにして、
取り組みの方針を挙げてみた。
理系で自らデータサイエンスの分野に入ってみようと思うひとはさらっと巻頭企画に目を通した上で、特別企画を掘り返してみたらいいのではないかしら。
ということで、巻頭企画に目を通したので、
今回の記事では特別企画を深堀してみる。
この特別企画では、SQL(シークウェル)とWebスクレイピングの木曽、Tableauの利用方法をわかりやすく解説してくれるとのこと。
・・・うん。
全部さっぱりわからない。
あ、いや、SQLはここ数日言葉に触れているのでだんだん馴染んできている。
ということでこの3つについてこの記事でも深堀しながら進めていく。
では最初のSQL(シークウェル)から。
そもそものところで、世の中のデータの多くはRDBDM(Relational DataBase Management System: 関連データベースマネジメントシステム)に入っている。RDBDM内のデータを操作するために用いられる言語がSQL。
SQLでは基本的に表現が統一されており、例えばデータベースにデータを追加・削除するなどが可能。実際の実行方法は大きく分けて3つあり、データベースアクセスソフトを使う、コマンドプロンプトやターミナル上で行う、RやPythonなどのプログラミング言語から使う、である。
ちょっと漢字が多いかな。
まぁSQLとはデータベースのデータを扱う言語のことですね。
上記の本では理屈を簡単に説明した後、実践編として実際に仕事でDHWにアクセスしてレポートする場面を紹介されている。提出するレポートとして、商品別週別売上と月別店舗別性別別の売上・単価・客数、売上面積ランク別売上の3つを想定して具体的に説明。そして、最後にはRからSQLを実行する方法を紹介して締めている。
まぁ今日はこんなところかしら。
SQLが何か少しでもわかると何より。
さてここからどうサービスに持ち込むのか。
上記の事例をさくっとできるようなものを作れると一定の需要はあるやろうけどライバルだらけやろうなぁ。
明日は毛色を変えて今回紹介したこの本の事例に似た内容でお客さんに訴求しているところがあるかないかを調べてみよう。
いわゆる他社調査、他社調査!