【データサイエンティスト010】データ分析の基礎知識 深堀してみる②
データサイエンティストの本を参考にサービス出したいなとスタートして早10日。
当初は毎日10分最低やろう、としてたけど(当たり前の話で)ぜんぜん進まないので後半は30分~1時間取り組み中。
といいながらなかなか進まないねぇ。
まず今日も今日とてこの本の話ですと紹介しておく。
改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)
- 作者: 佐藤洋行,原田博植,里洋平,和田計也,早川敦士,倉橋一成,下田倫大,大成弘子,奥野晃裕,中川帝人,長岡裕己,中原誠
- 出版社/メーカー: 技術評論社
- 発売日: 2016/08/25
- メディア: 大型本
- この商品を含むブログ (1件) を見る
さて。
では今回はSQLを実際に試してみる実録を。実録悪戦苦闘ブログ。
ということで早速。
- 今回の目的:qgAdminⅢ(フリーで豊富な機能を有するSQLソフト)を実際に導入して遊び、感覚を掴んでみる。
- 背景:データサイエンティストという言葉が世界で飛び交っている中、統計好きとしてはぜひ一度遊んでみて、何らかのサービスにも仕立ててみたいと思う今日この頃。
- やること:インストール~テストプログラムで遊んでみる
それでは順に。
・・・・
と思ったけどこれは作戦ミスだ!
データベースが無いとあやつるものもないのでやること無し!
まぁわかったこととして
- SQLはデータベースを操る言語。データの読み込みやデータベースの管理ができる。近年、SQLを使わずにデータベースを操るNoSQLというものも出てきている。コマンドプロンプトがGUIに置き換えられているのと同じ動きかな。
- 大量にデータを取ってそれから意味を抽出する。概念はわかるけど実際のところは実務で悪戦苦闘が必要やなぁこれは。どっかにデータがないのかしら。
この二つかな。
・・・・
ということで次の項に進んだらあるやんデータ!
ウェブスクレイピング!
公開されている様々なデータベースを活用して自前データの不足分を補完しよう、という素敵な手法。
今の自分には自前データはないのでウェブスクレイピングで遊んでみよう。
文章にしちゃうとまじ3分程度の内容。最初はこつこつあがくしかないかなぁ。
何かしら講習でもないかしら。
自分でつくればいいのか。
もう一遊び!