焦点

でっかいことに焦点を

【データサイエンティスト012】WEBスクレイピングについて②

えー、データサイエンティストの本を参考にしつつ、何らかのサービスまで持っていきたいと悪戦苦闘している戦いブログ。

ということで。

個人的に今週休みとなり、旅先で検討中です。

 

昨日からWEBスクレイピングについて勉強中。

WEBスクレイピングとは、オンラインで公開されている情報を集めてきて、データ分析に活用しようという手法。

 

今日はできることをまとめて書いてみる。

なかなかに面白い。

 

wiki情報を集約(企業の売り上げ額とか)

wikiの項目文字数をカウント(これは取ってくる意味が今の所掴めてない)

 

この本はあくまで導入ということで適度なディレイなどにも言及頂いているけど先は長く奥は深そう。

 

実際に自分でやってみたいけど、とりあえず、明日は次のTableau(タブロー)についてお勉強してみる。

 

 

【データサイエンティスト011】WEBスクレイピングについて①

データサイエンティストのサービスを生み出そうとしてやり始めたシリーズ。

甘いもんじゃ無いねぇと思いつつぼちぼち進めて参ります。

 

といことで昨日からWEBスクレイピングに突入。

WEBスクレイピングとは、WEBから公開情報を集めてデータ分析に活用すること。

スクレイピング(scraping)の意味は、擦り付けたりすることやかき集めること、転じて、元々異なる用途、形式のデータを抽出して活用すること、らしい。

 

例えば気象情報など色々な情報をネットに公開して頂いているので使い方さえわかれば非常に応用範囲は広い。

 

使うためには大きく2つのツールを活用する必要があり、まずWEB情報を取得するアクセスツール、次に取得したデータを活用できるように加工するスクレイピングツール。ただし、両方の機能を包含したツールもある。

 

こうやって表面的な内容はまぁええので明日は実際にトライしてみる。。!

 

 

 

【データサイエンティスト010】データ分析の基礎知識 深堀してみる②

データサイエンティストの本を参考にサービス出したいなとスタートして早10日。

当初は毎日10分最低やろう、としてたけど(当たり前の話で)ぜんぜん進まないので後半は30分~1時間取り組み中。

 

といいながらなかなか進まないねぇ。

まず今日も今日とてこの本の話ですと紹介しておく。

 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 さて。

では今回はSQLを実際に試してみる実録を。実録悪戦苦闘ブログ。

ということで早速。

  • 今回の目的:qgAdminⅢ(フリーで豊富な機能を有するSQLソフト)を実際に導入して遊び、感覚を掴んでみる。
  • 背景:データサイエンティストという言葉が世界で飛び交っている中、統計好きとしてはぜひ一度遊んでみて、何らかのサービスにも仕立ててみたいと思う今日この頃。
  • やること:インストール~テストプログラムで遊んでみる

それでは順に。

・・・・

と思ったけどこれは作戦ミスだ!

データベースが無いとあやつるものもないのでやること無し!

 

まぁわかったこととして

  • SQLはデータベースを操る言語。データの読み込みやデータベースの管理ができる。近年、SQLを使わずにデータベースを操るNoSQLというものも出てきている。コマンドプロンプトGUIに置き換えられているのと同じ動きかな。
  • 大量にデータを取ってそれから意味を抽出する。概念はわかるけど実際のところは実務で悪戦苦闘が必要やなぁこれは。どっかにデータがないのかしら。

この二つかな。

 

・・・・

 

ということで次の項に進んだらあるやんデータ!

ウェブスクレイピング

公開されている様々なデータベースを活用して自前データの不足分を補完しよう、という素敵な手法。

 

今の自分には自前データはないのでウェブスクレイピングで遊んでみよう。

 

文章にしちゃうとまじ3分程度の内容。最初はこつこつあがくしかないかなぁ。

何かしら講習でもないかしら。

自分でつくればいいのか。

もう一遊び!

 

【データサイエンティスト009】データ分析の基礎知識 深堀してみる。

データサイエンティストのバイブルを参考にしつつ
今月でサービスを出せないかしらという企画。

バイブルはこれ。 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

2月1日から格闘しているけど面白いものが出せるどころか
中身の難解さにぶち当たり苦戦中。。

 

昨日の記事ではこの本の中身を明らかにして、
取り組みの方針を挙げてみた。

理系で自らデータサイエンスの分野に入ってみようと思うひとはさらっと巻頭企画に目を通した上で、特別企画を掘り返してみたらいいのではないかしら。

 ということで、巻頭企画に目を通したので、
今回の記事では特別企画を深堀してみる。

 

この特別企画では、SQL(シークウェル)とWebスクレイピングの木曽、Tableauの利用方法をわかりやすく解説してくれるとのこと。

 

・・・うん。
全部さっぱりわからない。

あ、いや、SQLはここ数日言葉に触れているのでだんだん馴染んできている。

ということでこの3つについてこの記事でも深堀しながら進めていく。

 

では最初のSQL(シークウェル)から。

そもそものところで、世の中のデータの多くはRDBDM(Relational DataBase Management System: 関連データベースマネジメントシステム)に入っている。RDBDM内のデータを操作するために用いられる言語がSQL

SQLでは基本的に表現が統一されており、例えばデータベースにデータを追加・削除するなどが可能。実際の実行方法は大きく分けて3つあり、データベースアクセスソフトを使う、コマンドプロンプトやターミナル上で行う、RやPythonなどのプログラミング言語から使う、である。

 

ちょっと漢字が多いかな。

 

まぁSQLとはデータベースのデータを扱う言語のことですね。

 

上記の本では理屈を簡単に説明した後、実践編として実際に仕事でDHWにアクセスしてレポートする場面を紹介されている。提出するレポートとして、商品別週別売上と月別店舗別性別別の売上・単価・客数、売上面積ランク別売上の3つを想定して具体的に説明。そして、最後にはRからSQLを実行する方法を紹介して締めている。

 

まぁ今日はこんなところかしら。

 

SQLが何か少しでもわかると何より。

さてここからどうサービスに持ち込むのか。

上記の事例をさくっとできるようなものを作れると一定の需要はあるやろうけどライバルだらけやろうなぁ。

 

明日は毛色を変えて今回紹介したこの本の事例に似た内容でお客さんに訴求しているところがあるかないかを調べてみよう。

いわゆる他社調査、他社調査!

 

【データサイエンティスト008】ハードスキルの理解⑧

データサイエンティストの本をベースに取り組んでみよう、として今年の2月からスタートした企画。

今日も今日とてバイブルのご紹介から。 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 この本をベースに進めようと一週間取り組んでみました。

本を何となく読んでいるときは分かった気になるも、自分でサービスを作ろうとした瞬間に何も分かっていないことと直面するいつもの流れ。

 

まぁ一週間前の自分(=さっぱり分かってない人。一応、理系。統計は面白いと思っている)に対して書評を書き下してみます。

続きを読む

【データサイエンティスト007】ハードスキルの理解⑦

今日で1週間目。

昨日の最後に「明日は動かしてみる」と書いてみたけど動かせず、、、。

 

というか何がなにやらさっぱり状態。

今わからないことを書き起こすことで後々のためになる(といいな)。

 

Hadoopって結局何のためのもの?(目的/ゴール)

  →大規模データベースの蓄積と分析を行うためのソフトウェア

Hadoopって何?(全体像)

  →Googleの論文を元にDugさんという方が開発したソフト。

   分散ファイルシステムフレームワークからなる。

・どうやって使う?(導入)

・まず何すればいい?

 

とりあえずわかったことはHadoopという名前の由来。

Dugさんのお子さんが持ってた象のぬいぐるみの名前らしい。笑

ぬいぐるみを作った人もその名前がここまで世界的に有名になるとは想像だにしなかったでしょう、、、。

 

ということで明日はRDBMSについてもう少し深堀してみることとします。

 

最後に今日参考としたページと毎日紹介しているバイブルを。

分散処理技術「Hadoop」とは:NTTデータのHadoopソリューション

 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

ほな!

【データサイエンティスト006】ハードスキルの理解⑥

2017年2月はデータサイエンティストとしてサービスを生み出すことを目標に活動を続けようと検討している。

下記の本を参考にしつつ。 

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

改訂2版 データサイエンティスト養成読本 [プロになるためのデータ分析力が身につく! ] (Software Design plus)

 

 

とりあえずHadoopね。

・分散処理可能

Intel

あとはようわからんな。明日は一度少しでも動かしてみる。