焦点

でっかいことに焦点を

【データサイエンティスト037】R。まず何からやろう?

データサイエンティストを切り口にサービスを出そうとして始めたブログ、現在UdemyやTableauで修行中。

その合間にぼちぼちと。

数日前からR(あーる)について説明を試みています。

導入は前回までのブログをご確認頂くとして。

今日は導入できた、じゃあまずは何をやってみよう?という話で。

 

面白さでいうとggplot2でお洒落グラフを書いてみることがオススメかな。

ライトグレーベースでいい感じのグラフがサクッと出てくる。

こんなサイトとか 

id.fnshr.info

 

公式ページとか

ggplot2

この辺参考にしてもらえれば。

 

あとは結局大量のデータを分散分析かけたり重回帰してみたりが醍醐味やろなー。

 

その前にデータの入力、順序入れ替えとかもできると地味に嬉しい。

 

結局、Rは①データを取り込んで②処理して③アウトプットするやつなので、①〜③のそれぞれで面白そうなポイントを見つけてやってみるといいと思う。

 

ということで、総括するとやっぱり最初のやつかな。

→もしRを初めてインストールされた方がいれば、ggplotもパッケージをインストールしてぜひグラフ化してみてください。

 

それでは!

【データサイエンティスト036】Rをスタートするには

データサイエンティストというキーワードを切り口に実力をつけるためサービスを作ってみよう、と取り組み始めて早1ヶ月と8日目のブログ。

Udemyというサービスでお勉強、TableauでBIツールとやらを実感、この二つを進めているなう。少しずつ見える世界が広がって先の長さにおー!となっているところです。

サービスを出す段階に入ったらまたこのブログで悪戦苦闘っぷりを晒してみますが、現状のお勉強は晒す部分が無いので、とりあえず知っている内容で読む人の実りになりそうなものを着々と書いている段階です。

ここ数日は統計に強いプログラミング言語R(あーる)について解説。このブログの「リブロジ」シリーズ(今ちょっと一息中ですが)で説明した方法で進めています。その方法とは「なぜ」「なに」「どうやって」「いますぐ」の順に説明するというもの。まずメリット、次にそれは何なのか、じゃあどうやってやるのか、まずは何から取り組むのか、という方法ですね。

昨日までに「なぜ」と「なに」が終わった(つもり)なので、今日は「どうやって」に進みます。

 

どうやってRをスタートするのか。

 

まずはパソコンがあるとして。パソコンのスペックは、ビッグデータを扱う場合でなければ、家庭用のデスクトップやノートPCのそれで充分です。

 

ということでいつものずるわざ。

Windows用Rガイド

このサイトは誠実でポイントのみにまとまっているので初心者にもお勧めかと。

これで「R」と「RStudio」をダウンロード、インストールしてみてください。

 

上からぽちぽち、でいけるはず!

めっちゃたくさんサイトがあっていろんなこと書いてるけどまずは上記のサイトに絞ってください!

 

ほな!

 

【データサイエンティスト035】Rについて説明をば

データサイエンティストという言葉を切り口にサービスを出そうとやり始めて早一月ちょっと。

現状はUdemyというサービスでPythonプログラミング言語ね)を中心としたデータ分析の講座を受講しつつ、BIツールのTableuで色々と試し中。

サービスはPythonでデータ加工のサムシングをやろうと思っているけれどもしかし今のところはちょっと力を蓄積(当初見込みの甘さが原因ですわ、、、)。

 

ということで講座とかが一周する間にいろんな便利情報を提供していこうとしています。

昨日からはR(あーる)。何かっていうと様々な統計処理が無料でできるプログラミング言語、かな。

メリットデメリットは昨日の記事でも参照ください。

 

kohei327.hatenablog.com

 

ということで今日はRって何?というところの情報提供しようと。

まぁ僕がちまちま書いてもいいけどここは平たく先人に頼ってみる。

ググってもやっぱりマイナーなのかいい情報が少なめな印象ですがこれはいい。

blog.codecamp.jp

こんなことができるんやねーということをかっちょよく、端的に、まとめてくれています。

 

ということで今日はこんなところで。

R(あーる)、頭の片隅に置いてタイミングみてトライしてみてくださいませ。

 

明日はRをどうやってスタートするの?ということでやりたいと思います。

 

ではでは。

【データサイエンティスト034】Rとは

データサイエンティストでサービスを出そうと日々(つっても17年の2月から)ちまちまやっているなう。

2月中にサービスを、と意気込んでたけどレベル的にどうしようもないので、UdemyというC2C教育サービス(いろいろあって面白いよ!)とTableauというBIツール(Business Intelligenceツール:蓄積された大量データを収集して分析するためのツール)を導入して経験を積んでいるなう。お勉強ともいいますね。

 

その合間にこのブログではこのキーワードで来てくれた人に少しでも実りがある記事を書こうと画策しています。

 

今日からR(あーる)についてちょっと知るところを書いてみようと。つっても業務でビシバシ!というレベルではなくまぁぼちぼち使ってみてエクセルよりは綺麗に出せるかな、という段階なので悪しからず。

まずRのメリットデメリットからいこうか。

まずメリット。なぜRを入れるのか。それを一言で言うと「エクセルでは難しい高度な統計分析が無料でできる」ということになりますかね。エクセルでできることもいろいろあるけどやっぱりわかりにくいし使いにくい。自分で数式作って分散分析とかしてもいいししたことあるけどデバッグが大変。一方有料ソフトならいくつかいいのはあって、癖はあるけどStatWORKSがやりたいことは大抵できる万能さを兼ね備えている。でも金額が高い。そこでR。世界で開発されているので様々な統計処理が含まれており、インストールや使用は完全無料。結構大量なデータもサクサク処理してくれてプロットも綺麗にしてくれる。

一方デメリット。なぜRが広まりきらないのか。一言でいうと、多分、「とっつきにくい」からかな。そこそこパソコンというかプログラミング経験がないと何から何までわからんかなー、と。インストールから挫折しちゃう例もなくはないと思う。なんとかインストールしてもデータの入出力が難解やし実際どうなっているのか理解が難しい。RStudioという使いやすくするソフトがあってそれを入れるとだいぶ仲良くなれそうな外観を見せてくる。でもまだまだ無骨。仲良くなってくるとそんな無骨さも可愛く感じられる(??)。そして結局離れられないExcel

 

ということでまとめると「統計処理を無料でやりたいならR!」ということで。日本語でもたくさん情報はあるし、英語ならなおさら。

 

興味を持った方はRStudioとセットでぜひ一度トライしてみてくださいませ。

明日からはRとは何、そしてどうやって使うのか、と少しずつ深めていこうかと思います。

【データサイエンティスト033】さて何を書こうか、という段階で。

バズワードを過ぎて定着してきた感のあるデータサイエンティスト。

いわゆる先行者利益はほぼかっさらわれた(特にGoogleさんとか)やろうけどまぁ二歩三歩遅れでぼちぼち進んでいこうかしらという。

ということで現状はUdemyの講座(なんと2万人以上受講!すげーな。一人1万円なら2億円?手取り1割なら2000万円。先行者すげー。)とTableau(タブロー)でちまちまやっているところ。

Udemyの講座は104項目あって(時間は5分〜20分、平均10分やとすると1000分、16時間ちょっと。倍速再生できるので実時間は半分の8時間ちょっとか)、やっと32講座。まじめに全部打ち込もう(URL以外)としていて、import pandas as pd とか打ちすぎて目をつぶってもいける。

Tableauは2週間限定ということでいろんな機能を試している。使えば使うほど奥が深い。。お洒落かつこれが分析か!という内容の事例が1日一つ挙げられていて、テンションが上がると同時にちょっと重たい気分になる。レベルの差を感じて。。つって最近そんな風に凹むこともなかったのでいい機会。ちょっとずつ一気にやっていこう。

 

それがこれ。

public.tableau.com

 

ということでまたまた身辺雑記になってしまった。

データサイエンティスト、目指している人がいれば横目でみて追い越して置いてけぼりにしてもらえれば。。

もしすでに俺はそうだ!という人がいれば薄目で眺めていて下さい。

 

うん、なんか暗いな。笑

 

明日からまた頑張っていこうー!

【データサイエンティスト032】PADについて②

バズワードのデータサイエンティストでなんかできないかなブログ。

ちょっと現在UdemyとかTableauでお勉強中なので発信する内容がない苦境なう。

よってちょっとでも読む人に実りがありそうなことを書いて時間稼ぎをしようかという作戦。

 

ということでPADを説明してみる。

構造化プログラミングをするために内容を図示して考えよう、というもので、マクロなどには非常に役立つはず。

まぁいまやろうとしているデータサイエンティスト関連には力及ばずかもしれないけど知ってて損はないはずなのでご興味があればぜひ。

 

ということで昨日、PADは3つの要素、「連接」「選択」「反復」で出来ているというところまでお話をしました。

 

そもそもPADってどんなもんかっていうと、

5分で習得!PADで構造化プログラミング – ワーカプレイヤー

こういう素敵なサイトがあったので活用させていただきやす。

まぁこれ嫁、で終わっちゃうけど、せっかくなので実務上気をつけたほうがいいことをメモしておこう。

  • とにかく描く
  • なので隙間タップリに描く
  • 鉛筆と消しゴムが良い(フリクションでも可)
  • サブルーチンは別の紙に描く
  • パソコン触りたくなるけど抜かりないPAD(どんなツッコミにも耐えられる)ができるまで粘る

しょうもないけどこの辺は簡単なようで重要。

 

使い方でわからないところあれば(上記の記事が秀逸なのでないと思うけど)コメントもらえればわかる範囲でお答えします。

 

PADについて知る方が増えればこれ幸い、ということで。

 

【データサイエンティスト031】PADについて

データサイエンティストでサービスを作ることを目指してちまちまやってるブログ、

あまりの自分のレベルの浅さを反省し、現状はUdemyのPython講座を進めつつ、データ分析ツールのTableauを無料トライ期間中でためさせて頂いて感覚をつかんでいる最中。

 

その模様を実況中継するのも飽きてきたし、読む方のメリットが無いので、ここではちょっと身のある内容を書くようにしようと思う。

 

今日は僕が昔授業でならった構造化プログラミングのPAD(Problem Analysis Diagram)について説明してみます。

 

これを知っているとエクセルマクロレベルのプログラムならさくっと考えがまとまるし、そのまとまった考えをスムーズにプログラム化できる。

逆にフローチャートだと考えがまとまりにくく、何とかフローチャートができてもそれをプログラム化する際にもう一度考える必要が出てくるので時間がかかったりミスが増えたりすることも(←個人の見解です、もちろん好き嫌いもあります、気分害された方すみません)。

 

まーあまり知られてないので今回知った方は食わず嫌いせず一度試してみて頂ければ。

 

PADとは何かっていうと図形でプログラムの考え方を記述する手法。構造化プログラミングと呼ばれる、全体と部分を明確に定義して(抽象化して仮想機会を動かして)誰にでも分かりやすく、ミス無く作れるような手法に適する。PADの歴史は古く、昭和54年(!)に日立製作所の中で生まれ、世界で広める動きも。 

PADプログラミング (岩波コンピュータサイエンス)

PADプログラミング (岩波コンピュータサイエンス)

 

 

プログラムで行う手続きをわずか3つに集約した点が画期的。それは「連接」「選択」「反復」。この組み合わせでどれだけ大きなプログラムも書けるという概念。しかもこの考えに則って作ったプログラムは後からでも非常に分かりやすいし再利用もしやすい。

 

ではそのPADはどうやって使うかというと、、、また明日!