焦点

でっかいことに焦点を

【データサイエンティスト040】エクセルピボットテーブルのTips。

あぁ、かれこれ40回目に到達。

データサイエンティストを切り口にこつこつやり始めてもはや40日目や。。

サービスを作ろうと思いつつ未だ案の状態でお勉強ちぅ。

まぁ、あせりつつ、ぼちぼちやっていこう。

 

ということでお勉強は進める一方、自分が学んできたことを書き下してきてくれている人の実りになるようなものを出したいな、ということで進めているこの1週間強か。

 

ここ数日はピボットテーブルについてまとめ始めました。

前回はデータの構造とピボットテーブルを使った場合のアウトプットグラフの例について。

kohei327.hatenablog.com

 

使ったことが無い人はアウトプットのレベルがぴんとこないかもしれない。簡単に説明しておくと、今回は2017年1月1日~2018年12月31日までに1万件の売り上げが発生したと仮定したデータを乱数で作成し、それをグラフ化しました。データの項目は商品(4種類)と担当者(4人)、単価と売上額としました。1万件のデータは日割りで出しているのでそれを4半期ごとにまとめて推移をプロットしたり、担当者ごと1年間の売り上げを内訳含めて比較したり。ピボットテーブル使える人なら「あぁ、そういうことね」レベル(簡単なレベル)ですが、使えない人からすると「あーうー」ってなるかな、と思う。

基本的な使い方はググってもらうか本を買ってもらうとして。

まぁこういった内容は1冊くらい本があっても損はしないどころか必ず得すると思う。日々の仕事が速くなり、余った時間で検討することができ(堕落しそうな人は瞑想から?)、その分アウトプットの質が上がって、いまどき流行りの働き方改革に繋がったりするんちゃうかな。とか言ってみたりして。

このブログではやってみて困ったことをまずはいくつか列記してみる

 

あれ?データが合計でなく「データの個数」になっちゃう、、、

  • はい、理由は欠測値です(生データに項目はあるけど数字が無いセルが存在すること)。ピボットさんは、データの全項目に数字が入っていたら「合計」にして、そうじゃなかったら(=欠測値があったら)「データの個数」で表示するらしい。
  • それを「合計」にするには、いくつか手法あるけど、最も早い(と思われる)のは、「データの個数」を表示しているいずれかのセルにカーソルを合わせ、右クリックボタン(キーボードのどこかにあるはず!)を押してすかさず「M」→「S!」と押せば目にも留まらぬ速さで「合計」が表示されます。これは知る限り一番スムーズ。

 

いくつか、といったけどこの一番大きい項目以外はいまいちかな、、、明日までもう少しひねり出してみる。

 

ということで、ここまでブログを読んでくださったアナタ。

まだもしピボットさんを使ったことがなれば、一旦使ってみてやってくださいな!

【データサイエンティスト039】エクセルピボットテーブルのデータ形式

データサイエンティストを切り口にぼちぼちやっているブログ。

サービスを出そうと思いつつ今は基礎固めというかなんと言うか逃げというかまぁお勉強中。

UdemyさんとTableauさんにお世話になっております。

 

勉強がひと段落するまでは今手持ちの情報で参考になるかな?という内容をぼちぼち書いていこうとやってます。

 

昨日からはピボットテーブル。使いこなしている人は使いこなしている、使ってない人は機能さえ知らない、という。

余談ですが、ピボットテーブルとゴールシーク、ソルバーを使えればエクセルだいぶ活用できてるかな、と。

もっと別のソフトでさくさくできている人は当然それでいいとして、エクセルしか武器が無い人はその3つをちょっと深めてみると色々検討に使えるかと。

 

閑話休題、ピボットテーブルについて。

今日はデータの形についてお話します。

ピボットテーブルを使うならこの形じゃないとうまく読み込んでくれません。

そもそも使えなくなっちゃう。

逆にこの形式でデータをまとめる癖をつけておくとエクセルを超えて次の言語やソフト使うときにかなりすんなりいけるはず。

データ100個以内くらいなら自己流の表でもいけるでしょうがそれを超えてくると

  • 元データは今回説明する形で保存
  • 分析は別の表とグラフで行う

という方式にするとアウトプットの質は上がり必要な時間は減らせることうけあいです。

うけあいって誓約(うけい)からきてたりするのかしら。しないのかしら。

 

ということでそのデータの形。

f:id:kohei327:20170312103036p:plain

どーん!

項目を横に、データを縦に。

 

以上!

 

今回は営業っぽいデータを創作したけれど、理系の測定データも同じく項目を横に時間を縦にして継続的に追加していくのがおすすめ(というか知る限りみんなそうしてるからいまさらですみません)。

 

こういう風なデータがあれば、ピボットテーブルを活用すれば15分くらいで下記のグラフまでは作れちゃいます。

f:id:kohei327:20170312103659p:plain

 

ちなみに上のデータは乱数で1万行作ったので、手でぽちぽちやるとしたらどうするかな、、、VLOOKUPで出すかフィルタで各要素抽出してやるかいっそのことマクロで何とかしようとするか、、、

 

いずれにせよデータ数が多くなると上記のような分析をエクセルでやるには(前提条件だらけですが)今のところピボットテーブルさんが妥当な選択だと思います。

 

ということで今日のまとめ。

  • 項目を横に、データは縦に!

普段のデータからやっていきましょうー!

 

明日はピボットテーブルの地味で便利な使い方、についていきましょうか。

基本的な使い方はいくらでも本やサイトがあるので割愛する方向で考えてますー。

 

【データサイエンティスト038】今回からエクセルピボットテーブルで

データサイエンティストのサービス作ろうブログ。今はUdemyで勉強ちぅ、Tableauトライ中!

 

UdemyではPythonの学習、コツコツと。

約100講座あっていま35講座くらい。

動画を使ってステップバイステップで教えてくれる内容で、動画見ながらほぼ全て打ち込みつつ試してます。

 

このブログではお勉強をただただ水平展開するのも何なので一旦身につけた内容で読む人の実りになることを書いてみようと思ってます。

 

前回まではR、今回からはエクセルのピボットテーブルかな。

数万データくらいまでならクロス集計(縦横の二次元にデータを並べて比較する)できるしまー用途は広いかなと。

 

一方、とっつきにくいのか使えてない人も多い。

 

自分で打ち込むとやっぱりミスも出るしミス防止の確認行為が必須となるので、オススメは、データベースのシートと分析シートを分けること。

 

ピボットテーブルで使えるデータの構造は、例えば統計ソフトのStatWORKSやPython、Rでもいけるので一度データの構造にこだわるのがオススメ。

 

じゃーそのデータの構造って?から次回!

【データサイエンティスト037】R。まず何からやろう?

データサイエンティストを切り口にサービスを出そうとして始めたブログ、現在UdemyやTableauで修行中。

その合間にぼちぼちと。

数日前からR(あーる)について説明を試みています。

導入は前回までのブログをご確認頂くとして。

今日は導入できた、じゃあまずは何をやってみよう?という話で。

 

面白さでいうとggplot2でお洒落グラフを書いてみることがオススメかな。

ライトグレーベースでいい感じのグラフがサクッと出てくる。

こんなサイトとか 

id.fnshr.info

 

公式ページとか

ggplot2

この辺参考にしてもらえれば。

 

あとは結局大量のデータを分散分析かけたり重回帰してみたりが醍醐味やろなー。

 

その前にデータの入力、順序入れ替えとかもできると地味に嬉しい。

 

結局、Rは①データを取り込んで②処理して③アウトプットするやつなので、①〜③のそれぞれで面白そうなポイントを見つけてやってみるといいと思う。

 

ということで、総括するとやっぱり最初のやつかな。

→もしRを初めてインストールされた方がいれば、ggplotもパッケージをインストールしてぜひグラフ化してみてください。

 

それでは!

【データサイエンティスト036】Rをスタートするには

データサイエンティストというキーワードを切り口に実力をつけるためサービスを作ってみよう、と取り組み始めて早1ヶ月と8日目のブログ。

Udemyというサービスでお勉強、TableauでBIツールとやらを実感、この二つを進めているなう。少しずつ見える世界が広がって先の長さにおー!となっているところです。

サービスを出す段階に入ったらまたこのブログで悪戦苦闘っぷりを晒してみますが、現状のお勉強は晒す部分が無いので、とりあえず知っている内容で読む人の実りになりそうなものを着々と書いている段階です。

ここ数日は統計に強いプログラミング言語R(あーる)について解説。このブログの「リブロジ」シリーズ(今ちょっと一息中ですが)で説明した方法で進めています。その方法とは「なぜ」「なに」「どうやって」「いますぐ」の順に説明するというもの。まずメリット、次にそれは何なのか、じゃあどうやってやるのか、まずは何から取り組むのか、という方法ですね。

昨日までに「なぜ」と「なに」が終わった(つもり)なので、今日は「どうやって」に進みます。

 

どうやってRをスタートするのか。

 

まずはパソコンがあるとして。パソコンのスペックは、ビッグデータを扱う場合でなければ、家庭用のデスクトップやノートPCのそれで充分です。

 

ということでいつものずるわざ。

Windows用Rガイド

このサイトは誠実でポイントのみにまとまっているので初心者にもお勧めかと。

これで「R」と「RStudio」をダウンロード、インストールしてみてください。

 

上からぽちぽち、でいけるはず!

めっちゃたくさんサイトがあっていろんなこと書いてるけどまずは上記のサイトに絞ってください!

 

ほな!

 

【データサイエンティスト035】Rについて説明をば

データサイエンティストという言葉を切り口にサービスを出そうとやり始めて早一月ちょっと。

現状はUdemyというサービスでPythonプログラミング言語ね)を中心としたデータ分析の講座を受講しつつ、BIツールのTableuで色々と試し中。

サービスはPythonでデータ加工のサムシングをやろうと思っているけれどもしかし今のところはちょっと力を蓄積(当初見込みの甘さが原因ですわ、、、)。

 

ということで講座とかが一周する間にいろんな便利情報を提供していこうとしています。

昨日からはR(あーる)。何かっていうと様々な統計処理が無料でできるプログラミング言語、かな。

メリットデメリットは昨日の記事でも参照ください。

 

kohei327.hatenablog.com

 

ということで今日はRって何?というところの情報提供しようと。

まぁ僕がちまちま書いてもいいけどここは平たく先人に頼ってみる。

ググってもやっぱりマイナーなのかいい情報が少なめな印象ですがこれはいい。

blog.codecamp.jp

こんなことができるんやねーということをかっちょよく、端的に、まとめてくれています。

 

ということで今日はこんなところで。

R(あーる)、頭の片隅に置いてタイミングみてトライしてみてくださいませ。

 

明日はRをどうやってスタートするの?ということでやりたいと思います。

 

ではでは。

【データサイエンティスト034】Rとは

データサイエンティストでサービスを出そうと日々(つっても17年の2月から)ちまちまやっているなう。

2月中にサービスを、と意気込んでたけどレベル的にどうしようもないので、UdemyというC2C教育サービス(いろいろあって面白いよ!)とTableauというBIツール(Business Intelligenceツール:蓄積された大量データを収集して分析するためのツール)を導入して経験を積んでいるなう。お勉強ともいいますね。

 

その合間にこのブログではこのキーワードで来てくれた人に少しでも実りがある記事を書こうと画策しています。

 

今日からR(あーる)についてちょっと知るところを書いてみようと。つっても業務でビシバシ!というレベルではなくまぁぼちぼち使ってみてエクセルよりは綺麗に出せるかな、という段階なので悪しからず。

まずRのメリットデメリットからいこうか。

まずメリット。なぜRを入れるのか。それを一言で言うと「エクセルでは難しい高度な統計分析が無料でできる」ということになりますかね。エクセルでできることもいろいろあるけどやっぱりわかりにくいし使いにくい。自分で数式作って分散分析とかしてもいいししたことあるけどデバッグが大変。一方有料ソフトならいくつかいいのはあって、癖はあるけどStatWORKSがやりたいことは大抵できる万能さを兼ね備えている。でも金額が高い。そこでR。世界で開発されているので様々な統計処理が含まれており、インストールや使用は完全無料。結構大量なデータもサクサク処理してくれてプロットも綺麗にしてくれる。

一方デメリット。なぜRが広まりきらないのか。一言でいうと、多分、「とっつきにくい」からかな。そこそこパソコンというかプログラミング経験がないと何から何までわからんかなー、と。インストールから挫折しちゃう例もなくはないと思う。なんとかインストールしてもデータの入出力が難解やし実際どうなっているのか理解が難しい。RStudioという使いやすくするソフトがあってそれを入れるとだいぶ仲良くなれそうな外観を見せてくる。でもまだまだ無骨。仲良くなってくるとそんな無骨さも可愛く感じられる(??)。そして結局離れられないExcel

 

ということでまとめると「統計処理を無料でやりたいならR!」ということで。日本語でもたくさん情報はあるし、英語ならなおさら。

 

興味を持った方はRStudioとセットでぜひ一度トライしてみてくださいませ。

明日からはRとは何、そしてどうやって使うのか、と少しずつ深めていこうかと思います。