焦点

でっかいことに焦点を

【データサイエンティスト045】できない自分に

Udemyで学習中。 このコースが秀逸。

【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 【ゼロから始めるデータ分析】 ビジネスケースで学ぶPythonデータサイエンス入門 | Udemy

関係ないけど、先生の高田さんが従兄弟(SE)に激似。笑

データアナリティクスの教育用データを元にPythonの使い方をステップ・バイ・ステップで。 deepanalytics.jp 上のサイトでは学習用と予測用それぞれのデータセットを用意している。 学習用でモデルを作って、予測用データから予測値を計算し、上記サイトに申請すると予測精度を判断してくれる。 Pythonも面白いけど一旦自分の実力を知ろうということで エクセルで出来る限り重回帰分析でやってみた。 ・・・まったくあかん_| ̄|○ ・・・ベンチマークさえさっぱり届かない

まぁ言葉を使った重回帰分析なんて生まれて始めてやるし。そうだそうだ。

ちょっとできると思ってたけどまぁここがスタート位置ということで改めてUdemyの講座に戻ってPythonで取り組んでみましょう。 悔しすぎるので汎用的な予測モデルの種類と使い方についても学習をして取り組んでみる。

DeepAnalyticsのどれかに応募して勝ち取るところを目標にやってみよう。 まだまだ人数も少ないし、普段から数字を取り扱うことを仕事にしているのである程度はいかないとかっちょがつかない、、、し、ここでいければ今後も広がるはず!

ということで久しぶりの雑記でした。

結構くやしす!

ほぼ日の魔力とほぼ日5年手帳(ヌメ革カバー付き)を「まだ」手に入れる方法

2017年12月2日段階の記事。

昨日(1日)、ほぼ日からめっちゃ気になるセールスが来ました。 その名も「5年手帳!」

めっちゃ分厚いんかな?と思いきやいやいやそこはほぼ日。 1日を5年分に分けることにより、厚みはそんなに増やさず5年を達成。 1年当たりの書き分は減ってるけど、通常のほぼ日で1日1ページを完全に埋め尽くすことは月に数日あるかないか。

一方、ほぼ日手帳を使い始めて5年くらい経ってて、 読んだ本とか思いついたことのメモをするも 新しい年になると振り返ることがなくもったいないなーと思っていた。

そこでキタコレ。

www.1101.com

もともとカバーが革(風?)。 今日早速ロフトで見たけど充分以上にはいい感じ。

しかし!

やはり5年も使うならヌメ革一択でしょう、、、。

cocomeister.jp

し、しかし!

ロフトでは本体しか取り扱っておらず、 カバーはネット限定とのこと。

すごすごと本体も買わず引き下がり、 帰りにカフェで確認すると、、、

www.1101.com >「ヌメ革」は完売いたしました。再販売はございません。

ガーンガーンガーン、、、 昨日の今日で早速売り切れとは、、、 再販売すらないとは、、、。

いや、1年、もしくは3年くらいなら赤も非常にいい。 実際に買う寸前まで行った(カートには一度入れた)。

でもなー、同じ革を5年使って育てる感覚。 それは色付きの革よりヌメ革が望ましい。 むしろ絶対!

諦めずに検索してみると発見しました!

www.japanet.co.jp

なぜジャパネット? 送料もかかるの? 送料って最後にいつ払ったか覚えていない、、、 (amazon、ヨドバシがほとんどなので、、、)

でも!!

ここはヌメ革!

無事に発注完了しました、12月10日到着予定。

いやー入手できそうで良かった。 勢いで2つ発注してみた。笑

しかしほぼ日祭りはすごいわほんま。

ということで

【まとめ】

 ①ほぼ日5年手帳が販売開始、超ええ感じ。

 ②大きさは許容できそう

 ③発売翌日にヌメ革カバー売り切れ、しかしまだジャパネットには在庫あり

③を伝えたくて久しぶりに本ブログ更新しました。笑 誰かの参考になれば何よりです! ナイスほぼ日!

【データサイエンティスト044】AI(RとかSQLiteとか)で競馬予想、、の入り口。

先日から競馬を予測しようと取り組み始めました。

kohei327.hatenablog.com

参考にさせて頂いている記事はこちら。

stockedge.hatenablog.com

記事にしたがって、データ分析の練習がてら進めています。

このブログではその過程をさらすことにより自分の記憶を強めたり、後から来る人への参考になればと思って記事を残すことにしています。

ということで今日わかったこと。

  • SQLiteをRで使う、とは
  • Rで長文のプログラムを記述するには
続きを読む

【データサイエンティスト043】データ収集(ウェブスクレイピング)を終え、いよいよRへ

昨日からスタートしたAIによる競馬予想。

下記ブログの方がGitHubに公開してくれているプログラムによりウェブスクレイピングまで完了しました。ありがたや、、、ありがとうございます。

stockedge.hatenablog.com

さて、続いてこのブログについていく形でRを用いて予測。

まずはrandomForestとRSQLiteインストールから。

>install.packages("randomForest")
>install.packages("RSQLite")

引き続き都度更新しまーす。

【データサイエンティスト042】競馬予想AIまでの道すがら①

訳わかんねー言葉がたくさん出てくるので自分の復習と後から来る人の道しるべにメモ残しておきます。

先人方のページリンクが中心になりますのでご了承をば。

 

今回の目次

 

.mdファイルとは

githubからダウンロードしたファイルのReadmeが「.md形式」で開けなった。

これはテキストファイルをある規則にしたがって記述することで自動的にHTMLコードとして変換して出力してくれるファイル形式だそう。

その規則がMarkDown記法と呼ばれ、Readmeやメモ書きでよく使われるそうで。

このファイルはChrome(もしくはFirefox)の拡張機能で簡単に表示できます。

 

以下参考

<なんぞや>

README.mdファイル。マークダウン記法まとめ | codechord

<表示の仕方>

qiita.com

 

SQLiteとは

データベース。専用サーバが不要でひとつのファイルに保存してくれるよう。逆に専用サーバーが必要なデータベースはMySQLPostgreSQLが有名みたい。

<なんぞや>

SQLiteを使うべき10の理由と5つのデメリット - CPA-LABテクニカル

SQLiteの導入>

www.dbonline.jp

 

SQLiteのインストール~導入関連で困ったことと対応策

※さっぱりわかっていないので眉につばをつけてどうぞ。

上記サイトを元に「sqlite3.exe」をダウンロードして起動したものの使い方がわからず。

一旦これくらいの感じでテーブル作って読み込みがしたいのに。。

SQLite/WindowsにSQLite3のインストール - 調べる.DB

結論としてはWindows標準のコマンドプロンプトから入るとテーブル作成、データ書き込み、データ読み取りができました。

f:id:kohei327:20170818200252j:plain

 

果たして「sqlite3.exe」を活用できる日は来るのか?

ともあれ前に進もう、、、。

【データサイエンティスト041】AIで競馬予想にチャレンジしてみる。統計ソフトRを活用。

下記記事を皮切りに、いろいろとやってきたデータサイエンティスト関連。

kohei327.hatenablog.com

 

メモ程度にとどまりながらもいろいろと耳学問?はできました。

その後、具体的な取り組みをせななーと思いつつ、そのまま放置プレイ。

 

突然ですが、今日からAIで競馬予測をしてみようと思います。

 

なぜ急に?というところから。

 

続きを読む

【リブロジ補講】 再開と042の解説

どもども。

理系が文系に伝えるロジック、の略でリブロジ。

2016年1月14日に開始して、
なんやかんやで1年半経っています。

そもそも文系の友人にロジックとは、を
理系の立場から偉そうに伝えてみようと思って
スタートした企画。

あるあるですが、人に伝えようとすると
自分がより深く学ぶということで色々と発見がありました。

 

まぁ飛び飛びになってきた挙句、
結果半年ほど放置してしまいまして
大変申し訳ありません。

厚かましくも再開してみようと思いますので
改めてお付き合いいただければ幸いです。

 

今回は助走がてら、
何のために何をどうやってやろうとしていたかの棚卸と、
前回の第42回の宿題を大変申し訳ないことに
コメントできていなかったのでコメントすることで
補講とさせて頂きたいと考えています。

 

まずは棚卸し。

自分は理系ばっかりで大学を出て、
会社に入ってもエンジニアとして
設計などをしていた人間です。

最近は少し道を外れているけれど
まぁリブロジをスタートした段階までは
少なくともゴリゴリの理系として。

そんな中、文系の友人と話していると
僕から見るとロジックが甘いな、と。

 

というのは、
話している内容の主張と根拠の関係が曖昧だったり、
そもそも主張を決める意識がなかったり、
それらが一通りあっても
はたから見ると穴があるように見えたり。

少なくとも今僕がいる会社は
そのあたりが曖昧でも
説得力がありそうな雰囲気だったら通ったりする。

そういう面では寝技を鍛える機会にはなっていたり、
特に日本の営業畑はまだまだ人間関係で決まっているので
ロジック以外の世界も無視できる訳ではない。

むしろ中国や欧州でも一部の国ではまだまだ
そういう人間関係というか
舞台裏で物事が決まっていたりするみたいやし。

なんなら先日の日経ビジネス(17年5月8日)でも
海外営業の寝技が日本人には不足していて
それが国際競争力の一因になっているという特集があった。

とはいえ、ロジックはベースになるはず。
人の命以外はロジカルに考えることが最低限必要。

イデア出しのフェーズは個人の直感によるところが
大きいのは事実。iPhoneの例とかね。

一方アイデア出し以降はロジックで進めていくべき。
なぜなら論理で妥当性や必然性を高めることにより
成功確率を上げて、再現性も担保できるから。

つまり、寝技もいるけどロジック構築力も
社会人にはいるよね、と。

そのロジック側を一度しっかり考えて
使えるようにしていこうという意図で
スタートした企画です。

ちなみに42回続けてきて
コンテンツも薄いながらたまってきてるので、
試しにKindleにしてみたいと考えています。

これに関しては今日明日すぐにではないやろうけど
せっかくやってきたので一つ集大成にはしたい。

会社の中で色々ともやもや困っている人のうち、
その理由がロジックが強くないことに気付いてない人、
気付いているけどロジックがなんなのかよくわからない人、
そこまでわかっていてもいざどうしたらいいかわからない人、
そういう人の役には多少立てると思っています。

 

こういった考えのもとにスタートしました。

背景の棚卸しはこのくらいにして、
前回の記事で出した宿題の回答に対するコメントをば。

 

記事はこれ。 

kohei327.hatenablog.com

 

続いて宿題は下記。

■データワラントクレームを3つ用意して、それについての「バッキング」を主張側、攻撃側それぞれ3つずつ挙げてください。

 

で、いただいた回答のうちコメントできていなかったものは下記です。

ーーーーーーーーーーー

【3つめ】先程アメリカ(初上陸!)から帰国したので、アメリカについて。

D:当社の北米地域の調達金額のうち、1次取引先の本社所在地で見た国内調達率は62%である。

C:北米は、今後国内調達率を上げていかないと、価格・納期面でのトラブルが頻発することになる。

W:国内調達率が他の地域に比べて低く、輸送コストや輸送リードタイムの面で不利である

バッキング(主張)①:中国や日本は国内調達率が90%を超えており、北米は低過ぎる。

バッキング(主張)②:今回のデータは1次取引先の所在地でしか取られていない。実際は、米国サプライヤを窓口にしているだけで、海外から仕入れているもの(鉄鋼材料等)も計算すると、率はもっと下がるはず。

バッキング(主張)③:北米の部品在庫が日本や中国に比べて多い一つの要因は、部品の輸送リードタイムが長い為だ。もっと近場での調達を増やすべきだ。

バッキング(攻撃)①:北米のサプライヤのコスト競争力が弱いのは明らかであり、62%は当然の結果だ。圧縮機や銅、鉄で既に価格の競合比較を行ったが、現行のメーカーに敵うサプライヤは見つかっていない。国内調達率を語る前に、競合先となるサプライヤ候補を国内外含めて探索することが先決だ。

バッキング(攻撃)②:欧州地域は50%を切っていることを考えると、北米はグローバルで見たら平均的なのではないか?

バッキング(攻撃)③:1次取引先の所在地だけを見たデータなので、他の地域の数字についても信憑性が低い。実際は90%もいっていないのではないか?なぜ北米が「相対的に」低いような言われ方をされなければならないのか?

ーーーーーーーーーーー

以下コメントさせていただくけど、
こういう内容はどうしても指摘される方は気が悪くならざるを得ないので、
人間性にではなく純粋にロジックに対するコメントだと
念頭に置いて頂けるとありがたいです。

さて。
バッキング(主張)の1は非常に良いと思います。
後述するけど、調達率が低いということがどういうことか、他との比較で表せている。

2と3はもう一声欲しいところかしら。
大枠では同じ話。でもロジックとしては少しずれがある。

というのは、今のロジックを図示すると

ーーーーーーーーーーーーーーーーーーーーーーーー

D国内調達率が低い → C価格、納期のトラブルが起きる

          ↑

  W海外調達は価格やリードタイムで不利

ーーーーーーーーーーーーーーーーーーーーーーーー

というように見えます。

この図が正しいと仮定して、それを補強しようとする前提で考えると下記のようになると思います。

1はDを補強してくれているので、良いバッキングになっている。

2はそもそも論で国内調達率の定義を指摘しているから議論の土台を揺るがしてしまう。正しい議論をするためには必要、上記の前提で話を補強するには議論を一つ差し戻してしまうので望ましくない。中国とかは正しいの?ってなっちゃう。

3は順番を変えたらバッキングとして成立するかな。
例えば「納期のトラブルが起きうるのはリードタイムが長いため(=W)。リードタイムの長さに対応するため、部品在庫を増やしている。部品在庫を増やした結果、価格が上がっている(=W)。そもそものリードタイムの課題を解決し、同時に価格上昇を抑制するためには、リードタイムを削減することが必要であり、そのためには現地調達率をあげるべきだ」となるかな。

長いね。笑

さらにバッキングとして主張する力をあげるとすると、
「価格高騰、納期長期化のトラブルになりうる長距離輸送を減らすため、国内調達率をあげるべきだ」
となるかしらん。

以上、主張側のバッキングについて。

以下は攻撃側のバッキングについて。
こちらは1〜3全て攻撃できているかと思います。
サディスティック。笑

1はWを揺らがせ、

2はDのデータを揺らがせ、

3はDの考え方を揺らがせる効果があるかと。

 

こういった感じで
「ほんまにそうなの?」

「それだけなの?」
について徹底的に考え抜いて、
それぞれの回答を自分なりにでも持っておくことが
ロジックを強化するために一番効くと思います。

 

いや、ほんま。

偉そうに書いているけど。

日々このツッコミに対する弱さで困っているのが僕の実情なので。

反省しながら自らやっていきたいと思います。

 

ということで今回はここまで。

半年ぶりということでライトな宿題をば。

「今時点でロジックで困っていることを3つあげてください」

色々とあるかと思いますがリブロジ残り数回(予定)の参考にするためにもよろしくお願いします。

 

それでは!