焦点

でっかいことに焦点を

【データサイエンティスト044】AI(RとかSQLiteとか)で競馬予想、、の入り口。

先日から競馬を予測しようと取り組み始めました。

kohei327.hatenablog.com

参考にさせて頂いている記事はこちら。

stockedge.hatenablog.com

記事にしたがって、データ分析の練習がてら進めています。

このブログではその過程をさらすことにより自分の記憶を強めたり、後から来る人への参考になればと思って記事を残すことにしています。

ということで今日わかったこと。

  • SQLiteをRで使う、とは
  • Rで長文のプログラムを記述するには
続きを読む

【データサイエンティスト043】データ収集(ウェブスクレイピング)を終え、いよいよRへ

昨日からスタートしたAIによる競馬予想。

下記ブログの方がGitHubに公開してくれているプログラムによりウェブスクレイピングまで完了しました。ありがたや、、、ありがとうございます。

stockedge.hatenablog.com

さて、続いてこのブログについていく形でRを用いて予測。

まずはrandomForestとRSQLiteインストールから。

>install.packages("randomForest")
>install.packages("RSQLite")

引き続き都度更新しまーす。

【データサイエンティスト042】競馬予想AIまでの道すがら①

訳わかんねー言葉がたくさん出てくるので自分の復習と後から来る人の道しるべにメモ残しておきます。

先人方のページリンクが中心になりますのでご了承をば。

 

今回の目次

 

.mdファイルとは

githubからダウンロードしたファイルのReadmeが「.md形式」で開けなった。

これはテキストファイルをある規則にしたがって記述することで自動的にHTMLコードとして変換して出力してくれるファイル形式だそう。

その規則がMarkDown記法と呼ばれ、Readmeやメモ書きでよく使われるそうで。

このファイルはChrome(もしくはFirefox)の拡張機能で簡単に表示できます。

 

以下参考

<なんぞや>

README.mdファイル。マークダウン記法まとめ | codechord

<表示の仕方>

qiita.com

 

SQLiteとは

データベース。専用サーバが不要でひとつのファイルに保存してくれるよう。逆に専用サーバーが必要なデータベースはMySQLPostgreSQLが有名みたい。

<なんぞや>

SQLiteを使うべき10の理由と5つのデメリット - CPA-LABテクニカル

SQLiteの導入>

www.dbonline.jp

 

SQLiteのインストール~導入関連で困ったことと対応策

※さっぱりわかっていないので眉につばをつけてどうぞ。

上記サイトを元に「sqlite3.exe」をダウンロードして起動したものの使い方がわからず。

一旦これくらいの感じでテーブル作って読み込みがしたいのに。。

SQLite/WindowsにSQLite3のインストール - 調べる.DB

結論としてはWindows標準のコマンドプロンプトから入るとテーブル作成、データ書き込み、データ読み取りができました。

f:id:kohei327:20170818200252j:plain

 

果たして「sqlite3.exe」を活用できる日は来るのか?

ともあれ前に進もう、、、。

【データサイエンティスト041】AIで競馬予想にチャレンジしてみる。統計ソフトRを活用。

下記記事を皮切りに、いろいろとやってきたデータサイエンティスト関連。

kohei327.hatenablog.com

 

メモ程度にとどまりながらもいろいろと耳学問?はできました。

その後、具体的な取り組みをせななーと思いつつ、そのまま放置プレイ。

 

突然ですが、今日からAIで競馬予測をしてみようと思います。

 

なぜ急に?というところから。

 

続きを読む

【リブロジ補講】 再開と042の解説

どもども。

理系が文系に伝えるロジック、の略でリブロジ。

2016年1月14日に開始して、
なんやかんやで1年半経っています。

そもそも文系の友人にロジックとは、を
理系の立場から偉そうに伝えてみようと思って
スタートした企画。

あるあるですが、人に伝えようとすると
自分がより深く学ぶということで色々と発見がありました。

 

まぁ飛び飛びになってきた挙句、
結果半年ほど放置してしまいまして
大変申し訳ありません。

厚かましくも再開してみようと思いますので
改めてお付き合いいただければ幸いです。

 

今回は助走がてら、
何のために何をどうやってやろうとしていたかの棚卸と、
前回の第42回の宿題を大変申し訳ないことに
コメントできていなかったのでコメントすることで
補講とさせて頂きたいと考えています。

 

まずは棚卸し。

自分は理系ばっかりで大学を出て、
会社に入ってもエンジニアとして
設計などをしていた人間です。

最近は少し道を外れているけれど
まぁリブロジをスタートした段階までは
少なくともゴリゴリの理系として。

そんな中、文系の友人と話していると
僕から見るとロジックが甘いな、と。

 

というのは、
話している内容の主張と根拠の関係が曖昧だったり、
そもそも主張を決める意識がなかったり、
それらが一通りあっても
はたから見ると穴があるように見えたり。

少なくとも今僕がいる会社は
そのあたりが曖昧でも
説得力がありそうな雰囲気だったら通ったりする。

そういう面では寝技を鍛える機会にはなっていたり、
特に日本の営業畑はまだまだ人間関係で決まっているので
ロジック以外の世界も無視できる訳ではない。

むしろ中国や欧州でも一部の国ではまだまだ
そういう人間関係というか
舞台裏で物事が決まっていたりするみたいやし。

なんなら先日の日経ビジネス(17年5月8日)でも
海外営業の寝技が日本人には不足していて
それが国際競争力の一因になっているという特集があった。

とはいえ、ロジックはベースになるはず。
人の命以外はロジカルに考えることが最低限必要。

イデア出しのフェーズは個人の直感によるところが
大きいのは事実。iPhoneの例とかね。

一方アイデア出し以降はロジックで進めていくべき。
なぜなら論理で妥当性や必然性を高めることにより
成功確率を上げて、再現性も担保できるから。

つまり、寝技もいるけどロジック構築力も
社会人にはいるよね、と。

そのロジック側を一度しっかり考えて
使えるようにしていこうという意図で
スタートした企画です。

ちなみに42回続けてきて
コンテンツも薄いながらたまってきてるので、
試しにKindleにしてみたいと考えています。

これに関しては今日明日すぐにではないやろうけど
せっかくやってきたので一つ集大成にはしたい。

会社の中で色々ともやもや困っている人のうち、
その理由がロジックが強くないことに気付いてない人、
気付いているけどロジックがなんなのかよくわからない人、
そこまでわかっていてもいざどうしたらいいかわからない人、
そういう人の役には多少立てると思っています。

 

こういった考えのもとにスタートしました。

背景の棚卸しはこのくらいにして、
前回の記事で出した宿題の回答に対するコメントをば。

 

記事はこれ。 

kohei327.hatenablog.com

 

続いて宿題は下記。

■データワラントクレームを3つ用意して、それについての「バッキング」を主張側、攻撃側それぞれ3つずつ挙げてください。

 

で、いただいた回答のうちコメントできていなかったものは下記です。

ーーーーーーーーーーー

【3つめ】先程アメリカ(初上陸!)から帰国したので、アメリカについて。

D:当社の北米地域の調達金額のうち、1次取引先の本社所在地で見た国内調達率は62%である。

C:北米は、今後国内調達率を上げていかないと、価格・納期面でのトラブルが頻発することになる。

W:国内調達率が他の地域に比べて低く、輸送コストや輸送リードタイムの面で不利である

バッキング(主張)①:中国や日本は国内調達率が90%を超えており、北米は低過ぎる。

バッキング(主張)②:今回のデータは1次取引先の所在地でしか取られていない。実際は、米国サプライヤを窓口にしているだけで、海外から仕入れているもの(鉄鋼材料等)も計算すると、率はもっと下がるはず。

バッキング(主張)③:北米の部品在庫が日本や中国に比べて多い一つの要因は、部品の輸送リードタイムが長い為だ。もっと近場での調達を増やすべきだ。

バッキング(攻撃)①:北米のサプライヤのコスト競争力が弱いのは明らかであり、62%は当然の結果だ。圧縮機や銅、鉄で既に価格の競合比較を行ったが、現行のメーカーに敵うサプライヤは見つかっていない。国内調達率を語る前に、競合先となるサプライヤ候補を国内外含めて探索することが先決だ。

バッキング(攻撃)②:欧州地域は50%を切っていることを考えると、北米はグローバルで見たら平均的なのではないか?

バッキング(攻撃)③:1次取引先の所在地だけを見たデータなので、他の地域の数字についても信憑性が低い。実際は90%もいっていないのではないか?なぜ北米が「相対的に」低いような言われ方をされなければならないのか?

ーーーーーーーーーーー

以下コメントさせていただくけど、
こういう内容はどうしても指摘される方は気が悪くならざるを得ないので、
人間性にではなく純粋にロジックに対するコメントだと
念頭に置いて頂けるとありがたいです。

さて。
バッキング(主張)の1は非常に良いと思います。
後述するけど、調達率が低いということがどういうことか、他との比較で表せている。

2と3はもう一声欲しいところかしら。
大枠では同じ話。でもロジックとしては少しずれがある。

というのは、今のロジックを図示すると

ーーーーーーーーーーーーーーーーーーーーーーーー

D国内調達率が低い → C価格、納期のトラブルが起きる

          ↑

  W海外調達は価格やリードタイムで不利

ーーーーーーーーーーーーーーーーーーーーーーーー

というように見えます。

この図が正しいと仮定して、それを補強しようとする前提で考えると下記のようになると思います。

1はDを補強してくれているので、良いバッキングになっている。

2はそもそも論で国内調達率の定義を指摘しているから議論の土台を揺るがしてしまう。正しい議論をするためには必要、上記の前提で話を補強するには議論を一つ差し戻してしまうので望ましくない。中国とかは正しいの?ってなっちゃう。

3は順番を変えたらバッキングとして成立するかな。
例えば「納期のトラブルが起きうるのはリードタイムが長いため(=W)。リードタイムの長さに対応するため、部品在庫を増やしている。部品在庫を増やした結果、価格が上がっている(=W)。そもそものリードタイムの課題を解決し、同時に価格上昇を抑制するためには、リードタイムを削減することが必要であり、そのためには現地調達率をあげるべきだ」となるかな。

長いね。笑

さらにバッキングとして主張する力をあげるとすると、
「価格高騰、納期長期化のトラブルになりうる長距離輸送を減らすため、国内調達率をあげるべきだ」
となるかしらん。

以上、主張側のバッキングについて。

以下は攻撃側のバッキングについて。
こちらは1〜3全て攻撃できているかと思います。
サディスティック。笑

1はWを揺らがせ、

2はDのデータを揺らがせ、

3はDの考え方を揺らがせる効果があるかと。

 

こういった感じで
「ほんまにそうなの?」

「それだけなの?」
について徹底的に考え抜いて、
それぞれの回答を自分なりにでも持っておくことが
ロジックを強化するために一番効くと思います。

 

いや、ほんま。

偉そうに書いているけど。

日々このツッコミに対する弱さで困っているのが僕の実情なので。

反省しながら自らやっていきたいと思います。

 

ということで今回はここまで。

半年ぶりということでライトな宿題をば。

「今時点でロジックで困っていることを3つあげてください」

色々とあるかと思いますがリブロジ残り数回(予定)の参考にするためにもよろしくお願いします。

 

それでは!

 

 

昨日の続き。なんのために何をするのか?

おとといから再度このブログを軸に
今からなんのために何をするのか
考察を深めています。

まぁ考えるよりやれよ、なので今回は軽く目標設定を。

今日決めることは

肉体と感情、人間関係、仕事でそれぞれやることを決める。
>さらに3ヶ月スケジュールで一旦切る。

肉体はサーキットトレーニングを週三回。

感情は週に一冊小説を。

人間関係は嫁の目を見て話を120%の力で聴くことを一日一回以上。

仕事は面白い案出しを一日一つ。


さて、こうやって追加するのは簡単。

一増二減ではないけど、

やらないことを先に決めねば。


もしくは優先順位か。

うーん、長期的な話は一旦おいといて、

今週土曜日夜までにやってみて、

日曜にその結果で判断してみます。


モチベーションにつながるよう、人生に切り離せないお金の話を考えてみる。

日本の税制では年収が3000万円を越えないと
生活がいわゆる豊かになったな、とは感じにくいそう。

年収3000万円の世界を想定して
文字に起こして
今後の頑張る道標の一つにしてみる。

純粋にお金のためにやるわけではないけど、
価値を高めるための一つの指標くらいには
なるかしらん、と。

 

ということで。
結論から言うと時給1.3万円やね。
年間売り上げは9000万円以上。

年収3000万円として
これが成果報酬的だとするとボーナスはない。

ボーナスがないとすると月に250万円(=3000/12)の収入が必要。

月に250万円の収入を得ようとすると
25日働いても1日10万円。

8時間働くとすると時給12500円。

これを売り上げ換算すると、ざっくり3倍として
1時間4万円弱。
1日30万円。
1年で9000万円の売り上げが必要となる。

これを会社に頼らずに今日からできるのか。

うーん。。。

会社ってすごいな、と思う今日この頃。
逆にここまでの成果を出していない気がするなら
誰かの頑張りにのっかているだけ、といえるのか。

フンドシを締めて明日から再度頑張ろう。。

 

会社の時間を8時間に、残りの時間もちゃんと活用して。

純粋にお金の収入にはこだわらないとはいえ、

今後30年以上(下手したら50年)働くとして
ちゃんとした力がつくように
日々過ごしていくしかないな。


優先順位をつけて先が遠い話から取り組んでいこう。 

やりたいこととやるべきことを仕分ける

昨日の続き。

 

kohei327.hatenablog.com

 

ざくっというと色々やるべきことがあり、
残り時間(週に11時間ね)の中で
何のために何をするか。

目標を定めて毎日取り組むことを決めたい。
こまごましたことは間で済ませていくとして、
本当に重要なことを決めて着実に進めていく。

昨日書いた以外にやりたいこともまだまだある。
例えば
 ・メルマガに質問をする、
 ・ヨガ、
 ・日々のランニングやサーキットトレーニング
などなど。

 

こういったことを一つ一つ終わらせていくことで
前に進めるのだろうか。

一つだけやるとしたら統計かな。
いや、モータか?
その交差するところかしらん。

いずれにせよ技術者の仕事も大半がAI化される。
最適化はほぼAIで片付くでしょう。
よく言われるように課題発見と目的設定が人間の仕事になる。

その後のパラメータ抽出と最適化は深層学習で十分。
深層学習だとプロセスが不明で再現性がなくなるので
深層学習と人間の通訳みたいな人は必要になるかも。

Google翻訳の精度を見るといらんかな。
でもまぁあれは圧倒的な量の誤入力情報を
ウェブブラウザの入力や検索窓の入力から拾って精度を上げているのか。

 

うっかり話がそれました。

肉体と感情、人間関係、仕事でそれぞれやることを決めようか。
さらに3ヶ月スケジュールで一旦切ろう。
毎日やっている確認のために活動内容をブログに挙げてみよう。

そこで考えをアウトプットする練習として実力をつけると同時に
人に何かを伝える力を磨いていこう。

その力も自分勝手にやったら意味がないので
誰か師匠を探そう。

まずは写経かな、だれの何を写経させていただくか。

課題になりそうなことは結局マンネリでダレることと
仕事が追い込まれて長時間になってきた時、かな。

前者に関しては誰かに約束して自分と競争しようか。
後者に関して1週間やそこらやと気合いで乗りきれるし
乗り切ったこともあるけど続かんしね。。

 

よし、今日はここまでで一旦区切る。

明日は下記の二つを考察して決めていく。

肉体と感情、人間関係、仕事でそれぞれやることを決める。
>さらに3ヶ月スケジュールで一旦切る。

ここまで読んでもらってありがとうございます。

暑いですが元気にいきましょう!