【データサイエンティスト041】AIで競馬予想にチャレンジしてみる。統計ソフトRを活用。
下記記事を皮切りに、いろいろとやってきたデータサイエンティスト関連。
メモ程度にとどまりながらもいろいろと耳学問?はできました。
その後、具体的な取り組みをせななーと思いつつ、そのまま放置プレイ。
突然ですが、今日からAIで競馬予測をしてみようと思います。
なぜ急に?というところから。
今年の4月に下記イベントでSIVAという競馬予測ソフトを作っている人のお話をお伺いする機会を得ました。
SIVAはこれ。
回収率(馬券の購入額に対する回収金額)がこれまで見てる限りはすべて100%を超えている(必ず儲かっている)。
競馬は胴元が持っていく分が25%らしいので期待値は75%。
そこをはるかに上回って安定して100%超えるAIを作っておられる。
しかも基本部分は、会社で働きながら1週間で作り上げたとか。
無料アプリでSIVAの予想までは公開されているので、実際に買ったら間違いないやん、と思ったのが4月やったけどそれは甘かった。。
SIVAで表示されている予想から具体的にどの馬券をどれだけ買えばいいかがわからんん。。
なんせ競馬したことない(SIVA創った人もそうらしいけど)ので馬券にあんなに多くの種類があるとは知らなんだ。。
そっからしこしこ一応リバースエンジニアリング?かけて、これかなっつーのは見出しつつあるけれど、その過程でハッと気づきました。
「競馬予測ソフト作成をデータサイエンティスト連載で取り組めばいいやん!」
ちょうどこの連載の具体的なテーマ探していたし、ネット見てたらいろいろとヒントになることを書いてくれている人もいる。
そう思ったら早速やろう。
ということで。
以上経緯。
データサイエンティスト関連は本を読んだだけのくそ素人からスタートするので、データサイエンティストになろうとしている側の人に役立つこともあるのではないかなと期待。
競馬に至っては齢30を少し超えてやっと馬券の種類がわかったところ。
スタート地点としては面白いのではないかな。
今見えてる道筋を書いてみる。今後の道すがら変わっていく可能性大なのでご参考まで。
1.ウェブスクレイピングで競馬の情報を取り込みデータベース化
2.色々データベースで遊んでみる
3.ディープラーニングかなんかで(よくわかってない)予測してみる
色々とネットに参考文献があるので一つ一つクリアすれば前には進むんじゃないかと思ってます。
ということで最後に現時点の参考サイトをまとめて今日は筆をおこうかと。
乞うご期待!
きっかけになったのはこちら。参考サイトもいくつか。
競馬をRで統計解析する初めの一歩 – webfun.tech beta
こちらはSIVAの中の人みたいですね。たぶん。
それでは!