最終決戦! 弊社AI VS Scikit-Learnライブラリ

前回の記事で気象庁からダウンロードした気象データに対して正解率を競い、

弊社AIが全勝ということで終わりました。

 

しかしですよ、こう思った人もいるのではないでしょうか…

アヤメデータで勝たないと意味ないんじゃない?

そうです。最初に負け気味判定だったアヤメデータ。

アヤメデータで勝ってこそ真の勝利

 

そこで弊社AI、ゼロから作り直しました。

ベイズモデルには変わりありませんが、別の理論を採用しました。

 

アヤメデータと気象データの両方についていざ勝負!

 

判定方法はより公平性を期すため、交差検証法の一種であるジャックナイフ法を5回行った時の平均正解率を競うことにしました。

(テスト回数はそれぞれ750回になります。)

また、前処理、チューニングは原則してませんが、敵に塩を送るようですがSVMだけは線形分離だと不利かなと思い非線型カーネルにしています。

 

結果がこちら

f:id:ois-blog:20200207162933p:plain

検証結果

僅差ではありますが、

弊社AIの全勝です!

 

でもこう思った人もいるでしょう、

僅差だし、偶然なんじゃないの?

 

そこで今回は仮説検定にかけてみました。

統計的に”弊社AIの正解率の方が高い”と言えるのか確認しました。

 

有意水準5%のt検定によると、

◯アヤメデータについて

決定木ランダムフォレストについては明らかに弊社AIの方が正解率が高い

ロジスティック回帰SVMについては差があるとは言い切れない

◯気象データについて

SVMのみ明らかに弊社AIの方が正解率が高い

他は差があるとは言い切れない

 

という結果でした。

ほんとに僅差の戦いで、心臓に悪い企画でした笑

しかして圧倒的に負けているのは速度です。

Cythonによる実装を試みる予定なので、今度は速度を記事に取り上げるかも知れません。