弊社AI VS Scikit-Learnライブラリ

こんにちは。

今回は対決企画です。

弊社開発の分類用AI(ベイズ確率モデル)とPython機械学習ライブラリとしてお馴染みのScikit-Learnライブラリのアルゴリズムで予測精度を競います。

 

対象のデータはSkit-Learnライブラリから提供されている、有名なアヤメデータ(分類用の花のデータ)です。

 

今回Scikit-Learnからエントリーしてもらうのは

・ロジスティック回帰

SVMサポートベクターマシン

そして最後は最強の刺客

・ランダムフォレスト

 

性能の検証は、データを学習用と予測用に分けて検証するホールドアウト法を使います。今回は学習データの量を変えて、それぞれ1000回予測させたときの正解率の平均値を比較します。

 

では対決結果

f:id:ois-blog:20200204114110p:plain

対決結果

学習データ量が少ない場合は弊社AIがロジスティック回帰やSVMに優っています

データ量が少なくても予測できるのはベイズモデルの強みです。

しかしデータ量が増えてくると逆転されてしまいます。

 

そしてランダムフォレスト。さすが最強の刺客だけあって1回も勝てませんでした。

ランダムフォレスト最強説を唱えるデータサイエンティストがいるのもわかります。

 

Scikit-Learnとの対決はやや負け気味といったところでしょうか。

しかしデータ量が少ない環境ではScikit-Learnロジスティック回帰SVMを上回れたのは良い成果と言えるでしょう。

 

弊社の分類AIはまだ開発したばかりでまだまだ伸びしろがあります。

改良を重ねてより良いモデルを目指します。