弊社AI　VS　Scikit-Learnライブラリ

こんにちは。

今回は対決企画です。

弊社開発の分類用AI（ベイズ確率モデル）とPython 機械学習ライブラリとしてお馴染みのScikit-Learnライブラリのアルゴリズムで予測精度を競います。

対象のデータはSkit-Learnライブラリから提供されている、有名なアヤメデータ（分類用の花のデータ）です。

今回Scikit-Learnからエントリーしてもらうのは

・ロジスティック回帰

・SVM（サポートベクターマシン）

そして最後は最強の刺客

・ランダムフォレスト

性能の検証は、データを学習用と予測用に分けて検証するホールドアウト法を使います。今回は学習データの量を変えて、それぞれ1000回予測させたときの正解率の平均値を比較します。

では対決結果

学習データ量が少ない場合は弊社AIがロジスティック回帰やSVMに優っています。

データ量が少なくても予測できるのはベイズモデルの強みです。

しかしデータ量が増えてくると逆転されてしまいます。

そしてランダムフォレスト。さすが最強の刺客だけあって1回も勝てませんでした。

ランダムフォレスト最強説を唱えるデータサイエンティストがいるのもわかります。

Scikit-Learnとの対決はやや負け気味といったところでしょうか。

しかしデータ量が少ない環境ではScikit-Learnのロジスティック回帰やSVMを上回れたのは良い成果と言えるでしょう。

弊社の分類AIはまだ開発したばかりでまだまだ伸びしろがあります。

改良を重ねてより良いモデルを目指します。