画像解析API各サービスの比較

2017/11/7

本稿では、広告画像の分析ということで、下記機能で取得できる情報を確認します。

  • オブジェクトの検出
  • 顔の分析
  • テキストの検出

調査対象サービスのAPIに下記3種類の画像を与え、各機能で取得できたデータをまとめます。

    • (img-A) テキストを含む画像
    • (img-B) 人を含む画像
    • (img-C) テキストが主体のバナー画像

 

■調査結果 : AWS Rekognition

 


顔の分析機能が強力で、性別や年齢だけでなく、目を開けているか、口を開けているか、サングラスをかけているかといった情報まで取得できています。
一方、オブジェクトの検出は今ひとつという結果になりました。また、テキストの検出機能はありません。

 

■調査結果 : GCP Cloud Vision API

 


オブジェクト、テキスト共になかなかの精度で取得できています。バナー画像に対して「banner」「advertising」と返してくるのは興味深い点ですね。「冬しか行けない、旅に出よう。」等テキストとして検出できています。「女性旅行がイマお得!」等の傾いている文字の検出はできませんでした。
一方、顔分析については、表情のみ喜びが大きいと検出ができました。性別や年齢は取得できませんでした。

 

■調査結果 : Azure Computer Vision API

 


テキストがなかなかの精度で取得できています。
また、img-Bについては全体的に高精度です。特に、キャプション(「説明」に相当)の精度が非常に高く驚いています。
ただし、テキストが混在すると精度が下がってしまうのか、img-Aとimg-Cのオブジェクト検出は今ひとつでした。

 

■おわりに

 

やはりサービス毎に得意/不得意がありますので、目的に応じて使い分けるのが良さそうですね。
顔に特化した分析がしたい場合は、AWS Rekognitionが最適な選択になると思います。本稿では扱っていませんが、顔同士の比較機能もあり、顔分析については機能が豊富に揃っています。
とにかく画像の情報を幅広く取得したいという場合は、GCP Cloud Vision APIが良さそうです。顔分析がやや弱くなりますが、オブジェクト/テキストの検出はなかなかの精度です。
顔情報も含めて幅広く取得したい場合は、Azure Computer Vision APIが良いと思います。特に、画像にキャプションをつける機能はなかなか強力です。ただし、本稿のimg-A、img-Cのように画像によってはオブジェクト検出が今ひとつの精度になる可能性はあります。

1 2
ご相談はこちら
photo

ライター:石井 直人


コミュニケーションプランニング本部 テクニカルコンサルティング部所属
通信業界系SEを経て、2014年GMO NIKKOへ入社。現在はMARSDMP、MARSアナリティクス開発・運用を担当
人手をかけずにMARSシステムを運用する方法を日々研究

Contents

ico人気記事