メルカリ VS ヤフー出品物の画像認識に見える差

メルカリとヤフオク、どちらも出品物の写真をAIにより画像認識させている。双方のアプリで同じ画像を認識させたときにどういう結果が返ってくるか調べてみた。結果、私が好印象を持ったのはメルカリのアプリ。その差は単純な技術力だけでなく、現時点のテクノロジーでUXを最大化するためのプロダクトマネージャーの思想の差にあると見た。

メルカリで嫁のエーグルの長靴を出品したときのこと。

メルカリのアプリに下記の長靴画像をアップロードしたら、機械学習で画像を解析し、出品物がなんであるか判別してくれる。

結果、婦人物のレインシューズでブランドはエーグルと解答した。
これは100点満点の回答。素晴らしい性能だ。

ではライバルのヤフオクのアプリではどうだろう。検証してみた。(paypayフリマは使っていないのでヤフオクで代用。) 画像はレインブーツであると正しく認識し、ブランド名も「AIGLE」と推定している一方、誤答である「HUNTER」にも引っ張られてしまい、回答が2分されてしまっている。これはすこし印象が悪い。

画像や物品による得意不得意はあるが全体的にはメルカリの推定の方が妥当な印象を持った

端的に言えばヤフオクの推定結果にはノイズ、誤った解答が含まれる事が多かったということ。

問題はその差がどこから生じるかということ。それは機械学習のアルゴリズムや教育方法と言った純粋な技術力の差と言うよりも、画像認識技術を使ってどういうサービスを提供するか、という根本思想、仕様の問題にあると思う。

具体的に言うと、
ヤフオクは「商品の名称」を推定させているのに対して、
メルカリは「商品の属するカテゴリー」を推定しようとしている、
この差である。

当然、個別具体の名称よりもカテゴリーのほうが、包含される範囲が広いので正解しやすい。例えばこの時計、CASIOのG-SHOCKの写真を見せてみるとどうなるだろう。

メルカリの場合は、ブランド名「G-SHOCK」,CASIOのG-SHOCKと正解を回答している。

一方で、ヤフオクの場合は、CASIO、G-SHOCKとメルカリと同じく正解を出しているものの、「タフソーラー」という商品名として相応しくない単語も混ざっている。「タフソーラー」はソーラー発電機能の事で、このG-SHOCKにも搭載されている機能であり、けっして誤りではない。むしろ正解なのだが、商品名としては「タフソーラー」は今ひとつと感じる。(私の個人的な意見だが)

さらに難しい画像を見せてみた。これは「ぬめりドーン」と言う配管洗浄剤。おそらくメルカリにもヤフオクにもほとんど出品されないものだろう。

メルカリの推定結果はこちら。予想どおり「ぬめりドーン」をピンポイントで推測することはできていない。しかしながらカテゴリーとして推定しているので、「生活雑貨」や「洗剤」と言った正解にかなり近いキーワードを提示できている。

ここは「商品名」というより絞られた推定を行うヤフオクは辛いところ。結果を見る限りサプリメントとして判別されたようだ。

さらに他の画像を見てみよう。SAVASのホエイプロテインはどうなるだろうか。

メルカリの結果。何とこの画像の場合はカテゴリーの推定ではなく、具体的な商品名の提示を行なってきた。
メルカリのアプリでは画像推定の確度を評価し、確度が高い場合には商品名を提示、確度が低い場合はカテゴリーを提示する、と言った具合に複数段階で提案するUIを実装しているようである。
なかなかきめ細かい対応で感心する。