前回に引き続き、UC San Diego の Serge Belongie 教授らによる研究についての記事を1つ。知る人ぞ知る?Google のサービス"Google Sets"を応用して、画像認識の精度を上げようという取り組みが行われているそうです:
■ Computers With 'Common Sense' (ScienceDaily)
簡単に言うとこんな感じ。上の画像を見て、「右下にある黄色い丸はレモンだ」という人はいないでしょう。レモンのような形・色をしてるけど、「人間」が「テニスコート」の上で「ラケット」で打とうとしているモノだから、これはテニスボールに違いない……というような判断を、コンピュータによる画像認識でも行わせようという発想です。
では「人間」「テニスボール」「テニスコート」が認識できたとして、その文脈で登場し得るものが何か、を判断するために白羽の矢が立ったのが"Google Sets"。このサービス、既に2002年には登場していたとのことですが、正直言って僕は今回その存在を初めて知りました。これは入力された単語(英語のみ)の関連語を表示するというサービスで、例えば
- John
- George
- Paul
を入力して実行すると、
- Ringo
- Beatles
- Rock
などといった単語が返ってきます。うーん、なかなか賢い。これを応用すれば、例えば「ある画像に4人の人物が写っている。そのうち3人はジョン・レノン、ポール・マッカートニー、ジョージ・ハリスンだと認識できた。それでは認識に失敗した最後の1人は、リンゴ・スターである可能性が高い」というような結果を返すことが可能になるわけですね。さらに個々の人物を判断するだけでなく、「これはビートルズが写っている写真」のようなラベル付けも可能になる、と。
また記事では、その他にも「ある画像の中で『牛』と認識されてしまった物体が、『空』『木』『ビル』『水』という他の要素と組み合わせて判断されることで、最終的に『ボート』という正しい認識に到達することに成功した」などという事例が紹介されています。なるほど、これなら例えば「トラの模様が描かれたバス」があっても、「トラ」ではなく「バス」と認識する可能性が高くなるわけですね。ちなみに今後は「物体の位置関係」も含めて判断できるようにしていくとのこと(ex. ある動物の上に「人間」が乗っていたら、それは「馬」や「ロバ」「ラクダ」などである可能性が高い)。
しかしふと思ったのですが、これだと「非常識」なシチュエーションには対処できないのではないでしょうか。例えばお笑い番組で、芸能人が「ボールの代りにレモンでテニスしたらどうなる!?」みたいな企画にチャレンジしていたとしたら、上記の技術だと「レモンじゃなくてテニスボールだ」と認識してしまうわけですよね。まぁ人間だって、何の補足情報もなしに「ラケットでレモンを打とうとしている人間の写真」を見せられれば、写っているのがテニスボールだと勘違いする確率は高いでしょうが……。そしたら単に「人間」というだけでなく「誰」というレベルまで判断して、「写っているのがビートたけしなら非常識なシチュエーションである可能性が高い(=Google Sets 等によるコンテクスト判断をOFFにする)」みたいな切り替えをしたらいいのかなぁ。
いずれにしても、「人間が目の前にある光景をどう理解するか」というテーマについても考えさせられる、面白い研究ですね。数年後には、かなりの精度で「何が写っている/どんなシチュエーションの写真か」を判別できるほど、画像認識技術は発展しているのかもしれません。
コメント