CEATEC 行ってから書けよ、って話ですが。他人事ではない(笑)「情報大航海プロジェクト」がらみで、こんな記事がありました:
■ 【CEATEC】情報大航海プロジェクト、検索エンジンの「偏り」発見システムなど (ITpro)
検索エンジンの「偏り」をあぶり出すことができるシステム!これは面白そうと思って読んだのですが……
早稲田大学 基幹理工学部 山名研究室の「検索エンジンの安心・安全を目指して」。主要な検索エンジンの検索結果を比較し、検索結果の順位付けに偏りがないかどうかを検証するという研究だ。「Google」「MSN」「Yahoo! JAPAN」の3つのWebサイトの検索エンジンを用いて、さまざまなキーワードで検索を実行。上位250件を対象に、どの程度一致しているかを調べた。
(中略)
「検索エンジンの結果はどれも同じだと考えている人も多いだろうが、実際はどのエンジンを使っているかによって、出会うページはかなり異なる」(説明員)。
とのこと。実際行ってないので理解が間違っているかもしれませんが、以下のツールとあまり大差ない感じ:
ご存知の方も多いと思いますが、Yahoo! と Google の検索結果の差(100位まで)を視覚的に表現してくれるツール。例えば"Polar Bear"で検索すると……
こんな感じ。一致している結果は線で結ばれているので、いかに両者の結果に差があるかが分かりますね。
ということで、「やっぱり既存の検索エンジンには偏りがあるよね」という結論になったのでした。また同じ研究では「検索結果を時系列で比較する」という調査も行っていて、「同一の検索エンジンの検索結果が、時期によって変動することもある」と判明したとのこと。これはもう、国産検索エンジンを開発するしかない!!
……と皆さんに感じて欲しいのかどうかは分かりませんが、果たして検索エンジンは偏ってはいけないのでしょうか?というより、検索エンジンから「偏り」を取り除くことはできるのでしょうか?またそれができるとしたら、偏りがない状態は望ましいことなのでしょうか。
何かを並べようと思ったら、並べる基準が必要です。例えば1クラスに30人の生徒がいるとして、彼らに順番に予防接種を受けてもらおうとしたら、どのように並べますか?名前のあいうえお順、身長順、体重順など、様々な基準が考えられます。しかしその中の1つを採用して、さぁ注射を始めようという段階になったら、最初になった子供はこう言うかもしれません:「一番最初なんてイヤだ!先生の選び方は偏ってる!」……しかし、何らかの基準は採用しなければならないわけで、それを「偏り」と呼ぶのは間違っているでしょう。また「身長順」という基準を選んだ場合、今年の予防接種と来年の予防接種では、微妙に順番に差がでることも考えられます。それを「去年は僕が2番だったのに、今年は最初なんておかしい!」と非難するのも同じく間違いです。
同様に、もし「ブログを優先的に表示する検索エンジン」などというものがあったら、「そんなの偏ってる」と言われるかもしれません。しかし、そのエンジンは「ブログは上に表示するべき」という基準で結果を並べているだけであり、ある人にとっては「最新の情報を前の方に持ってきてくれる便利なサービス」となる可能性もあります。つまり偏っていると感じるか否かは、情報抽出の基準が自分のニーズと合っているか否かによって変わってくるのではないでしょうか。であれば、検索エンジンは何らかの基準で結果を並べなければならない以上(「結果を並べずに、カードをばら撒いた状態のように見せるエンジン」なんてものも考えられるかもしれませんが)、そこから「偏り」を取り除くのは不可能なはずです。また「偏り」のない検索エンジンとは、何の価値基準も持たないエンジンということですから、万人にとって等しく使えないサービスになることでしょう。
ただ、「PageRank に基づいているはずなのに、Google を批判する記事が表示されない Google」「新しいものが上に表示されるはずなのに、Yahoo!ブログ検索を絶賛する記事が表示されない Technorati」なんてものがあったら困ります。しかしそれは「偏りがあるかないか」という視点ではなく、「検閲が行われているかいないか」という視点でチェックされるべきではないでしょうか。
ということで、個人的には「なぜこの基準で結果が並べられているか、ある程度把握&カスタマイズできる検索エンジン」の方を望みたいです。そうすれば、自分が「偏っていない」と感じるエンジンを使う、もしくはそうなるようにチューニングすればいいわけで。もちろん並べ方のロジックを完全公開してしまえば、スパムの餌食になってしまうわけですが、例えば「料理系の記事を優先的に表示」などというオプションがあるだけで、「スパム」をキーワードに検索した場合でも「スパムバーガー」の話が最初にヒットしてくれるようできるでしょう。そんな個人ごとのパーソナライゼーションが可能な検索エンジン……あ、それはもう民間が開発し始めてるか。うーん、国に作ってもらう検索エンジンって、どんなのがいいんだろう?やっぱり政府職員の不正が一発で検索できるサービス、でしょうかね。
< 追記 >
ちなみに「検索結果を並べない検索エンジン」に近いのは、以前紹介したこちらのサービスかもしれませんね:
ここで Flickr の画像検索ができるのですが、"Polar Bear"をキーワードに検索した結果がこちら:
見事にバラバラです。まぁ画像検索なので、これを1枚1枚かき分けていくのも楽しいのですが。
コメント