いくら Google や Yahoo! などの大手検索エンジンといえど、動的に生成されるページなどクローリングできない領域があるのはご存知の通り。そんな領域のことを「ディープ・ウェブ」などと呼んだりするのですが、以前からこのディープなエリアもクローリングしてしまおうという試みは行われていました:
■ 「見えないページ」もクロールする検索エンジン (2005年11月24日)
■ Glendor -- 見えないページを検索する、インターネットの「トロール漁船」 (2005年11月25日)
どちらも3年以上前のエントリで、Dipsie も Glendor も存続しているようですが、未だにベータ版で一般化されてはいないようです。そんなわけでやはり「深海」探索は生易しい物ではないのだろうと思っていたところ、果敢にダイブしようという動きが続いているようです:
■ Exploring a ‘Deep Web’ That Google Can’t Grasp (New York Times)
「ディープ・ウェブ」検索の現状について。まずはあのジェフ・ベゾスも出資しているベンチャー企業、Kosmix が紹介されているのですが、こちらは以下のようなアプローチを行っています:
Kosmix has developed software that matches searches with the databases most likely to yield relevant information, then returns an overview of the topic drawn from multiple sources.
Kosmix は指示された検索と、それに対して最も関連性の高い情報を持っていると思われるデータベースをマッチングし、複数のソースから得られたトピックの概要を返す。
とのこと。実際に試してみると分かると思いますが、ウィキペディアや Google のイメージ検索、MTVのミュージックビデオなど、様々なデータベースを参照して結果の「かたまり」を返してくれます。あるテーマのために作成された雑誌記事を読むような感覚で、ある人物や企業、動植物について一般的知識を幅広く手に入れるのに適しているかもしれません。
この手法、簡単そうに見えて以下のような苦労があるとのこと:
To extract meaningful data from the Deep Web, search engines have to analyze users’ search terms and figure out how to broker those queries to particular databases. For example, if a user types in “Rembrandt,” the search engine needs to know which databases are most likely to contain information about art ( say, museum catalogs or auction houses), and what kinds of queries those databases will accept.
That approach may sound straightforward in theory, but in practice the vast variety of database structures and possible search terms poses a thorny computational challenge.
ディープ・ウェブから有意義なデータを引き出すために、検索エンジンはユーザーの検索語句を分析して、クエリをどんなデータベースに投げるかを決めなくてはならない。例えば「レンブラント」と入力された際、(Kosmix のような手法を取る)検索エンジンはどのデータベースが芸術について最も情報を有しているか(例えば美術館のカタログやオークションハウスのサイトなど)を判断し、選んだデータベースがどんなクエリを受け付けるかを理解していなければならないのである。
ということで、当然ですがその辺のロジックがキモになってくると。
お次に紹介されているのは、お馴染み Google の取り組み:
Google’s Deep Web search strategy involves sending out a program to analyze the contents of every database it encounters. For example, if the search engine finds a page with a form related to fine art, it starts guessing likely search terms — “Rembrandt,” “Picasso,” “Vermeer” and so on — until one of those terms returns a match. The search engine then analyzes the results and develops a predictive model of what the database contains.
Google のディープ・ウェブ検索戦略は、ネットに特定のプログラムを放ち、出会った全てのデータベース内のコンテンツを分析してしまおうというものである。例えば、検索エンジンが芸術に関するページを発見した場合、「レンブラント」や「ピカソ」「フェルメール」などといった関連する検索語句を試し、相手が反応を返してくるまでそれを続ける。次にその結果を分析し、データベース内に何があるかを推定するのである。
要は片っ端からデータベースを叩いてみて、響いた音で中身を想像するという、スイカを買うときのような(?)手法であると。ちょっと喩えが厳しいか。
最後に登場しているのが、DeepPeep というプロジェクト。こちらはユタ大学の Juliana Freir 教授らが関わっているもので、一般に公開されている全てのデータベースをクローリングしてしまおうという野心的なプロジェクトで、こちらも「とにかくクエリを突っ込んでコンテンツを引き出す」系アプローチなのですが、
“The naïve way would be to query all the words in the dictionary,” Ms. Freire said. Instead, DeepPeep starts by posing a small number of sample queries, “so we can then use that to build up our understanding of the databases and choose which words to search.”
「単純な方法は、辞書に載っている全ての言葉を入力してみることだろう」と Freire 氏は述べた。そうする代わりに、DeepPeep はいくつかのサンプルクエリを投げ、「その結果でデータベースに対する理解を深め、適切な言葉を選択する。」
とのこと。具体的なロジックは不明ですが、あまり大量のクエリを投げられるのはデータベース側にとっても負担になるでしょうから、このアプローチの方が協力しようという運営者が出やすいかもしれません。
それでは、ディープ・ウェブの検索が実用レベルで可能になったらどうなるのか。上記の New York Times の記事では、「次の木曜日にニューヨークからロンドンに行くフライトで最も安いチケットはどれ?」という検索、医薬品メーカーから最新のリサーチ結果を取得して表示する健康サイト、政府のデータベースから関連情報を取得して表示するニュースサイトなどといった例が挙げられていますが、そういった「人間に調べ物を頼むような感覚での情報収集・連結」が可能になっていくのかもしれません。ウェブ上に存在する全てのデータベースをつなぐことは当分不可能でも、例えばメジャーな旅行予約サイトを複数網羅するエンジンをつくり、そこにクエリを1回投げるだけで最も条件に合致した旅行プランが出来上がる……などといったことができるようになったりして。
しかしそんなことになったら、個々の旅行予約サイト運営者は激しく抵抗することになるでしょうが。ディープ・ウェブの探索がより一般的になるにつれて、情報の所有権は誰が持っているのか、検索エンジンはそれをどこまで・どんな形式で利用するのが許されるのか、といった問題が改めて大きくクローズアップされるようになると思います。
最近のコメント