先日紹介した"dCloak"(通常は検索エンジンでクロールできないページまでクロール可能にするサービス、関連記事:「見えないページ」もクロールする検索エンジン)について、TechCrunchで記事が書かれていました。まずはその紹介を:
Deep Web Search - Two Approaches (TechCrunch)
タイトルに"Two Approaches"とあるように、検索エンジンでクロールできないページ(Deep Web)をサーチするサービスとして、dCloakに加えてGlenbrook Networksの開発したサービスが紹介されています。Techcrunchによると、
Glenbrook Networks is another company trying to tackle the Deep Web problem. However, they’re attacking this from the search engine side, which wouldn’t require website changes like dCloak.
とのことなので、こちらは本当の「見えないページもクロールする検索エンジン」と呼べると思います(dCloakは「見えないページを検索エンジンに見えるようにするサービス」なので)。ちなみにサービスの詳細が載っているページはこちら:Glendor Showcase
実際にこの「見えないページまで見る」技術を使ったサンプルとして、サンフランシスコ・ベイエリアの求人情報を検索することでできるようになっています:
実際に効果測定するためには、どの程度他の検索エンジンにクロールできていないページを拾っているかを見なければいけないのですが、確かにDeep Webにある情報までクロールしているようです。ちなみに検索結果は、こんな風にWeb 2.0っぽい表示にさせることもできるようになっています(クリックで拡大):
画面を見てお分かりの通り、検索結果をRSS配信することもできるようになっています。
技術面に関心のある方は、次の記事をご参照下さい:
Glenbrook Networks: Trawling the Deep Web (Software Only)
面白いことに、ウェブサイトからデータを拾ってくる技術は「クローラー」ではなく「トローラー(trawler)と名付けられています。「トロール漁船」のトロールですね。確かに海中深くに網を張るトロール漁法になぞらえるというのは正しい発想かも。この「トローラー」の動きについて、少し長いのですがSoftware Onlyの記事を引用したいと思います:
Glenbrook's approach to building a trawler is based on mimicking the behavior of a (human) user. It is a useful approach since the "doors" opening the Deep Web were built with a human in mind and reflect the standards (no matter how loose) that humans use to navigate the Web.
The Trawler consists of five layers:
- Discoverer - locates perspective target home pages in Surface Web
- Scout - navigates Surface Web part of a web site and finds the "doors" - DHTML pages that contain forms leading to the Deep Web part of a web site
- Locksmith - fills up the forms with various requests and collects responses
- Assessor - analyses responses and makes a decision to use this door as candidate to query the Deep Web part of the site or move elsewhere
- Harvester - collects all relevant pages from Surface and Deep Web parts of the web site
After all potentially relevant pages are harvested the Extractor takes over. The Extractor is a hybrid system that applies Pattern Recognition, Natural Language Processing and other AI techniques to extract facts, combine them and populate a database that is used to provide factual answers to search queries.
通常の人間が行う動きをステップに分解し、1つ1つソフトウェアでなぞっているわけですね。AI技術が使われているということで、単純にアルゴリズムを発展させるというわけにはいかないでしょうが、今後の検索精度向上に期待したいと思います。
その一方で、懸念されるのはこの技術が悪用されないかという点。Techcrunchの記事でも、スパム業者に利用されるのではという懸念があることが指摘されていますし、セキュリティ面での危険性を指摘されている方もいらっしゃいます:
セキュリティ問題に発展しかねない「dCloak」。(uramoty の視点、書き下し。)
「dCloak」に危険な予感!!(プログラミング・ラボ)
この技術が商用化される際には、「見せたくない」情報についてはクロールしないように自主規制がされるとは思いますが、「技術的に可能である=悪用される可能性が残る」という点は否定できないと思います。
以前から書いていますが、検索エンジンは一種の公共財であり、その開発や使用にあたっては「公共性」という観点からの評価がなされるべきだと思っています。検索エンジンを誰が使えるか、どんな情報が検索できるか、検索結果がどのように表示されるかによって、社会に大きな影響を与える可能性があるからです。杞憂かもしれませんが、より「人間に近い」検索エンジンが出てきたということで、検索技術についてより多方面からの議論が起きることを願っています。
細やかな解説。助かりました。
投稿情報: uramoty | 2005/11/25 16:17
ありがとうございます。
確かに検索技術が進化すると、見られないと思って安心していたページまで見られてしまう、ということになりかねないですね。企業側も用心を求められる時代でしょうか。
投稿情報: アキヒト | 2005/11/25 16:21