POLAR BEAR BLOG:

« 2005年10 月 | メイン | 2005年12 月 »

2005/11/25

Glendor -- 見えないページを検索する、インターネットの「トロール漁船」

先日紹介した"dCloak"（通常は検索エンジンでクロールできないページまでクロール可能にするサービス、関連記事：「見えないページ」もクロールする検索エンジン）について、TechCrunchで記事が書かれていました。まずはその紹介を：

Deep Web Search - Two Approaches (TechCrunch)

タイトルに"Two Approaches"とあるように、検索エンジンでクロールできないページ（Deep Web）をサーチするサービスとして、dCloakに加えてGlenbrook Networksの開発したサービスが紹介されています。Techcrunchによると、

Glenbrook Networks is another company trying to tackle the Deep Web problem. However, they’re attacking this from the search engine side, which wouldn’t require website changes like dCloak.

とのことなので、こちらは本当の「見えないページもクロールする検索エンジン」と呼べると思います（dCloakは「見えないページを検索エンジンに見えるようにするサービス」なので）。ちなみにサービスの詳細が載っているページはこちら：Glendor Showcase

実際にこの「見えないページまで見る」技術を使ったサンプルとして、サンフランシスコ・ベイエリアの求人情報を検索することでできるようになっています：

Glendor Jobs Showcase

実際に効果測定するためには、どの程度他の検索エンジンにクロールできていないページを拾っているかを見なければいけないのですが、確かにDeep Webにある情報までクロールしているようです。ちなみに検索結果は、こんな風にWeb 2.0っぽい表示にさせることもできるようになっています（クリックで拡大）：

画面を見てお分かりの通り、検索結果をRSS配信することもできるようになっています。

技術面に関心のある方は、次の記事をご参照下さい：

Glenbrook Networks: Trawling the Deep Web (Software Only)

面白いことに、ウェブサイトからデータを拾ってくる技術は「クローラー」ではなく「トローラー（trawler）と名付けられています。「トロール漁船」のトロールですね。確かに海中深くに網を張るトロール漁法になぞらえるというのは正しい発想かも。この「トローラー」の動きについて、少し長いのですがSoftware Onlyの記事を引用したいと思います：

Glenbrook's approach to building a trawler is based on mimicking the behavior of a (human) user. It is a useful approach since the "doors" opening the Deep Web were built with a human in mind and reflect the standards (no matter how loose) that humans use to navigate the Web.

The Trawler consists of five layers:

Discoverer - locates perspective target home pages in Surface Web

Scout - navigates Surface Web part of a web site and finds the "doors" - DHTML pages that contain forms leading to the Deep Web part of a web site

Locksmith - fills up the forms with various requests and collects responses

Assessor - analyses responses and makes a decision to use this door as candidate to query the Deep Web part of the site or move elsewhere

Harvester - collects all relevant pages from Surface and Deep Web parts of the web site

After all potentially relevant pages are harvested the Extractor takes over. The Extractor is a hybrid system that applies Pattern Recognition, Natural Language Processing and other AI techniques to extract facts, combine them and populate a database that is used to provide factual answers to search queries.

通常の人間が行う動きをステップに分解し、１つ１つソフトウェアでなぞっているわけですね。AI技術が使われているということで、単純にアルゴリズムを発展させるというわけにはいかないでしょうが、今後の検索精度向上に期待したいと思います。

その一方で、懸念されるのはこの技術が悪用されないかという点。Techcrunchの記事でも、スパム業者に利用されるのではという懸念があることが指摘されていますし、セキュリティ面での危険性を指摘されている方もいらっしゃいます：

セキュリティ問題に発展しかねない「dCloak」。（uramoty の視点、書き下し。）
「dCloak」に危険な予感！！（プログラミング・ラボ）

この技術が商用化される際には、「見せたくない」情報についてはクロールしないように自主規制がされるとは思いますが、「技術的に可能である＝悪用される可能性が残る」という点は否定できないと思います。

以前から書いていますが、検索エンジンは一種の公共財であり、その開発や使用にあたっては「公共性」という観点からの評価がなされるべきだと思っています。検索エンジンを誰が使えるか、どんな情報が検索できるか、検索結果がどのように表示されるかによって、社会に大きな影響を与える可能性があるからです。杞憂かもしれませんが、より「人間に近い」検索エンジンが出てきたということで、検索技術についてより多方面からの議論が起きることを願っています。

投稿情報: 10:53 カテゴリー: 検索エンジン/サービス | 個別ページ | コメント (2) | トラックバック (1)

2005/11/24

ITmediaニュース：国内初、内定者向けSNS

もう１つ速報的に。企業によるSNS活用が進んでいますが、「SNS=コミュニティ参加者の囲い込み」という発想を進めると、こういうサービスに行き着くようです：

ITmediaニュース：国内初、内定者向けSNS

流行の特化型SNSの一種ですね。もうなんでもありの世界ですが、内定辞退に悩む企業は多いですから、潜在的な市場はあるかも。ただ内定者は結局、複数の内定SNSを掛け持ちすることになるでしょうから、最終的には「メッセージをきちんと発信した企業に入社する」というあたりまえの結果に落ち着くのでしょうね。

投稿情報: 20:49 カテゴリー: SNS/ソーシャルメディア | 個別ページ | コメント (0) | トラックバック (1)

「見えないページ」もクロールする検索エンジン

速報的に。検索エンジンの技術は、まさに進化し続けているようです。

見えないページもクロール--米新興企業が検索サービスを新たに開始 - CNET Japan

dCloakという新しいサービスで、これまで検索エンジンが「見る」ことのできなかったページまでクロールしてくれるとのこと。ちなみに公式ページはこちら：

Dipsie announces dCloak BETA

CNETの記事では、「GoogleやYahooなどの検索エンジンは、クッキーやページテンプレート、フォーム、クライアントサイドスクリプトを使うオンラインショップなどのウェブページをクロールできないと、Dipsieの最高経営責任者（CEO）Jason Wienerは述べる。」とあるので、逆にこうしたページをクロールできるということでしょうか。またJavaやFlashについてはどうなのでしょう？

ちなみに公式ページを読むと、

Dipsie dCloak enables Web site owners, content publishers, search engine optimization companies and marketers to make "deep web" pages visible to Google, Yahoo! and MSN.

とあるので、検索エンジンとしてのサービスではなく、SEOサービスなのですね（つまりメジャー検索エンジンのクローラーに「見える」ページを用意することで、サイトが検索結果に載るようにするのがこのサービスの目的だと）。結果的にGoogle等で「見える」ようになるわけですから、ユーザーにとっては同じことかもしれませんが。ただ当然ながらこのサービスは契約企業だけに提供されるわけで、これまで「見えなかった」ページが突然すべて見えるようになるわけではなさそうです。

バーティカルやソーシャルなど、新しい検索エンジンの種類が次々と生まれていますが、「検索エンジンを補助するサービス」というのは面白いですね。考えようによっては、画像認識技術を応用して、「移っている被写体を自動的に認識・altタグを自動的に埋め込んでくれる（結果的にGoogleなどの画像検索でヒットしやすくなる）アプリケーション」などというものも考えられるかもしれません。

もっと大きい視点で捉えれば、「SEO対策自動実行ツール」と呼べるかもしれません。検索エンジンの機能進化は、検索サービス企業だけが進めるものではなくなってきているのですね。その意味で、既に巨大な"Search Engine Eco-system"というものが世界を支配しつつあるのかも・・・

続きを読む "「見えないページ」もクロールする検索エンジン" »

投稿情報: 20:23 カテゴリー: 検索エンジン/サービス | 個別ページ | コメント (0) | トラックバック (1)

AJAXのスプレッドシート登場

Techcrunchで紹介されていた、AJAXで実現されたオンライン・スプレッドシート：

NumSum (Techcrunch)

オンライン・ワードプロセッサのWritelyに続き、いよいよOffice関連アプリケーションも充実してきたという感じです。さっそくサインアップして、こんなスプレッドシートを作ってみました：

先日発表された、最新版のFeedster Top500リスト（Excelデータはこちら）です。こんな風に、ブログに埋め込むことも簡単にできるようになっています。もちろん（？）タグ機能付き。その他、プリント、データエクスポートなども可能。残念ながらグループ編集機能は付いておらず、作成したユーザー以外は閲覧しかできませんが、現在でも簡単な作業ならば十分対応できそうなレベルです。

将来的にはグループ編集や、履歴管理まで実現して欲しいですね。またスプレッドシートと言えば関数ですが、オンラインという特性を活かし、他ユーザーが作った関数や数式も共有できるようになってくれると嬉しいです。欲を言えば関数にもタグ付けして、検索可能にするとか・・・。オンラインでOfficeアプリケーションを共有するって、予想以上に深い可能性を秘めているのかもしれません。

投稿情報: 19:10 カテゴリー: ウェブ・技術 | 個別ページ | コメント (0) | トラックバック (0)

How to Make Unsearchable Searchable

インターネット上のコンテンツの発達と、検索技術の向上により、多くの情報をネットから引き出せるようになりました。しかし検索エンジンを動かすためには、客観的な検索キーをインプットする必要があります。テクノロジーの進歩によって音声や画像を検索キーとして使うことができるようになりましたが（関連記事：画像認識技術＋カメラ付き携帯電話＝未来の検索サービス）、あるデータが一定のルールの下で特定のキーに変換されるという点で、「客観的」という要素は変わっていません。

しかし検索を行うとき、必ずしも客観的な条件が決まっているとは限りません。例えば「何か笑える話が知りたい」とか「感動する話を読みたい」などといった気分の時があるでしょう。そんな時「笑える話」でGoogle検索してみても、なかなか笑える話は見つかりません。（ちなみに「笑える話」でGoogle検索した結果のトップに表示されるサイトには、笑いとは程遠いオカルトサイトが紹介されていたりします。）

「面白い」「楽しい」といった主観的な要素で検索を可能にする試みとして、こんな検索エンジンがありました：

データクラフト、デジタルストックフォト提供サイト「ｉｍａｇｅｎａｖｉ．Ｊｐ」の検索エンジンの機能を強化（日経プレスリリース）

デジタルコンテンツの販売を手がけるデータクラフトという会社が、自社サイト内での画像検索をしやすくするために、検索エンジン「ADサーチ」の機能を強化したというニュースです。それによると、「『上品』、『ポップ』のような印象を表す語や、『こつこつ』や『もじもじ』といった擬態語、また『伝統』『喜び』といった漠然としたテーマによる感性検索を可能」にしたとのこと。百聞は一見にしかず、さっそくデータクラフトのサイト「素材辞典」で、ADサーチを試してみました。

まず「わくわく」というキーワードで画像を検索した結果（クリックで拡大）：

「わくわく」っぽい画像が出ていますか？秀逸なのは、右下の「検索アシスタント」という機能。「わくわくと言えば・・・ガッツポーズ」のように、入力されたキーワードに関連する単語が候補として表示されます。

さらに1つの画像を選ぶと、以下のような詳細画面がポップアップ表示されます（クリックで拡大）：

画面下半分に「似ている画像を再検索」というメニューが表示され、ちょうどMicrosoftのクリップオンラインのように、同じ属性を持つ画像が検索できるようになっています。用意されている属性は「オブジェクト」「テーマ」「イメージ」など。「検索アシスタント」と「似ている画像を再検索」の両機能を用いることによって、たとえキーワード検索で思っていたような画像を検索できなかったとしても、欲しい画像に近づくことができるようになっています。

この検索エンジン、漠然的・主観的だった思考を、少しずつ客観的なものにするプロセスを経ることを可能にしていると言うべきでしょうか。プレスリリースでも「ユーザーが入力したキーワードに関連する新たな検索語を提案し、イメージの絞り込みやアイディアフラッシュをサポートする画期的な画像検索エンジン」という紹介がされていますし。その意味では、主観的なキーワードで検索できるエンジンではなく、客観的なキーワードを引き出すエンジンと言った方が良いかもしれません。しかし主観的な単語から検索を可能にする試みとして、面白い存在ではないでしょうか。

詳しいことは分かりませんが、プレスリリースを読む限り、ユーザーが入力したキーワードを適切なクエリに変換することで機能を実現しているようです。ガッツポーズをしている画像に「わくわく」というインデックスを貼るのではなく、「わくわく」というキーワードを「わくわくorガッツポーズ」というクエリにすることで「ガッツポーズ」の画像を引っ掛けるという具合です。であれば、この仕組みをそのままテキスト検索にも応用できるのではないでしょうか。「子供＋わくわく」というキーワードが入力されたら、「遠足＋クリスマス＋誕生日」などといったクエリに変換して検索を実行するといった風に。ついでにBlogWatcherのポジティブ/ネガティブ判定機能まで加えてやれば、「『わくわく』に関連するイベントで、ポジティブな内容の記事」という検索が可能になりますから、かなりの精度で狙った記事を見つけることが可能になると思います。

今後はクエリだけでなく、コンテンツの中身をテキストマイニングすることによって、主観的なキーワードでインデックスを付けるということが行われるようになるかもしれません。もしかしたら未来の検索エンジンは、これにパーソナライズも加味して「○○さんのツボにハマる最高に笑える話」などというものまで検索可能になるのかも。しかしそれは、機械によって感情までコントロールされるということにつながってしまうのかもしれませんが。「お笑い関係の動画ファイルの中で、笑えるコントだけを検索する」なんて判別まで検索エンジンにできるようになってしまったら、芸人向けにSEOが大流行するかもしれませんね。吉本興業あたりが「お笑いSEO」の権威になったりして・・・。

投稿情報: 16:03 カテゴリー: 検索エンジン/サービス | 個別ページ | コメント (0) | トラックバック (0)

Technorati Mini - けっこう使えるかも

米Technoratiで新しい機能、"Technorati Mini"が公開されていました。さらにMicro PersuasionでMiniをサイドバーに表示させるという活用法が紹介されていたので（参考記事：Put Technorati Mini in Your Firefox Sidebar）、さっそく設定（下がそのスクリーンショット、クリックで拡大）：

見てお分かりの通り、日本語も問題なく使えます。こうしておくだけで、1分毎に検索結果を自動更新してくれるので、速報性のある記事をチェックする時には便利ですね。RSSリーダー的に記事のサマリを確認することもできるし。Firefoxのサイドバーに設定しておけば、記事本体はTechnorati Miniの画面を遷移させることなく、メイン画面に表示させることができます。

「Technorati = 遅い」というイメージがあるのですが、改善されたという報告もあるので：

Technorati Performance Improvement Update (Sifry's Alerts)

Technorati Mini、けっこう使えるかも。

投稿情報: 12:59 | 個別ページ | コメント (0) | トラックバック (0)

画像認識技術＋カメラ付き携帯電話＝未来の検索サービス

CNETで、画像認識技術を応用した新しいマーケティング手法についての記事がありました：

Search technology comes to the camera phone (CNET News)

カメラ付き携帯電話で何かを撮影し、その画像を広告主のメールアドレスに送信すると、画像を認識してその内容に従ったアクションを行う、というものです。記事中で紹介されているNeven Visionの例については、既に日本語でも以下のようなプレスリリースが発表されています：

N-Vision、有名ブランド清涼飲料水メーカー向けに革新的なオブジェクト認識技術を使ったモバイルマーケティングソリューションを提供（ValuePress!）

Neven Visionのホームページはこちら：　N-Vision: ニブンビジョン株式会社

ついでに、ITmediaで過去に報道された記事：

端末内の写真を“顔認識”で検索──N-Vision（ITmedia）

今年7月のワイヤレスジャパン2005で出展されていたのですね。日本では既にカメラ付き携帯電話はあたりまえの存在になっていますから、画像認識技術を応用したマーケティングキャンペーンは、すぐに一般的なものになるかもしれません。

この技術、マーケティングへの応用に止まらず、CNET記事のタイトルにあるように「検索」という観点から応用が可能なのではないでしょうか。これまでの検索エンジンでは、キーワードとしてテキストしか使うことができませんでした（キー「ワード」なので当然と言えば当然ですが）。ところが最近、gooの「あて！？メロ」サービスやVDSの音声による検索サービスなどという形で音声から検索を行うことが実用化されてきましたが、さらに画像もキーワードとして使うことが可能になったわけです。これにより、まったく新しい検索サービスが考えられます。

例えば、雑誌で好きな芸能人のインタビュー記事を読んでいる時に、彼/彼女が身に着けているアクセサリーを欲しくなったとしましょう。そのアクセサリーのブランドを知らなくても、記事に掲載されている写真を撮影し画像検索サービスに送信すれば、ブランド名/商品名はもとより、近隣で在庫があるお店まで回答することができるかもしれません。あらゆる画像を認識することは（Googleでもなければ）不可能でしょうが、例えば"Searchable Catalog"や"Searchable Magazine"などと銘打って、掲載されている写真すべてを検索キーとして使うことができる書籍を作ることは難しくないでしょう。

もしかしたらこの分野でも、主導権を握るのは検索サービス提供企業かもしれませんね。例えばGoogleが一般企業と契約、画像認識用データを全てホスティングし、Googleから検索可能にするサービス（サービス名は"Google Camera"でどうでしょう？）を始めるとか。もしくは従来の広告モデルの延長として導入しやすいかもしれませんね。例えば、ある程度一般的な対象（芸能人の顔や、新しく発売された書籍/CD/DVDの表面など）の画像認識用データをGoogleが自前で準備しておき、検索が行われた場合に広告を表示するとか（SMAPの新しいCDが検索されたら、HMVの広告が表示されるようにするなど）。いずれにせよ「画像認識＝新しい検索キーワードの形」と捉えると、様々な可能性が考えられます。

さらに想像を広げれば、「あるブランドは、どこで撮影された画像が検索されることが多いか」を分析して、リアルでの広告チャネルの効果分析に用いるとか--技術の精度が上がれば、画像認識は想像以上に発展する可能性を秘めていると思います。

続きを読む "画像認識技術＋カメラ付き携帯電話＝未来の検索サービス" »

投稿情報: 11:29 カテゴリー: 検索エンジン/サービス | 個別ページ | コメント (0) | トラックバック (1)

2005/11/23

GoogleとCBSが動画検索で協力？

米CBSとGoogleが、動画検索分野での提携を模索しているとのこと。米CNET Newsの記事：

Google, CBS in talks on video search, on-demand | CNET News.com

CBSが自社コンテンツの流通を促進するために、Googleの検索技術を利用しようとしているようです。Googleは既に"Google Video"というテレビ番組検索サービスを開始していますが（関連記事：CNET Japan 「グーグル、テレビ番組検索サービス「Google Video」のベータ版を発表」）、このサービスを発展させる形での協力となるのでしょうか。

Video-on-demandについても協議しているとのことなので、Googleで番組検索→見たい番組を発見→VODにシームレスに連携、というイメージかもしれませんね。検索できる番組数も飛躍的に増えるのかも。

CBSは同様の協議を、Yahoo!などとも行っているようです。ちょうどいま、ニュース記事を読むのに検索エンジンがその入り口となりつつあるように、テレビ番組やラジオ番組のコンテンツを見る時にも、検索エンジンが入り口となるという時代がやってくるのでしょうか。

続きを読む "GoogleとCBSが動画検索で協力？" »

投稿情報: 22:49 カテゴリー: Google | 個別ページ | コメント (0) | トラックバック (0)

Amazon + Wiki = Citizen Marketing

もう1つ速報的に。これもMicro Persuasion経由で知ったニュース：

Church of the Customer Blog: Amazon's customer collaboration

米AmazonにProductWikiというコーナーがオープンしたとのこと。"Wiki"とあるように、ユーザーが自由に製品レビューを書き込めるようです。

米Amazonといえば、先日Tag機能が追加されたというニュースをお伝えしましたが（関連記事：Amazon 2.0）、Web 2.0的機能を次々に追加していっていますね。もはや単なるショッピングサイトではなく、商品を中心としたコミュニケーションのプラットフォームとして存在しているのでしょう。そこで許されるのはユーザーによる商品/サービスの評価、すなわち"Citizen Marketing"だけだとしたら、企業のマーケティング活動のあり方は大きな変革を迫られると思います。

続きを読む "Amazon + Wiki = Citizen Marketing" »

投稿情報: 14:27 カテゴリー: ウェブ・技術 | 個別ページ | コメント (0) | トラックバック (1)

"mashingtonpost" -- mashing up Washington Post

Micro Persuasionで、Washington PostがAPIを公開し、ユーザーによるmashupを促していることが紹介されていました：

WaPo Jumps Into Mashups (Micro Persuasion)

この件についてのWashington Postの公式サイトはこちら：

Post Remix - The Post's Official Mashup Center

大手新聞社が自社コンテンツのmashupを積極的に後押しする、というのは面白いですね。すでに以下のようなmashupサイトが作られています。

News Cloud: ニュース中のキーワードをTag Cloud風に表示。
Ripped from the Headlines!: 記事ヘッドラインの一部が隠れて表示され、空欄に入る単語を当てるクイズ。
World News Maps: Google Mapとのmashup。ニュースがあった場所が7地域に分類され、地図上に表示される。
WashingtonPost Search: Washington Postの記事を検索し、結果をRSSフィードにして返してくれる。

Washington Postはこのようなremixを応援する理由として、以下のように述べています。

Why are we doing this? Because we want to foster innovation, and because we want to see your ideas about new ways of displaying news and information on the Web.

確かにニュース・コンテンツをどのように表示するかについては、もっといろいろな形式があっていいはずです。Ripped from the Headlinesのように、ニュースをクイズにしてしまうなど、新しいアイデアが生まれてくると良いですね。

投稿情報: 14:01 カテゴリー: ウェブ・技術 | 個別ページ | コメント (0) | トラックバック (0)

検索

フィードを購読

POLAR BEAR BLOG

仕事を通じて触れた話題などなど。

2005/11/25

Glendor -- 見えないページを検索する、インターネットの「トロール漁船」

2005/11/24

ITmediaニュース：国内初、内定者向けSNS

「見えないページ」もクロールする検索エンジン

AJAXのスプレッドシート登場

How to Make Unsearchable Searchable

Technorati Mini - けっこう使えるかも

画像認識技術＋カメラ付き携帯電話＝未来の検索サービス

2005/11/23

GoogleとCBSが動画検索で協力？

Amazon + Wiki = Citizen Marketing

"mashingtonpost" -- mashing up Washington Post

検索

他のサービス

アーカイブ

カテゴリー

最近のコメント