昨日のエントリで「Google がテラバイト単位のオープンソース科学データを公開」というニュースに触れたのですが、それに関連して、「ダークデータ」なる言葉を知りました:
■ Freeing the Dark Data of Failed Scientific Experiments (Wired)
主張は簡潔で、何らかの事情でお蔵入りになっている・再利用できる形で公開されていない実験データを「ダークデータ」と呼び、それを解放せよという話。例えば自分の仮説をサポートしないようなデータを「使えない」と言って捨ててしまうのではなく、誰でも活用できるようにオープンにしておけば、予想もしていなかった場面で役立つかもしれない……と主張されています。
What's more, your dead end may be another scientist's missing link, the elusive chunk of data they needed. Freeing up dark data could represent one of the biggest boons to research in decades, fueling advances in genetics, neuroscience, and biotech.
さらに重要なのは、誰かが失敗だと思った研究結果は、別の研究者にとって必要だけど手に入れることができなかった「ミッシングリンク」となるかもしれない。ダークデータの解放は様々な研究にとって恩恵となり、遺伝学や神経科学、バイオテクノロジーの発展をもたらすだろう。
僕は理系ではなかったので、この主張がどこまで正しいかは分かりません。なのでこういう例えが適切かどうかは分かりませんが、例えばブログを読んでいても、その記事が主張している結論には反対でも「この事実は知らなかった」「この発想は面白い」と感じることがあります。仮にそれを書いたブロガーが「この記事は上手く書けなかったな、公開しないでおこう」と判断したら、せっかくの知見が得られなかったことでしょう。同じ意味で、「これは使えない」と思ったデータや仮説であっても、誰の目にも触れられる場所に公開することは大きな意味があると思います。
しかし Wired の記事でも指摘されている通り、「失敗」だと判断したデータを公開することは勇気が要りますし、競争相手の研究者を利する危険性を考えると、不必要なデータであっても自分の引き出しに隠しておきたい……と考えるのは自然なことです。従って最前線にいる研究者たちに「ダークデータを解放せよ」というのは無理な話でしょう。そこで大学や非営利団体、Google などの企業が主体となって、公開できるデータ(公共機関による調査や、古い研究データ)から公開していくという流れになるのでは、と思います。「自分の失敗は隠しておきたい」というのであれば、匿名でデータ提供が可能な(しかし何らかのオーソリティがクオリティのチェックを行う)システムを構築する必要があるかもしれません。いずれにしても、研究者個人に期待する以上の動きが必要でしょうね(その意味で国が主体となっては……という議論は止めておきます)。
考えてみれば、「ダークデータ」という発想は科学の分野に限ったことではありません。例えば狭いレベルでは、会社の中に埋もれていたデータが、実は重要な意味を持っていた……ということも起こりうるでしょう。どうやったらそんなデータが日の目を見るような文化・システムを作れるかという議論は、誰にとっても身近なものになっていくように感じます。
最近のコメント