2020年04月02日
新型ウイルス
研究員
米村 大介
新型コロナウイルスの猛威が止まらない。一部の都市は「封鎖」され、経済活動が事実上停止した。各国の政府・自治体や医療関係者、企業、商店、学校、市民、いや全人類が「見えない敵」に立ち向かっている。
この見えない敵との戦争で、興味深い戦術をとる人々がいる。「データサイエンティスト」と呼ばれる専門家が、インターネット上の「コンペティションサイト」で"武器"となる英知を結集しているのだ。
コンペティションサイトは、各国の企業や公的機関がビッグデータと解決してほしい課題、それに加えて参加者の成果に対する賞金を掲載する。だから参加者は課題に真剣に取り組み、優秀な成果を出そうと国境を越えて競い合う。まさにオープンイノベーションの場だ。こうしたサイトで最も有名なものは、米グーグルが2017年に買収した「Kaggle(カグル)」。日本語で参加できるサイトもあり、その代表的なものが「SIGNATE」である。
2020年3月以降、コンペティションサイトで"異変"が起こっている。新型コロナウイルス関連の課題が続々と登場しているのだ。通常の賞金額は数万ドルにも達するが、新型ウイルス関連では1000ドル程度と控えめ。それなのに、すさまじい熱気がネット上から伝わってくる。
新型コロナウイルスに関するコンペティション
(出所)SIGNATE
例えば、Kaggleには「COVID-19 Open Research Dataset Challenge」という課題が登場し、世界中から参加者を集めている。米国のアレン人工知能研究所(AI2)や国立医学図書館(NLM)などの研究組織が共同提示したものだ。刻々と追加される新型コロナウイルスに関連した論文から、参加者はテキスト解析によって「伝染しやすい環境」「感染リスクを高める要因」といった10の疑問に答えを出す。
別の課題では、翌週のコロナウイルス感染者数と死亡者数を地域別に予測させる。予測数値そのものではなく、予測に影響を与える要因(=感染者が服用する薬剤や既往歴、繁華街への行動履歴、地域の高齢化比率など)を考察することに重きを置く。
こうした課題の掲示板を見ると、ある人はデータの間違いを報告し、別の人は薬剤の名前と化合物の名前を関連付けるデータを紹介。また、感染者数が急増中の現地の生々しい情報を提供する人もいる。
専門家に限らず、素人でも参加可能なコンペティションという形をとる理由がここにある。データ分析は情報の収集・整理が勝負だからだ。例えば、情報を大量に入手できても、データのどこに間違いがあるのかが分からない。また、名前が異なる2つの薬剤が実は同じものかどうかを知る術がない。感染者が増えた要因が一時的なものか否かを判断する情報がない。
こうした問題に一つひとつ対処していくには、多種多様な背景を持つ人が多数参加するオープンイノベーションの環境が最適といえよう。1人のデータサイエンティストが1台のコンピューターで行う予測・分析は、課題解決プロセスのほんの一部に過ぎないからだ。
新型コロナウイルス分析に向け、続々と追加されるデータ群
(出所)SIGNATE COVID-19 Dataset (http://bit.ly/signate_covid-19)
新型コロナウイルスとの戦いは、長期戦を予想する見方が増えている。最前線で戦う医療関係者の奮闘には本当に頭が下がる。でも、われわれにも出来ることがある。可能な人は在宅勤務を徹底し、不要不急の外出自粛も続けたい。家に居る時間が長くなるなら、パソコンからコンペティションサイトを訪問してはいかがだろうか。日々更新される知見が役立つだけでなく、皆さんが御存知の知識や経験を世界中が待ち望んでいるかもしれないからだ。
米村 大介