メディア検索技術の研究動向―コーパスベース映像解析に向けて(11/15号)
平成19年 11月 15日号
今回の特集は
メディア検索技術の研究動向―コーパスベース映像解析に向けて
石井威望のコメント
21世紀に入ってから、大容量メモリーと高速通信チャンネル(いわゆるブロードバンド)の急速な普及に伴って、動画をネットワークで扱うことが日常的に可能となった。その結果、多数の蓄積映像の中から検索する需要が増えてきている。人間の場合には、一見して曖昧な映像でも、その意味を把握し、分類し検索する作業が容易であるが、これをコンピュータで達成することは極めて難しい。
今回の執筆者は、国立情報学研究所教授佐藤真一氏であるが、このような検索の要求に対する一つの対策を提案し、紹介されている。まだこの分野の決定的な技術突破には必ずしも成功していないけれども、漸くその糸口が見えてきている。
------------------------------------------------------------------
ポイント
1.多様性、あいまい性、多義性へのコーパスベースアプローチ
画像にメタデータやキーワードを付与する手法には色々難点が付随しており、したがって本当の画像/映像検索を実現させるためには、何かが写っているのかをコンピューターに認識させる必要がある。そこで期待されるのが、実データのもつ多様性、あいまい性、多義性などに柔軟に対応できる技術としてのコーパスベースアプローチであり、その映像解析への適用の世界初の本格的試みがTRECVIDである。
2.同じ映像データ、同じタスクのもとに、そのアプローチを比較評価
テキストコーパスを用いた、情報検索のための競争型のワークショップとしてのTRECから、その映像版としてTREC Video Truckが開始され、さらにTREC本体から独立してTRECVIDワークショップが誕生した。TRECVIDは、大学研究室、企業研究所に対し、同じ映像データ、同じタスクのもとに、それぞれ異なるアプローチを行わせ、その比較評価を実施することにより、映像検索・解析技術の高度化を目指している。
3.主な四つのタスクがTRECVID参加者に課せられ、高度化進展へ
TRECVID で参加者に課せられる主なタスクは、(1)与えられた映像中のショット境界を検出し、かつそれらが瞬時であったか、暫時であったかの判定も求められるショット検出、(2)映像中の意味的な特徴の存在の有無を識別する高次特徴抽出、(3)与えられた問い合わせに合致するショットを同定する検索、(4)必要な映像部分を抜き出してつないだサマリ映像を作ることが求められるBBC Rush、この四つである。