600 likes | 733 Views
1999年10月13日(京大会館) で開催の拡大推進委員会にて報告. 知能情報・高度情報処理 マルチメディア・コンテンツの 高次処理の研究. 田中 克己 神戸大学自然科学研究科 情報メディア科学専攻 tanaka@db.cs.kobe-u.ac.jp http://www.db.cs.kobe-u.ac.jp. 本プロジェクトのねらい. マルチメディアデータベースの新しいソフトウエア・ プラットフォームの確立 データ中心的なプラットフォーム マルチメディアコンテンツの特性を重視 従来の DB が扱っていない側面を重視 新分野の開拓の可能性
E N D
1999年10月13日(京大会館) で開催の拡大推進委員会にて報告 知能情報・高度情報処理マルチメディア・コンテンツの高次処理の研究 田中 克己 神戸大学自然科学研究科 情報メディア科学専攻 tanaka@db.cs.kobe-u.ac.jp http://www.db.cs.kobe-u.ac.jp
本プロジェクトのねらい マルチメディアデータベースの新しいソフトウエア・プラットフォームの確立 データ中心的なプラットフォーム マルチメディアコンテンツの特性を重視 従来のDBが扱っていない側面を重視 新分野の開拓の可能性 連続メディアの科学,放送とデータベース,演出の科学 「高次処理」=マルチメディアデータベースとしての高度機能(連続メディア・半構造メディア処理機能など)
本プロジェクトのターゲット • コンテンツの流通基盤としてのデータベース技術 • アクセス管理(版権,課金,CM飛ばし防止など) • ユーザ管理(ユーザプロファイル,インタラクション) • デジタル放送環境のためのデータベース • リアルタイムインデキシング • デジタルビデオ(蓄積型)のデータベース • インターネット情報資源の活用 • サイバースペースを支えるデータベース • 情報検索支援のための空間メディア(デジタルミュジアム,都市空間DBなど)
関連プロジェクト • DVLプロジェクト • 「デジタル放送+インターネット」をターゲット • 分散オブジェクト技術によるミドルウエア • データ放送フォーマット(ビーコン)やEC用メディエータなど • IBLプロジェクト • リアルタイムインデキシング,ビデオダイジェスト,番組インデックスのデータモデル,など
データベース DB構造設計スキーマ 関係,オブジェクト 部品化蓄積 出力 検索・管理 検索言語SQL, OQL,…質問処理,アクセス管理
連続性(どこでも情報単位になり得る!) 半構造性(不確定な情報単位・非定型的な構造) 多様性・多重性(メディア,解釈の多様性) 動画像 身体動作 静止画像 3次元データ 音楽 マルチメディア・コンテンツの特性
メディアの連続性 従来の文字数値データ • 情報単位があらかじめ決定し難く,かつ,どの部分も検索単位になり得る. • 密な索引を付与することが困難. • 事実上無限の詳細度レベルがある. メディアの連続性 (continuous) 240.133 ABC ビデオ映像(1次元),地図(2次元),コンピュータグラフィックス(3次元)など
連続メディアの情報単位の不確定性 “There are no basic units of meaning in film” - James Monaco (1981) How to Read a Film : The Art, Technology, Language, History and Theory of Film and Media
従来のDB 構造的に厳密に定義 Web DB 構造全体を厳密に定義することが難しい. 情報単位や分類構造が不確定 メディアの半構造性 関係データベース形式 メディアの半構造性 (semi-structured)
マルチストリーム性 メディアの多様性 メディアの多様性・多重性 映像,音声, テロップ 多地点ビデオ 制裁 期限 を 目的 に 控えた 日米 自動車 問題 を めぐる SMIL文書 身体動作データ
連続メディアと半構造メディアのためのデータベース連続メディアと半構造メディアのためのデータベース ?検索結果視覚化 ?加工・再構造化 ?情報単位は ?スキーマ ?関連付け ?リアルタイム性 部品化蓄積 出力 検索・管理 ?情報ブラウジング? ?索引生成 ?質問形成,ビュー ?アクセス管理
出力 部品化蓄積 検索・管理 本プロジェクトのアプローチと新規性 配信・提示 ・放送メディア・空間メディアによる提示 ・フィルタリングと合成 時系列データの新鮮度判定 デジタル放送のsocial filtering 視聴者のインタラクション リアルタイム編集 同期化・ダイジェスト化・番組化 情報組織化と概覧 ・複数メディアの解析結果 の統合 ・マルチメディアスキミング (要約,圧縮) ・番組化 ・複数メディア情報の重畳 表示と詳細度制御 ・情報単位の推定と自動 分類 管理 ・詳細度制御 ・自律的な版権・課金管理 ・データ放送の有効時間管理・版管理 ・アクセス管理 依存関係のあるデータの アクセス権管理や巡行履歴に 基づくリンク活性化 索引付けと検索 疎で軽い索引モデルと代数的検索モデル 質問形成支援(空間内でのユーザ振舞)
マルチメディア・コンテンツの統合とメディア変換マルチメディア・コンテンツの統合とメディア変換 • マルチメディア・スキミング • 単なる要約技術との差異 • 文章→要約文章 • ビデオ→要約ビデオ • Webからガイドマップ,略地図と行き先案内 • WebのTV番組化 • 多地点ビデオのスキミング
対象データのイメージとデータモデル • 連続メディアと半構造メディアの統合とこれに基づく索引モデルや検索モデル • 1次元:ビデオ+半構造情報(XML索引) • 2次元:地図+半構造情報(XML索引) • 3次元:3D空間+半構造情報(XML索引) • 情報組織化,結果提示(マルチメディア・スキミング等)にまで広げたプラットフォーム
組織化と概覧 • 映像 • 複数メディアの統合による組織化 • スキミング • 空間 • 2次元画像による断片的表現+アバタによるwalkthrough • 多メディア情報の重畳表示 • 空間に依存した詳細度制御 • 空間情報の抽象化(ランドマーク計算) • 半構造(Web) • 情報単位(部分グラフ)の推定と分類
索引付けと検索 • 疎で軽い索引モデル(Light and Sparse Index Model) • 空間内での人間やアバタの振る舞いに基づく質問形成
管理 • 管理 • 詳細度制御 • 自律的な版権・課金管理 • (放送型)ハイパーメディア情報の有効時間管理・版管理 • アクセス管理 • 依存関係のあるデータのアクセス権管理 • 巡行履歴に基づくリンク活性化
配信におけるフィルタリングと合成 • 映像のsocial filtering • 同期化,ダイジェスト化,番組化 • 視聴者のインタラクション • 放送データのフィルタリング・合成(時系列データからの新鮮度計算含む) • リアルタイムオーサリングとリアルタイム編集・配送
映像の組織化 • 情報単位(トピック)の抽出・分類・関連付けと要約(スキミング) • 複数メディアの活用 • 音声メディア • ディクテーション,重要語抽出,記事分類 • 文字メディア • テロップ切出し,認識,重要語抽出,記事分類 • 映像メディア • シーンカット検出,記事切出し,スポーツニュースの分類
ニュース映像の情報検索 画像指示 PKO WS ディジタルビデオ TV この単語は? この人は誰? Loop Point A1 A2 スポーツ・野球? Cut Point 音声入力 PKOって何? A3 記事クラスタ ニュース記事の切り出し スポーツ映像の分類 音声認識による記事分類 (b)文字領域の 切り出し (c)認識 (a)ニュース映像 ニュース記事 北朝鮮浬不届 コメ援 分類表索引 政治 経済 キャスター音声 10分類 (d)形態素 (e)キーワード (f) 分類 制裁 分 類 確 率 *北朝鮮、15-浬、 10-不、 10-届、 大蔵 北朝鮮、コメ、援助、要請 国際、経済 日米 自動車 問題 分類結果 政治 ディクテーション 時間 映像の組織化 テロップ文字認識による記事分類
Unchanged 通常 早送り ( ) Multiplexing ( 代表ショット ) Video interval ショットの再生方法 意味的構造 類似度閾値 キーワード 現在のショットにつけられた内容記述 映像データ 映像の組織化と概覧 内容記述間のコサイン相関による意味的構造の発見メカニズム • 疎で軽い索引モデル • カット区間の類似性に基づく意味構造の発見 • 代表カットの抽出とスキミング • Unchanged 互いに類似 a+2 a a+1 b • Gradually changing b a a+1 a+2 • Multiplexing (多重度= 2) Subsequence 1: a a+2 b-1 Subsequence 2: a+1 a+3 b
疎で軽い索引モデル グラフ理論的アプローチ 時刻印付きオーサリンググラフ 映像の索引付けと検索 検索文 サイボーグ が 敵 と 戦っている シーン 敵 と 戦う 00:00:51:19 周りの 敵 に乱射 サイボーグ 00:00:57:10 00:00:54:24 敵 を撃つ 009 00:00:56:09 敵 に囲まれる 00:00:49:12 カット一覧 00:00:53:10 時間 敵 を投げ飛ばす ビデオ 検索結果 の映像 キーワード 検索インタフェース 記述インタフェース すべてのキーワードを含む極小部分グラフに対応する映像部分の検索
映像の検索 • 検索モデル • 疎で軽い索引モデルと検索の情報単位の不確定性を前提 • 検索モデルの理論的基盤の確立を目指す • グルー操作 • 与えられた区間群を含む最小区間を求める演算. • フィルター操作 • グルー操作の結果,得られた区間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など) キーワードxを持つ区間集合Xと キーワードyを持つ区間集合Yの グルー演算式
空間メディアの組織化と概覧 • 静止画とアバタ画像を用いた擬似三次元空間の構築 • アバタ画像操作に基づくウォークスルー • XMLに基づく柔軟性の高いシーン記述言語
Zoom-In & LoD Zoom-Out & LoD LoD : Levels of Detail オブジェクトまでの距離による情報量の御 空間メディアの組織化と概覧 • 拡張現実ハイパーメディアName-at • ビデオデータ(遠隔制御可能な定点観測カメラ) • 空間データ基盤 • 空間記述データ(名前,URL等) • 距離による空間記述データの詳細度制御と重畳表示 [基本機能] ・ カメラの遠隔操作 ・ 注釈; 文字の配置 ・ 拡張現実空間への情報のエントリと削除 ・ クリック可能な拡張現実空間 ・ 情報の詳細度の自動調整 (LoD) ・ プライバシを考慮する機構 ・ WWWブラウザとの連携
ランドマーク選択 机 鉄製 木製 アメリカ 鉄製 日本 B社 アメリカ A社 空間メディアの組織化と概覧 • 領域内のランドマーク計算 • tf/idf法の拡張(特徴的な属性情報+大きな面積占有率) • 距離・方向・視野による詳細度制御 • 階層的な空間記述(XML等) • サンプル選択からの質問形成と結果の空間配置 領域呈示 + ランドマーク ゾーン呈示 視野に依存した差別化呈示 ランドマーク呈示
空間メディアの組織化と概覧 • 空間メディアへのビデオ映像の統合 • ビデオデータ検索のための仮想空間ブラウジング • 仮想時空間における時間ウォークスルー LoD の時間軸拡張
空間メディアを用いた検索 • ガイドペット • アバタの時空間行動分析とその応用 • 注目時間による空間の動的生成(個人化) • 時空間行動ログによるスキミング再生 “注目”した時間から人の好みを求める 仮想空間の動的生成 何かに“注目”しているシーンは重要と考える スキミング再生
空間メディアを用いた検索 • ウオークスルーとサンプル選択による質問形成 • 検索結果の空間配置 Query
空間メディアを用いた検索 映像 パラメータ 場 現実世界 マルチモーダルインタフェース 映像データベース 意図理解 利用者 SQLの生成とシーン検索 周囲環境 検索シーン 融合 場の状況 動コンテンツの姿勢 位置、速度、色、形状等 実時間での動コンテンツ データ蓄積 現実世界のシーン 検索データと場との連続性を重視した提示 (3次元モーフィング、パラメータ利用)
半構造メディア(Web情報)の組織化 • 不確定な意味的情報単位の抽出 • Web文書やネットニュースのグラフ構造からの「意味的な情報単位」にあたる部分グラフの発見と検索 • Web文書グラフ中の文脈構造の抽出 • Web文書群の自動分類 • ユーザの視点や目的に応じた自動分類と段階的修正 • Kohonen の自己組織化マップと既存の検索エンジンを利用
トピックB トピックA トピックC 「組織化」 検索={ Web,組織化 } Webグラフ中の意味的単位の検索 半構造メディア(Web情報)の組織化 「Web」 {multimedia, content}での検索結果の自動分類
ブラウザ画面 配送時間指定 広帯域クライアント (LAN接続 等) 20秒 動的な 品質調整 オリジナルページ 狭帯域クライアント (ダイヤルアップ接続 等) マルチメディア・コンテンツの管理:詳細度制御 • 自律的な版権・課金管理機構 • カプセル化コンテンツ方式とサービスレンジ課金方式 • 配送時間制御機能を持つWWWサーバー • 配送時間とQoS 詳細度低下 詳細度向上 サービスレンジ課金
マルチメディア・コンテンツの管理 版権・課金処理のプログラムロジックとデータをカプセル化して流通させる方式と.詳細度とbehaviorを課金額に応じて選択できるサービスレンジ課金方式(課金範囲内で詳細度や振る舞いを変更可能) VRMLデータ ObjectStoreDB 詳細度レベル制御機能 付加情報 コンテンツが,そのユーザの課金コスト内で多様なサービスを提供 authorized 永続化 カプセル化 unauthorized サービスの利用・変更 データ VRMLデータ カプセル化コンテンツが,ユーザ認証により版権を管理 付加情報 ユーザ認証 ユーザ認証 メソッド Permission Denied 課金管理 版権管理 課金管理 サービス レンジ LOS制御 etc… 版権管理・課金管理 VRMLデータとユーザ認証等のメソッドを一体化
マルチメディア・コンテンツの管理:一貫性制御マルチメディア・コンテンツの管理:一貫性制御 C10 C11 6月の予定 6/1 … 6/15 … C10 6月の予定 6/1 … 6/15 … 6月の予定 6/1 … 6/15 … [6/1,6/30] [6/1,6/10] [6/1,6/30] C20 C11 6月の予定 6/1 … 6/15 中止 6月の予定 6/1 … 6/15 … (起動していないため 受信できない) [6/1,6/30] [6/1,6/10] C30 7月の予定 7/1 … 7/2 … C30 内容の更新 7月の予定 7/1 … 7/2 … 有効時間の変更 [7/1,7/31] [7/1,7/31] サーバ側:バージョンを2分木で管理 クライアント側:バージョンをリストで管理
マルチメディア・コンテンツの管理:アクセス制御マルチメディア・コンテンツの管理:アクセス制御 各ユーザのアクセス権の一貫性の判定 • 依存関係を有するデータのアクセス権管理 • AND-ORグラフと排他関係による依存関係のモデル化 • ユーザのアクセス権に応じた動的なビュー生成 • アクセス権の与え方の一貫性判定.逆向き閉包を用いた効率の良い計算法 • 一部のデータのアクセス権から残りのデータのアクセス権を補完 ユーザ1:{a, b, c, d} →× ユーザ2:{a, b, d, e} →○ ユーザ3:{d, e} →○ a or c b d or e f アクセス権に応じた ビューの動的生成 (3D-CADデータの例)
プロファイル フィードバック ニュース フィルタリング ユーザ コミュニティC1 従来の自分中心のフィルタリング ユーザ コミュニティC2 コミュニティC3 放送型配信環境におけるフィルタリングと合成 • News on Demand + Social Filtering • 利用者が興味を持つニュースは高品質で再生できるよう,フィルタリングによって興味の高いニュースは事前転送 • それ以外はストリーミングによる配送 • コミュニティによるフィルタリング
テレビ映像 入力 イベント生成 イベント生成 イベント生成 電子スコアブック生成 映像DB シナリオ選択 プロファイル プレゼン用 テキスト生成 プレゼンテーション 放送型配信環境におけるフィルタリングと合成 • 野球でのダイジェスト生成機構 映像とテキストをSMILで 同期化させたオンデマンド マルチメディア プレゼンテーション
AgentStudio Scenario Manager AgentCast Internet Scenario 放送型配信環境におけるフィルタリングと合成 • 対話型テレビ番組作成システム • 対話型テレビ番組をソフトウェアエージェントとして放送波で配信する機構 AgentCast • エージェントによりスタジオを半自動化する AgentStudio • シナリオ記述言語で記述されたシナリオにしたがってAgentCast と AgentStudio に対して要求を出し,映像・音声とエージェントをタイミング良く配信する機構を実現
放送型配信環境におけるフィルタリングと合成放送型配信環境におけるフィルタリングと合成 プッシュ型情報提供システムのための仮想チャネル ・Pointcastデータのフィルタリング・合成により,ユーザ独自のチャネル定義が可能 ・複数チャンネルの配分比率が可能な,「アナログチャネル」を実現 ・XMLを用いて実装, TVMLを用いた自動番組化(種々の番組メタファー) control panel filter & synthesizer real channel filtered channel virtual TV channel TVMLによる自動番組化 articles of real channel
放送型配信環境におけるフィルタリングと合成放送型配信環境におけるフィルタリングと合成 索引付きライブ映像の放送型配信とフィルタリング・編集 ・映像データのリアルタイムな索引付け機構の実現(音声認識,該当区間の推定) ・複数のライブ映像と索引などのメタデータを一体化してマルチキャストで配送 ・索引の重要度に応じて放映中の番組に挿入 進行スケルトン 音声認識による索引付け
連続メディアの代数的検索モデル • 検索モデル • 疎で軽い索引モデルと検索の情報単位の不確定性を前提 • 検索モデルの理論的基盤の確立を目指す • グルー操作 • 与えられた区間群を含む最小区間を求める演算. • フィルター操作 • グルー操作の結果,得られた区間をさらにフィルタリング(区間長,ノイズ長,区間の前後関係など) キーワードxを持つ区間集合Xと キーワードyを持つ区間集合Yの グルー演算式
連続メディアの代数的検索モデル グルー操作は,ペアワイズなグルー操作式に還元可能 犬 犬 人 人 フィルタ操作Fw(区間長によるフィルタ)Fwは以下の式を満たすため処理の効率化可能.
連続メディアの代数的検索モデル フィルタの分配化可能な必要十分条件任意の区間 i に対し,F(i)= iであるならば,i のすべての部分区間 i’においてF(i’)= i’であること。 F(XY)=F(F(XX)F(YY)) • 最適化フィルタの利点 • 演算処理の効率化 • フィルタの順序が自由 • フィルタの合成が可能 F2(F1(I))=F1(F2(I)) 2つの最適化フィルタF1,F2を F3(I)=F1(I)F2(I)、F3(I)=F1(I)F2(I) のように合成したとき F3も最適化フィルタ
連続メディアの代数的検索モデル ka kb ka kb 3つの最適化可能フィルタ • タイムウィンドウフィルタ • 最長ノイズフィルタ • 順序関係フィルタ FS(kakb) FE(kakb) 3つのキーワード間 の順序関係 FS(kakbkc)(I)=FS(kbkc)(FS(kakb)(I)) 順序関係フィルタと最長ノイズフィルタを組み合わせると 2つのキーワードの時間関係を11種類に分けられる
連続メディアの代数的検索モデル グルー演算を2次元に拡張可能 1次元 区間集合X,Y XY=XXYY F(XY)=F(F(XX)F(YY)) 2次元 領域集合X,Y XY=XXXXYYYY F(XY)=F(F(XXXX)F(YYYY))
Y cey 領域r a1a2a3a4 空間グルー a1a2a3a4 = r[csx,csy,cex,cey] csy csx cex X 連続メディアの代数的検索モデル • 空間グルー オブジェクト={a1,a2,a3,a4}
Y cey(a1) a1b1 csy(b1) csx(a1) cex(b1) X a1b1= r[csx(a1),csy(b1),cex(b1),cey(a1)] 連続メディアの代数的検索モデル • 空間グルー演算 オブジェクト a1 属性:office オブジェクト b1 属性:restaurant office と restaurant が存在する領域
office : A={a1,a2,…,am} Y a2 ・・ ・ b2 restaurant : B={b1,b2,b3…,bn} b1 a1 b4 b3 a4 a3 X A B = A B = { r | ∃a∈A.∃b∈B. r = a b } 連続メディアの代数的検索モデル • ペアワイズグルー演算
a1 b1 b3 b4 Y a1 b1 b2 a2 a1 a3 b1 b3 b4 a1 b1 b2 b3 b2 b1 a1 b4 b3 a4 a3 a1 b3 b4 X A B = { r | ∃A’⊆A.∃B’⊆B. A’≠φ. B’≠φ r = ( A’∪B’) } 連続メディアの代数的検索モデル • パワーセットグルー演算 office : A={a1,a2,…,am} restaurant : B={b1,b2,…,bn}