190 likes | 313 Views
Building text features for object image classification. 福田考晃. はじめに. Wang, Hoiem らによって提案 [CVPR,2009] なにをするものか? 未知画像の既知カテゴリへの分類 どのように? 画像から得られる特徴 テキストの特徴 ( flickr tag ). 組み合わせて利用. 手法の流れ. 入力:未知画像 処理:2つの識別器を構築 ビジュアル識別器 テキスト識別器 出力:カテゴリ. ビジュアル特徴. 5 つの特徴量を利用 SIFT Gist カラーヒストグラム
E N D
はじめに • Wang, Hoiemらによって提案 [CVPR,2009] • なにをするものか? • 未知画像の既知カテゴリへの分類 • どのように? • 画像から得られる特徴 • テキストの特徴( flickr tag ) 組み合わせて利用
手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 • ビジュアル識別器 • テキスト識別器 • 出力:カテゴリ
ビジュアル特徴 • 5つの特徴量を利用 • SIFT • Gist • カラーヒストグラム • 勾配特徴 • Unified特徴(上記4つをまとめたもの)
Gist • 画像全体から得られる特徴量 • 画像を小領域に分割 • 任意周波数,方向のGaborフィルタの応答算出 Gabor filter 強度 小領域に分割 周波数,方向
Unified特徴の最適化 • 2枚を1組の画像対を利用 • Unified特徴 • 重みを変更し,以下の式を最小化 Si:画像対の関係を表す Si = 1 : 同じカテゴリの画像 Si = 0 : 異なるカテゴリの画像 :i番目の画像対のカイ2乗距離
手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 • ビジュアル識別器 • テキスト識別器 • 出力:カテゴリ
インターネットから取得したデータセット • 画像テキスト間の関係 • 1,000,000枚のデータセット • 700,000枚 • 58カテゴリでflickrを検索 • PASCAL + Caltech 256カテゴリ • 300,000枚 • 以下からダウンロード
手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 • ビジュアル識別器 • テキスト識別器 • 出力:カテゴリ
テキスト特徴 • Flickrデータセットから6000個のタグとグループ名を抽出 • 手順 • 画像入力 • K – Nearest Neighborでk個の画像をFlickrデータセットから取得 • 取得した画像のタグとグループ名から特徴量算出
手法の流れ • 入力:未知画像 • 処理:2つの識別器を構築 • ビジュアル識別器 • テキスト識別器 • 出力:カテゴリ
識別器の構築 • ビジュアル識別器 • テキスト識別器 • SVMの利用 • カイ二乗カーネル • 特徴量をカイ2乗距離へ射影 • 識別器の統合 • ロジスティック回帰 • 検証用データセットを利用 K(x,y)= exp{-² (x,y)} ² (x,y) = i { (||xi-yi||) ² / ||xi+yi|| }
実験 • 以下を確認 • 異なるビジュアル特徴量におけるテキスト特徴の影響 • テキスト特徴とビジュアル特徴の統合の影響 • 学習画像の影響 • 補助データセットの画像枚数の影響 • カテゴリ名の影響
実験1 • 異なるビジュアル特徴におけるテキスト特徴の構築 • KNN精度に依存 • ビジュアル特徴に依存 • 各特徴量の精度比較 • カラーヒストグラムが低 • Unifiedが高
実験2 • テキスト特徴とビジュアル特徴の統合の影響 • 互いが相互に作用
実験3 • 学習画像枚数の影響 • 画像数少 • テキスト特徴の影響大 • 画像数多 • テキスト特徴の影響小 • 最も高い利得 • テキストとビジュアルが一致したとき
実験4 • 補助データセットの画像枚数 • 200,000〜600,000 • 精度上昇大 • 600,000〜1,000,000 • 精度上昇小 • 精度上昇 ≠ 枚数
実験5 • カテゴリ名の影響 • 実験対象 • カテゴリ名に類似したタグが存在する (W) • カテゴリ名に類似したタグが存在しない (WO) • 類似カテゴリの存在に依存しない
おわりに • テキストの特徴 • Flickrのタグ,グループ名を利用 • Unified特徴量は有効に作用 • テキスト識別器 + ビジュアル識別器 = 相互に作用 • 学習画像数が少ない時テキスト特徴の影響大 • 精度向上≠ 補助データセット枚数 • カテゴリ名の影響はない