420 likes | 655 Views
An Empirical Comparison of Three Commercial Information Visualization Systems. Alfred Kobsa. Proceedings of InfoVis 2001, IEEE Symposium on Information Visualization, San Diego, CA, pp. 123-130, 2001. 2002年8月9日 論文紹介者: 修士2年 森田 亙昭. 発表内容. 3つの商用可視化システム. 可視化システム概要 可視化実験 結果・考察.
E N D
An Empirical Comparison of Three Commercial Information Visualization Systems AlfredKobsa Proceedings of InfoVis 2001, IEEE Symposium on Information Visualization, San Diego, CA, pp. 123-130, 2001 2002年8月9日 論文紹介者: 修士2年 森田 亙昭
発表内容 3つの商用可視化システム • 可視化システム概要 • 可視化実験 • 結果・考察 Eureka[1], InfoZoom[2][3], Spotfire[4] ユーザの使用経験を通じての比較 [1] R.Rao and S.K.Card, “The Table Lens: Merging Graphical and Symbolic Representations in an Interactive Focus + Context Visualization for Tabular Information”, Proceedings of CHI’94, New York, 1994, pp. 318-322 [2]M.Spenke and C.Beilken, “Discovery Challenge: Visual, Interactive Data Mining with InfoZoom – the Financial Data Set”, Workshop Notes on “Discovery Challenge”, 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases, PKDD ’99,1999, pp.33-38. http://fit.gmd.de/~cici/InfoZoom/DiscoveryChallenge/Financial.ps [3]M.Spenke, C.Beilken, and T.Berlage, “The Interactive Table for Product Comparison and Selection”, UIST 96 Ninth Annual Symposium on User Interface Software and Technology, Seattle, 1996, pp. 41-50. http://fit.gmd.de/~cici/Focus/Paper/uist96.htm [4]C.Ahlberg and E.Wistrand, “IVEE: An Information Visualization and Exploration Environment”, InfoVis’95, New York, NY, 1995, pp. 66-73
Eureka 属性:name, state… テーブル形式の可視化 行:オブジェクト 列:属性 オブジェクト:一人の人間 データ: 色分けしたバー gender age state 連続的なデータは青いバーで描画、長さで値を表現
column0 column1 column2 column0 column1 column2 Eureka 列の構成:ラベルを左クリックすることで、昇順、降順にソート 他の列は各行が同じオブジェクトとなるように再整列 column0 column1 column2 この方法によりデータ間の関連を確認 (例):会社員の給料をソート、それに合わせて年齢も並べ代わる 年齢と給料の関係 ラベルの右クリック→テーブルのフィルタリング、グループ化が可能
Eurekaの可視化例 デートサービス情報の可視化 データ:会員の個人データ(プロフィール、アンケート内容) 2列目:”Did you cheat” (yes/no) ? (友人に嘘をついたことがあるか?) ”Gender”(性別)の列でグループ化 (Male、Femaleの順) 2列目をソート 「女性に、嘘をついたことのある人が多い」
InfoZoom 3つのView mode、テーブル形式 行が属性、列がオブジェクト(Eurekaの逆) Wide view mode データ集合の一覧をテキストで表示 スライダーバーを使用して全オブジェクトの任意の部分を表示
InfoZoom Compressed view mode データ集合をウィンドウ内に詰め込む 数値データ 非数値データ 数値データは行底からの高さが値に対応 1行は昇順、降順にソート可能 他の行は各列同じオブジェクトになるように再整列
InfoZoom Overview mode 行内の値はオブジェクトから独立 行;昇順、降順の属性値の分布を表示 属性Weightの分布表示 体重で昇順ソートし、数値とChartで表示 各セルの長さがデータオブジェクト数を表す 体重は88ポンドから170以上まで分布している 属性Did you cheat ? の分布表示 解答無し、NO,YESの3つが存在、NOが一番多い
InfoZoom 3つのviewの特徴 空間が許す限り、値を原文どおり、数値的、記号的に表示 データベースコンテンツの理解をかなり容易なものにする 可視化の中心操作:zooming 属性やその値をクリックすることで、その属性に関する情報を表示 特定の属性値を含むオブジェクトのみを表示 (例:ある会社の社員に関するデータ集合) 行Ageの”30”のセルをクリック・・・30歳の社員についての情報のみを表示 (リレーショナルDBにおける選択演算 社員[Age=30] に相当 指定属性に対して、様々な計算やグラフ生成が可能 Sum(総和), Maximum(最大値), Minimum(最小値), Mean(平均), Count(データ数),%(割合)
InfoZoomの可視化例 Eurekaと同じデータ集合 Overview mode で表示 ・会員はカリフォルニア在住が多い(”state”行6) ・体重88~190ポンド(”weight”行14) 読み取れる情報: Zoomingの例 Zoom-in ( Did you cheat?=yes ) テーブルの内容が変化 (Did you cheat=yesの会員を表示) 「女性会員に、嘘をついたことのある人が多い」
Spotfire 散布図をベースとした可視化 画像の種類を容易に変更可能 ヒストグラム、チャート、パイチャートなど スライダーバーやチェックボックス、ラジオボタンを用いて可視化対象を調整 スライダーバー: 年齢の範囲を20~30に設定 ラジオボタン: 性別で男性だけを選択 20代の男性だけを散布表示
Spotfireの可視化例 Eureka,InfoZoomと同じデータ集合 右上:スライダーバー、ラジオボタン “Gender”と”Did you cheat?” 軸との対応付け X軸:”Did you cheat?” Male Y軸:”Gender” “Jitter option”:最大値に設定 (データポイントの重なりを防ぐオプション) 実際の座標を中心に、 指定した距離の範囲内にランダムに配置 Female No Yes 「女性会員に、嘘をついたことのある人が多い」 右下:選択したデータの詳細
構成上の比較 表現方法は異なるが、3つともに知識発見に貢献 「女性の方に、嘘をついた経験のある人が多い」という同じ解答 各システム 実際に可視化を行うことで、それぞれの比較を行う 実験
実験環境 実験目的 各システムの問題解決速度と正確さを比較 対象データベース Dating プロフィールとアンケートの解答 デートサービスの会員データ 60records,27variables Car 売上、車種、構成部品など 1970年-82年における車販売データ 406records,10variables Env 1975年,1980年,1985年のスウェーデン各地の重金属濃度 2298records,14variables 被験者 コンピュータ使用経験1年以上 可視化システムの使用経験なしの学生82人
実験内容 各システムに被験者をランダムに割り当てる Eureka:28人,InfoZoom:24人,Spotfire:30人 3つのデータベースに関する全26個の質問 各システムを用いて視覚的に問題を解決 DQ8:男性より女性のほうが、 相手に学歴の高さを求めている(Yes/No)? Dating Eureka DQ1~DQ10 Car CQ3 :6気筒の日本車の割合は? InfoZoom CQ1~CQ9 Env EQ2:バナジウムと亜鉛の濃度に関係はある? Spotfire EQ1~EQ7
実験内容 カリフォルニア、アーバイン大学の研究室内で実験 全ユーザ:実験説明と、担当システムを使った可視化の練習 実験開始 正答率比較 各データベースに対して、30分ずつの問題解決 各自可視化によって問題を解き、回答を記述していく 各システムの問題解決の正確性を測定 速度比較 各自の全処理内容を、Videoと画面のCaptureにより保存 問題解決に費やす時間を測定 印象比較 実験後に簡単な操作性に関するアンケート ユーザの感想や、問題点などを比較
全体の実験結果 可視化所要時間(平均) InfoZoom Spotfire Eureka 107sec 110sec 80sec 問題解決の速度:InfoZoom > Spotfire > Eureka 解答の正答率 InfoZoom Spotfire Eureka 71% 68% 75% 問題の正答率:Spotfire > Eureka > InfoZoom
反比例 現段階での考察 可視化速度 正答率 問題を迅速に解決できるシステムは解答の精度が低く、 逆に時間がかかるシステムは精度が高い? 平均値による比較の結果 可視化の種類に応じて結果が大きく異なる可能性もある アンケートによる比較でも、性能を決定づける結果は得なかった。 自分が使用したシステムに一般的に好印象 批判や改良を望むような意見はほとんど無し 現段階では、比較として不十分 より詳細な比較が必要
詳細な比較 1、実験中に見受けられた問題を確認 保存した映像から、実験中にしばしば見受けられた問題点を調査 各システムの可視化における特徴(長所、短所)を整理 2、実験で与えられた各問題ごとの比較 問題ごとにシステムの可視化速度と正答率を比較 何らかの差異を得た問題について、その理由を考える システム構成と関連づけて結果について考察
Eurekaの問題点 隠れたラベルによる混乱 1属性は1列で表示 属性数が増加→、各列の横幅が減少 属性:“Column1”は何処? ラベルが隠れ、必要な列を探すのが困難 column0 column1 column2 colu colu colu 属性数の増加 3つ以上の属性の可視化 可視化対象の属性が増えると問題解決が困難になる 隠れたラベル、的確なフィルタリング、グループ化を見つける問題
Eurekaの問題点 関連の場合のエラー 2属性間の関連を調べる問題 2属性をそれぞれソートすることで双方向の関連を理解 Column0でソートしても関連の有無はわからない column0 column1 column0 column1 Column1でソートすると2つに関連があることがわかる 多くのユーザが片方の属性のソートを忘れ、 関連があることを確認できなかった
InfoZoomの問題点 関連の認識 ユーザの多くが2属性間の関連をうまく認識できなかった (Eurekaとは別の理由) 1、compressed viewでの行が狭い 数値データの遷移を認識しづらい 2、Overview modeを使用 被験者の30% overview mode は値の分布を表示 各データはオブジェクトから独立 オブジェクト単位で認識できないので、関連を認識しづらい 他のmodeやchartを試さなかった
Spotfireの問題点 設定コスト 複数の可視化表示を提供可能 それらの全てが問題解決に役立つわけではない 適した表現を決定 表現に適した軸と変数の設定 かなりの手間 問題が複雑になると設定の手間はさらに大きくなる
Spotfireの問題点 散布図による先入観 デフォルトの可視化手法が散布図→ ユーザは、最初に散布図を使用する傾向 多くのユーザ より適した表現でやり直すべきところでも、その手法にこだわって可視化 失敗を繰り返す より適した表現でやりなおし 成功 失敗時 失敗 その手法(散布図)に様々なオプションを適用 結果的に時間がかかる (例)データの個数や割合を求める可視化 (全会員中の男性の割合など) 失敗 成功 Pie ChartやBar Chart:簡単に数値や割合を認識 散布図:データ数の認識が困難
InfoZoom InfoZoom Spotfire Spotfire Eureka Eureka Dating “Dating”における比較1 DQ1 全会員が、「バーは恋人探しに適した場所」と考えている (yes/no)? (A: NO) DQ4 カリフォルニアに住んでいない、一目ぼれを信じている、友人に嘘をついたことのない女性の名前は? (A: Hashor) 結果 速度(DQ1) 速度(DQ4)
InfoZoom Eureka “Dating”における比較2 理由 DQ1,4は、比較的解決が容易な問題 Overview modeやzoomingを用いて容易に解決 Q1, Overview mode Q4 zoom-in(State=CA) , zoom-in (one sight = yes) ,name InfoZoomが高速=簡単に解決可能なもの 可視化の設定に手間 テーブルから対象属性を探す手間(ラベルが隠れている) 適したグループ化やフィルター、ソート を考える手間 特に、DQ4で方針決定、操作に大きな手間
InfoZoom InfoZoom InfoZoom Spotfire Spotfire Spotfire Eureka Eureka Eureka “Dating”における比較3 DQ8 男性より女性のほうが、相手に学歴の高さを求めている(yes/no)? (A: yes) DQ9 男性会員中のカリフォルニア在住の割合は? (A:70-80%) 結果 速度(DQ8,DQ9) 正答率(DQ8) 理由 state Zoomingと視覚的な比較で容易に解決 CA state Zoom-in (state=CA), % 76% 24% 多くのユーザが描画されたオブジェクト自分で数えた (ほとんどのEurekaユーザと散布図を利用したSpotfireユーザ)
InfoZoom InfoZoom Eureka Eureka “Dating”における比較4 DQ10 スポーツをやっていない会員は、他と比べて体重がある(yes/no)? A:no 結果 正答率 InfoZoomの正答率が減少 理由 zoom-in (sports= yes)”→前後のグラフを比較 yes no yes グラフが似ているため誤答が発生 数値データの列にマウスカーソル その列の平均値、中間値が自動表示 Spotsでグループ化したweightの平均値、中間値を比較 確実に解答
InfoZoom InfoZoom Spotfire Spotfire “Car”における比較 Car CQ1 重量のある車の方が馬力がある (yes/no)? A: yes CQ6 車体重量は年毎に軽くなっている (yes/no)? A: yes 結果 正答率 理由 データ(重量、馬力)間の関連を問う質問 Y:馬力 散布図やヒストグラムにより容易に解決 X:重量 関連の認識で失敗しやすい (compressed viewでの行が狭い、Overview modeを使用)
InfoZoom InfoZoom InfoZoom Spotfire Spotfire Spotfire Eureka Eureka “Car”における比較2 CQ3 6気筒の日本車の割合は? (A: 5-10%) 結果 速度 正当率 理由 Zoom in(Origin = Japan),%や chart(cyrinders)により容易に実現 ユーザがデータ数を数えた 適切な表示の選択とその設定に手間 散布図の場合はデータ数を数える必要があった
InfoZoom InfoZoom Spotfire Spotfire Eureka Eureka “Car”における比較3 CQ7 1980年に最も自動車を生産したのは? (A: Datsun and VM) 結果 速度 理由 overview mode ならclick2回でOK 適した可視化手法、設定方法を見つけるのが困難 ユーザがデータ数を数えた
InfoZoom InfoZoom Spotfire Spotfire Eureka Eureka Eureka “Car”における比較4 CQ8 排気量と加速度に関連はあるか (yew/no)? (A: yes) 結果 速度 正答率 (Eurekaが高速だが、正答率は低い) 理由 片方の属性のみソート 2属性間の関連が確認できなかった Spotfireより正答率で劣る データ間の関連を認識しづらい
InfoZoom Spotfire Eureka Eureka “Car”における比較5 CQ9 4気筒の日本車は、6気筒のアメリカ車より重たい (yes/no)? A: no 結果 速度 理由 可視化に使用する属性数の増加 Manufacture , origin , weight 適した操作を決定するのが困難
InfoZoom InfoZoom InfoZoom Spotfire Spotfire Spotfire Eureka “Env”における観測1 Env 予測 地理情報を含むデータには、Spotfireが有利なはず EQ1 どの地域がもっとも銅が多いか? (A: Northeast, or X=113 Y231) EQ5 バナジウムレベルが高く、クロムが低い地域がある(yes/no)? (A: yes) 結果 速度(EQ5) 速度(EQ1) 理由(EQ1) EQ1で、予測に反してSpotfireが遅い 銅の濃度でソートして、座標を確認するだけ 適した表現方法がなかなか決定しない
InfoZoom InfoZoom InfoZoom Spotfire Spotfire Spotfire Eureka Eureka Eureka “Env”における観測2 EQ2 バナジウムと亜鉛の濃度に関係がある(yes/no)? (A: yes) EQ3 1975から1985にかけて、カドミウム濃度は減少した(yes/no)? (A: yes) 結果 正答率(EQ2) 正答率(EQ3) 理由 データ間の関連を可視化する問題 関連を認識しづらい(EQ2,EQ3) 最初の散布図では関連を認識できない(EQ2) ソーティングで関連をすぐに表示(EQ2,EQ3)
InfoZoom InfoZoom InfoZoom Spotfire Spotfire Spotfire Eureka Eureka Eureka “Env”における観測3 EQ4 1990年の銅の平均濃度はどのくらいになっているか? A: 60-70 結果 正答率 速度 理由 年でソートした銅の平均量を見るだけ Compressed viewで同様の手段で容易に可能 InfoZoomの行の高さ < Eurekaの列の幅 正答率で劣る 年毎の平均を得るまでの手間が非常に大きい
結果からの考察 可視化対象の種類(属性数、関連、属性のタイプ) 性能が大きく異なる ユーザの操作方法
結論 可視化システムの評価は単に速度や精度ではなく 以下の4要素を含む、多くの要素に依存する 可視化の特徴による評価 (Spotfireは様々な可視化を実現→手間が増大) 可視化の際に利用可能な操作による評価 (InfoZoomはZoomingや他の操作が豊富→可視化が容易、高速 Eurekaは操作が少なく、限られた可視化にのみ有用) システムの具体的な設計による評価 (InfoZoom, Eurekaはテーブル形式 InfoZoomは行の高さのため、関連や数値データの認識が困難 Eurekaは列の幅のためラベルが隠れ、必要な列を探すのが困難) 可視化以外の問題による評価 (Spotfireのデフォルトは散布配置 ユーザが散布配置という先入観で、可視化に混乱)
まとめ 商用の3つのシステム Eureka, InfoZoom, Spotfire 実際にデータを可視化することによる比較実験 問題ごとの結論、理由の議論 結論からの考察、結論