220 likes | 269 Views
電子マニュアルの構造を 利用した文書評価メトリクス. 谷口真也 井上研究室. 背景 (1/2). ソフトウェアが分野を問わず広く利用 開発・利用のためにマニュアルが必要 マニュアルの品質を評価する枠組が必要 知識をもたない人を対象 大量のマニュアルが存在. 背景 (2/2). 文書の電子化が進行 ( 例: CALS ,グループウェア,マニュアル ) 文書を構造的に記述 情報の共有 再利用性,検索性の向上. 目的. 電子マニュアルの構造の良さを定量的に評価したい 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示す.
E N D
電子マニュアルの構造を利用した文書評価メトリクス電子マニュアルの構造を利用した文書評価メトリクス 谷口真也 井上研究室
背景 (1/2) • ソフトウェアが分野を問わず広く利用 • 開発・利用のためにマニュアルが必要 • マニュアルの品質を評価する枠組が必要 • 知識をもたない人を対象 • 大量のマニュアルが存在
背景 (2/2) • 文書の電子化が進行 (例:CALS,グループウェア,マニュアル) • 文書を構造的に記述 • 情報の共有 • 再利用性,検索性の向上
目的 • 電子マニュアルの構造の良さを定量的に評価したい • 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示す
構造化文書 (1/2) • 文書内容が階層化されたモジュール単位で記述された文書 • モジュール:読者に一度に提供するため情報量を表す単位 • 情報ブロック:意味を伝達可能な情報量を表す単位 • 階層:モジュール間の上下関係 • 参照:階層以外のモジュール間の関係
モジュール 情報ブロック 階層 情報ブロック 参照 モジュール モジュール モジュール モジュール モジュール 構造化文書 (2/2) 構造化文書の模式図
文書構造の評価基準 -モジュール- • モジュールのサイズは1ウィンドウ程度 • 各モジュールのサイズは均等 • モジュールは複数の情報ブロックから構成 • ユーザが情報を把握しやすく,読みやすさが向上
文書構造の評価基準 -階層- • モジュールが構成する階層は基本的に3階層 • 各モジュールの子供は1桁以内にする • ユーザが現在読んでいる階層の認識をしやすくなる
ファイル 階層(見出し) モジュール 階層(構造リンク) ページ内参照リンク モジュール モジュール ページ外参照リンク ファイル モジュール モジュール HTMLで記述された構造化文書 HTML記述された構造化文書の模式図
HTMLマニュアルの定義 • モジュール • <H1>,…,<H6>タグによって分割された一連の情報 • 情報ブロック • <P>...</P>タグで記述されている段落 • 階層 • <Hn>タグの大小関係 • 構造リンク • 参照 • ページ内参照リンク • ページ外参照リンク
HTMLマニュアルの評価基準 • 1ファイルに記述されるのは1モジュール • 文書作成の分散作業 • 1モジュールにつき1つのページ内リンク • 読者の一覧性 • 関連のあるモジュール間での参照リンク • 階層の認識
文書構造の 評価基準 基準と計測値を対応 評価メトリクス 構造から算出 できる計測値 集約された 計測値 統計的手法により集約 検出されるデータの分析 計測値を算出 HTML マニュアル 構造評価メトリクスの定義 (1/2)
構造評価メトリクスの定義 (1/2) • 無作為に収集した142件(7885ファイル)のHTMLマニュアル • InternetExplorer5.0 • 800×600のウインドウ • フォントサイズ中 「文書構造を利用した電子マニュアル 評価メトリクス計測ツールの試作」 • 計測ツール,データの分析
構造評価メトリクス • 文字数/モジュールの平均が42394以上 • 文字数/モジュールの標準偏差が7661,変動係数が2.67以上の和集合 • 情報ブロック数/モジュールの平均が476以上 • 深さが8以上:構造リンクが2.72以上=2:1で加算した平均 • 子供の数/モジュールの平均が71.5,標準偏差が42.7,変動係数2.37以上の和集合 • モジュール/ファイルの平均が78以上 • 文字数/ファイルが5000以上,かつ,ページ内構造リンクが1以下
構造化文書の修正ガイドライン • 見出しタグを利用してモジュールに分割 • ファイル内を見出しタグで分割 内容を再考し,モジュールを再分割 • 内容を再考し,段落を再構成 段落ごとに段落タグを適切に記述 • 線形になっている部分を木構造に再構成 • 親モジュールを作成し木構造に構成 • 1モジュール単位にファイルを分割 明確な基準を定め,ファイルを分割 • 1モジュールごとに1ページ内参照リンク 約1200文字ごとにページ内参照リンク
HTMLマニュアルの修正例(1/2) • モジュールが構成する階層は3階層 検出されるデータ:2件 • 文書に線形に記述された部分がある • 概要を把握しづらい • 各モジュールを直接参照することができない • 線形部分を階層的に記述しなおすことでこの問題を解消
親モジュールへ 親モジュールへ モジュールA モジュールA モジュールB モジュールB モジュールC モジュールC 子モジュールへ HTMLマニュアルの修正例(2/2) マニュアルA (ファイル数86,深さ15) • ある手順の操作説明が線形に記述
考察 • ほとんどの評価基準において,品質の低い文書を検出できた • 修正ガイドラインに従うことにより,文書構造の品質が高くなる • 検出できない品質の低い文書がいくつかあった • 評価メトリクスに利用する計測値の不足 • 基準8で検出されたHTML文書は修正後も品質がそれほど向上しなかった • 参照は文書の関連を示すための付加的なものであるため,少ないことが特に問題とはならない
まとめと今後の課題 • 大量のマニュアルから品質の劣る文書を検出する手法を提案し,その修正ガイドラインを示した • その結果,本手法により実際に文書構造の品質が低い文書を検出し,ガイドラインに従って修正することで品質が高くなることが確認できた • 更に大量のサンプルデータを集めて分析を進める • 文書構造の品質と,HTML文書の構文的正しさ • 文書構造の品質と文書の再利用性
検出できなかったデータ (1/2) • モジュール内の情報ブロックが極端に少ない文書を検出できない • 収集したHTMLマニュアルに段落タグをあまり利用していないものが多い • トップページに全てのノードへのリンクが張ってある文書が多く検出される • ツールがHTMLの構造リンクによる階層と,モジュール間の論理構造から構成される階層のうち,前者を優先しているため,ページ外参照リンクを構造リンクと判断する
検出できなかったデータ (2/2) • 1ファイルに記述されるのは1モジュール • モジュールをファイルに配置する基準が一定でない文書が検出されない • ファイル/モジュールの平均値以外の評価値が必要