電子マニュアルの構造を 利用した文書評価メトリクス 谷口真也 井上研究室 背景 (1/2) • ソフトウェアが分野を問わず広く利用 – 開発・利用のためにマニュアルが必要 • マニュアルの品質を評価する枠組が必要 – 知識をもたない人を対象 – 大量のマニュアルが存在 背景 (2/2) • 文書の電子化が進行 (例:CALS,グループウェア,マニュアル) • 文書を構造的に記述 – 情報の共有 – 再利用性,検索性の向上 目的 • 電子マニュアルの構造の良さを定量的に 評価したい • 大量のマニュアルから品質の劣る文書を 検出する手法を提案し,その修正ガイドラ インを示す 構造化文書 (1/2) • 文書内容が階層化されたモジュール 単位で記述された文書 – モジュール:読者に一度に提供するため情報 量を表す単位 – 情報ブロック:意味を伝達可能な情報量を表 す単位 – 階層:モジュール間の上下関係 – 参照:階層以外のモジュール間の関係 構造化文書 (2/2) モジュール 情報ブロック 階層 情報ブロック 参照 モジュール モジュール モジュール モジュール 構造化文書の模式図 モジュール 文書構造の評価基準 -モジュール- 1. モジュールのサイズは1ウィンドウ程度 2. 各モジュールのサイズは均等 3. モジュールは複数の情報ブロックから構 成 • ユーザが情報を把握しやすく,読みやす さが向上 文書構造の評価基準 -階層- 4. モジュールが構成する階層は基本的に3 階層 5. 各モジュールの子供は1桁以内にする • ユーザが現在読んでいる階層の認識を しやすくなる HTMLで記述された構造化文書 ファイル 階層(見出 し) モジュール 階層(構造リン ク) ページ内参照リンク モジュール モジュール ページ外参照リンク ファイル モジュール モジュール HTML記述された構造化文書の模式図 HTMLマニュアルの定義 • モジュール – <H1>,…,<H6>タグによって分割された一連の情報 • 情報ブロック – <P>...</P>タグで記述されている段落 • 階層 – <Hn>タグの大小関係 – 構造リンク • 参照 – ページ内参照リンク – ページ外参照リンク HTMLマニュアルの評価基準 6. 1ファイルに記述されるのは1モジュール – 文書作成の分散作業 7. 1モジュールにつき1つのページ内リンク – 読者の一覧性 8. 関連のあるモジュール間での参照リンク – 階層の認識 構造評価メトリクスの定義 (1/2) 文書構造の 評価基準 基準と計測 値を対応 構造から算出 できる計測値 集約された 計測値 統計的手法に より集約 計測値 を算出 検出される データの分析 HTML マニュアル 評価メトリクス 構造評価メトリクスの定義 (1/2) • 無作為に収集した142件(7885ファイル)の HTMLマニュアル – InternetExplorer5.0 – 800×600のウインドウ – フォントサイズ中 「文書構造を利用した電子マニュアル 評価メトリクス計測ツールの試作」 – 計測ツール,データの分析 構造評価メトリクス 1. 2. 3. 4. 5. 6. 7. 文字数/モジュールの平均が42394以上 文字数/モジュールの標準偏差が7661,変動係数が 2.67以上の和集合 情報ブロック数/モジュールの平均が476以上 深さが8以上:構造リンクが2.72以上=2:1で加算した平 均 子供の数/モジュールの平均が71.5,標準偏差が42.7, 変動係数2.37以上の和集合 モジュール/ファイルの平均が78以上 文字数/ファイルが5000以上,かつ,ページ内構造リン クが1以下 検出されるHTMLマニュアル 基準 棄却データ 特徴 見出しタグを正確に使用していない 1 2件 2 3 4 5 6 7 6件 2件 2件 14件 3件 9件 サイズの大きいモジュールが存在 段落タグを大量に使用 文書中で線形に記述 1モジュールに子供が大量に存在 単一ファイルでサイズが大きい サイズの大きいモジュール 構造化文書の修正ガイドライン 1. 2. 3. 4. 5. 6. 7. 見出しタグを利用してモジュールに分割 ファイル内を見出しタグで分割 内容を再考し,モジュールを再分割 内容を再考し,段落を再構成 段落ごとに段落タグを適切に記述 線形になっている部分を木構造に再構成 親モジュールを作成し木構造に構成 1モジュール単位にファイルを分割 明確な基準を定め,ファイルを分割 1モジュールごとに1ページ内参照リンク 約1200文字ごとにページ内参照リンク HTMLマニュアルの修正例(1/2) 4. モジュールが構成する階層は3階層 検出されるデータ:2件 – 文書に線形に記述された部分がある • • – 概要を把握しづらい 各モジュールを直接参照することができない 線形部分を階層的に記述しなおすことでこ の問題を解消 HTMLマニュアルの修正例(2/2) マニュアルA (ファイル数86,深さ15) – ある手順の操作説明が線形に記述 親モジュールへ モジュールA モジュールB モジュールB モジュールC モジュールC 子モジュールへ 考察 • ほとんどの評価基準において,品質の低い文書 を検出できた • 修正ガイドラインに従うことにより,文書構造の 品質が高くなる • 検出できない品質の低い文書がいくつかあった – 評価メトリクスに利用する計測値の不足 • 基準8で検出されたHTML文書は修正後も品質 がそれほど向上しなかった – 参照は文書の関連を示すための付加的なものである ため,少ないことが特に問題とはならない まとめと今後の課題 • 大量のマニュアルから品質の劣る文書を検出す る手法を提案し,その修正ガイドラインを示した • その結果,本手法により実際に文書構造の品質 が低い文書を検出し,ガイドラインに従って修正 することで品質が高くなることが確認できた • 更に大量のサンプルデータを集めて分析を進め る – 文書構造の品質と,HTML文書の構文的正しさ – 文書構造の品質と文書の再利用性 検出できなかったデータ (1/2) 3. モジュール内の情報ブロックが極端に少ない文 書を検出できない – 収集したHTMLマニュアルに段落タグをあまり利用し ていないものが多い 5. トップページに全てのノードへのリンクが張って ある文書が多く検出される – ツールがHTMLの構造リンクによる階層と,モジュー ル間の論理構造から構成される階層のうち,前者を 優先しているため,ページ外参照リンクを構造リンク と判断する 検出できなかったデータ (2/2) 7. 1ファイルに記述されるのは1モジュール – モジュールをファイルに配置する基準が一定 でない文書が検出されない • ファイル/モジュールの平均値以外の評価値が必 要
© Copyright 2025 ExpyDoc