背景 (1/2)

電子マニュアルの構造を
利用した文書評価メトリクス
谷口真也
井上研究室
背景 (1/2)
• ソフトウェアが分野を問わず広く利用
– 開発・利用のためにマニュアルが必要
• マニュアルの品質を評価する枠組が必要
– 知識をもたない人を対象
– 大量のマニュアルが存在
背景 (2/2)
• 文書の電子化が進行
(例:CALS,グループウェア,マニュアル)
• 文書を構造的に記述
– 情報の共有
– 再利用性,検索性の向上
目的
• 電子マニュアルの構造の良さを定量的に
評価したい
• 大量のマニュアルから品質の劣る文書を
検出する手法を提案し,その修正ガイドラ
インを示す
構造化文書 (1/2)
• 文書内容が階層化されたモジュール
単位で記述された文書
– モジュール:読者に一度に提供するため情報
量を表す単位
– 情報ブロック:意味を伝達可能な情報量を表
す単位
– 階層:モジュール間の上下関係
– 参照:階層以外のモジュール間の関係
構造化文書 (2/2)
モジュール
情報ブロック
階層
情報ブロック
参照
モジュール
モジュール
モジュール
モジュール
構造化文書の模式図
モジュール
文書構造の評価基準 -モジュール-
1. モジュールのサイズは1ウィンドウ程度
2. 各モジュールのサイズは均等
3. モジュールは複数の情報ブロックから構
成
•
ユーザが情報を把握しやすく,読みやす
さが向上
文書構造の評価基準 -階層-
4. モジュールが構成する階層は基本的に3
階層
5. 各モジュールの子供は1桁以内にする
•
ユーザが現在読んでいる階層の認識を
しやすくなる
HTMLで記述された構造化文書
ファイル
階層(見出
し)
モジュール
階層(構造リン
ク)
ページ内参照リンク
モジュール
モジュール
ページ外参照リンク
ファイル
モジュール
モジュール
HTML記述された構造化文書の模式図
HTMLマニュアルの定義
• モジュール
– <H1>,…,<H6>タグによって分割された一連の情報
• 情報ブロック
– <P>...</P>タグで記述されている段落
• 階層
– <Hn>タグの大小関係
– 構造リンク
• 参照
– ページ内参照リンク
– ページ外参照リンク
HTMLマニュアルの評価基準
6. 1ファイルに記述されるのは1モジュール
–
文書作成の分散作業
7. 1モジュールにつき1つのページ内リンク
–
読者の一覧性
8. 関連のあるモジュール間での参照リンク
–
階層の認識
構造評価メトリクスの定義 (1/2)
文書構造の
評価基準
基準と計測
値を対応
構造から算出
できる計測値
集約された
計測値
統計的手法に
より集約
計測値
を算出
検出される
データの分析
HTML
マニュアル
評価メトリクス
構造評価メトリクスの定義 (1/2)
• 無作為に収集した142件(7885ファイル)の
HTMLマニュアル
– InternetExplorer5.0
– 800×600のウインドウ
– フォントサイズ中
「文書構造を利用した電子マニュアル
評価メトリクス計測ツールの試作」
– 計測ツール,データの分析
構造評価メトリクス
1.
2.
3.
4.
5.
6.
7.
文字数/モジュールの平均が42394以上
文字数/モジュールの標準偏差が7661,変動係数が
2.67以上の和集合
情報ブロック数/モジュールの平均が476以上
深さが8以上:構造リンクが2.72以上=2:1で加算した平
均
子供の数/モジュールの平均が71.5,標準偏差が42.7,
変動係数2.37以上の和集合
モジュール/ファイルの平均が78以上
文字数/ファイルが5000以上,かつ,ページ内構造リン
クが1以下
検出されるHTMLマニュアル
基準 棄却データ 特徴
見出しタグを正確に使用していない
1
2件
2
3
4
5
6
7
6件
2件
2件
14件
3件
9件
サイズの大きいモジュールが存在
段落タグを大量に使用
文書中で線形に記述
1モジュールに子供が大量に存在
単一ファイルでサイズが大きい
サイズの大きいモジュール
構造化文書の修正ガイドライン
1.
2.
3.
4.
5.
6.
7.
見出しタグを利用してモジュールに分割
ファイル内を見出しタグで分割
内容を再考し,モジュールを再分割
内容を再考し,段落を再構成
段落ごとに段落タグを適切に記述
線形になっている部分を木構造に再構成
親モジュールを作成し木構造に構成
1モジュール単位にファイルを分割
明確な基準を定め,ファイルを分割
1モジュールごとに1ページ内参照リンク
約1200文字ごとにページ内参照リンク
HTMLマニュアルの修正例(1/2)
4. モジュールが構成する階層は3階層
検出されるデータ:2件
–
文書に線形に記述された部分がある
•
•
–
概要を把握しづらい
各モジュールを直接参照することができない
線形部分を階層的に記述しなおすことでこ
の問題を解消
HTMLマニュアルの修正例(2/2)
マニュアルA (ファイル数86,深さ15)
– ある手順の操作説明が線形に記述
親モジュールへ
モジュールA
モジュールB
モジュールB
モジュールC
モジュールC
子モジュールへ
考察
• ほとんどの評価基準において,品質の低い文書
を検出できた
• 修正ガイドラインに従うことにより,文書構造の
品質が高くなる
• 検出できない品質の低い文書がいくつかあった
– 評価メトリクスに利用する計測値の不足
• 基準8で検出されたHTML文書は修正後も品質
がそれほど向上しなかった
– 参照は文書の関連を示すための付加的なものである
ため,少ないことが特に問題とはならない
まとめと今後の課題
• 大量のマニュアルから品質の劣る文書を検出す
る手法を提案し,その修正ガイドラインを示した
• その結果,本手法により実際に文書構造の品質
が低い文書を検出し,ガイドラインに従って修正
することで品質が高くなることが確認できた
• 更に大量のサンプルデータを集めて分析を進め
る
– 文書構造の品質と,HTML文書の構文的正しさ
– 文書構造の品質と文書の再利用性
検出できなかったデータ (1/2)
3. モジュール内の情報ブロックが極端に少ない文
書を検出できない
– 収集したHTMLマニュアルに段落タグをあまり利用し
ていないものが多い
5. トップページに全てのノードへのリンクが張って
ある文書が多く検出される
– ツールがHTMLの構造リンクによる階層と,モジュー
ル間の論理構造から構成される階層のうち,前者を
優先しているため,ページ外参照リンクを構造リンク
と判断する
検出できなかったデータ (2/2)
7. 1ファイルに記述されるのは1モジュール
– モジュールをファイルに配置する基準が一定
でない文書が検出されない
• ファイル/モジュールの平均値以外の評価値が必
要