背景 (1/2)

電子マニュアルの文書構造に対する
評価メトリクス
谷口真也† 川口真司† 松下誠† 井上克郎† ‡
†大阪大学大学院基礎工学研究科
‡奈良先端科学技術大学院大学情報科学研究科
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
背景 (1/2)
ソフトウェアが分野を問わず広く利用
開発・利用を容易にするために多くのマニュアルが必要
マニュアルの品質を評価する枠組が必要
知識をもたない人を対象に記述
大量のマニュアルが存在
2001/3/9
2
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
背景 (2/2)
インターネット等の普及により文書の電子化が進行
(例:CALS,グループウェア,マニュアル)
文書を構造的に記述
情報の共有
再利用性,検索性の向上
2001/3/9
3
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
目的
電子マニュアルの構造の良さを定量的に評価したい
大量のマニュアルから品質の劣る文書を検出する手法を提
案し,その修正ガイドラインを示す
構造化文書とその評価基準の定義
構造化文書とその評価基準をHTMLマニュアルに適用
HTMLマニュアルからメトリクスの定義に必要なデータの収集
データを元にした評価メトリクスの定義
修正ガイドラインの提示
2001/3/9
4
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
メトリクス定義の手順
評価基準
文書構造
HTML
マニュアル
対応
計測
計測項目
計測結果
集約
評価メトリクス
2001/3/9
5
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
構造化文書 (1/2)
文書内容が階層化されたモジュール単位
で記述された文書
モジュール:読者に一度に提供するため情報量を表
す単位
情報ブロック:意味を伝達可能な情報量を表す単位
階層:モジュール間の上下関係
参照:階層以外のモジュール間の関係
2001/3/9
6
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
構造化文書 (2/2)
モジュール
階層
モジュール
情報ブロック
参照
情報ブロック
モジュール
モジュール
モジュール
情報ブロック
モジュール
HTML記述された構造化文書の模式図
2001/3/9
7
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
文書構造の評価基準 -モジュール-
1. モジュールのサイズは1ウィンドウ程度
2. 各モジュールのサイズは均等
3. モジュールは複数の情報ブロックから構成
ユーザが情報を把握しやすく,読みやすさが向上
2001/3/9
8
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
文書構造の評価基準 -階層-
4. モジュールが構成する階層は基本的に3階層
5. 各モジュールの子供は1桁以内にする
ユーザが現在読んでいる階層の認識をしやすくな
る
2001/3/9
9
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLで記述された構造化文書
ファイル
階層(見出
し)
モジュール
階層(構造リン
ク)
ページ内参照リンク
モジュール
モジュール
ページ外参照リンク
ファイル
ファイル
モジュール
モジュール
HTML記述された構造化文書の模式図
2001/3/9
10
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
各要素とHTML構文との対応
モジュール
<H1>…<H6>タグによって分割された一連の情報
情報ブロック
<P>...</P>タグで記述されている段落
階層
<H1>…<H6>タグの数字の大小
構造リンク
参照
ページ内参照リンク
ページ外参照リンク
<A>タグによって記述
2001/3/9
11
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLマニュアルの評価基準
6. 1ファイルに記述されるのは1モジュール
文書作成の分散作業
7. 1モジュールにつき1つのページ内リンク
読者の一覧性
8. 関連のあるモジュール間での参照リンク
階層の認識
2001/3/9
12
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
計測項目の算出
142件(7885ファイル)のHTMLマニュアルを
無作為に収集
InternetExplorer5.5
800×600のウインドウ
フォントサイズ中
計測ツールを用いて各種計測項目の算出
2001/3/9
13
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
計測項目
マニュアルにつき一つ
ファイル数(6)
右の5項目については以下の
階層の深さ(4)
統計量について分析する
構造リンク数/1000字(4,5)
•最大
ページ内参照リンク数/1000字(7)
•最小
ページ外参照リンク数/1000字(8)
•平均
外れファイル数:構造リンク(4,5)
外れファイル数:ページ内参照リンク
•分散
(7)
•標準偏差
外れファイル数:ページ外参照リンク
•正規化分散
(8)
モジュール・ファイルごとに一つ
(マニュアルにつき複数存在)
モジュールの文字数(1,2)
モジュールの情報ブロック数(1,2,
3)
モジュールの子の数(5)
ファイルの文字数(7,8)
ファイルのモジュール数(6)
•尖度
•変動係数
2001/3/9
14
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 概要
HTMLで記述された電子マニュアルから,各種計測
項目を算出する
構成
構造解析部
指定されたURLから, HTMLマニュアルを特定
ファイル間の構造を解析
計測部
抽出された木構造を元に各種計測項目を算出
2001/3/9
15
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 構成図
トップページURL
計測結果
構造解析部
•HTMLマニュアルに含ま
れるファイルの特定
計測部
•各種項目の計測
•結果出力
•ファイル構成の把握
HTMLマニュアル
ファイル構成
構造評価メトリクス計測ツール
2001/3/9
16
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 出力例
マニュアル
ごとに
1つだけ
存在
マニュアル
ごとに
複数
存在
~/JIKKEN/www.iph.pref.hyogo.jp/users/info/dokugeki/kensahou.htm
the number of file = 11
tree depth = 3
structure link = 1.33067198935462
inside link = 0.332667997338656
reference link = 3.2435129740519
odd file of structure link = 1
odd file of inside link = 0
odd file of reference link = 1
avg.
sd.
cv
module size
1.9e+02
1.9e+02
1
module block
0.76
1.5
2
module child count
5
(中略) 7
1.4
file size
1.1e+03
5.1e+02
0.46
module count per file
5.7
3.9
0.68
2001/3/9
17
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
計測項目の集約
主成分解析等の統計的手法により,計測項目を
集約
各項目について異常値を示した文書を抽出
異常値: 平均から標準偏差の2倍以上離れている値
構造的欠陥を調査して,構造評価メトリクスを定
義
2001/3/9
18
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
集約した計測項目
マニュアルにつき一つ
ファイル数(6)
右の5項目については以下の
統計量について分析する
階層の深さ(4)
•平均
構造リンク数/1000字(4,5)
•標準偏差
ページ内参照リンク数/1000
•変動係数
字(7)
ページ外参照リンク数/1000
字(8)
モジュール・ファイルごとに一
つ(マニュアルにつき複数存
在)
モジュールの文字数(1,2)
モジュールの情報ブロック数
(1,2,3)
モジュールの子の数(5)
ファイルの文字数(7,8)
ファイルのモジュール数(6)
2001/3/9
19
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
分析結果
異常値を示したマニュアルの数 合計 48 個
ファイル数
3
ブロック数/モジュール-平均
2
階層の深さ
5
ブロック数/モジュール-標準偏差
7
構造リンク数
4
ブロック数/モジュール-変動係数
4
ページ内参照リンク数
9
子供の数/モジュール-平均
4
ページ外参照リンク数
11
子供の数/モジュール-標準偏差
7
文字数/モジュール-平均
2
子供の数/モジュール-変動係数
6
文字数/モジュール-標準偏差
3
文字数/ファイル-平均
3
文字数/モジュール-変動係数
3
モジュール数/ファイル-平均
3
2001/3/9
20
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
構造評価メトリクス
1. 文字数/モジュールの平均が42394以上
2. 文字数/モジュールの標準偏差が7661,変動係数が
2.67以上の和集合
3. 情報ブロック数/モジュールの平均が476以上
4. 深さが8以上:構造リンクが2.72以上=2:1で加算した平
均
5. 子供の数/モジュールの平均が71.5,標準偏差が42.7,
変動係数2.37以上の和集合
6. モジュール/ファイルの平均が78以上
7. 文字数/ファイルが5000以上,かつ,ページ内構造リンク
が1以下
2001/3/9
21
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
検出されるHTMLマニュアル
基準 棄却データ
1
2件
特徴
2
3
4
5
6
7
サイズの大きいモジュールが存在
6件
2件
2件
14件
3件
9件
見出しタグを正確に使用していない
段落タグを大量に使用
文書中で線形に記述
1モジュールに子供が大量に存在
単一ファイルでサイズが大きい
サイズの大きいモジュール
2001/3/9
22
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
構造化文書の修正ガイドライン
1. 見出しタグを利用してモジュールに分割
2. ファイル内を見出しタグで分割
内容を再考し,モジュールを再分割
3. 内容を再考し,段落を再構成
段落ごとに段落タグを適切に記述
4. 線形になっている部分を木構造に再構成
5. 親モジュールを作成し木構造に構成
6. 1モジュール単位にファイルを分割
明確な基準を定め,ファイルを分割
7. 1モジュールごとに1ページ内参照リンク
約1200文字ごとにページ内参照リンク
2001/3/9
23
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLマニュアルの修正例Ⅰ(1/2)
1. モジュールのサイズは1ウィンドウ程度
検出されるデータ:2件
見出しに相当する部分に見出しタグ(<Hn>)が使用さ
れていない
文書のまとまりを直感的に認識できない
見出しに相当する部分に見出しタグを付加することで
この問題を解消
2001/3/9
24
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLマニュアルの修正例Ⅰ(2/2)
「Guideline for the Prevention of Surgical Site
Infection」
見出しタグが全く使用されていない
<H1>第一部:手術部位感染
<P
ALIGN=“JUSTIFY”>第一部:手術部位感染
(SSI):</H1>
(SSI):</P>
<P ALIGN="JUSTIFY">概要</P>
<P ALIGN="JUSTIFY">A.はじめに</P>
<P ALIGN=“JUSTIFY”> 19世紀半ばまで手術患者は、通常
術後に発熱をきたし、手術創からの排膿があり、重症の敗血症と
なり、時には死亡した。</P>
2001/3/9
25
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLマニュアルの修正例Ⅱ(1/2)
1. モジュールが構成する階層は3階層
検出されるデータ2件
文書に線形に記述された部分がある
概要を把握しづらい
各モジュールを直接参照することができない
線形部分を階層的に記述しなおすことでこの問題を
解消
2001/3/9
26
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLマニュアルの修正例Ⅱ(2/2)
「山地酪農の技術指導書」
ある手順の操作説明が線形に記述
親モジュールへ
モジュールA
モジュールB
モジュールB
モジュールC
モジュールC
子モジュールへ
2001/3/9
27
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
考察 (1/3)
ほとんどの評価基準において,品質の低い文書を
検出できた
修正ガイドラインに従うことにより,文書構造の品質
が高くなる
基準8で検出されたHTML文書は修正後も品質が
それほど向上しなかった
参照は文書の関連を示すための付加的なものであるた
め,少ないことが特に問題とはならない
2001/3/9
28
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
考察 (2/3)
3. モジュール内の情報ブロックが極端に少ない文書を
検出できない
収集したHTMLマニュアルに段落タグをあまり利用して
いないものが多い
5. トップページに全てのノードへのリンクが張ってある文
書が多く検出される
ツールがHTMLの構造リンクによる階層と,モジュール間
の論理構造から構成される階層のうち,前者を優先し
ているため,ページ外参照リンクを構造リンクと判断する
2001/3/9
29
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
考察 (3/3)
7. 1ファイルに記述されるのは1モジュール
モジュールをファイルに配置する基準が一定でない文書
が検出されない
ファイル/モジュールの平均値ではモジュールをファイルに配置す
る基準をはかる尺度として十分ではない
2001/3/9
30
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
まとめと今後の課題
大量のマニュアルから品質の劣る文書を検出する手
法を提案し,その修正ガイドラインを示した
その結果,本手法により実際に文書構造の品質が
低い文書を検出し,ガイドラインに従って修正するこ
とで品質が高くなることが確認できた
更に大量のサンプルデータを集めて分析を進める
文書構造の品質と,HTML文書の構文的正しさ
文書構造の品質と文書の再利用性
2001/3/9
31
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University