文書 構造を利用した 電子マニュアル評価メトリクス

文書構造を利用した
電子マニュアル評価メトリクス
計測ツールの試作
井上研究室
川口 真司
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
背景
ソフトウェアが分野を問わず広く利用
開発・利用のためにマニュアルが必要
文書の電子化が進行
電子マニュアルの構造に着目した評価メトリクス
†
構造的欠陥をもつマニュアルの検出
改善の補助
†
谷口 真也: “電子マニュアルの構造を利用した文書評価メトリクス”
大阪大学大学院基礎工学研究科修士学位論文,2001
2001/02/28
2
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
目的
大量のマニュアルから品質の劣る文書を検出する手法を提
案し,その修正ガイドラインを示す
評価基準の策定
メトリクスの決定に必要なデータを算出するツールの作成
実際にツールを利用した, HTMLマニュアルからのデータ
収集と分析
データを元にした評価メトリクスの決定
修正ガイドラインの提示
2001/02/28
3
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
提案されている評価基準
モジュールのサイズは1ウィンドウ程度
各モジュールのサイズは均等
モジュールは複数の情報ブロックから構成
モジュールの階層は基本的に3階層
各モジュールの子供は適切な数にする
1ファイルに記述されるのは1モジュール
1モジュールにつき1つのページ内参照リンク
関連のあるモジュール間でのページ外参照リンク
2001/02/28
4
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLで記述された構造化文書
ファイル
階層(見出
し)
モジュール
モジュール
情報ブロック
モジュール
階層(構造リン
ク)
ページ内参照リンク
モジュール
情報ブロック
ページ外参照リンク
情報ブロック
ファイル
ファイル
モジュール
モジュール
HTML記述された構造化文書の模式図
2001/02/28
5
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
各要素とHTML構文との対応
モジュール
<H1>…<H6>タグによって分割された一連の情報
情報ブロック
<P>...</P>タグで記述されている段落
階層
<H1>…<H6>タグの数字の大小
構造リンク
参照
ページ内参照リンク
ページ外参照リンク
<A>タグによって記述
2001/02/28
6
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
計測項目
マニュアルにつき一つ
ファイル数
右の5項目については以下の
木の深さ
統計量について分析する
構造リンク数/1000字
•最大
ページ内参照リンク数/1000字
•最小
ページ外参照リンク数/1000字
•平均
外れファイル数:構造リンク
•分散
外れファイル数:ページ内参照リンク
•標準偏差
外れファイル数:ページ外参照リンク
•正規化分散
•尖度
•変動係数
モジュール・ファイルごとに一つ
(マニュアルにつき複数存在)
モジュールの文字数
モジュールの情報ブロック数
モジュールの子の数
ファイルの文字数
ファイルのモジュール数
2001/02/28
7
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 概要
HTMLで記述された電子マニュアルから,各種計測
項目を算出する
構成
構造解析部
指定されたURLから, HTMLマニュアルを特定
ファイル間の構造を解析
計測部
抽出された木構造を元に各種計測項目を算出
2001/02/28
8
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 構成図
トップページURL
計測結果
構造解析部
•HTMLマニュアルに含ま
れるファイルの特定
計測部
•各種項目の計測
•結果出力
•ファイル構成の把握
HTMLマニュアル
ファイル構成
構造評価メトリクス計測ツール
2001/02/28
9
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – ファイル構造解析
トップページ
構造リンク
ページ外参照リンク
1
2
5
3
6
7
4
8
2001/02/28
10
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
試作ツール – 出力例
マニュアル
ごとに
1つだけ
存在
マニュアル
ごとに
複数
存在
~/JIKKEN/www.iph.pref.hyogo.jp/users/info/dokugeki/kensahou.htm
the number of file = 11
tree depth = 3
structure link = 1.33067198935462
inside link = 0.332667997338656
reference link = 3.2435129740519
odd file of structure link = 1
odd file of inside link = 0
odd file of reference link = 1
avg.
(中略) sd.
cv
module size
1.9e+02
1.9e+02
1
module block
0.76
1.5
2
module child count
5
7
1.4
file size
1.1e+03
5.1e+02
0.46
module count per file
5.7
3.9
0.68
2001/02/28
11
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
分析 – 概要
1.
2.
3.
4.
142件のHTMLマニュアルを無作為に収集
ツールを用いて各種項目を算出
項目の集約
各項目について, 異常値を示した文書を抽出
異常値: 平均から標準偏差の2倍以上離れている値
5. 構造的欠陥の有無を調査
2001/02/28
12
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
分析 – 結果
異常値を示したマニュアルの数 合計 48 個
ファイル数
3
ブロック数/モジュール-平均
2
階層の深さ
5
ブロック数/モジュール-標準偏差
7
構造リンク数
4
ブロック数/モジュール-変動係数
4
ページ内参照リンク数
9
子供の数/モジュール-平均
4
ページ外参照リンク数
11
子供の数/モジュール-標準偏差
7
文字数/モジュール-平均
2
子供の数/モジュール-変動係数
6
文字数/モジュール-標準偏差
3
文字数/ファイル-平均
3
文字数/モジュール-変動係数
3
モジュール数/ファイル-平均
3
2001/02/28
13
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
分析 – 結果の一例
「SCM - Scheme Implementation」
SCM(Scheme言語の処理系) マニュアル
http://www.melt.kyutech.ac.jp/~melt/Seminars/SimplyScheme/scm.html
異常値項目
「1000字あたりのページ内参照リンク数」
8.02 (平均1.5467)
「ファイル文字数:平均」 185366 (平均13508)
単一の巨大なファイル(360KB)で構成されている
分割が必要
2001/02/28
14
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
分析 – 考察
異常値を示した文書は、何らかの構造的欠陥を抱
えていた
しかし、特に欠陥のない文書が異常値を示す項目
も存在した
例: 1000字あたりのページ外参照リンク数
「次へ」「前へ」「上へ」等のリンクが各モジュールに存在
・・・構造的欠陥ではない
ページ外参照リンクをもっと厳密に分ける必要がある
2001/02/28
15
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
まとめ
HTMLマニュアル構造評価を目的として,各種デー
タを収集するツールを試作した
数多くのマニュアルに対して計測を行い,各計測項
目の有効性を評価した
今後の課題
木構造のより正確な解析
各種XML文書への対応
2001/02/28
16
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
HTMLで記述された構造化文書(2)
<H2>モジュール1 タイトル</H2>
モジュール1 内容
階層関係にある
HTMLファイル
<H3>モジュール2 タイトル</H3>
モジュール2 内容
<A href=“#inner”>inner</A>
<H4>モジュール3 タイトル</H4>
モジュール3 内容
<A href=“file2.html”>file2</A>
<H1>モジュール4 タイトル</H1>
モジュール4 内容
<A href=“file3.html”>file3</A>
<A href=“file4.html”>file4</A>
参照関係にある
HTMLファイル
構造リンク
ページ外参照リンク
ページ内参照リンク
2001/02/28
17
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
発表内容
HTML構造化文書
評価メトリクス計測ツール
ツールを用いたデータ計測と分析
まとめ
2001/02/28
18
特別研究報告会
Software Engineering Research Group, Graduate School of Engineering Science, Osaka University