文書構造を利用した 電子マニュアル評価メトリクス 計測ツールの試作 井上研究室 川口 真司 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 背景 ソフトウェアが分野を問わず広く利用 開発・利用のためにマニュアルが必要 文書の電子化が進行 電子マニュアルの構造に着目した評価メトリクス † 構造的欠陥をもつマニュアルの検出 改善の補助 † 谷口 真也: “電子マニュアルの構造を利用した文書評価メトリクス” 大阪大学大学院基礎工学研究科修士学位論文,2001 2001/02/28 2 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 目的 大量のマニュアルから品質の劣る文書を検出する手法を提 案し,その修正ガイドラインを示す 評価基準の策定 メトリクスの決定に必要なデータを算出するツールの作成 実際にツールを利用した, HTMLマニュアルからのデータ 収集と分析 データを元にした評価メトリクスの決定 修正ガイドラインの提示 2001/02/28 3 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 提案されている評価基準 モジュールのサイズは1ウィンドウ程度 各モジュールのサイズは均等 モジュールは複数の情報ブロックから構成 モジュールの階層は基本的に3階層 各モジュールの子供は適切な数にする 1ファイルに記述されるのは1モジュール 1モジュールにつき1つのページ内参照リンク 関連のあるモジュール間でのページ外参照リンク 2001/02/28 4 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLで記述された構造化文書 ファイル 階層(見出 し) モジュール モジュール 情報ブロック モジュール 階層(構造リン ク) ページ内参照リンク モジュール 情報ブロック ページ外参照リンク 情報ブロック ファイル ファイル モジュール モジュール HTML記述された構造化文書の模式図 2001/02/28 5 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 各要素とHTML構文との対応 モジュール <H1>…<H6>タグによって分割された一連の情報 情報ブロック <P>...</P>タグで記述されている段落 階層 <H1>…<H6>タグの数字の大小 構造リンク 参照 ページ内参照リンク ページ外参照リンク <A>タグによって記述 2001/02/28 6 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 計測項目 マニュアルにつき一つ ファイル数 右の5項目については以下の 木の深さ 統計量について分析する 構造リンク数/1000字 •最大 ページ内参照リンク数/1000字 •最小 ページ外参照リンク数/1000字 •平均 外れファイル数:構造リンク •分散 外れファイル数:ページ内参照リンク •標準偏差 外れファイル数:ページ外参照リンク •正規化分散 •尖度 •変動係数 モジュール・ファイルごとに一つ (マニュアルにつき複数存在) モジュールの文字数 モジュールの情報ブロック数 モジュールの子の数 ファイルの文字数 ファイルのモジュール数 2001/02/28 7 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 概要 HTMLで記述された電子マニュアルから,各種計測 項目を算出する 構成 構造解析部 指定されたURLから, HTMLマニュアルを特定 ファイル間の構造を解析 計測部 抽出された木構造を元に各種計測項目を算出 2001/02/28 8 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 構成図 トップページURL 計測結果 構造解析部 •HTMLマニュアルに含ま れるファイルの特定 計測部 •各種項目の計測 •結果出力 •ファイル構成の把握 HTMLマニュアル ファイル構成 構造評価メトリクス計測ツール 2001/02/28 9 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – ファイル構造解析 トップページ 構造リンク ページ外参照リンク 1 2 5 3 6 7 4 8 2001/02/28 10 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 出力例 マニュアル ごとに 1つだけ 存在 マニュアル ごとに 複数 存在 ~/JIKKEN/www.iph.pref.hyogo.jp/users/info/dokugeki/kensahou.htm the number of file = 11 tree depth = 3 structure link = 1.33067198935462 inside link = 0.332667997338656 reference link = 3.2435129740519 odd file of structure link = 1 odd file of inside link = 0 odd file of reference link = 1 avg. (中略) sd. cv module size 1.9e+02 1.9e+02 1 module block 0.76 1.5 2 module child count 5 7 1.4 file size 1.1e+03 5.1e+02 0.46 module count per file 5.7 3.9 0.68 2001/02/28 11 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 分析 – 概要 1. 2. 3. 4. 142件のHTMLマニュアルを無作為に収集 ツールを用いて各種項目を算出 項目の集約 各項目について, 異常値を示した文書を抽出 異常値: 平均から標準偏差の2倍以上離れている値 5. 構造的欠陥の有無を調査 2001/02/28 12 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 分析 – 結果 異常値を示したマニュアルの数 合計 48 個 ファイル数 3 ブロック数/モジュール-平均 2 階層の深さ 5 ブロック数/モジュール-標準偏差 7 構造リンク数 4 ブロック数/モジュール-変動係数 4 ページ内参照リンク数 9 子供の数/モジュール-平均 4 ページ外参照リンク数 11 子供の数/モジュール-標準偏差 7 文字数/モジュール-平均 2 子供の数/モジュール-変動係数 6 文字数/モジュール-標準偏差 3 文字数/ファイル-平均 3 文字数/モジュール-変動係数 3 モジュール数/ファイル-平均 3 2001/02/28 13 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 分析 – 結果の一例 「SCM - Scheme Implementation」 SCM(Scheme言語の処理系) マニュアル http://www.melt.kyutech.ac.jp/~melt/Seminars/SimplyScheme/scm.html 異常値項目 「1000字あたりのページ内参照リンク数」 8.02 (平均1.5467) 「ファイル文字数:平均」 185366 (平均13508) 単一の巨大なファイル(360KB)で構成されている 分割が必要 2001/02/28 14 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 分析 – 考察 異常値を示した文書は、何らかの構造的欠陥を抱 えていた しかし、特に欠陥のない文書が異常値を示す項目 も存在した 例: 1000字あたりのページ外参照リンク数 「次へ」「前へ」「上へ」等のリンクが各モジュールに存在 ・・・構造的欠陥ではない ページ外参照リンクをもっと厳密に分ける必要がある 2001/02/28 15 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University まとめ HTMLマニュアル構造評価を目的として,各種デー タを収集するツールを試作した 数多くのマニュアルに対して計測を行い,各計測項 目の有効性を評価した 今後の課題 木構造のより正確な解析 各種XML文書への対応 2001/02/28 16 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLで記述された構造化文書(2) <H2>モジュール1 タイトル</H2> モジュール1 内容 階層関係にある HTMLファイル <H3>モジュール2 タイトル</H3> モジュール2 内容 <A href=“#inner”>inner</A> <H4>モジュール3 タイトル</H4> モジュール3 内容 <A href=“file2.html”>file2</A> <H1>モジュール4 タイトル</H1> モジュール4 内容 <A href=“file3.html”>file3</A> <A href=“file4.html”>file4</A> 参照関係にある HTMLファイル 構造リンク ページ外参照リンク ページ内参照リンク 2001/02/28 17 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 発表内容 HTML構造化文書 評価メトリクス計測ツール ツールを用いたデータ計測と分析 まとめ 2001/02/28 18 特別研究報告会 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
© Copyright 2025 ExpyDoc