電子マニュアルの文書構造に対する 評価メトリクス 谷口真也† 川口真司† 松下誠† 井上克郎† ‡ †大阪大学大学院基礎工学研究科 ‡奈良先端科学技術大学院大学情報科学研究科 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 背景 (1/2) ソフトウェアが分野を問わず広く利用 開発・利用を容易にするために多くのマニュアルが必要 マニュアルの品質を評価する枠組が必要 知識をもたない人を対象に記述 大量のマニュアルが存在 2001/3/9 2 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 背景 (2/2) インターネット等の普及により文書の電子化が進行 (例:CALS,グループウェア,マニュアル) 文書を構造的に記述 情報の共有 再利用性,検索性の向上 2001/3/9 3 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 目的 電子マニュアルの構造の良さを定量的に評価したい 大量のマニュアルから品質の劣る文書を検出する手法を提 案し,その修正ガイドラインを示す 構造化文書とその評価基準の定義 構造化文書とその評価基準をHTMLマニュアルに適用 HTMLマニュアルからメトリクスの定義に必要なデータの収集 データを元にした評価メトリクスの定義 修正ガイドラインの提示 2001/3/9 4 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University メトリクス定義の手順 評価基準 文書構造 HTML マニュアル 対応 計測 計測項目 計測結果 集約 評価メトリクス 2001/3/9 5 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 構造化文書 (1/2) 文書内容が階層化されたモジュール単位 で記述された文書 モジュール:読者に一度に提供するため情報量を表 す単位 情報ブロック:意味を伝達可能な情報量を表す単位 階層:モジュール間の上下関係 参照:階層以外のモジュール間の関係 2001/3/9 6 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 構造化文書 (2/2) モジュール 階層 モジュール 情報ブロック 参照 情報ブロック モジュール モジュール モジュール 情報ブロック モジュール HTML記述された構造化文書の模式図 2001/3/9 7 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 文書構造の評価基準 -モジュール- 1. モジュールのサイズは1ウィンドウ程度 2. 各モジュールのサイズは均等 3. モジュールは複数の情報ブロックから構成 ユーザが情報を把握しやすく,読みやすさが向上 2001/3/9 8 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 文書構造の評価基準 -階層- 4. モジュールが構成する階層は基本的に3階層 5. 各モジュールの子供は1桁以内にする ユーザが現在読んでいる階層の認識をしやすくな る 2001/3/9 9 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLで記述された構造化文書 ファイル 階層(見出 し) モジュール 階層(構造リン ク) ページ内参照リンク モジュール モジュール ページ外参照リンク ファイル ファイル モジュール モジュール HTML記述された構造化文書の模式図 2001/3/9 10 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 各要素とHTML構文との対応 モジュール <H1>…<H6>タグによって分割された一連の情報 情報ブロック <P>...</P>タグで記述されている段落 階層 <H1>…<H6>タグの数字の大小 構造リンク 参照 ページ内参照リンク ページ外参照リンク <A>タグによって記述 2001/3/9 11 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLマニュアルの評価基準 6. 1ファイルに記述されるのは1モジュール 文書作成の分散作業 7. 1モジュールにつき1つのページ内リンク 読者の一覧性 8. 関連のあるモジュール間での参照リンク 階層の認識 2001/3/9 12 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 計測項目の算出 142件(7885ファイル)のHTMLマニュアルを 無作為に収集 InternetExplorer5.5 800×600のウインドウ フォントサイズ中 計測ツールを用いて各種計測項目の算出 2001/3/9 13 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 計測項目 マニュアルにつき一つ ファイル数(6) 右の5項目については以下の 階層の深さ(4) 統計量について分析する 構造リンク数/1000字(4,5) •最大 ページ内参照リンク数/1000字(7) •最小 ページ外参照リンク数/1000字(8) •平均 外れファイル数:構造リンク(4,5) 外れファイル数:ページ内参照リンク •分散 (7) •標準偏差 外れファイル数:ページ外参照リンク •正規化分散 (8) モジュール・ファイルごとに一つ (マニュアルにつき複数存在) モジュールの文字数(1,2) モジュールの情報ブロック数(1,2, 3) モジュールの子の数(5) ファイルの文字数(7,8) ファイルのモジュール数(6) •尖度 •変動係数 2001/3/9 14 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 概要 HTMLで記述された電子マニュアルから,各種計測 項目を算出する 構成 構造解析部 指定されたURLから, HTMLマニュアルを特定 ファイル間の構造を解析 計測部 抽出された木構造を元に各種計測項目を算出 2001/3/9 15 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 構成図 トップページURL 計測結果 構造解析部 •HTMLマニュアルに含ま れるファイルの特定 計測部 •各種項目の計測 •結果出力 •ファイル構成の把握 HTMLマニュアル ファイル構成 構造評価メトリクス計測ツール 2001/3/9 16 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 試作ツール – 出力例 マニュアル ごとに 1つだけ 存在 マニュアル ごとに 複数 存在 ~/JIKKEN/www.iph.pref.hyogo.jp/users/info/dokugeki/kensahou.htm the number of file = 11 tree depth = 3 structure link = 1.33067198935462 inside link = 0.332667997338656 reference link = 3.2435129740519 odd file of structure link = 1 odd file of inside link = 0 odd file of reference link = 1 avg. sd. cv module size 1.9e+02 1.9e+02 1 module block 0.76 1.5 2 module child count 5 (中略) 7 1.4 file size 1.1e+03 5.1e+02 0.46 module count per file 5.7 3.9 0.68 2001/3/9 17 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 計測項目の集約 主成分解析等の統計的手法により,計測項目を 集約 各項目について異常値を示した文書を抽出 異常値: 平均から標準偏差の2倍以上離れている値 構造的欠陥を調査して,構造評価メトリクスを定 義 2001/3/9 18 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 集約した計測項目 マニュアルにつき一つ ファイル数(6) 右の5項目については以下の 統計量について分析する 階層の深さ(4) •平均 構造リンク数/1000字(4,5) •標準偏差 ページ内参照リンク数/1000 •変動係数 字(7) ページ外参照リンク数/1000 字(8) モジュール・ファイルごとに一 つ(マニュアルにつき複数存 在) モジュールの文字数(1,2) モジュールの情報ブロック数 (1,2,3) モジュールの子の数(5) ファイルの文字数(7,8) ファイルのモジュール数(6) 2001/3/9 19 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 分析結果 異常値を示したマニュアルの数 合計 48 個 ファイル数 3 ブロック数/モジュール-平均 2 階層の深さ 5 ブロック数/モジュール-標準偏差 7 構造リンク数 4 ブロック数/モジュール-変動係数 4 ページ内参照リンク数 9 子供の数/モジュール-平均 4 ページ外参照リンク数 11 子供の数/モジュール-標準偏差 7 文字数/モジュール-平均 2 子供の数/モジュール-変動係数 6 文字数/モジュール-標準偏差 3 文字数/ファイル-平均 3 文字数/モジュール-変動係数 3 モジュール数/ファイル-平均 3 2001/3/9 20 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 構造評価メトリクス 1. 文字数/モジュールの平均が42394以上 2. 文字数/モジュールの標準偏差が7661,変動係数が 2.67以上の和集合 3. 情報ブロック数/モジュールの平均が476以上 4. 深さが8以上:構造リンクが2.72以上=2:1で加算した平 均 5. 子供の数/モジュールの平均が71.5,標準偏差が42.7, 変動係数2.37以上の和集合 6. モジュール/ファイルの平均が78以上 7. 文字数/ファイルが5000以上,かつ,ページ内構造リンク が1以下 2001/3/9 21 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 検出されるHTMLマニュアル 基準 棄却データ 1 2件 特徴 2 3 4 5 6 7 サイズの大きいモジュールが存在 6件 2件 2件 14件 3件 9件 見出しタグを正確に使用していない 段落タグを大量に使用 文書中で線形に記述 1モジュールに子供が大量に存在 単一ファイルでサイズが大きい サイズの大きいモジュール 2001/3/9 22 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 構造化文書の修正ガイドライン 1. 見出しタグを利用してモジュールに分割 2. ファイル内を見出しタグで分割 内容を再考し,モジュールを再分割 3. 内容を再考し,段落を再構成 段落ごとに段落タグを適切に記述 4. 線形になっている部分を木構造に再構成 5. 親モジュールを作成し木構造に構成 6. 1モジュール単位にファイルを分割 明確な基準を定め,ファイルを分割 7. 1モジュールごとに1ページ内参照リンク 約1200文字ごとにページ内参照リンク 2001/3/9 23 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLマニュアルの修正例Ⅰ(1/2) 1. モジュールのサイズは1ウィンドウ程度 検出されるデータ:2件 見出しに相当する部分に見出しタグ(<Hn>)が使用さ れていない 文書のまとまりを直感的に認識できない 見出しに相当する部分に見出しタグを付加することで この問題を解消 2001/3/9 24 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLマニュアルの修正例Ⅰ(2/2) 「Guideline for the Prevention of Surgical Site Infection」 見出しタグが全く使用されていない <H1>第一部:手術部位感染 <P ALIGN=“JUSTIFY”>第一部:手術部位感染 (SSI):</H1> (SSI):</P> <P ALIGN="JUSTIFY">概要</P> <P ALIGN="JUSTIFY">A.はじめに</P> <P ALIGN=“JUSTIFY”> 19世紀半ばまで手術患者は、通常 術後に発熱をきたし、手術創からの排膿があり、重症の敗血症と なり、時には死亡した。</P> 2001/3/9 25 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLマニュアルの修正例Ⅱ(1/2) 1. モジュールが構成する階層は3階層 検出されるデータ2件 文書に線形に記述された部分がある 概要を把握しづらい 各モジュールを直接参照することができない 線形部分を階層的に記述しなおすことでこの問題を 解消 2001/3/9 26 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University HTMLマニュアルの修正例Ⅱ(2/2) 「山地酪農の技術指導書」 ある手順の操作説明が線形に記述 親モジュールへ モジュールA モジュールB モジュールB モジュールC モジュールC 子モジュールへ 2001/3/9 27 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 考察 (1/3) ほとんどの評価基準において,品質の低い文書を 検出できた 修正ガイドラインに従うことにより,文書構造の品質 が高くなる 基準8で検出されたHTML文書は修正後も品質が それほど向上しなかった 参照は文書の関連を示すための付加的なものであるた め,少ないことが特に問題とはならない 2001/3/9 28 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 考察 (2/3) 3. モジュール内の情報ブロックが極端に少ない文書を 検出できない 収集したHTMLマニュアルに段落タグをあまり利用して いないものが多い 5. トップページに全てのノードへのリンクが張ってある文 書が多く検出される ツールがHTMLの構造リンクによる階層と,モジュール間 の論理構造から構成される階層のうち,前者を優先し ているため,ページ外参照リンクを構造リンクと判断する 2001/3/9 29 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University 考察 (3/3) 7. 1ファイルに記述されるのは1モジュール モジュールをファイルに配置する基準が一定でない文書 が検出されない ファイル/モジュールの平均値ではモジュールをファイルに配置す る基準をはかる尺度として十分ではない 2001/3/9 30 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University まとめと今後の課題 大量のマニュアルから品質の劣る文書を検出する手 法を提案し,その修正ガイドラインを示した その結果,本手法により実際に文書構造の品質が 低い文書を検出し,ガイドラインに従って修正するこ とで品質が高くなることが確認できた 更に大量のサンプルデータを集めて分析を進める 文書構造の品質と,HTML文書の構文的正しさ 文書構造の品質と文書の再利用性 2001/3/9 31 Software Engineering Research Group, Graduate School of Engineering Science, Osaka University
© Copyright 2024 ExpyDoc