データ工学特論 第一回 木村昌臣 目的 日常いたるところに存在するデータから有用 な情報を抽出し活用する手法を学ぶ 前半:データから情報を抽出する方法 データマイニング手法 テキストマイニング手法 後半:データを活用する方法 XML XMLデータベース データマイニング データを大量に蓄積し 2. 目的とする解析に合った解析手法を選択し 3. 解析手法に適した形式にデータを変更し 得られた結果に対して 4. 業務知識と対比させて解釈し 5. 業務の改善案につなげる 手法のこと 1. テキストマイニング テキストデータを対象とする テキストは「非構造化データ」であるため、 データマイニング手法を適用する場合は「構 造化データ」に変換する必要あり 形態素解析 係り受け解析 XML eXtensible Markup Language タグによってデータを構造化 データはテキスト形式で保持 タグは用途に応じて自在に定義可能 データ交換などに利用されることが多い 事前に定義可能(DTD、XMLスキーマ) タグは入れ子構造が可能 W3Cによって標準化 XMLデータベース XMLを保持するデータベース 検索方法が複数存在 表形式ではなくタグによる構造化であるため、RDBより も柔軟な構造を持つ XPATH XQuery など 実装方法も複数 Native RDBをストアとして利用する方法 など 予定 1. 2. 3. 4. 5. 6. 7. 8. 9. ガイダンス[9/14] データマイニング(1)[9/21] データマイニング(2) [9/28] データマイニング(3) [10/5] データマイニング(4) [10/12] テキストマイニング(1) [10/19] テキストマイニング(2)[10/26] XML(1)[11/2] XML(2)[11/9] 10. 11. 12. 13. 14. 15. XMLDB [11/16] 輪講(1) [11/23] 輪講(2) [11/30] 輪講(3) [12/7] 輪講(4) [12/14] 輪講(5) [12/21] *ただし、受講者数などに応じてスケジュールが 変更されることがある。 輪講 こちらで指定した論文のうちひとつを選択し、第11 回から最終回までに、以下の点について発表する こと 論文内容のサマリー(発表の主内容とすること) 論文内容に対する自身の意見(改善すべき点など) 発表時間15分+ディスカッション5分 発表内容および発表態度を採点の対象とする 発表はパワーポイントを用い、発表後はパワーポ イント資料を提出すること
© Copyright 2024 ExpyDoc