データ工学特論

データ工学特論
第一回
木村昌臣
目的

日常いたるところに存在するデータから有用
な情報を抽出し活用する手法を学ぶ

前半:データから情報を抽出する方法



データマイニング手法
テキストマイニング手法
後半:データを活用する方法


XML
XMLデータベース
データマイニング
データを大量に蓄積し
2. 目的とする解析に合った解析手法を選択し
3. 解析手法に適した形式にデータを変更し
得られた結果に対して
4. 業務知識と対比させて解釈し
5. 業務の改善案につなげる
手法のこと
1.
テキストマイニング


テキストデータを対象とする
テキストは「非構造化データ」であるため、
データマイニング手法を適用する場合は「構
造化データ」に変換する必要あり


形態素解析
係り受け解析
XML


eXtensible Markup Language
タグによってデータを構造化

データはテキスト形式で保持


タグは用途に応じて自在に定義可能



データ交換などに利用されることが多い
事前に定義可能(DTD、XMLスキーマ)
タグは入れ子構造が可能
W3Cによって標準化
XMLデータベース

XMLを保持するデータベース


検索方法が複数存在



表形式ではなくタグによる構造化であるため、RDBより
も柔軟な構造を持つ
XPATH
XQuery など
実装方法も複数


Native
RDBをストアとして利用する方法 など
予定
1.
2.
3.
4.
5.
6.
7.
8.
9.
ガイダンス[9/14]
データマイニング(1)[9/21]
データマイニング(2) [9/28]
データマイニング(3) [10/5]
データマイニング(4) [10/12]
テキストマイニング(1) [10/19]
テキストマイニング(2)[10/26]
XML(1)[11/2]
XML(2)[11/9]
10.
11.
12.
13.
14.
15.
XMLDB [11/16]
輪講(1) [11/23]
輪講(2) [11/30]
輪講(3) [12/7]
輪講(4) [12/14]
輪講(5) [12/21]
*ただし、受講者数などに応じてスケジュールが
変更されることがある。
輪講

こちらで指定した論文のうちひとつを選択し、第11
回から最終回までに、以下の点について発表する
こと





論文内容のサマリー(発表の主内容とすること)
論文内容に対する自身の意見(改善すべき点など)
発表時間15分+ディスカッション5分
発表内容および発表態度を採点の対象とする
発表はパワーポイントを用い、発表後はパワーポ
イント資料を提出すること