情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』

情報知能学基礎演習
豊田秀樹(2008)『データマイニング入門』 (東
京図書)を用いて
情報知能学科
白井 英俊
1章 データマイニングとは
• 統計学とは:医学、経済学、政治・社会分野などで
どんな知識の発見?
利用される
• 統計学は:分野に依存しない知識発見の方法論とし
て、これ以外にも、生物学、心理学、言語学など広
い領域で利用される
• 統計学は、数学・確率論に立脚した厳密な理論体
系をもつばかりではなく、実用性の面でも学問の花
形
• 注意:1.1節は統計についての知識が必要。ただし、
知らない者は飛ばして、統計を学んでから振り返る
のがよい。
1.1 統計学の憂鬱
• 統計学の分類:記述統計学と推測統計学
– 記述統計学:集めたデータの特徴を見出すため
のもの。データの要約(表)とその可視化(グラフ)
– 推測統計学:無作為抽出された部分集団(抽出
集団、標本集団)から抽出元全体(母集団)の特
これらは何をするもの?
徴、性質を推定する
• 推測統計学:推定論、検定論、分布論
このうち、検定論と分布論が深刻な状況
1章の最初に、「検定」、「推定」の例が紹介されている
1.1.1 検定論の憂鬱
• 統計的検定論:理論的枠組みは、ワルド(A. Wald)やレーマ
ン(E. L. Lehman)によって、1950年代に完成
• それ以後は、理論の精緻化や具体的な検定法の開発のみ
で、応用面からの要請が検定論に反映されにくい状況
• 理論的な枠組みそのものの欠陥(モリソン & ヘンケル):帰
無仮説の棄却と採択が対等でないー帰無仮説は初めから誤
りであることが明白
• ITの進化により、大規模なデータが扱える→帰無仮説が偽
であるときにそれを棄却する確率である『検定力』が増す
• つまり、大規模データが扱えるようになると、帰無仮説が必
ず棄却される
• 検定論は、データの洪水に対して、あらゆる意味で無力
帰無仮説とは?棄却とはどういう意味?
1.1.2 分布論の憂鬱
• 母数:母集団の性質を表す統計的指標(比率、平均、
分散など)
• 母数の推定:集められたデータから、母集団の性質
(母数)を推定する
• 標本分布:母集団の分布と標本統計量の種類(平
均、分散など)、および標本の大きさによって数学的
に決まるものー標本数が大きくなれば正規分布で
近似できる
• 精密標本分布論:中小標本に対する精密な標本分
布を求める。t分布、χ2分布、F分布など…
1.1.2 分布論の憂鬱(続き)
• 漸近展開の隆盛:複雑な数学が必要、実用性なし
• 分布論はデータ解析に役に立たない(Tukey, 1960
年代)
• エフロン(Efrom, 1979)のブートストラップ法:リサンプ
リングと計算機による大量の反復計算によって、推
定量の標本分布を提供→推定量によらずに同一の
方法で標本分布を導ける
• 大規模なデータに対して…『変化しない』母集団を
想定したブートストラップ法では限界→交差妥当化
によって部分的にでも解決
• パラダイムシフト
1.2 データマイニング
• データマイニング(data mining)とは:大量の
データから価値ある情報を引き出すデータ解
析的方法
• 学術用語として
– KDD(Knowledge Discovery in Database):有用で
かつ既知でない知識をデータから抽出する自明
でない一連の手続き
– データマイニング:KDDのプロセス中の知識の発
見の段階
実質的に、KDDもデータマイニングも同義
1.3 データ解析の新しい流れ
1.3.1 非線形性
変数間の何らかの関数関係を発見できる(線形、
非線形にかかわらず、関数形にもよらない)
1.3.2 視覚化
視覚化:グラフを描いてデータの特徴を直感的に分
析するー結果は明快で説得力もある
ただし、多変数が関係するデータに潜む知識(規則
性)を発見することは困難
データマイニングの特徴は、次の二つにある。。。。
1.3.3 交差妥当化
• 交差妥当化:モデルの評価において「そのモデルの
母数の推定に用いたデータを利用せず、それとは
別のデータへの当てはまりの良さを利用する」方法
• 過剰適応(over fitting, 過剰訓練 over training) : 複
雑なモデルは、推定に用いたデータに合わせすぎて、
システムが安定しないことがある
• 単純なモデルは、システムは安定しているが、複雑
な現象に対して予測や判別の精度が高くならない
• 精度と安定度を同時に考慮し、いろいろなモデルを
評価して、最適なモデルを選択
• 交差妥当化の標準化:大量のデータが利用可能に
• 推定用、交差妥当化用、検証用のデータの3分割
1.3.4 最適性・一意性のなさ
• 伝統的なモデルとの比較:「回帰モデル」は線形な
解の中では得られる解が最適
• 通常は、同一のデータからは同一の解が得られる
(一意性)
• データマイニング手法には、最適性も一意性もない
ものが多い(例:ニューラルネット)
• データが大量→価値と手間のバランスが重要
• 真の最適解を求めるには時間がかかる、それより
は短時間で高い精度の解を得ることを重視
1.7 Rことはじめ
• Rはニュージーランドの研究者(Ihaka &
Gentleman, 1996)が開発したプログラミング
言語
• 拡張性、汎用性に優れた統計解析環境
• 統計ライブラリは膨大で、最新の統計手法が
どんどん付け加えられている
今日学ぶR
テキスト28ページから38ページまでを実践
1. データの入出力(エクセルデータの入力)
csvデータの確認(xlsデータの読み込みは?)
2. データフレームの定義
3. 基本統計量の表示(summary)
4. 散布図とヒストグラムの表示
5. ヘルプの参照
(注意:パッケージのインストールは、ガーデンや演習
室のコンピュータではできない)
次回学ぶR
•
•
•
•
2章はニューラルネット
内容はかなり濃い
予習:内容を自分なりにまとめてみよう
次回の作業内容は:今回同様、70ページから
81ページを実践
• 何がそこで起こっているのかを考えてみよう
• 「やったこと、考えたこと、疑問に思ったこと、
話し合ったことを書き表す」ことを習慣づけよ
う