情報知能学基礎演習 豊田秀樹(2008)『データマイニング入門』 (東 京図書)を用いて 情報知能学科 白井 英俊 1章 データマイニングとは • 統計学とは:医学、経済学、政治・社会分野などで どんな知識の発見? 利用される • 統計学は:分野に依存しない知識発見の方法論とし て、これ以外にも、生物学、心理学、言語学など広 い領域で利用される • 統計学は、数学・確率論に立脚した厳密な理論体 系をもつばかりではなく、実用性の面でも学問の花 形 • 注意:1.1節は統計についての知識が必要。ただし、 知らない者は飛ばして、統計を学んでから振り返る のがよい。 1.1 統計学の憂鬱 • 統計学の分類:記述統計学と推測統計学 – 記述統計学:集めたデータの特徴を見出すため のもの。データの要約(表)とその可視化(グラフ) – 推測統計学:無作為抽出された部分集団(抽出 集団、標本集団)から抽出元全体(母集団)の特 これらは何をするもの? 徴、性質を推定する • 推測統計学:推定論、検定論、分布論 このうち、検定論と分布論が深刻な状況 1章の最初に、「検定」、「推定」の例が紹介されている 1.1.1 検定論の憂鬱 • 統計的検定論:理論的枠組みは、ワルド(A. Wald)やレーマ ン(E. L. Lehman)によって、1950年代に完成 • それ以後は、理論の精緻化や具体的な検定法の開発のみ で、応用面からの要請が検定論に反映されにくい状況 • 理論的な枠組みそのものの欠陥(モリソン & ヘンケル):帰 無仮説の棄却と採択が対等でないー帰無仮説は初めから誤 りであることが明白 • ITの進化により、大規模なデータが扱える→帰無仮説が偽 であるときにそれを棄却する確率である『検定力』が増す • つまり、大規模データが扱えるようになると、帰無仮説が必 ず棄却される • 検定論は、データの洪水に対して、あらゆる意味で無力 帰無仮説とは?棄却とはどういう意味? 1.1.2 分布論の憂鬱 • 母数:母集団の性質を表す統計的指標(比率、平均、 分散など) • 母数の推定:集められたデータから、母集団の性質 (母数)を推定する • 標本分布:母集団の分布と標本統計量の種類(平 均、分散など)、および標本の大きさによって数学的 に決まるものー標本数が大きくなれば正規分布で 近似できる • 精密標本分布論:中小標本に対する精密な標本分 布を求める。t分布、χ2分布、F分布など… 1.1.2 分布論の憂鬱(続き) • 漸近展開の隆盛:複雑な数学が必要、実用性なし • 分布論はデータ解析に役に立たない(Tukey, 1960 年代) • エフロン(Efrom, 1979)のブートストラップ法:リサンプ リングと計算機による大量の反復計算によって、推 定量の標本分布を提供→推定量によらずに同一の 方法で標本分布を導ける • 大規模なデータに対して…『変化しない』母集団を 想定したブートストラップ法では限界→交差妥当化 によって部分的にでも解決 • パラダイムシフト 1.2 データマイニング • データマイニング(data mining)とは:大量の データから価値ある情報を引き出すデータ解 析的方法 • 学術用語として – KDD(Knowledge Discovery in Database):有用で かつ既知でない知識をデータから抽出する自明 でない一連の手続き – データマイニング:KDDのプロセス中の知識の発 見の段階 実質的に、KDDもデータマイニングも同義 1.3 データ解析の新しい流れ 1.3.1 非線形性 変数間の何らかの関数関係を発見できる(線形、 非線形にかかわらず、関数形にもよらない) 1.3.2 視覚化 視覚化:グラフを描いてデータの特徴を直感的に分 析するー結果は明快で説得力もある ただし、多変数が関係するデータに潜む知識(規則 性)を発見することは困難 データマイニングの特徴は、次の二つにある。。。。 1.3.3 交差妥当化 • 交差妥当化:モデルの評価において「そのモデルの 母数の推定に用いたデータを利用せず、それとは 別のデータへの当てはまりの良さを利用する」方法 • 過剰適応(over fitting, 過剰訓練 over training) : 複 雑なモデルは、推定に用いたデータに合わせすぎて、 システムが安定しないことがある • 単純なモデルは、システムは安定しているが、複雑 な現象に対して予測や判別の精度が高くならない • 精度と安定度を同時に考慮し、いろいろなモデルを 評価して、最適なモデルを選択 • 交差妥当化の標準化:大量のデータが利用可能に • 推定用、交差妥当化用、検証用のデータの3分割 1.3.4 最適性・一意性のなさ • 伝統的なモデルとの比較:「回帰モデル」は線形な 解の中では得られる解が最適 • 通常は、同一のデータからは同一の解が得られる (一意性) • データマイニング手法には、最適性も一意性もない ものが多い(例:ニューラルネット) • データが大量→価値と手間のバランスが重要 • 真の最適解を求めるには時間がかかる、それより は短時間で高い精度の解を得ることを重視 1.7 Rことはじめ • Rはニュージーランドの研究者(Ihaka & Gentleman, 1996)が開発したプログラミング 言語 • 拡張性、汎用性に優れた統計解析環境 • 統計ライブラリは膨大で、最新の統計手法が どんどん付け加えられている 今日学ぶR テキスト28ページから38ページまでを実践 1. データの入出力(エクセルデータの入力) csvデータの確認(xlsデータの読み込みは?) 2. データフレームの定義 3. 基本統計量の表示(summary) 4. 散布図とヒストグラムの表示 5. ヘルプの参照 (注意:パッケージのインストールは、ガーデンや演習 室のコンピュータではできない) 次回学ぶR • • • • 2章はニューラルネット 内容はかなり濃い 予習:内容を自分なりにまとめてみよう 次回の作業内容は:今回同様、70ページから 81ページを実践 • 何がそこで起こっているのかを考えてみよう • 「やったこと、考えたこと、疑問に思ったこと、 話し合ったことを書き表す」ことを習慣づけよ う
© Copyright 2025 ExpyDoc