もう少し高い位置から • 統計応用のひとつの風景 Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専攻科 Data Miningとは Data Mining とは • 大量のデータから • 規則性を発見するための • データ解析処理のこと。 Data Mining とは • 大量のデータから => 少なくとも1,000個 • 規則性を発見するための • データ解析処理のこと。 Data Mining とは • 大量のデータから => 少なくとも1,000個 • 規則性を発見するための => どんな ? • データ解析処理のこと。 => どうやって? 大量のデータ(1) • • • • • • • Digital library Image archive Bioinformatics Medical imagery Health care Finance and investment Manufacturing and production 大量のデータ(2) • • • • • Business and marketing Telecommunication network Scientific domain The World Wide Web (WWW) Biometrics etc. 具体例 • もう少しイメージを持ってもらうために、テキス トデータ関連の実例を見てみよう。 – 方丈記 – 徒然草 – 広辞苑 – Baconエッセイ集 (Gutenberg Project) – BNC (British National Corpus) => Data Warehouse 規則性 雨が降れば桶屋が儲かる。 アメリカがくしゃみをすれば、 日本は風邪をひく。 世帯主の年齢が30歳~35歳ならば、 マンションを購入する。 自動車が写っている写真の80%には、 青空も写っている。 文は主語と述語とからなる。 etc. 解析法 • 従来の統計解析手法との共通点が多い。 (探索的データ解析, Exploratory Data Analysis; EDA) • 現在、多様な手法が提案されている。 =>本講義で紹介する。 DMに関連する諸手法 • マルチメディアデータ圧縮 (Multimedia Data Compression) • 文字列照合 (string Matching) • 分類手法 (Classification) • クラスタリング (Clustering) • 統計的手法(予測・検定 etc.) 統計的手法 • 基本統計量(平均・分散・標準偏差・中央値・ 最頻値・最大値・最小値 etc.) • 度数分布表 • ヒストグラム • 散布図、相関図 etc. (統計の基本的知識は不可欠!) 統計基礎復習 • データ解析の演習 1. 度数分布表の作成 2. ヒストグラムの作成 3. グラフの分析 • • (データの)代表値 (データの)散らばり 新生児60人の体重(1998) 表. 新生児の体重(1998年) 3740 2550 2920 2530 3280 2840 2520 3350 3610 3430 3020 3320 2790 3050 3620 3260 3320 3800 2640 3360 3320 4100 2720 4050 3850 3380 3040 2710 4150 3200 4120 2780 3220 2780 2490 2950 2580 2020 3010 2010 2800 2760 4480 2990 3700 2960 2320 3060 3200 3380 3100 2840 2990 3100 3530 3270 2600 3640 3300 4570 単位はグラム 手順1: EXCELの起動 [スタート]-[すべてのプログラム][Microsoft Excel] 手順2:データの入力 3740 2550 2920 2530 3280 2840 2520 3350 3610 3430 3020 3320 2790 3050 3620 3260 3320 3800 2640 3360 3320 4100 2720 4050 3850 3380 3040 2710 4150 3200 4120 2780 3220 2780 2490 2950 2580 2020 3010 2010 2800 2760 4480 2990 3700 2960 2320 3060 3200 3380 3100 2840 2990 3100 3530 3270 2600 3640 3300 4570 手順1: EXCELの起動 [スタート]-[すべてのプログラム][Microsoft Excel] 手順2: データの入力 手順3: 度数分布表の作成 度数分布表の作成 度数分布表とは データをいくつかのグループに分類し、 各グループに属するデータ数を添えた表。 度数分布表とは • イメージとしては右図の ようなもの。 • キャプション・ 表頭・表側・ 区間(階級)・ 区間幅(階級幅) 表.度数分布表の例 区 間 度 数 0-99 20 100-199 50 200-299 120 300-399 65 度数分布表の作成 1. 最大値と最小値を求める。 2. 最大値と最小値の差R(範囲)を求める。 3. 区間の個数(棒グラフの棒の本数)kを決める。 • • • k=√n k=1 + 3.32 log10(n) 簡単に、k=7~10ぐらいにする。 4. 区間幅hを求める。 1. h=R÷k 2. hの値を見て、きりのいい数字に設定する。 度数分布表の作成 1. 2. 3. 4. 5. 最大値=____, 最小値=___ 範囲R=最大値-最小値 区間数k=____ 区間幅h=____ 最小値と最大値とを勘案して、区間の両端 を決める。 新生児の体重( 体重(g) 人数 ~2000 0 2000~2400 3 2400~2800 14 2800~3200 16 3200~3600 14 3600~4000 7 4000~4400 4 4400~4800 2 20 00 23 00 26 00 29 00 32 00 35 00 38 00 41 00 44 00 47 00 50 00 人数[人] 1998年の新生児の体重[g] 16 14 12 10 8 系列1 6 4 2 0 体重[g] 今日の話 • 例題 例題1:ある高校での学生20名の成績。 65 42 49 55 57 41 39 49 46 47 55 46 93 57 62 38 40 63 64 55 データのクリーニングと外れ値 • 外れ値:異常に飛び離れた値 • クリーニング:外れ値に対応すること 外れ値の判断基準 • 平均値±3×標準偏差 から外れている 平均 • 平均(mean)とは、「データの中心」、あるいは、 「データの代表値」を表す。 • 数学的定義: – データ: – 定義: {x1 , x2 , x3 ,..., xn } x1 x2 ... xn m n データの散らばり • 平均が同じでも、データの様子が異なること がある。 • 例: – データ1:{-0.2, 0, 0.2} – データ2:{-20, 0,20} (どちらも平均m=0だけど、データの散らばりは 違う。このことをどのように表現したらいいのだ ろうか?) データの散らばりの尺度(1) • (Idea 1) データの散らばりは、平均を基準として測る。 • (妥当性) 次の関数の最小値は、平均m。 f (t ) (t x1 ) (t x2 ) ... (t xn ) 2 2 f (t ) f (m), x1 ... xn where m . n 2 データの散らばりの尺度(2) • (Idea 2) データの散らばりを以下の式で表現する。 ( x1 m) ( x2 m) ... ( xn m) M n • この式は常にゼロになってしまうので意味がない! データの散らばりの尺度(3) • (Idea 3) データの散らばりを以下の式で表現する。 | x1 m | | x2 m | ... | xn m | M .dev. n • この式には、絶対値が含まれており、解析学的に(美 積分学的に)取り扱いにくい。アイデアはいいけれど、 数学的にはチョットねぇ。 データの散らばりの尺度(4) • (Idea 4) データの散らばりを以下の式で表現する。 ( x1 m)2 ( x2 m)2 ... ( xn m)2 Var n • これを分散(variance)といい、データの散らばりの程 度を表現している。元のデータとの次元(dimension) をそろえるためにルートを取ったものが標準偏差であ る。 データの散らばりの尺度(5) • (Idea 5) データの散らばりを以下の式で表現する。 ( x1 m) ( x2 m) ... ( xn m) Var n 2 2 • これを標準偏差(standard deviation)と呼ぶ。 2 (注意!) • 分散・標準偏差の定義式には、分母が n の ものと (n-1) のものとがある。 • この辺りは、後日改めて説明する。 例題1についての解析 • 例題1のデータの平均と標準偏差をもとめる と、93が外れ値(異常値)であることが分かる。 (各自確認してみること) 例題2:(練習問題として各自分析せよ。) 52 87 38 57 78 75 49 55 71 43 49 93 41 67 65 82 69 62 82 60 範囲・中央値・最頻値 • 範囲(range,レンジ)=最大値ー最小値 • 中央値:データを大きさの順番に並べてとき、 真ん中に来るデータ値。データが偶数のとき は、真ん中に来る2つのデータの平均を中央 値とする。 • 最頻値:最も出現回数の多いデータ。 例: • データ:{2,5,-4,-2,3,1,1,-6} – 平均m=(2+5-4-2+3+1+1-6) / 8 = 0 – 最大値max=5 – 最小値min=-6 – 範囲r=max-min=11 – 中央値(Median)Med=1 • なぜなら、{-6,-4,-2, 1, 1,2,5} • 最頻値(モード,mode)mode=1 ここまでは復習 • Let’s go farther! Advanced Data Mining 高度データマイニング(3) 東京工科大学大学院 バイオニクス・情報メディア学専攻科 38 1 階級 度数 2 57 データ群 41 20 25 32 Histogram 0-9 10-19 20-29 30-39 40-49 50-59 2 0 2 1 1 1 度数分布表 • データ群 {x1 , x2 , x3 ,..., xn } • データ全体としての性質を数値化すると – – – – – – – 平均(データの代表値, mean) 分散(データの散らばり, variance) 標準偏差(データの散らばり, standard deviation) 中央値(データの代表値, median) 最頻値(データの代表値, mode) 最大値&最小値 範囲(データの散らばり, range) etc. • データ群 {x1 , x2 , x3 ,..., xn } • データ全体としての性質を数値化すると – – – – – – – 平均(データの代表値, mean) 分散(データの散らばり, variance) 標準偏差(データの散らばり, standard deviation) 中央値(データの代表値, median) 最頻値(データの代表値, mode) 最大値&最小値 範囲(データの散らばり, range) etc. これらの改良版 • 幹葉表示(stem-leaf-and-forget-display) – 度数分布表 • 5数表示(five number display) – 基本統計量 • 箱ヒゲ図 – 基本統計量の図示 幹葉表示 • 基本的考え方 427 4 2 7 4 2 0 313 3 1 3 3 1 0 232 2 3 2 2 3 0 323 3 2 3 3 2 0 434 4 3 4 4 3 0 317 3 1 7 3 1 0 311 3 1 1 3 1 0 幹 (stem) Most Significant Digit 葉 (leaf ) 端数 (forget) 幹葉表示(例) 5数表示 箱ヒゲ図 Advanced Data Mining 高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専攻科 Version 2 DM Methodoogy DM Methodology 1. Exploratory data analysis (探索的データ解析) 2. Computational data mining (計算論的データマイニング) 3. Statistical data mining (統計的データマイニング) DM Methodology 1. Exploratory data analysis (探索的データ解析) 2. Computational data mining (計算論的データマイニング) 3. Statistical data mining (統計的データマイニング) 1.Exploratory data analysis a. 統計的データ解析(SDA) b. 探索的データ解析(EDA) 統計的データ解析(SDAの基礎) 1. 視覚的分析 • • 表: 度数分布表(frequency table) 図: ヒストグラム(histogram) 2. 数値的分析 • • • 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値 統計的データ解析(SDAの基礎) 1. 視覚的分析 • • 表: 度数分布表(frequency table) 図: ヒストグラム(histogram) 2. 数値的分析 • • • 代表値: 平均 (mean) 中央値 (median) モード (mode,最頻値) ばらつき度:分散(variance) 平均偏差(mean deviation; MD) 標準偏差(standard deviation) 範囲(range = 最大値ー最小値) その他 四分位数(quartile,第一・二・三) 外れ値 探索的データ解析(EDA) 1. 2. 3. 4. 5. 6. 7. 幹葉表示(stem-and-leaf display) 要約値(letter value display) 箱ヒゲ図(box-whisker plots) X-Y表示(X-Y plotting) 抵抗性のある直線回帰(registant line) 中央値分散分析(median polish) 時系列データのならし(smoothing) 探索的データ解析(EDA) 1. 幹葉表示(stem-and-leaf display) ヒストグラムに代わる手法 2. 要約値(letter value display) 平均値・標準偏差に代わるもの 3. 箱ヒゲ図(box-whisker plots) 分布の形と外れ値の図的表示 DM Methodology 1. Exploratory data analysis (探索的データ解析) 2. Computational data mining (計算論的データマイニング) 3. Statistical data mining (統計的データマイニング) 3.Statistical data mining a. b. c. d. e. f. Statistic models(統計モデル) Statistic inference(統計的推論) Non-parametric model General linear model Log-linear model Graphical model etc. DM Methodology 1. Exploratory data analysis (探索的データ解析) 2. Computational data mining (計算論的データマイニング) 3. Statistical data mining (統計的データマイニング) 2.Computational data mining 1. 2. 3. 4. 5. 6. Cluster analysis(クラスター分析) Tree models(木モデル) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming; 帰納論理プログラミング) 7. SVM(support vector machines) etc. 2.Computational data mining a. b. c. d. e. f. Tree models(木モデル) Cluster analysis(クラスター分析) Linear regression(線形回帰) Logistic regression(ロジスティック回帰) Neural networks(ニューラルネットワーク) ILP(Inductive Logic Programming; 帰納論理プログラミング) etc.
© Copyright 2024 ExpyDoc