データ分析入門(6) 第6章 データのばらつき 廣野元久 1 本章の概要 データのばらつき方の特徴を探る グラフによる視覚的に提示する方法 データを加工して数量的に提示する方法 JMPを使って、基本操作の学習 量的データの要約と考察 比例尺度、間隔尺度 質的データの要約と考察 順序尺度、名義尺度 第6章 データのばらつき 廣野元久 &高橋行雄 2/43 1.データの特徴を知る方法 データの特徴は、そのばらつき方にある データのばらつき方(密度)を(確率的に)モデル 化 (標本)分布 (Sample) Distribution ばらつき方を研究する方法 グラフを描画して比較・観察する データを加工して特性値化(基本統計量)する グラフと特性値との組み合わせで客観性を 卵(黄身)とサラダ油を組合せて美味しいマヨネーズができる グラフ 特性値 レポート 第6章 データのばらつき 廣野元久 &高橋行雄 3/43 2.データの属性(1) 2.1データの属性 データはどの尺度で得られたものか 比例尺度、間隔尺度 Continuous 順序尺度 Ordinal 名義尺度 Nominal データは文字型か数字型か 比例尺度、間隔尺度は Numeric 順序尺度は Numeric(Character) 名義尺度は Character、Numeric ビッグクラス.jmpを開き データタイプ、モデリングタイプを確認 第6章 データのばらつき 廣野元久 &高橋行雄 4/43 2.データの属性(2) 2.2 データ属性の指定(1) ショートカットをクリックしてJMPを起動 ファイルから開くをクリック あるいは、 ここをクリック 第6章 データのばらつき 廣野元久 &高橋行雄 5/43 2.データの属性(3) 2.2 データ属性の指定(2) 1.ここをクリックして JMP のフォルダに たどり着け 2.ここをクリック 3.開くボタンをクリック 第6章 データのばらつき 廣野元久 &高橋行雄 6/43 2.データの属性(4) 2.2 データ属性の指定(3) 1.ビッグクラス を選択 2.開くをクリック 第6章 データのばらつき 廣野元久 &高橋行雄 7/43 2.データの属性(5) 2.2 データ属性の指定(4) データ の尺度 ビッグクラス.jmpがロード セルの中心を左ダブルクリック 第6章 データのばらつき 廣野元久 &高橋行雄 8/43 2.データの属性(6) 2.2 データ属性の指定(5) 変量名 文字型か 数字型か を指定 データの尺度を 指定 なぜ、指定が重要か JMP INは、尺度と変数の役割を指定しておくと、正しい 分析手法で分析結果を表示してくれる優れもの 第6章 データのばらつき 廣野元久 &高橋行雄 9/43 3.量的データのヒストグラム 着眼点 中心的な位置 分布の広がり 分布のゆがみ 第6章 データのばらつき 廣野元久 &高橋行雄 10/43 3.1 ヒストグラムの描き方(1) 1.分析メニューから 1変量の分布を クリック 第6章 データのばらつき 廣野元久 &高橋行雄 11/43 3.1 ヒストグラムの描き方(2) 1.変量:身長(インチ)をクリック(色が反転) 2.Y 列をクリック 3.OKボタンをクリック 第6章 データのばらつき 廣野元久 &高橋行雄 12/43 3.1 ヒストグラムの描き方(3) ヒストグラムが描画される 練習問題(P84) 分布の中心位置は? 分布の散らばっている範囲は? 分布の散らばり方は? 分布はゆがんでいるか? 第6章 データのばらつき 廣野元久 &高橋行雄 13/43 3.2 グラフサイズの調節 1.グラフ内の境界 位置にマウスポインタを 移動 2.ポインタ種類が変わったことを 確認 3.クリック&ドラッグして 大きさを調整する 第6章 データのばらつき 廣野元久 &高橋行雄 14/43 3.3 軸スケールの調整(1) 1.縦軸をダブルクリック 軸の最大値 2.Y 軸の設定が表示される 軸の最小値 細かい目盛り幅 第6章 データのばらつき 廣野元久 &高橋行雄 目盛り幅 15/43 3.3 軸スケールの調整(2) 1.手のマークをクリック 2.マウスポインタが手になったことを確認 3.手を左右に動かすと ヒストグラムの柱の幅が 変わる 4.上下に動かすと境界値 が変わる 第6章 データのばらつき 廣野元久 &高橋行雄 16/43 3.4 特定のバーに入るケースの 表示とはずれ値の特定化(1) 1.元のポインタに戻す 2.ヒストグラムの適当な 柱をクリック 3.その柱の範囲内に 含まれるデータが、 データテーブルで反転 複数個の柱を指定する場合はキーボードのShiftを押して指定 第6章 データのばらつき 廣野元久 &高橋行雄 17/43 3.4 特定のバーに入るケースの 表示とはずれ値の特定化(2) ヒストグラム 箱ひげ図 箱ひげ図: Tukey(1977) が考案 ・データが密な範囲が箱で 分布としてデータが得られても よい範囲をひげ(線)で表示 ・点で表示されているのが 外れ値の候補 外れ値の処理 外れ値は同じグループから得られた データとして疑わしいケース ケースの素性を調べて、必要(同じグループでないと判断した) なら分析から除外する 第6章 データのばらつき 廣野元久 &高橋行雄 18/43 3.4 特定のバーに入るケースの 表示とはずれ値の特定化(3) 1.データテーブルで、分析から除外するケースをクリックして 反転させる(グラフで指定させてもよい) 2.メニューの行から除外する / 除外しないを あるいは,データテーブルパネルの▼を クリックして、2つのケースを分析から除外 ケースの除外/追加 ケースの非表示/表示 ラベルの表示/非表示 色の変更 マーカーの追加 第6章 データのばらつき 廣野元久 &高橋行雄 19/43 3.4 特定のバーに入るケースの 表示とはずれ値の特定化(4) すべてのケースの分析 2つの外れ値を分析から除外 ˆê •Ï— Ê‚Ì•ª•z g ’·(ƒCƒ“ƒ`) ˆê •Ï— Ê‚Ì•ª•z g ’·(ƒCƒ“ƒ`) 70 70 65 65 60 60 55 55 50 ƒ‚ [ ƒ ƒ“ƒg •½ ‹Ï 62.55 •W €•Î · 4.2423385 •½ ‹Ï‚Ì•W €Œë · 0.6707726 •½ ‹Ï‚Ì ã‘¤ 95% M—ŠŒ ÀŠE 63.906766 •½ ‹Ï‚̉º ‘¤ 95% M—ŠŒ ÀŠE 61.193234 N 40 ƒ‚ [ ƒ ƒ“ƒg •½ ‹Ï 63.131579 •W €•Î · 3.4654359 •½ ‹Ï‚Ì•W €Œë · 0.5621679 •½ ‹Ï‚Ì ã‘¤ 95% M—ŠŒ ÀŠE 64.270639 •½ ‹Ï‚̉º ‘¤ 95% M—ŠŒ ÀŠE 61.992519 N 38 ヒストグラムと箱ひげ図が変わった 第6章 データのばらつき 廣野元久 &高橋行雄 20/43 3.5 ラベルの表示 ラベルあり/ラベルなしをクリックして、2つ のケースのラベルをグラフに追加 ˆê •Ï—Ê‚Ì•ª•z g ’·(ƒCƒ“ƒ`) 70 65 60 55 LILLIE ROBERT 50 第6章 データのばらつき 廣野元久 &高橋行雄 21/43 4.量的データの分布の特性値 ヒストグラムの下のテーブルは、 分布の特性値(基本統計量) 4.1 中央値と分位数 4.2 標本平均と標本標準偏差、 標本分散 第6章 データのばらつき 廣野元久 &高橋行雄 22/43 4.1 中央値と分位数(1) 1)得られたデータを小さい方から順に並べ替える (これを昇順に並べ替えるという) 2)ちょうど真中の数字が中央値 3)小さい方からP%にあたる値をp%分位数 100%分位数:最大値 75%分位数: (上側)四分位数 50%分位数: 中央値(メジアン) 25%分位数: (下側)四分位数 0%分位数:最小値 箱ひげ図の箱 箱ひげ図の箱が小さいほど、中心付近にデータが集中 第6章 データのばらつき 廣野元久 &高橋行雄 23/43 4.1 中央値と分位数(2) 例 0.2,3,-4.5,-2.7,1.4(奇数個) 昇順:-4.5,-2.7,0.2,1.4,3 中央値は0.2 例 0.2,3,-4.5,-2.7(偶数個) 昇順:-4.5,-2.7,0.2,3 中央値は(-2.7+0.2)/2=-1.25 第6章 データのばらつき 廣野元久 &高橋行雄 24/43 4.2 標本平均と標本標準偏差、 標本分散(1) 標本平均 x ( x1 x2 xn ) / n データを全て足して、データの個数で割った値 値 青と赤の線 の長さが等し い 標本平均 #1#2#3#4#5 #6#7#8#9 第6章 データのばらつき 廣野元久 &高橋行雄 25/43 4.2 標本平均と標本標準偏差、 標本分散(2) 標本標準偏差 値 データが平均値から平均的にどれだけ離れて いるかを示す値 標準偏差: 青と赤の長さ (正の値)の平均的な 長さ 標本平均 #1#2#3#4#5 標本分散: 標本標準偏差の2乗 #6#7#8#9 第6章 データのばらつき 廣野元久 &高橋行雄 26/43 4.2 標本平均と標本標準偏差、 標本分散(3) 平均が同じデータ (a) (b) 3 5 2 (c) 3 4 5 2 1 2 3 5 3 5 6 4 平均も範囲も同じデータ (a) 1 6 4 n 6 7 1 2 3 5 6 7 4 V 平均は同じだが分散が異なるデータ (a) (b) 2 3 5 6 7 1 2 3 5 4 6 2 ( x x ) i i 1 7 4 (-3)2=9 (-3)2=9 n 2 (2) =4 (1)2=1 (3)2=9 (3)2=9 分散 標準偏差 n 1 標準偏差 (-2)2=4 (-1)2=1 6.67 2.58 標本分散 (b) 4 1 7 s V 2 ( x x ) i i 1 n 1 6.67 2.58 第6章 データのばらつき 廣野元久 &高橋行雄 27/43 4.3 中央値と標本平均の使い分け 標本平均 統計的取り扱いが簡単(理論が扱いやすい) 外れ値の影響を受けやすい 工業データや身長、体重などの自然界のデータ 中央値 外れ値の影響を受けにくい 統計的取り扱いが難しい(理論が難解) プロ選手(野球、サッカー、相撲など)の年棒の代表値 中央値 人数 標本平均 年棒 第6章 データのばらつき 廣野元久 &高橋行雄 28/43 5 箱ひげ図と 標準出力データの見方 5.1 箱ひげ図 ˆê •Ï—Ê‚Ì•ª•z g ’·(ƒCƒ“ƒ`) 四分位数 70 中央値 65 標本平均 60 55 LILLIE ROBERT 50 外れ値 第6章 データのばらつき 廣野元久 &高橋行雄 29/43 5.2 標準出力データ 分位数( Quantiles ) 最大値 上側四分位数 中央値 下側四分位数 最小値 モーメント( Moments ) 標本平均(Mean) 標本標準偏差(Std Dev.) 標本数(N) 第6章 データのばらつき 廣野元久 &高橋行雄 30/43 6.分布の形 6.1 分布のゆがみと正規分布 正規分布Normal Distribution 左右対称で、中央部分の頻度が多い分布 中央部分から離れれば離れるほど、出現率は小さい 正規分布は、 0.9 平均値と標準偏差 0.8 0.7 だけで形が決まる 0.6 μ=0,σ=1 μ=0,σ=0.5 μ=0,σ=2 0.5 0.4 0.3 0.2 0.1 0 -5 -3 第6章 データのばらつき 廣野元久 &高橋行雄 -1 1 3 5 31/43 6.1 分布のゆがみと正規分布(1) 左に ゆがん だ 分布 右に ゆがん だ 分布 第6章 データのばらつき 廣野元久 &高橋行雄 32/43 6.1 分布のゆがみと正規分布(2) 2.水平レイアウトになる g ’·(ƒCƒ“ ƒ`) ROBERT LILLIE 50 55 60 65 ³ ‹K(62.55,4.24234) 1.▼のマークを クリックして 横に並べるを選ぶ 70 •ªˆÊ“_ 100.0% 99.5% 97.5% 90.0% 75.0% 50.0% ’† 25.0% 10.0% 2.5% 0.5% 0.0% 4.正規分布の曲線 が追加される 3.正規を選ぶ 第6章 データのばらつき 廣野元久 &高橋行雄 33/43 6.1 分布のゆがみと正規分布(3) 1.今度は正規分位点プロットを選ぶ g ’ ·(ƒCƒ“ ƒ`) . 99 . 95 . 90 . 75 . 50 2 1 0 . 25 LILLIE ROBERT . 10 . 05 . 01 -1 -2 -3 ROBERT LILLIE 2.正規分位点プロットが描画される 第6章 データのばらつき 廣野元久 &高橋行雄 •ªˆÊ“_ 100.0% Å‘ 99.5% 97.5% 90.0% 75.0% 4•ª 50.0% ’†‰›’l(ƒ ƒf ƒB 25.0% 4•ª 10.0% 2.5% 0.5% 点が直線的 0.0% Å ¬ ³‹K•ªˆÊ“_ƒvƒ ƒbƒg 3 傾向である と 正規分布で 近似できる 34/43 6.2 単峰型と双峰型(1) 単峰型の分布とは、データの値が1箇所に 集中している傾向の分布 双峰型の分布とは、データの値が2箇所に 集中している傾向の分布 出生率・死亡率のデータで確認しよう 第6章 データのばらつき 廣野元久 &高橋行雄 35/43 6.2 単峰型と双峰型(2) 1.出生率・死亡率.jmpをロードする ここをクリック サンプルデータから 出生率・死亡率.JMPを ロードする 2.分析に1変量の分布を選ぶ 3.変量の租出生率,租死亡率を 分析する ここをクリック クリックしたまま 2変量を選ぶ あるいはCtrlを押したまま2変量を選ぶ 第6章 データのばらつき 廣野元久 &高橋行雄 36/43 6.2 単峰型と双峰型(3) 1.比較しずらので、 水平レイアウトにする 1変量の分布の▼を クリックし積み重ねて 表示をクリック ˆê •Ï —Ê‚Ì• ª•z ‘e o ¶—¦ 10 20 30 40 50 •ªˆÊ“_ 100.0% 99.5% 97.5% 90.0% 75.0% 50.0% ’†‰ 25.0% 10.0% 2.5% 0.5% 0.0% ‘eŽ €–S—¦ 2.スケールの統一をクリック 3.2つのヒストグラムの軸の スケールが同じ区間になる 第6章 データのばらつき 廣野元久 &高橋行雄 10 20 30 40 50 •ªˆÊ“_ 100.0% 99.5% 97.5% 90.0% 75.0% 50.0% ’†‰ 25.0% 10.0% 2.5% 0.5% 0.0% 37/43 6.2 単峰型と双峰型(4) 1.▼をクリックして、 分布のあてはめから 平滑曲線を選ぶ 2.ヒストグラムの度数に合わせた 曲線が追加される 第6章 データのばらつき 廣野元久 &高橋行雄 38/43 インフルエンザ・ウィルスの分布 Virus3.jmp でインフルエンザ・ウィルスの 経時的分布の変化、右に裾を引いている 6 5 4 3 2 1 0 D1 D2 D4 第6章 データのばらつき 廣野元久 &高橋行雄 D6 D8 39/43 7.質的データのヒストグラムと度数表 7.1 質的データの分布の特性値 質的データの度数はカテゴリごとに度数を分けたもの 標本平均や標本標準偏差を計算しても無意味 質的データの分布の特性値は比率 JMPは変量の属性を正しく指定すれば 正しい出力をしてくれる(分析者が手法を指定しな くてもよい) 第6章 データのばらつき 廣野元久 &高橋行雄 40/43 7.2 ヒストグラムと帯グラフ(1) 車の調査.jmpをロードしよう 第6章 データのばらつき 廣野元久 &高橋行雄 41/43 7.2 ヒストグラムと帯グラフ(2) 1.をクリック 3.Y,列をクリック 2.タイプを選択 4.OKをクリック 第6章 データのばらつき 廣野元久 &高橋行雄 42/43 7.2 ヒストグラムと帯グラフ(3) 量的データではない ・ワーク,ファミリー,スポーツの 位置を入れ替えても良い ・取り得る値は, ワーク,ファミリー,スポーツ の3つの分類項目しかない 第6章 データのばらつき 廣野元久 &高橋行雄 43/43 7.3 度数表 度数(頻度) 比率(相対度数) 累積比率 (累積相対度数) 変量名 合計 (標本数) 初期の度数表にない 累積比率は 表をクリックしてメニューを表示させ, 累積割合をクリック 第6章 データのばらつき 廣野元久 &高橋行雄 44/43
© Copyright 2025 ExpyDoc