統計学入門2 関係を探る方法 講義のまとめ 今日の話 変数間の関係を探る クロス集計表の検定:独立性の検定 散布図、相関係数 講義のまとめ と キーワード 「統計学入門」後の関連講義・実習 社会調査士 多変量データ 性別 男性 男性 男性 男性 男性 男性 男性 男性 男性 男性 年齢 28.50 40.33 31.08 31.17 41.92 29.50 28.00 28.75 27.42 52.92 現給与 就学年数 就業年数 16080 16 0.25 41400 16 12.50 21960 15 4.08 19200 16 1.83 28350 19 13.00 27250 18 2.42 16080 15 3.17 14100 15 0.50 12420 15 1.17 12300 12 26.42 職種 専門職 管理職 管理職 専門職 管理職 専門職 事務員 事務員 事務員 警備員 データの型と関連を探る道具 質的・質的 ・・・ クロス集計表 量的・量的 ・・・ 散布図・相関係数 質的・量的 ・・・ 条件付分布 グループ別平均 相関比 クロス集計表の例 職種 性別 管理職 技術職 警備員 事務員 女性 2 0 0 117 男性 30 6 27 110 計 32 6 27 227 計 119 173 292 クロス集計表 A B C 計 1 10 15 10 35 2 15 10 5 30 3 5 15 5 25 計 30 40 20 90 条件付き分布 2つの変数X, Yがあり、X = x となる場合に のみYの分布を考えたとき、その分布を X = x があたえられたときの Yの条件付き分布という 条件付き分布 変数X Y 変 数 A B C 計 1 10 15 10 35 2 15 10 5 30 3 5 15 5 25 計 30 40 20 90 X=Bが与えられたときの、Yの条件付き分布 周辺分布 A B C 計 1 10 15 10 35 2 15 10 5 30 3 5 15 5 25 計 30 40 20 90 同時分布 A B C 計 1 10 15 10 35 2 15 10 5 30 3 5 15 5 25 計 30 40 20 90 独立 2つの変数が独立であれば、 周辺分布は、いかなる条件付き分布とも 同じになる クロス集計表 A B C 計 1 18 18 9 45 2 12 12 6 30 3 10 10 5 25 計 40 40 20 100 クロス集計表:()内は% A B C 計 1 18(45) 18(45) 9(45) 45 2 12(30) 12(30) 6(30) 30 3 10(25) 10(25) 5(25) 25 計 40(100) 40(100) 20(100) 100 クロス集計表 A B C 計 1 18(40) 18(40) 9(20) 45(100) 2 12(40) 12(40) 6(20) 30(100) 3 10(40) 10(40) 5(20) 25(100) 計 40 40 20 100 練習問題:独立になるように... A B C 計 1 15 2 35 3 50 計 40 20 40 100 積事象の確率 P(AB) P(A|B) : = P(A) P(B|A) = P(B) P(A|B) Bの下でのAの条件付確率 P(B|A) : Aの下でのBの条件付確率 事象AとBが独立 P(AB) = P(A) P(B) P(A|B) = P(A) P(B|A) = P(B) 独立期待度数 eij nin j n.. 独立期待度数 eij ni n j n.. ni n j n.. n.. n.. 独立であるという仮定の下での(i,j)セルの確率 独立性の検定 観測度数と独立期待度数の比較 a b ( nij eij ) 2 eij i 1 j 1 ただし、 eij nin j n.. 2 独立性の検定 観測度数と独立期待度数の比較 a b ( nij eij ) 2 i 1 j 1 2 eij 独立であるという前提で計算された値と どの程度離れているかを評価する p 値の計算と検定結果 検定統計量の分布は、自由度(a-1)(b-1)の 2分布 2分布の分布点を求める関数 =CHIDIST(2 , df) p値を設定された有意水準(通常は5%)と比 較し、p値が小さい場合は独立でないと判 断する 量的データの関連を探る 散布図 相関係数 (-1から1の範囲の値) 直線的な関係を表す尺度 符号 ・・・ 関係の向き 絶対値 ・・・ 関係の強さ 散布図 Y yi ( x i , yi ) xi X 番号 身長 体重 65 170 1 60 164 2 76 180 3 58 167 4 65 175 5 60 173 6 身長と 体重 80 70 60 50 160 170 180 散布図 点の散らばり具合をみて、変数間の関連を 探る 45 35 25 本塁打 15 5 -5 20 40 60 80 100 三振 120 140 160 45 35 本塁打 25 15 5 -5 -1 1 3 5 三塁打 7 9 11 相関係数 2つの量的変数の直線的関係の 向き (符号) 強さ (絶対値) をあらわす Excelでの相関係数の計算 ワークシート関数(XとYの相関を求める) =CORREL(Xの配列,Yの配列) 分析ツール 分析ツール:相関 入力範囲に分析するデータの範囲を指定 3つ以上の変数を指定することも可能 相関係数の解釈上の注意点 相関があっても因果があるとは限らない 非線形の関係は表現できない 第3の変数の存在を意識すること 外れ値に対し、頑健でない 確認のための演習 ITLSの下記のページにアクセスして、頑健 性のなさをチェックしてみよう! http://www.sci.kagoshimau.ac.jp/~itls/JAVA/java_ss/1746e/ 注意:アプレットの下の方に提示されている coefficient of determination は、相関係数の2乗の値 量的データと質的データの関連 一般的な方法 質的データが与えられた下での、連続データ の条件付分布を比較する 条件付分布が同じであれば(似ていれば)、無 関係であると判断する 層別グラフ 96 84 72 度数 60 48 36 24 12 0 15 20 25 30 35 40 45 50 55 60 65 70 15 20 25 30 35 40 45 50 55 60 65 70 性別: 男性 性別: 女性 データの型と関連を探る道具 質的・質的 ・・・ クロス集計表 量的・量的 ・・・ 散布図・相関係数 質的・量的 ・・・ 条件付分布 グループ別平均 相関比 3つ以上変数がある場合の分析 多変量解析 2・3年次以降の関連科目 社会調査法 データサイエンス 社会調査実習 多変量解析 (オペレーションズ・リサーチ) 講義のまとめ:キーワード 確率と分布 2項分布、正規分布(*) 母集団と標本 標本分布(*) 統計的推定 標本誤差(*) 推定 点推定、区間推定(*) 信頼区間、信頼度 統計的検定 2種類の過誤(*) 有意水準(*) 有意確率(p値)(*) 平均と比率の検定 社会調査士 2003年度 認定機構 設立 社会調査士資格認定機構 http://wwwsoc.nii.ac.jp/jcbsr/ 指定された科目の単位習得と卒業が資格 取得の条件 必要とされる科目 社会調査法A, B 統計学入門(1), (2) データサイエンス・多変量解析から1科目 社会調査実習
© Copyright 2024 ExpyDoc