パソコンを用いた統計解析テクニック 弘前大学大学院保健学研究科 対馬 栄輝 鳴海研究所清明会鳴海病院 石田 水里 新潟県立リウマチセンター 水澤 一樹 テクニカル(実技)セミナー6 10月2日(金)15:50~17:50 会場3 1 セミナーの流れ • 差の検定と効果量の計算 • 分散分析 • 相関・回帰 2 R起動後 コマンドプロンプト R Console画面 • 2つの画面が起動する R コマンダー画面 3 例題:立位体前屈データ.xls • N=36で,立位体 前屈と,それに影 響すると思われる 変数を評価した データ • 立位体前屈が正 規分布に従うか 確認する 4 エクセルからRへデータを読み込む 5 エクセルデータの準備 余分な情報 削除する 最上行1行目に変数名を入れる データは数字以外は入れない データ以外の余計な値は削除しておく 6 エクセルからRコマンダーへ ① ② ③ ④R上でのデータ名を決める ここでは,エクセルと同じ名前 ⑤OKをクリック 7 エクセルデータを指定 • 指定後は [開く] をクリック 8 Rへのデータ読み込み データセットの編集ボタンで 取り込んだデータを表示出来る 9 カテゴリーデータへの変更 カテゴリーデータは因子変数へ変 更しておく必要がある 10 カテゴリーデータを因子変数へ変換 ① ② ③ 11 因子変数への変更 • 性別は0-1型の群分けデータ • 性別(①)を選び,[因子水準]は[数値で](②) にチェック,最後に[OK]ボタン(③) ① ② ③ 12 警告 • この警告は無視して,YESをクリック 13 統計的検定のための重要事項 ①データ尺度 名義尺度,順序尺度,間隔尺度,比率尺度 ②分布の判断 正規分布か,それ以外か • 有効な特性値を決める 代表値(平均,中央値) 散布度(標準偏差[分散]) 14 特性値の使い分け 正規分布 する しない 名義尺度 順序尺度 比・間隔尺度 分布不明:最頻値 分布不明なので, 平均 SD 中央値 四分位範囲 15 正規分布の判定 • 以前はヒストグラムを見て判断していた 正規分布? 正規分布ではない • シャピロ・ウイルク検定 データが正規分布するか否かを検定 p≧0.05で「正規分布に従わないとはいえない」= 「正規分布する」と判断 16 正規分布の確認 • 立位体前屈のヒスト グラムを描く ① ② ③ ④ 17 シャピロウイルク検定① • 立位体前屈データ.xls(あらかじめRに読み込む) • 立位体前屈の変数が正規分布するかを検定 ① ② ③ 18 シャピロウイルク検定② ① ② • 立位体前屈をクリックし(①),OKをクリック(②) 19 シャピロウイルク検定③ • ここがp≧0.05であれば,正規分布に従う,と判断 • この例はp=0.6755なので,正規分布に従うと判断 20 群別のシャピロウイルク検定① • 例えば,SLRのカテゴ リー(SLRcat)別に立 位体前屈のシャピロ・ ウイルク検定をしたい 21 群別のシャピロウイルク検定② ① ③ ② 22 群別のシャピロウイルク検定③ ① ② ③ 23 群別のシャピロウイルク検定④ シャピロウイルク 検定の結果 24 対応のある標本の差の検定 平均の差を比較 対応のあるt検定 (パラメトリック法) 中央値の差を比較 Wilcoxonの順位和検定 (ノンパラメトリック法) 25 対応のある標本の差の検定の選択 平均に意味があり,かつ正規分布に従うか? (Shapiro-Wilk検定) Yes 対応のあるt検定 No Wilcoxonの順位和検定 26 自動で差の検定を選択するメニュー • 付加メニューを使用すれば,簡単にできる 27 対応のある差の検定① 28 対応のある差の検定② ① ② ③ • 比較したい変数2つを選んで(①②),[OK](③) 29 対応のある差の検定③ • シャピロウイルク検 定を行って,有意で なければ • 対応のあるt検定, 有意なときはウィル コクソンの検定を出 力する • 効果量(エフェクトサ イズ)も算出する 30 対応のある差の検定の注意点 • パラメトリック・ノンパラメトリックの区別 をきちんと行う 31 2標本の差の検定 平均の差を比較 中央値の差を比較 2標本t検定 (パラメトリック法) Mann-Whitneyの検定 (ノンパラメトリック法) 32 2標本の差の検定の選択 平均に意味があり,かつ正規分布に従うか? (Shapiro-Wilk検定) Yes No 2標本は等分散か? Mann-Whitneyの検定 (ルビーンの検定) p≧0.05 p<0.05 2標本t検定 Welchの方法による 2標本t検定 33 2標本の差の検定① 34 2標本の差の検定② ① ② ③ • 群分けのデータ(①)と,差を見たい変数(②) を選んで[OK](③) 35 2標本の差の検定③ • 群ごとにシャピロウイルク 検定を行う データの数値(0,1)のラベ ルが付く • ルビーンの検定結果 • 2標本t検定,ウェルチの 検定とマンホイットニー検 定が自動で選択される • 効果量も出力 36 2標本の差の検定の注意点 •パラメトリック・ノンパラメトリックの区別 2標本の分散が異なるときはWelch検定を使う Levene検定(またはF検定)で確認(次のスライド) 2群の対象数nが,大きく違わないようにする できれば1:2以内に 37 注意①分散は等しくなければならない • 合併分散推定値が狂う • 事前に等分散検定:Levene検定,F検定 有意差なし(p≧0.05)→2標本t検定 有意差あり(p<0.05)→Welchの検定 38 注意②例数の大きさの違いも影響 • 2標本の大きさが大きく異なってはならない 1:2~1:3以下が望ましいといわれるが… やや差が出難くなる程度(5%の検定で±1%程度) × 比較 n=5 n=100 39 インフルエンザの効果(里見ら,1989) 2回接種 非接種 対象者数 5,115 9,038 平均欠席日数 0.704 0.883 標準誤差 95%信頼区間 この差は意味があるか? 0.024 0.019 0.656 0.751 0.846 0.920 t検定:t値=5.73;p<0.00000001 Wilcoxon検定:z値=5.76;p<0.00000001 40 P値の意味 • 統計的有意の判定基準として使われる [歳] 90 ** p<0.01 75.5±8.6歳 80 70 60 82.7±5.4歳 歩行不可 歩行可 N=19 N=35 p<0.01で有意差がある 有意とは何か? 0.01とは何か? 41 P値の意味:差の検定の場合 • 「平均に差がない」と仮定して,「差がある」と 間違って判断する確率 • 差がない可能性が1%や5%のように小さい =差があると考えた方が妥当,という意味 • 「差がある・ない」の何れかを推定する指標 差の程度を表すものではない 42 有意な差とは?差=0が否定されただけ 差が小さくても有意 差が大きくても有意 • 差とは差が0でなければいくら小さくても良い • バラツキが小さいほど,小さな差でも検出可能 43 わずかな差でも有意差が出る [日数] 80 60 p=0.048 p=0.732 80 52.9 54.7 40 20 60 52.9 54.7 40 n=19 n=34 歩行不可 歩行可 20 n=608 n=1,088 歩行不可 歩行可 • nが大きくなると,ほとんどは有意差がでる • 有意差がある時は,差の程度を考える 44 差の程度を求める:効果量 • 先ほどの2標本t検定の結果を使う • ファイルはeffectsize.xlsを使用 45 シート t検定(r,d,Δ) を選択 46 effectsize.xlsによる効果量の計算 この部分に各群の人数,平均,SDを 入力する 判定結果が出る 47 効果量 effect sizeの目安 • t検定(対応のある場合も2標本も同じ):Cohenのd なし<0.2<小<0.5<中<0.8<大 • ノンパラの差の検定(対応のある場合も2標本も同じ) :r なし<0.1<小<0.3<中<0.5<大 • 相関:相関係数rが効果量 なし<0.1<小<0.3<中<0.5<大 • χ2検定:φ係数,クラメールのV なし<0.1<小<0.3<中<0.5<大 • (重)回帰分析:重相関係数R2 なし<0.2<小<0.13<中<0.26<大 • 分散分析:η2 なし<0.01<小<0.06<中<0.14<大 (参考:水本 篤ほか,2008) 48 1元配置分散分析(ANOVA) • 1つの要因(3群[水準]以上)で,差があるか 事務職 医療職 教育職 要因全体として,差があるかを検定 ノンパラメトリック法:Kraskal-Wallis検定 49 1元配置分散分析の手順 平均が使えて,かつ正規分布に従うデータか? Yes No Kraskal-Wallis検定 ANOVA P<0.05 多重比較法 Tukey法 P≧0.05 P<0.05 差なし 多重比較法 Steel-Dwass法 50 3つ以上の変数の差の検定① • SLRcatによる体前屈の差 スライド40の手順を自動で選択してくれる 51 3つ以上の変数の差の検定② ① ② ③ • 群分けのデータ(①)と,差を見たい変数(②) を選んで[OK](③) 52 3つ以上の変数の差の検定③ • 群ごとにシャピロウイルク検 定を行う データ数値ラベルが付く • 分散分析またはクラスカルワ リス検定が自動選択される • Tukey法またはSteelDwass 法が自動出力される 53 2元配置分散分析 • 2つの要因(3群と地域)につき,3標本以上の差 A村 B町 C市 若年群 壮年群 高齢群 ノンパラメトリック法:無い 54 2元配置分散分析の手順 平均が使えて,かつ正規分布に従うデータか? Yes No ANOVA P<0.05 多重比較法 Tukey法 P≧0.05 差なし 多重比較法 Steel-Dwass法 55 2元配置分散分析① • 立位体前屈データ.xls(あらかじめRに読み込む) • SLRcat,性別による体前屈の差を検定する SLRcatと性別を因子変数へ変換しておく ① ② ③ 56 2元配置分散分析② ①shiftを押しな がら複数選択 ② ③ 57 2元配置分散分析③ SLRの確率 性別の確率 交互作用の確率 • SLR(p<0.01)と性別(p<0.05)に有意な差がある • 交互作用は有意ではない 58 反復測定による分散分析 • 1標本に対して,3変数以上の差を見る 1週間後 2週間後 3週間後 ノンパラメトリック法: Friedman検定 59 反復測定による分散分析の手順 平均が使えて,かつ正規分布に従うデータか? 従う 従わない ノンパラメトリック検定 Friedman検定 P≧0.05 P<0.05 反復測定による分散分析 P<0.05 多重比較法 対応のあるt検定※ (ボンフェローニの修正) 差なし 多重比較法 Wilcoxon検定※ (ボンフェローニの修正) ※検定で出力されたp値にa×(a-1)÷2を乗じて判断 a=水準数 60 反復測定による分散分析① • 体前屈1回目,2回目,3回目の差を知りたい ① ② ③ 61 反復測定による分散分析② • 比較したい変数を,Ctrlキーを押しながらク リックで,複数指定する 62 反復測定による分散分析③ ①シャピロウイルクの結果 (上に出力されるスクリプトウインドウ内の記載順) ②分散分析の結果.シャピロウイルクの結果に よってはフリードマン検定を出力 ③分散分析の時は,対応のあるt検定(ボンフェ ローニ修正). フリードマン検定の時は,ウィルコ クソンの検定(ボンフェローニ修正)の結果が出力 される.有意差がないときは出力されない. 63 多重比較法 • 反復測定の場合は,Tukey,Steel-Dwassの 関数は使えない Rの問題 • 対応のあるt検定,ウィルコクソン検定を行っ て,ボンフェローニの修正を行う 検定で出力されたp値にa×(a-1)÷2を乗じて判 断する(a=水準数) Rでは自動で出力される 64
© Copyright 2024 ExpyDoc