Document

パソコンを用いた統計解析テクニック
弘前大学大学院保健学研究科 対馬 栄輝
鳴海研究所清明会鳴海病院
石田 水里
新潟県立リウマチセンター
水澤 一樹
テクニカル(実技)セミナー6
10月2日(金)15:50~17:50 会場3
1
セミナーの流れ
• 差の検定と効果量の計算
• 分散分析
• 相関・回帰
2
R起動後
コマンドプロンプト
R Console画面
• 2つの画面が起動する
R コマンダー画面
3
例題:立位体前屈データ.xls
• N=36で,立位体
前屈と,それに影
響すると思われる
変数を評価した
データ
• 立位体前屈が正
規分布に従うか
確認する
4
エクセルからRへデータを読み込む
5
エクセルデータの準備
余分な情報
削除する
最上行1行目に変数名を入れる
データは数字以外は入れない
データ以外の余計な値は削除しておく
6
エクセルからRコマンダーへ
①
②
③
④R上でのデータ名を決める
ここでは,エクセルと同じ名前
⑤OKをクリック
7
エクセルデータを指定
• 指定後は [開く] をクリック
8
Rへのデータ読み込み
データセットの編集ボタンで
取り込んだデータを表示出来る
9
カテゴリーデータへの変更
 カテゴリーデータは因子変数へ変
更しておく必要がある
10
カテゴリーデータを因子変数へ変換
①
②
③
11
因子変数への変更
• 性別は0-1型の群分けデータ
• 性別(①)を選び,[因子水準]は[数値で](②)
にチェック,最後に[OK]ボタン(③)
①
②
③
12
警告
• この警告は無視して,YESをクリック
13
統計的検定のための重要事項
①データ尺度
名義尺度,順序尺度,間隔尺度,比率尺度
②分布の判断
正規分布か,それ以外か
• 有効な特性値を決める
代表値(平均,中央値)
散布度(標準偏差[分散])
14
特性値の使い分け
正規分布
する
しない
名義尺度
順序尺度
比・間隔尺度
分布不明:最頻値
分布不明なので,
平均
SD
中央値
四分位範囲
15
正規分布の判定
• 以前はヒストグラムを見て判断していた
正規分布?
正規分布ではない
• シャピロ・ウイルク検定
 データが正規分布するか否かを検定
 p≧0.05で「正規分布に従わないとはいえない」=
「正規分布する」と判断
16
正規分布の確認
• 立位体前屈のヒスト
グラムを描く
①
②
③
④
17
シャピロウイルク検定①
• 立位体前屈データ.xls(あらかじめRに読み込む)
• 立位体前屈の変数が正規分布するかを検定
①
②
③
18
シャピロウイルク検定②
①
②
• 立位体前屈をクリックし(①),OKをクリック(②)
19
シャピロウイルク検定③
• ここがp≧0.05であれば,正規分布に従う,と判断
• この例はp=0.6755なので,正規分布に従うと判断
20
群別のシャピロウイルク検定①
• 例えば,SLRのカテゴ
リー(SLRcat)別に立
位体前屈のシャピロ・
ウイルク検定をしたい
21
群別のシャピロウイルク検定②
①
③
②
22
群別のシャピロウイルク検定③
①
②
③
23
群別のシャピロウイルク検定④
シャピロウイルク
検定の結果
24
対応のある標本の差の検定
平均の差を比較
対応のあるt検定
(パラメトリック法)
中央値の差を比較
Wilcoxonの順位和検定
(ノンパラメトリック法)
25
対応のある標本の差の検定の選択
平均に意味があり,かつ正規分布に従うか?
(Shapiro-Wilk検定)
Yes
対応のあるt検定
No
Wilcoxonの順位和検定
26
自動で差の検定を選択するメニュー
• 付加メニューを使用すれば,簡単にできる
27
対応のある差の検定①
28
対応のある差の検定②
①
②
③
• 比較したい変数2つを選んで(①②),[OK](③)
29
対応のある差の検定③
• シャピロウイルク検
定を行って,有意で
なければ
• 対応のあるt検定,
有意なときはウィル
コクソンの検定を出
力する
• 効果量(エフェクトサ
イズ)も算出する
30
対応のある差の検定の注意点
• パラメトリック・ノンパラメトリックの区別
をきちんと行う
31
2標本の差の検定
平均の差を比較
中央値の差を比較
2標本t検定
(パラメトリック法)
Mann-Whitneyの検定
(ノンパラメトリック法)
32
2標本の差の検定の選択
平均に意味があり,かつ正規分布に従うか?
(Shapiro-Wilk検定)
Yes
No
2標本は等分散か?
Mann-Whitneyの検定
(ルビーンの検定)
p≧0.05
p<0.05
2標本t検定
Welchの方法による
2標本t検定
33
2標本の差の検定①
34
2標本の差の検定②
①
②
③
• 群分けのデータ(①)と,差を見たい変数(②)
を選んで[OK](③)
35
2標本の差の検定③
• 群ごとにシャピロウイルク
検定を行う
 データの数値(0,1)のラベ
ルが付く
• ルビーンの検定結果
• 2標本t検定,ウェルチの
検定とマンホイットニー検
定が自動で選択される
• 効果量も出力
36
2標本の差の検定の注意点
•パラメトリック・ノンパラメトリックの区別
2標本の分散が異なるときはWelch検定を使う
Levene検定(またはF検定)で確認(次のスライド)
2群の対象数nが,大きく違わないようにする
できれば1:2以内に
37
注意①分散は等しくなければならない
• 合併分散推定値が狂う
• 事前に等分散検定:Levene検定,F検定
 有意差なし(p≧0.05)→2標本t検定
 有意差あり(p<0.05)→Welchの検定
38
注意②例数の大きさの違いも影響
• 2標本の大きさが大きく異なってはならない


1:2~1:3以下が望ましいといわれるが…
やや差が出難くなる程度(5%の検定で±1%程度)
×
比較
n=5
n=100
39
インフルエンザの効果(里見ら,1989)
2回接種
非接種
対象者数
5,115
9,038
平均欠席日数
0.704
0.883
標準誤差
95%信頼区間
この差は意味があるか?
0.024
0.019
0.656
0.751
0.846
0.920
t検定:t値=5.73;p<0.00000001
Wilcoxon検定:z値=5.76;p<0.00000001
40
P値の意味
• 統計的有意の判定基準として使われる
[歳]
90
** p<0.01
75.5±8.6歳
80
70
60
82.7±5.4歳
歩行不可 歩行可
N=19 N=35
p<0.01で有意差がある
有意とは何か?
0.01とは何か?
41
P値の意味:差の検定の場合
• 「平均に差がない」と仮定して,「差がある」と
間違って判断する確率
• 差がない可能性が1%や5%のように小さい
=差があると考えた方が妥当,という意味
• 「差がある・ない」の何れかを推定する指標
差の程度を表すものではない
42
有意な差とは?差=0が否定されただけ
差が小さくても有意
差が大きくても有意
• 差とは差が0でなければいくら小さくても良い
• バラツキが小さいほど,小さな差でも検出可能
43
わずかな差でも有意差が出る
[日数]
80
60
p=0.048
p=0.732
80
52.9
54.7
40
20
60
52.9
54.7
40
n=19
n=34
歩行不可 歩行可
20
n=608 n=1,088
歩行不可 歩行可
• nが大きくなると,ほとんどは有意差がでる
• 有意差がある時は,差の程度を考える
44
差の程度を求める:効果量
• 先ほどの2標本t検定の結果を使う
• ファイルはeffectsize.xlsを使用
45
シート t検定(r,d,Δ)
を選択
46
effectsize.xlsによる効果量の計算
この部分に各群の人数,平均,SDを
入力する
判定結果が出る
47
効果量 effect sizeの目安
• t検定(対応のある場合も2標本も同じ):Cohenのd
なし<0.2<小<0.5<中<0.8<大
• ノンパラの差の検定(対応のある場合も2標本も同じ) :r
 なし<0.1<小<0.3<中<0.5<大

• 相関:相関係数rが効果量

なし<0.1<小<0.3<中<0.5<大
• χ2検定:φ係数,クラメールのV

なし<0.1<小<0.3<中<0.5<大
• (重)回帰分析:重相関係数R2

なし<0.2<小<0.13<中<0.26<大
• 分散分析:η2

なし<0.01<小<0.06<中<0.14<大
(参考:水本 篤ほか,2008)
48
1元配置分散分析(ANOVA)
• 1つの要因(3群[水準]以上)で,差があるか
事務職
医療職
教育職
要因全体として,差があるかを検定
ノンパラメトリック法:Kraskal-Wallis検定
49
1元配置分散分析の手順
平均が使えて,かつ正規分布に従うデータか?
Yes
No
Kraskal-Wallis検定
ANOVA
P<0.05
多重比較法
Tukey法
P≧0.05
P<0.05
差なし
多重比較法
Steel-Dwass法
50
3つ以上の変数の差の検定①
• SLRcatによる体前屈の差
 スライド40の手順を自動で選択してくれる
51
3つ以上の変数の差の検定②
①
②
③
• 群分けのデータ(①)と,差を見たい変数(②)
を選んで[OK](③)
52
3つ以上の変数の差の検定③
• 群ごとにシャピロウイルク検
定を行う

データ数値ラベルが付く
• 分散分析またはクラスカルワ
リス検定が自動選択される
• Tukey法またはSteelDwass
法が自動出力される
53
2元配置分散分析
• 2つの要因(3群と地域)につき,3標本以上の差
A村
B町
C市
若年群
壮年群
高齢群
ノンパラメトリック法:無い
54
2元配置分散分析の手順
平均が使えて,かつ正規分布に従うデータか?
Yes
No
ANOVA
P<0.05
多重比較法
Tukey法
P≧0.05
差なし
多重比較法
Steel-Dwass法
55
2元配置分散分析①
• 立位体前屈データ.xls(あらかじめRに読み込む)
• SLRcat,性別による体前屈の差を検定する

SLRcatと性別を因子変数へ変換しておく
①
②
③
56
2元配置分散分析②
①shiftを押しな
がら複数選択
②
③
57
2元配置分散分析③
SLRの確率
性別の確率
交互作用の確率
• SLR(p<0.01)と性別(p<0.05)に有意な差がある
• 交互作用は有意ではない
58
反復測定による分散分析
• 1標本に対して,3変数以上の差を見る
1週間後 2週間後 3週間後
ノンパラメトリック法: Friedman検定
59
反復測定による分散分析の手順
平均が使えて,かつ正規分布に従うデータか?
従う
従わない
ノンパラメトリック検定
Friedman検定
P≧0.05
P<0.05
反復測定による分散分析
P<0.05
多重比較法
対応のあるt検定※
(ボンフェローニの修正)
差なし
多重比較法
Wilcoxon検定※
(ボンフェローニの修正)
※検定で出力されたp値にa×(a-1)÷2を乗じて判断
a=水準数
60
反復測定による分散分析①
• 体前屈1回目,2回目,3回目の差を知りたい
①
②
③
61
反復測定による分散分析②
• 比較したい変数を,Ctrlキーを押しながらク
リックで,複数指定する
62
反復測定による分散分析③
①シャピロウイルクの結果
(上に出力されるスクリプトウインドウ内の記載順)
②分散分析の結果.シャピロウイルクの結果に
よってはフリードマン検定を出力
③分散分析の時は,対応のあるt検定(ボンフェ
ローニ修正). フリードマン検定の時は,ウィルコ
クソンの検定(ボンフェローニ修正)の結果が出力
される.有意差がないときは出力されない.
63
多重比較法
• 反復測定の場合は,Tukey,Steel-Dwassの
関数は使えない
 Rの問題
• 対応のあるt検定,ウィルコクソン検定を行っ
て,ボンフェローニの修正を行う
 検定で出力されたp値にa×(a-1)÷2を乗じて判
断する(a=水準数)
 Rでは自動で出力される
64