2日目2/20 - 岡山商科大学

スケジュール予定など
• 2日目
• 10:00-11:00頃
• 11:10-12:00頃
•
•
•
•
前回の復習を交え確認事項
統計ソフトやネット利用
統計的検定法
昼食
13:00-14:00頃 検定法の実際-p値ー
14:10-15:00
平均値差のt検定
15:10-16:00
カイ2乗検定と今後の検定手法
ノンパラ検定群へ
1
アフター: もしも…研修後に
• 質問・相談はeメール[email protected]
が最適。メールなら返事確実。その他電話F
AXは086-284-7726(自宅)でも可能。
• 相談の「三種の神器」: 看護研究計画書、使
用アンケート用紙、データ入力エクセルファイ
ル(すでにあれば)
• 遠方の場合メールだけで指導する場合もある
(PC用メールがあるとファイルのやり取りが
便利。連絡なら携帯メールでも可能)
2
大まかな統計分析の流れ 4段階(再掲)
•
•
•
•
•
母集団(未知であり不可視)
標本(可視)
データの収集
アンケート調査
無作為抽出
•
•
•
平均値やクロス表
基礎統計量や集計表
エクセルで行う
推定・検定
統計解析
統計ソフト
や
サイト利用
t検定やカイ2乗検定結果
1
•
•
集計
データ集計
神の領域
第一段階
第二段階
人間界
第三段階
第四段階
3
データ分析の流れ(復習)
•
•
•
•
•
•
•
調査やデータの仮説設定(看護研究計画書)
対象者の選定(標本の決定)
母集団の想定
アンケート実査(アンケート用紙)
データ入力(ほぼエクセル利用)
場合によっては、データ加工やデータ変換
データ分析の対象となる「素データ」が完成
4
散布図→単回帰分析(復習)
• 回帰直線y=x 相関係数Rの2乗(重相関係数)=0.19
• (目安: R2>0.5ならR>0.7なので相関性あり) 今回はなし
40
y=x
R = 0.1859
2
投げ2
30
20
10
10
20
30
40
投げ1
• 散布図の点群(個人)は実線(回帰直線)で19%を代表する
5
基礎統計量算出や度数表を求める
エクセルシートankstat(復習)
6
シートに素データ
を入力して、
下のタブを選ぶと
項目ごとの基礎統計量や度数表
(%表示も可能)を算出
7
分析へ 統計ソフトについて
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• サイト利用
– 総合的:「おしゃべりな部屋」で検索
– 検 定:「すがやみつる」や「こんにちは統計学」サイトも
• 市販ソフトとしては
• SPSS 高い、施設向き、論文投稿には望ましい。世
界的権威ソフト 新規18万円
– ライバル会社にSASがある。安価版としてJUMPも有名
• エクセル統計 4万円、エクセルのアドイン、おおむね
使えるが細かな使い勝手はあまり良くない
• フリーソフト(無料) R 良くできているが上級者で
なければやや使いにくい!研究者向け
8
医療統計向けソフト比較
http://www.kenkyuu.net/comp-soft-01.htmlより引用
9
統計ソフトはネットを利用する
• 近年、さまざまな統計手法がインターネットで利用で
きるようになった
• 分析や計算は、サイト側で行うため、PCでもスマー
トフォンやPadでも利用できる(appleもアンドロイド
も)
• これらの機器は単に自分のデータを入力し、計算結
果を表示するに過ぎない
• 統計計算の有名なサイトは「おしゃべりな部屋」がそ
の代表(群馬大学青木繁先生の開発)
• 検索エンジンで「手法名 計算」でさまざまなサイト
• 例:「ウィルコクソン検定 計算」など
10
検索エンジンで「群馬 青木」で検索
11
統計サイト「おしゃべりな部屋」
12
赤い部分から統計分析サイト
13
「JavaScript」メニューの一例
14
すがやみつる「こんにちは統計学」
15
•
PCやサイトを利用して解く体験
•
医療で良く使う統計的検定を体験する
16
看護に代表的な検定
• t検定(二群の平均値差検定)
– ある測定データの平均値がある値かどうか
– 仮説: 測定データの平均値=46.7
– または、2群の平均は等しいとみなせるか
– 仮説: 群1の平均=群2の平均
• カイ2乗検定(2元クロス表の独立性検定)
– クロス表に傾向や関連性があるか
– 仮説: このクロス表の度数は同じか
17
2つの平均値を比べる
2群の平均値差の検定(t検定)
• 群 平均 SD N
• A 3.2 3.8 5
• B 5.2 8.2 5
• 等分散性の検定
• 有意確率2.3%(有意)
• 2群のばらつきは等しくない
• 平均値差のt検定
• 等分散仮定する 6.4%
• 等分散仮定せず 6.4%
• いずれも平均値差は有意でない
• この2群で平均値3.2と
5.2は母集団上で同程
度と見るか?否か?
• 2群のばらつきは
– 等しくないと判定
• ばらつき等しくない仮定
の下で、
– 2つの平均値が等しいこ
とを否定せず(つまり同
程度)
18
統計的検定法の共通な考え方
• あるグループAとBから平均値や集計表が求められ
た
• この2群は同程度の値や表か、それとも顕著に異な
るか?(有意な差とか有意差)
• 比較する内容や条件で数多くの〇×検定法が世の
中で活用されている
• t検定やカイ2乗検定もその代表
– t検定は2つのグループの平均値が有意か否か
– カイ2乗検定は、クロス表に対する検定手法
19
検定法の流れや考え方
• データから群ごとの統計量や集計表算出
• この量や表をもとに、群の有意差を判定する
• 判定のためには、〇×検定法ごとに「有意水
準p」を算出する
– pによる判定方法は検定法ですべて同じ
– 検定法ごとに異なるのは、p算出の材料とpの計
算方法
– pによる判定法はこの研修で修得
– pの算出はネットやサイト利用が便利
20
2群の平均値差検定の流れ
(俗にt検定と呼ばれる)
• 2つの標本平均値からみて母集団レベルで
「明らかな差」があるといえるか?
• 統計分析(t検定)の3ステップ
• 手順1 2グループの基礎統計量を各々算出
する。
• 手順2 青木のサイトなどで必要な計算ペー
ジにかける(入力形式は2種類ある)
• 手順3 結果のp値から判定する
21
平均値差の検定(t検定)
2群を比較する場合のあれこれ
• ここに患者群A、非患者Bの2群について同じ項目が測定された。薬効、
運動効果、何かの処置効果などなど
• 2群の考え方
– 異なる人々を2つの群と考える・・・・・・繰り返しなし
– 同じ人の前後を測定し2群と考える・・・繰り返しあり
• AとBのケース数が異なっている。良いか?
– かまわない
• AとBの測定日が異なっていて良いか?
– かまわない
• 少ない群は最低ケース数はいくつ?
– 理論上7ケース、実用上20ケース以上程度
• 名義尺度と比率尺度で手法は異なるか?
– 異なる(名義ではt検定は使用できない、理由は平均値が意味を持た
ない)
22
分析Webサイトで解いてみる
• 「U検定 サイト」で検索、その中で「こんにちは統計
学」で計算ページがあった。計算させてみる
• 田中のページの右隅からサイトへ進む
• (あえて、青木のページt検定を、なぜなら、最近に
なって青木のページは検索エンジンで出にくい)
• JavaScriptの(26)2群の平均値差の検定へ
• 使えそうな計算サイト
– 「こんにちは統計学」サイト すがやみつる
– 旧「おしゃべりな部屋」サイト 青木繁伸
23
対応のあるデータ、ないデータ
• 対応あり(繰り返し)と考えられる場合
– 同じ人やグループを追跡して測定
•
•
•
1回 2回 3回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
特定の入院患者を追跡など
• 対応ないと考えられる場合
– 毎回グループの構成者を取り替えて測定
•
岡山 東京 大阪 福岡・・・
• 人口
• 生産額
不特定の外来患者や入院患者
• 学生数
をサンプルとして
24
24
応用1 平均などで独立2標本検定
• http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest.html
• 素データがなく、平均、標準偏差、ケース数
のみがある場合のサイト
• 対応なしの場合、t検定
• 旧おしゃべりな部屋、Javascript、26番2群の
平均値差の検定を参照
25
手順1 基礎統計量の計算
• エクセルの関数計算をする
– average(),stdev(),count()など使用
• またはankstatシートで各群ごとに求める
• 2つの群の統計表を完成しておく
•
人数
平均値
標準偏差
• A群
• B群
26
手順2 分析サイトに入力する
•
•
•
•
2種類のサイトのどちらか
タイブ1 2群の統計表を入力するサイト
(この場合、手順1は必要ない)
http://aoki2.si.gunmau.ac.jp/Java/TwoSamples/bin/TwoSample
s.html
• タイプ2 統計表を入力する
• http://aoki2.si.gunmau.ac.jp/Java/StatCalc/bin/StatCalc.html
27
入力タイプ1 PC画面の例
(集計データ入力タイプ)
28
タイプ2 素データ入力タイプ
29
どちらのタイプでもp値得られる
結果の一例
p値が複数ある場合、
関連したあるいは別の
検定結果も合わせて算
出している場合がある
30
手順3 いよいよ判定
• 検定結果p値を求める ソフトによっては、有意確率
という場合あり
• p値の大小により決定する(すべての検定で同じ)
• 採択の場合(棄却しない、差ありを保留する)
– P>0.05 P>5%
有意でない(2群は同じ)
• 棄却(母集団レベルで顕著な差あり)の場合
– 0.01<P<0.05
5%有意 星1つ *
– 0.005<P<0.01 1%有意 星2つ **
– 0.001<P<0.005 0.5%有意 星3つ ***
• 星の数はさほど重要ではない
31
ちなみにボール投げの場合・・・
•
•
•
•
•
•
•
•
•
•
計算結果から3つのp値が出てきます
二群の等分散性の検定
F 値 = 0.18593 自由度 = ( 14, 14 )
p 値 = 0.00332 (両側確率)
通常の t 検定(等分散性が仮定できるとき)
t 値 = 0.00000 自由度 = 28
p 値 = 1.00000
等分散性が仮定できないとき(Welch の方法)
t 値 = 0.00000 自由度 = 19.03215
p 値 = 1.00000 (小数自由度に対応した正確
な値)
32
どのp値を使用すれば?
• どれを使えばいいですか?
• t検定では2群が「等分散(バラつきが同じ程度)」と
仮定します。1つめのpは等分散性を検定しています。
• P=0.003なので、正規性は棄却されました
• 2つめは等分散性を採択の場合のp値
• 3つめは等分散性を棄却の場合のp値
• この場合は2つめのp値が目的の判断で十分です
• (2つめと3つめは同じp=1.00>0.05なので棄却)
• 2つの平均値には差がない(採択)という判定を下しま
す。
33
例題3の解決例:
青木サイトJavaの5番で解くと
34
左と右に各群の値を入力して、計算
開始ボタンを押すだけ
この例のように、t検定だけでなく、マン・ホイットニ検定もボタン
1つで行える
35
出力欄に検定結果が表示される
36
二群の平均値差の検定 演習問題
•
•
•
•
いずれもt検定(対応なし)として平均値差を検定せよ。青木サイトを使用する。
問1 群 平均 SD N
問2
A 3.2 3.8 5
B 5.2 8.2 5
•
問3 ある地区で行った40 歳
• 以上 65 歳未満の住民検診
に来所した男子 42 名,女子
• 63 名の血色素量について
• の検査成績は,男子では平
• 均値 15.2 g/dl,不偏分散
• 1.1,女子では平均値 12.7
• g/dl,不偏分散 3.2 であった。
• 男女の平均値に差はあるか,
37
まとめると
• 問3 免疫グロブミン値(の平均)に差があるか?
–
–
–
–
等分散性の検定 P値=0.906 採択
「2つの群は同じ程度のバラつきと考える」
通常のt検定 P値=0.00(小さい) 棄却
Welchの方法 P値=0.00 棄却
• 結論
• 2つのバラつき方はほぼ同じと見てよい。
• 免疫グロブミン値は、健常群と透析群では、有意で
あった。(2群の平均は顕著に異なる)
• 透析群の平均値が高い。
38
名義尺度でも使える検定
クロス表の独立性の検定(カイ2乗)
•
•
•
•
•
•
•
•
通称、カイ2乗検定
名義尺度では平均値が意味を持たない
そこで表に集計する。
一次元の表こそ度数分布表
2次元以上をクロス集計表
ではこの表での仮説とは
「クロス表のマス目(セル)は同じ割合かどうか」
「クロス表に偏りがあるのかないのか」
39
(2×2)クロス表とはこんなもの
•
•
•
•
•
•
行と列で作表する
ただ集計したので分布に関係しない
クロス表は因果を示している(行と列どちらでも)
行側:原因→列側:結果
例: 対応なし 投薬有無と結果や運動有無×効果
対応あり 1回目と2回目の状況
40
2×2クロス表(分割表)
• クロス表の最小形式(基本)
• さまざまなクロス表
41
• P=1.00 P=0.38
•
0.02
1.00
•
0.02
1.00
42
http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
JavaScriptの40番目
43
クロス表の独立性の検定
通称カイ2乗検定
• 正規性を仮定しない頑健な手法です
• 2×2クロス表の精密なカイ2乗検定
– http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
• R×C表 クロス表入力 通常版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• R×C表 クロス表入力 正確計算版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html
– (計算量が多いため通常版で十分)
• R×C表 素データで入力する版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
44
クロス表独立性の検定
演習問題 各表は独立か?
• 問1 0.83、2 0.76、3 0.31、4 0.60 5 0.01 6 0.00
•
採択
採択
採択
採択 棄却
棄却
45
統計的検定法(群)
• 統計手法の中で「検定(test)」は医療統計で
よく使われます。
• 薬効評価、効果判定のために用いられます
• 以前は、平均値を比較するパラメトリック検定
群(t検定など)が用いられましたが、最近で
はノンパラメトリック検定群(ウィルコクソン検
定など)が多く用いられています。
• いずれもp値で判定します。
46
補足2 代表的なノンパラメトリック検定法
• 統計的検定では、普通データが「正規分布」に従うことが前
提となっています。
• しかし、近年「正規性を仮定しない」検定手法が、医学分野で
もてはやされています。
• これらの検定法を「ノンパラメトリック」手法と呼んで代表は以
下の通りです。
• 対応のない2標本(群)の代表値差
– マンーホイットニのU検定
– 2標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある2標本(群)の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
47
ノンパラ検定の続き
• 対応のないk標本(群)の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるk標本(群)の代表値差
• フリードマン検定
• ノンパラ検定は仮定が少なく「頑健」な検定方法です
が、性能はt検定に劣ります。切れ味は良いが折れ
やすいナイフか切れ味は少々鈍いがなかなか折れ
ないナイフ。あなたはどちらのナイフを使いますか?
48
パラメトリック検定
• 集めたデータが正規分布しそうな場合に適
• 検定力は強い
• 平均値と標準偏差に関する検定がおも
• 2群(実験群と対照群)の平均値差検定
• =通称:t検定が有名
49
ノンパラメトリック検定群
•
•
•
•
正規分布を仮定しない
検定力はパラメトリック検定にやや劣る
頑健な検定法
多いのは、平均値など代表値差の検定が多
い
• クロス表のカイ2乗検定もノンパラ検定法の1
つ
50
主な統計的検定法の体系図
51
まとめましょう
• 正規分布を仮定できそうな時
– 平均値に関するt検定
• 正規分布を仮定できそうでない時
– ノンパラメトリックな検定法
• 仮説は次に固定すると理解し易い
– H0: A=B H1:A≠B(両側検定)
• 計算は統計ソフトやWebサイトで行う
• 有意かどうかの判定は有意水準p値で行う
52
2日間を通した学び
•
•
•
•
•
•
•
•
□ 統計はデータで決まる
□ 実はデータ集め、データ加工が勝負
□ 分析は理解できるものから一歩ずつ
□ 使えるソフトはサイトにあり
□ 聞いたことない分析手法にご用心
□ できる手法もまずは用法を知ろう
□ 相関(回帰)と検定を中心にトライした
□ 統計解析は職人芸。使いなれたノミでこそ仮説
(岩)は砕ける。見える化(視覚)を忘れずに
53
統計手法用語の学び
• 母集団と標本集団
• 行と列、欠測値、ケースと
項目、全数調査
• 質的研究と量的研究
• 基礎統計量、グラフ
• エクセルの基本関数
• 散布図
• 回帰分析
• 相関係数と決定係数
• 2群の平均値差検定
• クロス表、分割表、度数表
•
•
•
•
•
•
•
•
統計処理は青木サイト
集計処理はアンクスタット
統計的仮説検定
H0とH1
採択と棄却
有意水準p(p値)
度数表とクロス表
ほんのさわり
–
–
–
–
多変量分析の役割や用途
正規性の仮定
ノンパラメトリック検定
統計学の戦略と流れ
54
研修でのおすすめ本
• 看護関係の書類、書籍ばかり読んでいませんか?
• たまにはこんな書籍で頭をリフレッシュ
•
•
•
•
「統計学が最強の学問である」、西内啓一、
ダイヤモンド社、2013。文系出身の著者が
ビッグデータ時代に統計重要さを啓蒙し
た本。13年のビジネスベストセラー
• 「統計学を拓いた異才たち」、竹内忠行、熊谷悦生訳、日本
経済新聞社、2010。統計学をキチンと知るためには良いが
入門書には絶対お奨めできない。無骨であり精緻な1冊。し
かしためになったなぁ。統計を学んでいる人には一度目を
通して欲しい本。
55
個別相談で多い内容
• 統計分析の記述は
• [email protected].
これでよいか?
jpにメールをどうぞ
• プレゼンのグラフは
• 随時、突然で結構
これで良いか?また
• 携帯からで十分です
は何グラフ使う?
がファイル送信や結 • 検定や分析の解釈
果受け取りの場合
はこれで良いか?
はPCメールがいい
• このデータでこの結
でしょう
論は言えるか?
56
エンディング 研修の最後に
• サヨナラは別れの言葉じゃなくて
• 再び会うまでの遠い約束
• (引用:「セーラー服と機関銃」、薬師丸ら、1981)
57