データ分析について

2008/9/24 岡山県看護協会一般研修資料
データ分析の基礎知識
総論編
岡山商科大学商学部
商学科長・教授田中潔
あなたはなぜデータ分析を迫られるのか？
• 素直なあなたはスタッフから相談を受けます
– アンケートの集計を手伝って→手伝いが中心に
– あなたはエクセルが分かるから分析ね！
– ＰＣができることと統計が分かることを混乱した上司に恵
まれた
• 院内研究が回ってきた
– 予算はあまりない、スタッフの協力にたよる
• 学外･論文投稿が迫ってきた
– 国内や世界標準での点検・確認
その結果
• 断ることは許されない
• 自分は統計を知らない→習っていないものがわか
るものか
• 私は理屈っぽく考えるのがイヤ！
• 私は数学がいやで看護へ来たのに
• 看護に統計はいらない
• 調査では患者ひとり一人は援助できない
•
統計ギライがこの世にまたひとり
データ分析の背景
• 国勢調査や行政調査
– 国・県などの公的調査
– 国勢調査は統計法に基づく
http://www.stat.go.jp/index/seido/houbun2.htm
– 政府統計ポータルサイト
– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング（市場調査）・世論調査
– ある目的のため市場を調査する
– アンケート調査
• 実験や臨床研究、業務改善
– 比較的小規模
量か質か
• 量的研究（学部卒レベル）
– 通常のアンケート調査、多くの場合対象者全員からの回
答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること
• 質的研究（院レベル）
– 通常のインタビュー調査、症例研究、観察など
– 未知なる問題の場合、仮説を発見するために比較的小規
模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南
小樽病院瀬畠さん
母集団と標本
• 母集団：未知、標本：既知
• 仮説の下で考える理想的な集団。標本はこ
の母集団から無作為に取り出された部分集
団
母集団：未知
無作為
抽出
標本・サンプル
既知：データ分析の対象
未知または既知
標本は分析できる
悉皆（しっかい）調査
•
•
•
•
母集団の全員が標本として測定されたこと
母集団サイズ＝標本サイズ
標本での分析結果がすべて母集団結果
標本を捉えることの意義
– 標本の示す傾向＝母集団の中心的な傾向＋
個々の誤差
統計解析法の目的
• 推定・推測：標本から母集団値を求める
– 一般には標本値±誤差を決める
• 予測：時系列データから将来を推測
– 方程式を作成する
• 記述統計：標本を示す値やグラフで視覚化
• 検定・テスト：比較し判定する、○×効果
• 多変量分析群
– ３つ以上の項目からなるデータを分析する
統計の中の個人・ひとり
•
•
•
•
•
•
•
個人（表層へ出現）＝
中心的な傾向（未知）＋誤差（未知）
この中心的傾向または誤差を把握する。
私は60ｋｇ＝標準体重＋誤差
標準体重：仮に50ｋｇ
誤差： 60-50＝10ｋｇ
実は、中心的傾向とは平均値のこと
多変量解析の目的
• ① いろいろな要因によってある項目を予測
したい
• ② 観測された複数の項目から総合的指標
を作りたい
• ③ ものや項目の関係を視覚化したい
• ④ ものや項目を分類したい
• ⑤ 項目かんの関係や構造を知りたい
主な多変量解析手法
• 予測：
– 回帰分析、数量化１・２類、判別分析
• 指標：
– 回帰分析、数量化１～３類、主成分分析、因子分析
• 視覚化：
– グラフ解析、数量化３・４類、主成分分析
• 分類：
– クラスター分析
• 潜在構造：
– 因子分析、共分散構造分析
データの値：４つの測定尺度
• 名義尺度
情報量小
– 名前を区別するため演算は出来ない
– 1.男性 2.女性度数表やクロス表は可
• 順序尺度
– ゆるい順序性のみ許す演算は本来△
– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度
– 絶対ゼロを定めない量演算は加減のみ
– ℃（摂氏）、カレンダー月
• 比率尺度
– 絶対ゼロを基準とした計測値加減乗除可能
– 実験データ全て
情報量大
行側（ｷﾞｮｳｿｸ）と列（ﾚﾂｿｸ）側
•
•
•
→列側（項目、変数、変量）
行側↓
（ケース）
ケースと項目
•
•
•
•
•
ケースとは１件の標本を示す
ケースは個体を示す
時系列の場合時間変化
項目は列単位→１つの変数
１変数の集計や分析
– １列ごとに処理するデータ
• ２変数の集計
– ２列ごとに処理
• 多変数の処理
– ３列以上をまとめて処理
入力したデータ
有効数字について
• 計算結果を小数点何桁まで取るべきか？
• 答え
• 測定値で影響されます。
– 身長160ｃｍは「センチ単位」で測定されました。
– 160.1かも160.4かも知れません。
– 有効数字小数点以下0桁でした。
• そこで平均値など計算結果の表示は、ひと桁多くし
小数点以下１桁（２桁目を四捨五入して）で表示しま
しょう
• 教訓
• 計算結果の有効数字は測定値よりも１桁多く
欠測値について
• 計測されなかった、計測できなかった値
– 欠測値という
• 表ソフトで欠測値には0ゼロを入力しない
– エクセルの場合何も入力しない
– セル値の削除はdeleteキーで
– 0は計測値として計算してしまいます
• 99や0など特定値を入れることは
– 一部の統計ソフトでは除外可能だが、エクセルと
の互換性を考えると入力しない方が無難でしょう
最初のデータ分析
• 記述統計量とは
–
–
–
–
–
平均値
標準偏差
最大、最小値
中央値
度数集計表
エクセルによる基礎統計量
• 関数で求める
– 平均
– 標準偏差
– 中央値
– 最大値
– 最小値
＝ＡＶＥＲＡＧＥ（範囲指定）
＝ＳＴＤＥＶ（範囲指定）
＝ＭＥＤＩＡＮ（範囲指定）
＝ＭＡＸ（範囲指定）
＝ＭＩＮ（範囲指定）
２つの項目の
基礎集計
投げ１のヒストグラム
投げ１と投げ２を書き分ける
平均＋標準偏差＝高値、平均ー標準偏差＝低値
株価グラフを応用して
40.00
30.00
高値
低値
平均
20.00
10.00
0.00
投げ１
投げ２
散布図は２項目の関係図
40
投げ２
30
20
10
10
20
30
投げ１
40
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析
• 回帰直線ｙ＝ｘ相関係数ｒ＝0.43
40
y=x
R = 0.1859
2
投げ２
30
20
10
10
20
30
投げ１
40
データ分析のポイント
•
•
•
•
•
•
•
□
□
□
□
□
□
→
調査の種類、母集団と標本のちがい
統計手法は目的に応じてたくさんある
行と列→ケースと項目、測定尺度
表ソフトへのデータ入力様式
基礎統計のエクセル関数
グラフ→２項目散布図と回帰式
次は検定をマスターしよう
• 統計手法の中で「検定（Ｔｅｓｔ）」は医療統計で
よく使われます。
• 薬効評価、効果判定のために用いられます
• 以前は、平均値を比較するパラメトリック手法
が用いられましたが、最近ではノンパラメト
リック検定が多く用いられています。
仮説検定の考え方を知る
統計的検定はどんなもの
• ある仮説（○＝△）を判定する
– 例：この実験結果＝160.0
– 例：群１の平均＝群２の平均
• 判定結果は採択、または棄却の２分法
• 採択とは「この仮説を積極的に否定しない」
– （厳密には仮説を認めたくないがやむを得ない）
• 棄却とは「この仮説を積極的に否定する」
看護に代表的な検定
• ｔ検定
• ある測定データの平均値がある値かどうか
– 仮説：測定データの平均値＝46.7
• ２群の平均は等しいとみなせるか
– 仮説：群１の平均＝群２の平均
• カイ２乗検定
• クロス表に傾向や関連性があるか
– 仮説：このクロス表の度数は同じか
（統計的）仮説検定の流れ
• ある検定手法を選択する（パラでもノンパラでも）
• 帰無仮説Ｈ０：とは
– 否定する（だろう）ための仮説
– 帰無＝無に帰する＝否定を期待する
• 対立仮説Ｈ１：とは
– 帰無仮説以外の結果
– Ｈ０を否定するだけなので積極的な採択はしない
•
•
•
•
Ｈ０：とＨ１：を対にして用意する
分析データを統計ソフトにかける→有意水準を求める
有意水準の値に応じてＨ０かＨ１かを判定する
目的に応じて手法はたくさん存在する
仮説の立て方
• １．自分の持っている仮説（作業仮説ともいう）を対
立仮説Ｈ１とする
• ２．Ｈ１の否定（逆）をＨ０とする
• ３．Ｈ０は○＝△のように等号で作成するのがよい
• ４．Ｈ０：○＝△とした時、３種類のＨ１が考えられる
•
Ｈ１その１： ○＞△ 片側検定
•
Ｈ１その２： ○＜△ 片側検定
•
Ｈ１その３： ○≠△ 両側検定
仮説の事例
• 新薬Ｂは薬Ａより効果あることを証明したい
• Ｈ０は等号関係で作成すると良い
– Ｈ０：新薬Ｂ＝薬Ａ（同じ、効果なし）で決まり！
•
•
•
•
•
Ｈ１には３つの作り方あり
① Ｈ１：新薬Ｂ＞薬Ａ効果ある片側
② Ｈ１：新薬Ｂ＜薬Ａ効果劣る片側
③ Ｈ１：新薬Ｂ≠薬Ａ同じでない両側
「効果ある」なので通常③を採用
仮説Ｈ１に方向性があるならば両側検定
•
•
•
•
•
•
•
•
関係があるかないか
ない＝ある≠
両側検定
正（負）や大小の関係があるかないか
ない＝ある＞
片側検定
優れている（劣っている）
同じ＝＜や＞
片側検定
同じか否か
同じ＝同じでない≠ 両側検定
Ｈ０とＨ１の例
– Ｈ０：日本人の平均１６０センチ平均＝160
– Ｈ１： 160センチではない（何センチかは不明）
• Ｈ０はハッキリと１点で指定するのが普通（点
指定）
• Ｈ１は指定された１点以外のすべて（だから
はっきりと値が判定できない）
•
○
残り全てがＨ０
Ｈ０
棄却と採択
• Ｈ０が明らかに成立しないならば棄却
– つまりＨ１を採用
• Ｈ０は帰無したいがどうしても棄却できない状
態のことを採択（＝積極的には帰無・棄却し
ない）という
– つまりＨ０を採用する
検定に見る計算と判定
• 計算：統計ソフトなどを使用する
• 判定：出てくる結果の有意確率か有意水準
の値により判定
• 有意水準＞0.05 有意水準5％以上で採択
• 0.5％以下ならば棄却された
• 0.05～0.01 5％有意＊
星１つ
• 0.01～0.005 1％有意＊＊
星２つ
• 0.005より小 0.5％有意＊＊＊星３つ
まとめましょう
• 正規分布を仮定できそうな時
– 平均値に関するｔ検定
• 正規分布を仮定できそうでない時
– ノンパラメトリックな検定法
• 仮説は次に固定すると理解し易い
– Ｈ０：Ａ＝ＢＨ１：Ａ≠Ｂ（両側検定）
• 計算は統計ソフトやＷｅｂサイトで行う
• 有意かどうかの判定は有意水準で行う
検定の実際に慣れる
統計ソフトについて
• 記述統計、グラフなどはエクセルで十分
• 検定、多変量分析となると専用ソフトが望ましい
• http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生の
サイトで間に合うことも多い。いつまで続くかは不明
• 市販ソフトとしては
• ＳＰＳＳ高い、施設向き、論文投稿には望ましい。
世界的権威ソフト新規18万円
• エクセル統計 4万円、エクセルのアドイン、おおむ
ね使えるが細かな使い勝手はあまり良くない
• フリーソフト（無料）Ｒ良くできているが上級者で
まければ使いにくい！
医療統計向けソフト比較
http://www.kenkyuu.net/comp-soft-01.htmlより引用
２グループの平均値差検定
（通称ｔ検定）
•
•
•
•
仮説は以下のとおりに立てる
Ｈ０：平均１＝平均２（２つの平均は同じ）
Ｈ１：平均１≠平均２（同じでない）→両側
注意
– Ｈ０：平均１≠平均２（同じでない）
– Ｈ１：平均１＝平均２（２つの平均は同じ）
のように逆には立てない
Ｈ０は等号関係で作ります！
パラメトリック検定
• 集めたデータが正規分布しそうな場合に適
• 検定力は強い
• 平均値と標準偏差に関する検定がおも
• ２群（実験群と対照群）の平均値差検定
• ＝通称：ｔ検定が有名
サイトで行う２群平均値差の検定（ｔ検定）
•
•
•
•
•
次の２群の平均値は同じとい
えるか
平均ケース数標準
偏差
Ａ群 10.0
10
5
Ｂ群 10.5
20
15
•
•
•
•
等分散性 0.002 棄却
２群は同じ分散ではない
平均値差 0.894 棄却
平均値は等しくない
使用サイト
http://aoki2.si.gunmau.ac.jp/Java/StatCalc/dist/St
atCalc.html
ノンパラメトリック検定群
•
•
•
•
正規分布を仮定しない
検定力はパラメトリック検定にやや劣る
頑健な検定法
多いのは、平均値など代表値差の検定が多
い
• クロス表のカイ２乗検定もノンパラ検定法の１
つ
パラメトリックｖｓノンパラ比較表
• http://aoki2.si.gunmau.ac.jp/lecture/Kentei/nonpara.htmlより引用
主な統計的検定法の体系図
クロス表の独立性の検定
通称カイ２乗検定
• 実はノンパラメトリックな検定手法の１つです
• ２×２クロス表の精密なカイ２乗検定
– http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html
• Ｒ×Ｃ表クロス表入力通常版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• Ｒ×Ｃ表クロス表入力正確計算版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html
– （計算量が多いため通常版で十分）
• Ｒ×Ｃ表素データで入力する版
– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
代表的なノンパラメトリック検定法
• 対応のない２標本（群）の代表値差
– マンーホイットニのＵ検定
– ２標本コルモゴロフースミロノフ検定
– ファンデル・ワーデン検定
– 中央値検定
• 対応のある２標本（群）の代表値差
– ウイルコクソン符号検定
– ウイルコクソン符号付順位和検定
対応のあるデータ、ないデータ
• 対応ありと考えられる場合
• 同じ人やグループを追跡して測定
•
•
•
１回２回３回・・・
Aさん 1.0 1.5 2.0・・・
Bさん 1.2 1.7 2.2・・・
• 対応ないと考えられる場合
• 毎回グループの構成者を取り替えて測定
•
岡山東京大阪福岡・・・
• 人口
• 生産額
• 学生数
• 対応のないｋ標本（群）の代表値差
– クラスカル・ウォリス検定
– 中央値検定
• 対応のあるｋ標本（群）の代表値差
– フリードマン検定
マンーホイットニ検定
2群、対応なし
• 9個の部品について４個は
処置群、残り処置なし群とし
た。この２つの群の母代表
値に差があるかどうか検定
しなさい。
– 処置群の観察値
1.2，1.5，1.8，2.6
– 処置なし群の観察値
1.3，1.9，2.9，3.1，3.9
• 有意確率＝0.142または0.190
• 有意確率＞0.05なので有意差なし・採択
•
参考：http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/dist/TwoSamples.html
• つまり両群に差は認められない
ウイルコクソン符号検定
２群、対応あり
• 10 人の被検者について，五段階評価をし
た。同じ被検者に対して，1 年後にもう一度評
価した。その結果を表に示す。1 年間で母代
表値に差があったかどうか検定しなさい
•
１２３４５６７８９ 10
• 最初 A A C B D A C B D B
• １年後 C A E D B B D A E D
Wilcoxson符号検定の
結果
検定統計量b
正確有意確率 (両側)
a. 使用された2項分布
b. 符号検定
VAR00004 VAR00003
.180a
• 正確有意確率＝0.180＞0.05 → 採択
• 最初と１年後では有意差ない
• もしも計量値としてＷｉｌｃｏｘｓｏｎの符号付順位検定
を行ったならば、
• 漸近有意確率＝0.114＞0.05 採択
• やはり
• 最初と１年後では差はない
• 分布計算 http://aoki2.si.gunma-u.ac.jp/CGI-BIN/mpsrtest.html
クラスカルーウォリス検定
３群以上、対応なし
• 12 匹のラットに 3 種類の餌を与えたときの肝臓
の重量は表 1 のようであった。餌の種類により
肝臓の重量の平均値に差があるといえるか
表 1．餌の種類による肝臓の重量
•
A餌
3.42
3.84
3.96
3.76
B餌
3.17
3.63
3.47
3.44
C餌
3.64
3.72
3.91
SPSS入力
3.39
• Ｈ０：平均１＝平均２＝平均３
• Ｈ１：３群の平均は同じでない
• 漸近有意水準0.062＞0.005 棄却
• 結論：３群の平均は同じではない
• ただ、有意水準6.2％と5％に近いことにも留意する
• 参考http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
フリードマン検定
３群以上、対応あり
• 表 1 のようなデータがある。4 種の肥料間で
収量に差があるか
• 参考：行列を入れ替えれば３品種間に差が
あるかを検定できる
表 1．フリードマン検定が対象とするデータ
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
エクセル版
http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html
– Ｈ０：４群の平均は等しい
– Ｈ１：４群の平均は等しくない
• 漸近有意確率0.001＜0.005 ＊＊＊
• 0.5％有意肥料４種の平均は等しくない
• 行列を入れ替えると
– Ｈ０：３品種の平均は等しい
– Ｈ１：等しくない
• 漸近有意確率0.004＜0.005
• ***0.5％有意→３品種の平均は異なる
• 総合的には、肥料、品種いずれも差あり
肥料
品種
B1
B2
B3
B4
A1
9
17
12
16
A2
1
21
16
11
A3
7
19
6
9
表の形式は似
ていても…
• 表はクロス表に似ている。しかしクロス表は
対応なし、フリードマンは対応ありが大きく異
なる。
• クロス表では行か列はそれぞれ要因。フリー
ドマンでは行か列は標本（ケース）である。
まとめ・チェックリスト
•
•
•
•
•
•
•
□
□
□
□
□
□
□
統計的検定法の概念
採択と棄却がわかる
帰無仮説と対立仮説 H0とH1
計算は統計ソフトで、統計ソフトは色々
時代はパラメトリックからノンパラへ
ノンパラ検定にはたくさんの手法
代表的ノンパラ検定の用法・読み方
研修講師のメモ
• 田中潔（たなかきよし）
– 略歴：岡山大、九州大修了の後商大へ勤務。助手、講
師、助教授を経て現在教授。2008年より商学科長。
– 主な科目：情報システム論、情報ネットワーク論他
– 専門分野：計算機統計学、マーケティング
– 連絡先岡山商科大学〒700-8601（番号で届く）
– [email protected]
– http://www.osu.ac.jp/~tanaka
– 検索エンジン「岡山商科大学田中潔」
– 大学電話 086-252-0642
– 大学FAX 086-255-6947
研修後に相談があれば
• アポイントはメール[email protected]が
最適。その他電話ＦＡＸは086-284-7726（自
宅）だが捕まらないならごめんなさい
• データ分析相談は随時応ずるが、エクセルに
素データを入力しておくのが望ましい
• また希望する仮説も事前に固まっている方が
スムーズに進む。
• 遠方の場合メールだけで指導する場合もある
より大規模な分析体制
• 施設からの応需制度として大学では産学官
連携センター受付による受託研究や共同研
究などの制度もあり。
• おおむね１件１年50万円程度から受託し、担
当者も指定可。
• 例：「アミューズメントにおけるマーケティング
研究」パチンコ業受託2007、08年

Download Report