2009/9/19 岡山県看護協会一般研修 資料 データ分析の基礎知識 午前:総論編+午後:ノンパラ検定編 岡山商科大学 経営学部商学科長 教授 田中 潔 スケジュールなど • • • • • • • 午前 データ分析 総論編 9:30-11:00頃 統計的データ分析とは 11:00-12:30頃 統計分析のポイント 昼食 午後 データ分析 検定編 13:30-15:00頃 統計的検定を知る 15:00-16:15頃 ノンパラ検定法 あなたはなぜデータ分析を迫られるのか? • 素直なあなたはスタッフから相談を受けます – アンケートの集計を手伝って→手伝いが中心に – あなたはエクセルが分かるから分析ね! – PCができることと統計が分かることを混乱した上司に恵 まれた • 院内研究が回ってきた – 予算はあまりない、スタッフの協力にたよる • 学外・論文投稿が迫ってきた – 国内や世界標準での点検・確認 その結果 • 断ることは許されない • 自分は統計を知らない→習っていないものがわか るものか • 私は理屈っぽく考えるのがイヤ! • 私は数学がいやで看護へ来たのに • 看護に統計はいらない • 調査では患者ひとり一人は援助できない • 統計ギライがこの世にまたひとり データ分析の背景 • 国勢調査や行政調査 – 国・県などの公的調査 – 国勢調査は統計法に基づく http://www.stat.go.jp/index/seido/houbun2.htm – 政府統計ポータルサイト – http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do • マーケティング(市場調査)・世論調査 – ある目的のため市場を調査する – アンケート調査 • 実験や臨床研究、業務改善 – 比較的小規模 量か質か • 量的研究(学部卒レベル) – 通常のアンケート調査、多くの場合対象者全員からの回 答は無理→標本調査 – 量的研究の主目的は、市場の現況を把握すること • 質的研究(院レベル) – 通常のインタビュー調査、症例研究、観察など – 未知なる問題の場合、仮説を発見するために比較的小規 模にて行う – http://www.geocities.co.jp/Technopolis-Mars/4688/ 南 小樽病院 瀬畠さん 母集団と標本 • 母集団:未知、 標本:既知 • 仮説の下で考える理想的な集団。標本はこ の母集団から無作為に取り出された部分集 団 母集団:未知 無作為 抽出 標本・サンプル 既知:データ分析の対象 未知または既知 標本は分析できる 悉皆(しっかい)調査 • • • • 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 – 標本の示す傾向=母集団の中心的な傾向+ 個々の誤差 統計解析法の目的 • 推定・推測: 標本から母集団値を求める – 一般には標本値±誤差を決める • 予測: 時系列データから将来を推測 – 方程式を作成する • 記述統計: 標本を示す値やグラフで視覚化 • 検定・テスト: 比較し判定する、○×効果 • 多変量分析群 – 3つ以上の項目からなるデータを分析する 統計の中の個人・ひとり • • • • • • • 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差 標準体重:仮に50kg 誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと 多変量解析の目的 • ① いろいろな要因によってある項目を予測 したい • ② 観測された複数の項目から総合的指標 を作りたい • ③ ものや項目の関係を視覚化したい • ④ ものや項目を分類したい • ⑤ 項目間の関係や構造を知りたい 主な多変量解析手法 • 予 測: – 回帰分析、数量化1・2類、判別分析 • 指 標: – 回帰分析、数量化1~3類、主成分分析、因子分析 • 視覚化: – グラフ解析、数量化3・4類、主成分分析 • 分類: – クラスター分析 • 潜在構造: – 因子分析、共分散構造分析 データの値: 4つの測定尺度 • 名義尺度 情報量小 – 名前を区別するため 演算は出来ない – 1.男性 2.女性 度数表やクロス表は可 • 順序尺度 – ゆるい順序性のみ許す 演算は本来△ – 1.はい 2.どちらでもない 3.いいえ • 間隔尺度 – 絶対ゼロを定めない量 演算は加減のみ – ℃(摂氏)、カレンダー月 • 比率尺度 – 絶対ゼロを基準とした計測値 加減乗除可能 – 実験データ全て 情報量大 行側(ギョウソク)と列(レツソク)側 • • • →列側(項目、変数、変量) 行側↓ (ケース) ケースと項目 • • • • • ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 – 1列ごとに処理するデータ • 2変数の集計 – 2列ごとに処理 • 多変数の処理 – 3列以上をまとめて処理 入力したデータ 有効数字について • 計算結果を小数点何桁まで取るべきか? • 答え • 測定値で影響されます。 – 身長160cmは「センチ単位」で測定されました。 – 160.1かも160.4かも知れません。 – 有効数字 小数点以下0桁 でした。 • そこで平均値など計算結果の表示は、ひと桁多くし 小数点以下1桁(2桁目を四捨五入して)で表示しま しょう • 教訓 • 計算結果の有効数字は測定値よりも1桁多く 欠測値について • 計測されなかった、計測できなかった値 – 欠測値という • 表ソフトで欠測値には0ゼロを入力しない – エクセルの場合何も入力しない – セル値の削除はdeleteキーで – 0は計測値として計算してしまいます • 99や0など特定値を入れることは – 一部の統計ソフトでは除外可能だが、エクセルと の互換性を考えると入力しない方が無難でしょう 最初のデータ分析 • 記述統計量とは – – – – – 平均値 標準偏差 最大、最小値 中央値 度数集計表 素データ~統計量 概念図 ちらばり(分散や標準偏差) × 代表値(平均値や中央値) ボール&スティックモデル エクセルによる基礎統計量 • 関数で求める – 平均 – 標準偏差 – 中央値 – 最大値 – 最小値 =AVERAGE(範囲指定) =STDEV(範囲指定) =MEDIAN(範囲指定) =MAX(範囲指定) =MIN(範囲指定) 2つの項目の 基礎集計 投げ1のヒストグラム 投げ1と投げ2を書き分ける 散布図は2項目の関係図 40 投げ2 30 20 10 10 20 30 投げ1 40 グラフ点を右クリック→近似曲線の追加メニュー 散布図→単回帰分析 • 回帰直線y=x 相関係数r=0.43 40 y=x R = 0.1859 2 投げ2 30 20 10 10 20 30 投げ1 40 算術平均の示すもの • • • • • ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 • 2+10+1+2+1=16 • 算術平均=16÷5=3.2 • 3.2は5つのデータを表現 する代表値の一種 もう1つの代表値 中央値 • 2、10、1、2、1 • これを • 小さい(大きい)順に並 び替える • 1、1、2、2、10 • この真ん中番目を中央 値(メジアン)と呼ぶ • • • • • この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な 値(極値)に左右されに くい • →頑健(ロバスト)な代 表値 • 算術平均3.2 中央値2 2グループの代表値を比べる • • • • • グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 この2つに有意な差 があるか?→t検定 2つの平均値を比べる 2群の平均値差の検定(t検定) • 群 平均 SD N • A 3.2 3.8 5 • B 5.2 8.2 5 • 等分散性の検定 • 有意確率2.3%(有意) • 2群のばらつきは等しくない • 平均値差のt検定 • 等分散仮定する 6.4% • 等分散仮定せず 6.4% • いずれも平均値差は有意でない • この2群で平均値3.2と 5.2は同程度と見る か?否か? • 2群のばらつきは – 等しくないと判定 • ばらつき等しくない仮定 の下で、 – 2つの平均値が等しいこ とを否定せず(つまり同 程度) マン-ホイットニ検定による2群の比較 • 中央値 A:2 B:2の比較 検定統 計量b Variable Man n-Wh it ney の U 12.000 Wilc ox on の W 27.000 Z -.111 漸近有意確率 (両側) .911 a 正確有意確率 [2x (片 1.000 側有意確率)] a. 同順位に修正されていません。 b. グル ープ化変数: GR • 有意水準91.1%(有意差なし)→両群は同じ データ分析のポイント • • • • • • • • □ □ □ □ □ □ □ → 調査の種類、母集団と標本のちがい 統計手法は目的に応じてたくさんある 行と列→ケースと項目、測定尺度 表ソフトへのデータ入力様式 基礎統計のエクセル関数 グラフ→2項目 散布図と回帰式 検定の一例t検定 次は検定をマスターしよう 統計的検定法(群) • 統計手法の中で「検定(Test)」は医療統計で よく使われます。 • 薬効評価、効果判定のために用いられます • 以前は、平均値を比較するパラメトリック手法 が用いられましたが、最近ではノンパラメト リック検定が多く用いられています。 統計的検定はどんなもの • ある仮説(○=△)を判定する – 例: この実験結果=160.0 – 例: 群1の平均=群2の平均 • 判定結果は採択、または棄却の2分法 • 採択とは「この仮説を積極的に否定しない」 – (厳密には仮説を認めたくないがやむを得ない) • 棄却とは「この仮説を積極的に否定する」 看護に代表的な検定 • t検定 • ある測定データの平均値がある値かどうか – 仮説: 測定データの平均値=46.7 • 2群の平均は等しいとみなせるか – 仮説: 群1の平均=群2の平均 • カイ2乗検定 • クロス表に傾向や関連性があるか – 仮説: このクロス表の度数は同じか (統計的)仮説検定の流れ • ある検定手法を選択する(パラでもノンパラでも) • 帰無仮説H0:とは – 否定する(だろう)ための仮説 – 帰無=無に帰する=否定を期待する • 対立仮説H1:とは – 帰無仮説以外の結果 – H0を否定するだけなので積極的な採択はしない • • • • H0:とH1:を対にして用意する 分析データを統計ソフトにかける→有意水準を求める 有意水準の値に応じてH0かH1かを判定する 目的に応じて手法はたくさん存在する 仮説の立て方 • 1.自分の持っている仮説(作業仮説ともいう)を対 立仮説H1とする • 2.H1の否定(逆)をH0とする • 3.H0は○=△のように等号で作成するのがよい • 4.H0:○=△とした時、3種類のH1が考えられる • H1その1: ○>△ 片側検定 • H1その2: ○<△ 片側検定 • H1その3: ○≠△ 両側検定 仮説の事例 • 新薬Bは薬Aより効果あることを証明したい • H0は等号関係で作成すると良い – H0: 新薬B=薬A(同じ、効果なし) で決まり! • • • • • H1には3つの作り方あり ① H1: 新薬B>薬A 優れる 片側 ② H1: 新薬B<薬A 劣る 片側 ③ H1: 新薬B≠薬A 同じでない 両側 「効果ある」なので通常③を採用 仮説H1に方向性があるならば両側検定 • • • • • • • • 関係があるかないか ない= ある≠ 両側検定 正(負)や大小の関係があるかないか ない= ある> 片側検定 優れている(劣っている) 同じ= <や> 片側検定 同じか否か 同じ= 同じでない≠ 両側検定 H0とH1の例 – H0: 日本人の平均160センチ 平均=160 – H1: 160センチではない(何センチかは不明) • H0はハッキリと1点で指定するのが普通(点 指定) • H1は指定された1点以外のすべて(だから はっきりと値が判定できない) • ○ 残り全てがH0 H0 棄却と採択 • H0が明らかに成立しないならば棄却 – つまりH1を採用 • H0は帰無したいがどうしても棄却できない状 態のことを採択(=積極的には帰無・棄却し ない)という – つまりH0を採用する 検定に見る計算と判定 • 計算: 統計ソフトなどを使用する • 判定: 出てくる結果の有意確率か有意水準の値に より判定 • 有意水準>0.05 有意水準5%以上で採択 • 5%以下ならば棄却(有意、SIG.)←差あり • 0.05~0.01 5%有意 * 星1つ • 0.01~0.005 1%有意 ** 星2つ • 0.005より小 0.5%有意 *** 星3つ まとめましょう • 正規分布を仮定できそうな時 – 平均値に関するt検定 • 正規分布を仮定できそうでない時 – ノンパラメトリックな検定法 • 仮説は次に固定すると理解し易い – H0: A=B H1:A≠B(両側検定) • 計算は統計ソフトやWebサイトで行う • 有意かどうかの判定は有意水準で行う 検定の実際に慣れる 統計ソフトについて • 記述統計、グラフなどはエクセルで十分 • 検定、多変量分析となると専用ソフトが望ましい • http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで 間に合うことも多い。いつまで続くかは不明 • 市販ソフトとしては • PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。 世界的権威ソフト 新規18万円 – ライバル会社にSASがある。安価版としてJUMPも有名 • エクセル統計 4万円、エクセルのアドイン、おおむね使える が細かな使い勝手はあまり良くない • フリーソフト(無料) R 良くできているが上級者でなければ 使いにくい! サイトを使った統計分析の注意 • 例えば、検索エンジン 群馬大 青木 • 多くの計算がWebサイトで可能な時代 • これらの計算の多くはJAVA(ジャバ)という技 術が使用されることが多い • 施設のPCでは導入初期のままのためJAVA が有効でない(使えない)場合も多い • 分析前にPCの確認を! 医療統計向けソフト比較 http://www.kenkyuu.net/comp-soft-01.htmlより引用 SPSS社はIBMに吸収のため、2009現在PASWに名称変更 2グループの平均値差検定 (通称t検定) • • • • 仮説は以下のとおりに立てる H0: 平均1=平均2(2つの平均は同じ) H1: 平均1≠平均2(同じでない)→両側 注意 – H0: 平均1≠平均2(同じでない) – H1: 平均1=平均2(2つの平均は同じ) のように逆には立てません。帰無仮説H0は 等号関係で作ります! パラメトリック検定 • 集めたデータが正規分布しそうな場合に適 • 検定力は強い • 平均値と標準偏差に関する検定がおも • 2群(実験群と対照群)の平均値差検定 • =通称:t検定が有名 サイトで行う2群平均値差の検定(t検定) • • • • • 次の2群の平均値は同じとい えるか 平均 ケース数 標準 偏差 A群 10.0 10 5 B群 10.5 20 15 • • • • 等分散性 0.002 棄却 2群は同じ分散ではない 平均値差 0.894 棄却 平均値は等しくない 使用サイト http://aoki2.si.gunmau.ac.jp/Java/StatCalc/dist/St atCalc.html ノンパラメトリック検定群 • • • • 正規分布を仮定しない 検定力はパラメトリック検定にやや劣る 頑健な検定法 多いのは、平均値など代表値差の検定が多 い • クロス表のカイ2乗検定もノンパラ検定法の1 つ パラメトリックvsノンパラ比較表 • http://aoki2.si.gunmau.ac.jp/lecture/Kentei/nonpara.htmlより引用 主な統計的検定法の体系図 クロス表の独立性の検定 通称カイ2乗検定 • 実はノンパラメトリックな検定手法の1つです • 2×2クロス表の精密なカイ2乗検定 – http://aoki2.si.gunmau.ac.jp/JavaScript/FisherExactTest.html • R×C表 クロス表入力 通常版 – http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html • R×C表 クロス表入力 正確計算版 – http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html – (計算量が多いため通常版で十分) • R×C表 素データで入力する版 – http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html 代表的なノンパラメトリック検定法 • 対応のない2標本(群)の代表値差 – マンーホイットニのU検定 – 2標本コルモゴロフースミロノフ検定 – ファンデル・ワーデン検定 – 中央値検定 • 対応のある2標本(群)の代表値差 – ウイルコクソン符号検定 – ウイルコクソン符号付順位和検定 対応のあるデータ、ないデータ • 対応ありと考えられる場合 • 同じ人やグループを追跡して測定 • • • 1回 2回 3回・・・ Aさん 1.0 1.5 2.0・・・ Bさん 1.2 1.7 2.2・・・ • 対応ないと考えられる場合 • 毎回グループの構成者を取り替えて測定 • 岡山 東京 大阪 福岡・・・ • 人口 • 生産額 • 学生数 • 対応のないk標本(群)の代表値差 – クラスカル・ウォリス検定 – 中央値検定 • 対応のあるk標本(群)の代表値差 – フリードマン検定 マンーホイットニ検定 2群、対応なし • 9個の部品について4個は 処置群、残り処置なし群とし た。この2つの群の母代表 値に差があるかどうか検定 しなさい。 – 処置群の観察値 1.2,1.5,1.8,2.6 – 処置なし群の観察値 1.3,1.9,2.9,3.1,3.9 • 有意確率=0.142または0.190 • 有意確率>0.05なので有意差なし・採択 • 参考:http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/dist/TwoSamples.html • つまり両群に差は認められない ウイルコクソン符号検定 2群、対応あり • 10 人の被検者について,五段階評価をした。 同じ被検者に対して,1 年後にもう一度評価 した。その結果を表 に示す。1 年間で母代表 値に差があったかどうか検定しなさい • 1 2 3 4 5 6 7 8 9 10 • 最 初 A A C B D A C B D B • 1年後 C A E D B B D A E D Wilcoxson符号検定の 結果 検定統計 量b 正確有意確率 (両側) a. 使用された2項分布 b. 符号検定 VAR00004 VAR00003 .180a • 正確有意確率=0.180>0.05 → 採択 • 最初と1年後では有意差ない • もしも計量値としてWilcoxsonの符号付順位検定 を行ったならば、 • 漸近有意確率=0.114>0.05 採択 • やはり • 最初と1年後では差はない • 分布計算 http://aoki2.si.gunma-u.ac.jp/CGI-BIN/mpsrtest.html クラスカルーウォリス検定 3群以上、対応なし • 12 匹のラットに 3 種類の餌を与えたときの肝臓 の重量は表 1 のようであった。餌の種類により 肝臓の重量の平均値に差があるといえるか 表 1.餌の種類による肝臓の重量 • A餌 3.42 3.84 3.96 3.76 B餌 3.17 3.63 3.47 3.44 C餌 3.64 3.72 3.91 SPSS入力 3.39 • H0: 平均1=平均2=平均3 • H1: 3群の平均は同じでない • 漸近有意水準0.062>0.005 棄却 • 0.062>0.05 採択 • 結論: 3群の平均は同じではない(帰無できない) • ただ、有意水準6.2%と5%に近いことにも留意する • 参考http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html フリードマン検定 3群以上、対応あり • 表 1 のようなデータがある。4 種の肥料間で 収量に差があるか • 参考: 行列を入れ替えれば3品種間に差が あるかを検定できる 表 1.フリードマン検定が対象とするデータ 肥料 品種 B1 B2 B3 B4 A1 9 17 12 16 A2 1 21 16 11 A3 7 19 6 9 エクセル版 http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html – H0: 4群の平均は等しい – H1: 4群の平均は等しくない • 漸近有意確率0.001<0.005 *** • 0.5%有意 肥料4種の平均は等しくない • 行列を入れ替えると – H0: 3品種の平均は等しい – H1: 等しくない • 漸近有意確率0.004<0.005 • ***0.5%有意→3品種の平均は異なる • 総合的には、肥料、品種いずれも差あり 肥料 品種 B1 B2 B3 B4 A1 9 17 12 16 A2 1 21 16 11 A3 7 19 6 9 表の形式は似 ていても… • 表はクロス表に似ている。しかしクロス表は 対応なし、フリードマンは対応ありが大きく異 なる。 • クロス表では行か列はそれぞれ要因。フリー ドマンでは行か列は標本(ケース)である。 まとめ・チェックリスト • • • • • • • □ □ □ □ □ □ □ 統計的検定法の概念 採択と棄却がわかる 帰無仮説と対立仮説 H0とH1 計算は統計ソフトで、統計ソフトは色々 時代はパラメトリックからノンパラへ ノンパラ検定にはたくさんの手法 代表的ノンパラ検定の用法・読み方 研修講師のメモ • 田中 潔(たなかきよし) – 略歴: 岡山大、九州大修了の後商大へ勤務。助手、講 師、助教授を経て現在教授。2008年より商学科長。 – 主な科目:情報システム論、情報ネットワーク論他 – 専門分野:計算機統計学、マーケティング – 連絡先 岡山商科大学 〒700-8601(番号で届く) – [email protected] – http://www.osu.ac.jp/~tanaka – 検索エンジン 「岡山商科大学 田中潔」 – 大学電話 086-252-0642 – 大学FAX 086-255-6947 研修後に相談があれば • アポイントはメール[email protected]が 最適。その他電話FAXは086-284-7726(自 宅)だが捕まらないならごめんなさい • データ分析相談は随時応ずるが、エクセルに 素データを入力しておくのが望ましい • また希望する仮説も事前に固まっている方が スムーズに進む。 • 遠方の場合メールだけで指導する場合もある より大規模な分析体制 • 施設からの応需制度として岡山商科大学で は産学官連携センター受付による受託研究 や共同研究などの制度もあり。 • おおむね1件1年50万円程度から受託し、担 当者も指定可。 • 例:「アミューズメントにおけるマーケティング 研究」パチンコ業受託2007~2009年
© Copyright 2025 ExpyDoc