スケジュール予定など • • • • • • 1日目 午前 10:00-11:00頃 統計学の全体像・歴史 11:00-12:00頃 看護研究の2アプローチ 昼食 13:00-14:30頃 看護研究と統計手法 14:30-16:00 回帰分析と相関 • • • • • • 2日目 午後 10:00-11:00頃 アンクスタットと青木のサイト 11:00-12:00頃 統計的検定法 昼食 13:00-14:30頃 平均値差のt検定 14:30-16:00 クロス表の独立性検定 研修講師のメモ • 田中 潔(たなかきよし) – – – – – – – – – – 略歴: 岡山大、九州大修了後岡山商大へ勤務。教授 岡山県看護協会の研修講師を25年以上歴任 最近は、広島、鳥取、香川県看護協会でも研修を行う 主な科目:情報ネットワーク論、社会調査実践他など 連絡先 岡山商科大学 〒700-8601(専用番号で届く) [email protected] (eメール) http://www.nahaha.org (Web) 検索エンジン 「岡山商科大学 田中潔」で検索 大学電話 086-252-0642 大学FAX 086-255-6947 もしも…研修後に • 質問・相談はeメール[email protected] が最適。メールなら返事確実。その他電話F AXは086-284-7726(自宅)でも可能。 • 相談の「三種の神器」: 看護研究計画書、使 用アンケート用紙、データ入力エクセルファイ ル(すでにあれば) • 遠方の場合メールだけで指導する場合もある (PC用メールがあるとファイルのやり取りが 便利。連絡なら携帯メールでも可能) 「統計」のことば始め • 「高き屋にのぼりて見れば煙けぶり立つ民の かまどはにぎはひにけり 」(新古今和歌集、 仁徳天皇) 帝王の学問 • 最も古いのはBC3800年代バビロン王朝で行 われ、約BC3000年エジプトや中国などで見 られる 。 • 大化の改新(645年)によって班田収授の法 。 • 1920(大正9)年10月1日を 期して、第1回 「国勢調査」 。 統計=stat(istics) • 近代統計学の父ケトレー(コペルニクスに影響) • 英語で統計または統計学= statistics。 • 語源はラテン語で「状態」を意味するstatisticum 。 • イタリア語で「国家」を意味するようになり、国家の人力、財 力等といった国勢データを比較検討する学問。 • さらに費用対効果から、必要最低限度の数を調査して、そ の場合の精度が、「目標達成のために満足のできるもので あれば良しとする接近法」が考案される。⇒現代の「統計 学」の基本原理 • 推測統計学(stochastics)。 近代統計学の巨人たち • • • • • • • • 1900年ごろに開花 カール・ピアソン 確率統計の帝国を確立 ロナルド・フィツシャー 実験計画法の大成功 エゴン・ピアソンとイェジー・ネイマン 仮説検定法の完成 コルモゴルフ 確率論基礎の確立 第2次大戦後の発展 エドワーズ・デミング 産業界の品質管理 ジョン・テューキー(高速フーリエ変換)、エフロン(ブートスト ラップ法) • 戦後の日本では、林 知己夫(数量化)、赤池弘次、(AIC)、 竹内啓(理論)、佐和隆光(経済)などなど わが国における小さなコップの戦い 計算機統計学の黎明 • 1975年頃 COMPSTAT(欧州計算機統計会議)に てVisiCalc(後のExcel)発表 • 1980年頃 九大浅野、広大正法寺、岡大脇本・垂 水、塩野義製薬後藤・武田製薬田中豊(大阪)、統 数研(東京)林、大隈、北大佐藤らによって日本でも 「計算機統計学」機運。科研費プロジェクトNISAN (ニイサン)始動。 • 1985年頃SPSS日本版上陸。垂水・田中潔アルバイト • パソコン統計ハンドブック(脇本、垂水、田中豊・潔) • これ以降、統計処理は「統計パッケージ」の時代へ あなたはなぜデータ分析を迫られるのか? • 素直なあなたはスタッフから相談を受けます – アンケートの集計を手伝って→手伝いが中心に – あなたはエクセルが分かるから分析ね! – PCができることと統計が分かることを混乱した上司に恵 まれた • 院内研究が回ってきた – 予算はあまりない、スタッフの協力にたよる • 学外・論文投稿が迫ってきた – 国内や世界標準での点検・確認 その結果 • 断ることは許されない • 自分は統計を知らない→習っていないものがわか るものか • 私は理屈っぽく考えるのがイヤ! • 私は数学がいやで看護へ来たのに • 看護に統計はいらないと思う • 調査では患者ひとり一人は援助できない • 統計ギライがこの世にまたひとり 統計を使用するステップ • データの正しい収集法 – 計画的な抽出や正しい質問の作り方 • データの集計方法(標本集団の分析) – 基礎統計量とクロス表、グラフ化 • データの分析方法(母集団を意識) – 検定、回帰・相関、因子分析など多変量解析法 • 統計分析、データ分析、データ科学、 • データマイニングなど呼び方はさまざま データ分析の背景 • 国勢調査や行政調査 – 国・県などの公的調査 – 国勢調査は統計法に基づく(2010年は調査年) http://www.stat.go.jp/index/seido/houbun2n.htm – 政府統計ポータルサイト(政府統計の窓口) – http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do • マーケティング(市場調査)・世論調査 – ある目的のため市場を調査する – アンケート調査 • 実験や臨床研究、業務改善 – 比較的小規模、実験データ 大まかな統計分析の流れ 4段階 • • • • • 母集団(未知であり不可視) 標本(可視) データの収集 アンケート調査 無作為抽出 • • • 集計 データ集計 推定・検定 統計解析 平均値やクロス表 基礎統計量や集計表 t検定やカイ2乗検定結果(有意かどうか) • • 神の領域 第一段階 第二段階 人間界 第三段階 第四段階 医療分野で 統計的分析が好まれるわけ • 統計分析の目的: 「目標達成のために満足のできるもので あれば良しとする接近法」 • • • • • • • 医療で解決すべき課題(目標仮説) (ここに看護的意味づけが必要) データで証明する(実現仮説または達成仮説) つまり、調査や実験の成否判定 (有意になれば良いのではありません。 有意にならないことが大事なときもあります) 仮説設計、データ収集、集計、統計分析の各作業 看護界に「統計」は不要??? • 統計の持つ2つの役割 • 1)国家統計や国勢調査的に – 社会調査や公衆衛生、疫学調査の視点 – 調査では個人は救えない • 2)この個人は1)とどう食い違うのか – 個人=人間共通な部分+個性や個人差 • 1)は厚生省を中心に進め • 2)は施設を中心に進めるべきもの 看護研究に問われる量か質か • 量的研究(学部卒レベル) – 通常のアンケート調査、多くの場合対象者全員からの回 答は無理→標本調査 – 量的研究の主目的は、市場の現況を把握すること • 質的研究(院レベル) – インタビュー調査、症例研究、観察など – 未知なる問題の場合、仮説を発見するために比較的小規 模にて行う – http://www.geocities.co.jp/Technopolis-Mars/4688/ 南 小樽病院 瀬畠さん 看護研究における統計の立場 2つの視点 • 1つめ: 国家統計の視点 – 自分が「王」となり、対象集団の状況を広く知る、 報告する立場、疫学調査など – 母集団よりも標本集団をまとめること • 2つめ: 推測統計的な視点 – 自分の得た標本から母集団を推し量りたい – 自分は「標本」という実験結果を元に、真の集団 (母集団)にたどり着きたい。真の看護や看護方 式に近づきたい 標本統計量から母集団統計量へ • 平均など「中心的傾向」代表値 – 理論により、標本の平均値は母集団の平均値を 最も良く推定している – 標本平均値=母集団平均値 同一 • 標準偏差など「ちらばり」 – 標本標準偏差より母集団標準偏差はやや大きい – 標本標準偏差<母集団標準偏差 母集団と標本 • 母集団:未知、 標本:既知 • 仮説の下で考える理想的な集団。標本はこ の母集団から無作為に取り出された部分集 団 母集団:未知 無作為 抽出 標本・サンプル 既知:データ分析の対象 未知または既知 標本は分析できる 悉皆(しっかい)調査(全数調査) • • • • 母集団の全員が標本として測定されたこと 母集団サイズ=標本サイズ 標本での分析結果がすべて母集団結果 標本を捉えることの意義 – 標本の示す傾向=母集団の中心的な傾向+ 個々の誤差 統計解析法の目的 • ○標本が集まった時の「統計」=集計 • データの姿を知る統計 • 記述統計: 平均、標準偏差、分散、グラフ化 • ○集計後の「統計」=統計的分析 • 原因や要因、あるいは影響や判定など決定付ける • 推定・推測: 標本から母集団値を求める – 一般には標本値±誤差を決める • 予測: 時系列データから将来を推測 – 方程式を作成する • 検定・テスト: 比較し判定する、○×効果 • 多変量分析群 – 3つ以上の項目からなるデータを分析する 統計の中の個人・ひとり • • • • • • • • 個人(表層へ出現)= 中心的な傾向(未知)+誤差(未知) この中心的傾向または誤差を把握する。 私は60kg=標準体重+誤差 真理・本質+個性・個人差 標準体重:仮に50kg(平均体重と呼ぶ) 誤差: 60-50=10kg 実は、中心的傾向とは平均値のこと 原因や要因に挑戦する 多変量解析の役割 • ① いろいろな要因によってある項目を予測 したい • ② 観測された複数の項目から総合的指標 を作りたい • ③ ものや項目の関係を視覚化したい • ④ ものや項目を分類したい • ⑤ 項目間の関係や構造を知りたい 主な多変量解析手法 • 予 測: – 回帰分析、数量化1・2類、判別分析 • 指 標: – 回帰分析、数量化1~3類、主成分分析、因子分析 • 視覚化: – グラフ解析、数量化3・4類、主成分分析 • 分類: – クラスター分析 • 潜在構造: – 因子分析、共分散構造分析 統計学は節約する学問 ではありません • 統計で分析する時の心がまえ、ポリシー – しばしば質問 • 何サンプルあれば分析できますか? – 何例まで減らせますか? • 統計は「全力」な学問です。 – 頑張ってデータを生かしたい。 – 手法のデパートは聞いてて分からない • 基本的な手法を積み上げること • 私たち看護がなぜ統計的な視野を必要とす るか?少しヒントが得られましたか? • では次に統計を扱うためのいくつかの基礎知 識いや基本マナーを • (田中研に相談する場合、これらの知識を 持っていると大変話が楽) データの値: 4つの測定尺度 • 名義尺度 情報量小 – 名前を区別するため 演算は出来ない – 1.男性 2.女性 度数表やクロス表は可 • 順序尺度 – ゆるい順序性のみ許す 演算は本来△ – 1.はい 2.どちらでもない 3.いいえ • 間隔尺度 – 絶対ゼロを定めない量 演算は加減のみ – ℃(摂氏)、カレンダー月 • 比率尺度 – 絶対ゼロを基準とした計測値 加減乗除可能 – 実験データ全て 情報量大 平均が意味ある場合、ない場合 • 比率や間隔尺度 – 身長160,170,180 平均は170cm ◎ • 順序尺度 – 1.嫌い 2.まあまあ 3.好き どれか1つ選ぶ – 回答 2,1,1,3,3,3,2 合計15 平均2.1 △ • 名義尺度 – 1.品数 2.一ヶ所で買える 3.駐車場 4.その他 – この場合平均は求められません→集計へ × エクセル使いなら必需品A1 行側(ギョウソク)と列側(レツソク) • • • →列側(項目、変数、変量) 行側↓ (ケース) 統計分野はエクセルに似たり でも言葉が違うケースと項目 • • • • • ケースとは1件の標本を示す ケースは個体を示す 時系列の場合時間変化 項目は列単位→1つの変数 1変数の集計や分析 – 1列ごとに処理するデータ • 2変数の集計 – 2列ごとに処理 • 多変数の処理 – 3列以上をまとめて処理 入力したデータ データ収集の時、気づかうこと 有効数字について • 計算結果を小数点何桁まで取るべきか? • 答え • 測定値で影響されます。 – 身長160cmは「センチ単位」で測定されました。 – 160.1かも160.4かも知れません。 – 有効数字 小数点以下0桁 でした。 • そこで平均値など計算結果の表示は、ひと桁多くし 小数点以下1桁(2桁目を四捨五入して)で表示しま しょう • 教訓 • 計算結果の有効数字は測定値よりも1桁多く 収集データの欠席扱いとは 欠測値について • 計測されなかった、計測できなかった値・回答 – 欠測値という • 表ソフトで欠測値には0ゼロを入力しない – エクセルの場合何も入力しない – セル値の削除はdeleteキーで – 0は計測値として計算してしまいます • 99や0など特定値を入れることは – 一部の統計ソフトでは除外可能だが、エクセルと の互換性を考えると入力しない方が無難でしょう 基礎統計について (比率や間隔尺度の場合) • 基礎、キソと軽んじてはいけません。 • この基礎統計からデータの概要を思い浮か べることが、解明の第一歩 • 基礎統計量算出やグラフ書きは地味ですが、 • 多くの発表はこれで決まります。 • 項目ずつ(1変数ごと)の統計分析です 最初のデータ分析 • 記述または基礎統計量 とは – – – – – 平均値 標準偏差 最大、最小値 中央値 度数集計表 統計を始めるとやたら正規分布が でてくるのですが • 自然界の多くの現象は、数多く収集する(度数グラフに集計 する)と正規分布に近くなることが知られています。 • ネイマン流大数の法則。 • 現象には正規分布しないものも多くありますが、合計点など 加えると、極限では正規分布に帰着します。 • 中心極限定理。 • 「標本数を可能な限り集めなさい」は2つの意味で、正当なの です。 • 統計には2つの立場があります。 – 1)数多く集めたり、加工して正規性に持ち込む派 – 2)正規性を仮定しない分析方法をあみだす派 • 2)がよさそうですが、実は性能は1)を超えられません。分布 系と分析力はトレードオフの関係に。 素データから統計量を求める 概念図 ちらばり(分散や標準偏差) 標本 集団 × 代表値(平均値や中央値) ボール&スティックモデル エクセルでは簡単に 基礎統計量を計算できる • 関数をセルに挿入で求める • ○○値を求める関数(名前知らなくても利用できる) – – – – – 平均 標準偏差 中央値 最大値 最小値 =AVERAGE(範囲指定) =STDEV(範囲) =MEDIAN(範囲) =MAX(範囲) =MIN(範囲) • 表の度数を求める関数 – 該当数(通常) =COUNT(範囲)または – 条件付該当数 =COUNTIF(範囲、条件) 名義や順序尺度の場合、基礎統計量 はあまり意味を持ちません。 集計しましょう • 度数分布表を作りましょう(1つの項目ずつ) – これを棒グラフ(ヒストグラム)に描きましょう – これである1項目の姿が見えてきます – (全ての測定尺度で可能) • クロス表(分割表)にまとめましょう(2つの項目ごと) – 特に2次元クロス表(分割表)は大事 – 2つの項目を同時に表にまとめます – (特に、順序や名義尺度でも作れます) 統計分析の道のり(再掲) 図は「大まかな統計分析の流れ 4段階」 (前掲を参照) • 母集団を決める(想像する)、仮説を決める – 見えないけれど、どんな現象集団 • 標本集団を収集する(実験や調査) – 精密でなく正確な回答か?答えやすい用紙?、回収率 • 分析に合うよう素データの加工や集計 – 度数表、基礎等計量、グラフ、クロス表など – 仮説をうらづけるグラフ? • 統計手法で分析する – 種々の統計解析法、仮説を説明できた? 2つの項目の 基礎集計 投げ1のヒストグラム 素データから度数集計してみたら 投げ1と投げ2の2群を書き分ける 12 素データ→度数表→ 8 2群別のグラフ 投1度数 投2度数 4 0 20 25 30 35 40 45 50 投げ2 投げ1 グラフは統計分析の設計図 • • • • • 最初のうちは、グラフ化することがとても大事 図中には、実は分析結果が見えています。 1項目の現象には 棒グラフか折れ線グラフがしばしば。 大切なことは、条件によりグラフを書き分けて いますか? • 条件とは、女性・男性、学級A、B、C別など さらに、別の図「散布図」は 2項目の関係図 40 投げ2 30 20 10 10 20 30 投げ1 40 相関という考え方 • • • • • • • • 2つの項目間の関係性を知りたい 2つの項目は「比例」するか「反比例」するか 比例には正比例と負比例(×反比例) 正の比例・・・片方が2倍→もう一方も2倍 負の比例・・・片方2倍→もう一方-2倍 相関は 正相関=片方が増加→もう片方も増加 負相関=片方が増加→もう片方は減少 (正)相関を目で見る 正負両方の相関程度が知りたい • 相関係数R -1~0~1で示す値 よく似た用語を間違えない • • • • • • • 相関は散布図グラフを連想しましょう 相関係数はその点のシャープさを示す 相関係数が+なら正相関、-なら負相関 相関係数は記号ではRかrで表記 R2やR^2は相関係数を2乗したもの R2は重相関係数、決定係数とも呼ばれる R=√R2を計算し相関係数に直すとヨロシ 相関分析の手順 1.関係を知りたい2つの項目(列)を選ぶ 2.この2項目で散布図を描く 3.この図を元に直線回帰を行う すると グラフ内には中心直線=回帰直線が引かれ その方程式と相関係数の2乗R2=重相関係数 が表示される これら一連の分析を単回帰分析と呼ぶ (単)回帰分析 • • • • 散布図を描くとX軸とY軸の関係を目視 Y=aX+bという直線関係を考える XとYはデータとして測定される 傾きaとbを決定すれば、XとYの関係が決まる 係数aとbを求めれば • 2つの項目XからYを推測できる • 予測: 測定されていないXについて、Yの予測値を Y←aX+bで予測可能 単回帰分析のポイント • • • • • • 直線の程度(相関度)はどのくらいか? 傾きaとbを求める 直線の相関性を示す指標 相関係数R またRの2乗のことを決定係数・重相関係数という -1<R<+1 経験的にR>0.7で正相関あり、R<-0.7で負相関 あり、-0.7<R<0.7で無・弱相関 • 決定係数なら 0<R<0.5で無・弱相関 • 相関係数の2乗=決定係数・重相関係数>0 求め方例: 散布図からエクセルで グラフ点を右クリック→近似曲線の追加メニュー 散布図→単回帰分析の完成 • 回帰直線y=x 相関係数Rの2乗=0.19 • (目安: R2>0.5ならR>0.7なので相関性あり) 40 y=x R = 0.1859 2 投げ2 30 20 10 10 30 20 投げ1 40 統計ソフトについて • 記述統計、グラフなどはエクセルで十分 • 検定、多変量分析となると専用ソフトが望ましい • http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで 間に合うことも多い。いつまで続くかは不明 • 市販ソフトとしては • PASW(旧SPSS) 高い、施設向き、論文投稿には望ましい。 世界的権威ソフト 新規18万円 – ライバル会社にSASがある。安価版としてJUMPも有名 • エクセル統計 4万円、エクセルのアドイン、おおむね使える が細かな使い勝手はあまり良くない • フリーソフト(無料) R 良くできているが上級者でなければ 使いにくい!研究者向け 青木サイト使用の留意点 • 検索エンジン 群馬 青木 → おしゃべりな部屋 • 青木サイトの統計処理の多くには「Java技術」が使 われている • Javaはサイトで計算処理を行うための仕組みであり PC購入後各自で導入するもの • 施設のPCではセキュリティ保護の観点からJavaを 導入していないものもあるので、青木サイトが利用 できない場合がある • 施設PCで利用できない場合、他の統計パッケージ やJava導入した個人PCを利用する • 最近ではスマートホンでも利用可能 もしもPCでこんなエラーが出たら あなたのPCのJAVAという仕組みが古 いなどの原因で、警告が出たものです。 「いいえ」を選んでうまく動作すればいい ですね。 統計計算シートankstat (アンクスタット)時間があれば紹介 • 田中研究室で開発されたエクセル(バージョ ンは問わず)専用のシート • 主に基礎集計や集計を行う。統計解析は実 施しない。 • http://www.osu.ac.jp/~tanaka/ankstat/ • 検索エンジンにて「ankstat」で検索する 。 • 最新は5.03版。 • 最大500ケース×200項目を集計可能 算術平均の示すもの • • • • • ここに5つのデータ 2、10、1、2、1がある 1 1 2 2 10 • 2+10+1+2+1=16 • 算術平均=16÷5=3.2 • 3.2は5つのデータを表現 する代表値の一種 もう1つの代表値 中央値 • 2、10、1、2、1 • これを • 小さい(大きい)順に並 び替える • 1、1、2、2、10 • この真ん中番目を中央 値(メジアン)と呼ぶ • • • • • この場合中央値=2 これも代表値の1つ 【性質】 中央値は 算術平均よりも極端な 値(極値)に左右されに くい • →頑健(ロバスト)な代 表値 • 算術平均3.2 中央値2 2グループの代表値を比べる • • • • • グループA 1,1,2,2,10 グループB 1,1,2,2,20 平均値 A:3.2 B:5.2 この2つに有意な差 があるか?→t検定 予告 • • • • • 次回は「統計的検定」をテーマに 比較する技法をマスターする 2グループや表が「明らかに」異なるのか? エクセル→青木の統計サイトを駆使する 1人で出来るデータ分析極める
© Copyright 2024 ExpyDoc