SPSS統計解析入門 - -滋賀医科大学-

統計学
喜多 義邦
滋賀医科大学
社会医学講座公衆衛生学部門
ファイルの編集
ファイルの更新
(1)保存したファイルのオープン
ファイル→(目的のファイルを選ぶ)→開く
(2)変数やケースの追加
変数を追加する。
データ→変数の定義
※既存の変数の間に新しい変数を挿入する場合は
データ→変数の挿入
変数定義について 1
(1)変数名定義の約束
1)半角8文字以内(全角なら4文字)
2)最初の文字に数字は使えない
3)ALL,NE,EQ,TO,LE,LT,BY,OR,GT,
AND,NOT,GE,WITHは使えない。
(2)変数の型について
数値型、文字型、日付型
データ→変数の定義→型
変数定義について 2
(3)変数ラベルと変数値ラベル
変数や変数が持つ個々の値にラベルをつける
ことができる。
変数ラベルは最大120文字まで使うことが可能
である。
データ→変数の定義→ラベル
※ 変数にラベルをつける場合
※ 変数の値にラベルをつける場合
変数定義について 3
(4)欠損値
データファイルを作成するとき、一部不明
なデータが存在した場合(たとえば、ある
設問に回答が記載されていなかったときな
ど)、該当する変数に不明であるという特
別な意味を持たせた数字を当てはめること
ができる。
データ→変数名→欠損値
データの変換
• 他の入力ソフトで作成したデータ(模擬データ:エクセル
形式)をSPSSに導入する。
1)ファイル(F)をプルダウンして、「開く」を選択し、「データ」
を選択して目的のファイルが存在するディレクトリーを選
ぶ。
2)ファイルの種類からエクセル形式を選択することによって、
目的のデータファイルが表示される。これを選んで「開く」
をクリックする。
3)「Excelデータソースを開く」の「データの最初から~」に
チェックマークがついていることを確認した後「OK」をク
リックする。
模擬データを用いて解析する内容
1)記述統計量の算出
2)2群の平均値および比率の差の検定
3)区間推定(信頼区間の計算)
4)観測値を変動させる原因を調べる(分散
分析)
5)現象の関連性を調べる(重回帰分析、ロ
ジスティック回帰分析、Cox比例ハザードモ
デル)
基本統計の操作
(1)年齢、身長、体重の基本統計量を計算
する。
統計→要約→記述統計
(2)離散量(性別、飲酒習慣、喫煙習慣な
ど)
統計→要約→度数分布表またはクロス集計
中心的傾向を示す指標(代表値)
1)平均値
算術平均と加重平均
2)中央値
データを小さい順に並べたときに、真ん中に位
置する値である。(50%タイル値)
模擬データを用いて計算する!!
散らばりを示す指標1
1)分散、標準偏差
散らばりの程度を示す最も基本と
なる指標
不偏分散=∑(値i-平均値)2/(n-1)
標本標準偏差=(不偏分散)1/2
模擬データを用いて計算する!!
散らばりを示す指標2
2)変動係数
標本変動係数(CV)=標準偏差/平均値
平均が大きくなると変動も大きくなる。
平均値が大きく異なる2つの集団を比較するとき、標準
偏差を用いることができないことがある。この様な場合変
動係数を用いて散らばり具合を比較する。
これは、単位の異なる指標を比較する場合にも用いられ
る。
模擬データを用いて計算する!!
関連性を表す指標の計算
1)Pearsonの相関係数
身長や体重など連続して変化するようなデータ
間の関連性を調べる。
2)Spearmanの順位相関係数
大中小や良可不可など離散数であるが数値間
に序列が存在するようなデータ間の関連性を評
価する。
模擬データを用いて計算する!!
仮説検定(平均値)
1)対応の無い2群の差の検定
t検定を用いる。
spssでは、「分析」、「平均値の比較」、「独立したサンプルのt検定」で行う。
【結果表の見方】
等分散性の検定で有意のときは「等分散を仮定しない」結果を採用する。
等分散性の検定で有意でないときは「等分散を仮定する」結果を採用する。
2)対応のある2群の差の検定
t検定を用いる。
spssでは「分析」、「平均値の比較」、「対応のあるサンプルのt検定」で行う。
【結果表の見方】
検定量は1つである。
上記のいずれも、t値に対する分布確率(p)が0.05(両側検定)より小さ
ければ仮説(平均値は等しい)を棄却することができる。
模擬データを用いて計算する。!!
仮説検定(比率)
独立性の検定(χ2検定)
ある標本がその特性によって行と列の組み合わせで分類できるとき、
列の特性グループ間で行の特性の分布が等しいか否かを検定する
方法である。
2×2の表のとき、χ2検定は列の特性間における行の特性の出現率
の差を検定することに等しい。
spssでは、「記述統計」、「クロス集計表」、「統計」、 「 χ2 」を選択す
ることにより求めることができる。
【結果表の見方】
結果表ではPearsonのχ2 を見、 χ2 値に対する分布確率が0,05未満
であれば両側検定で有意の差があると結論できる。
※もし、クロス表に5以下のセルがある場合は、Fisherの直接法を採用
する。
区間推定1(平均値の信頼区間)
ある集団の連続変数が正規分布するとき、平均値から上下
1SD(全体として2SD)の範囲にある確率分布は全確率
分布の95%を占める。このことを利用して、ある測定に
おける平均値の95%の確率で存在しうる幅(母平均のと
りうる幅)を推定することができる。これを母平均の95%
信頼区間という。
spssでは、母平均の区間推定はできない。よって、以下
の式で求める。
下限値:平均値-1.96(SD/(n)1/2)
上限値:平均値+1.96(SD/(n)1/2)
区間推定2(比率の信頼区間)
1)割合の信頼区間
spssでは計算できない。以下の式を用い
る。
ある調査で、対象者nのうち、ある特性A
を持つものの割合をaとしたとき、この割合
の95%信頼区間は
下限値: a-1.96(a*(1-a)/n)1/2
上限値: a+1.96(a*(1-a)/n)1/2
2)オッズ比の区間推定
例)ある新薬が有効性を偽薬を用いて調べたところ、以
下の結果を得た。
効果あり 効果なし
新薬
68
22
偽薬
51
39
オッズ比=(68×39)÷(51×22)=2.36
このオッズ比に対する信頼区間は以下で求めることができ
る
下限値: 2.36×e-1.96×SQRT(1/68+1/22+1/51+1/39)
上限値: 2.36×e1.96×SQRT(1/68+1/22+1/51+1/39)
なお、この計算はspssのクロス集計表の「統計」「Cochranと
Mantel-Haenszelの統計量」を選択することによっても求
めることができる。
日付変数の定義と計算
重要事項
1)日付変数の定義
データ→変数の定義→型
→日付を選択→表示形式の選択
2)日付変数の計算(別紙データの入力)
変換→計算→目標変数の設定
→数式の作成→実行
在院日数の計算:
XDATE.TDAY(変数A)-XDATE.TDAY(変数B)
年齢の計算:
(XDATE.TDAY(変数A)-XDATE.TDAY(変数B))/365.25
(YRMODA(定数)- -XDATE.TDAY(変数B))/365.25
変数のコード化と新変数の定義
1)離散型変数のコード化
変換→値の再割り当て→他の変数へ→元変数の選択
→変換先変数の作成→変更→今までの値と新しい値(今
までの値の設定→新しい値の設定→追加)繰り返し→続
行→ok
例)地区コードを「1,3」、「6~10」、「その他」に分類
せよ。
2)連続変数のコード化
変換→値の再割り当て→他の変数へ→元変数の選択
→変換先変数の作成→今までの値と新しい値→(今まで
の値の範囲の設定→新しい値の設定→追加)繰り返し→
続行→ok
例)新変数年齢を10歳階級に分類せよ。
臨床研究で必要なサンプルサイズ
の決定
まず、疫学研究、特に臨床研究を行う場合、
たとえば、無作為割付患者対象研(RCT)を
行う場合には、あらかじめ最低限(有意差
を導き出すのに)必要な対象者数を求めて
おくのが労力や研究費を節約するのに役
立つ。最近は、査読者から、この検討を
行ったかどうかを指摘されることもある。
比率の差の検定に必要なサンプルサイズ
異なる特性を持つ2群についてある事象の出現する割合(例
えば有病率など)を比較する研究を計画したとき、想定される出
現割合の差が有意となるように調査対象者数を決定したい。
N>2π(1-π){(Zα/2+Zβ)/δ}2
このとき、π=(π1+π2)/2
π1:一方の群の割合
π2:他方の群の割合
δ=|π1+π2 |
両群の比率の差を危険率5%(両側検定)、検出力90%(β=
10%)で検出したいとき、
Zα/2=1.96, Zβ=1.28
をそれぞれ代入して計算する。
なお、検出力を80%にする場合はZβ=0.84を用いる。
比率のサンプルサイズの練習問題
従来の薬剤Bでは降圧作用の認められる
患者の割合は50%であったが、新薬剤を
用いればその割合は70%になることが予
想されている。危険率0.05(αエラー)で両
側検定を行って、有意な差が認められる確
率が90%(パワー:1-β)になるような研究
を行いたい。両群同数ずつ割付を行うとす
ると、1群何名の症例が必要か求めなさい。
平均値の差の検定に必要なサ
ンプルサイズ
• 無作為割付による介入研究において、介入群の評価項目の測定
結果が対照群のそれに比べて有意となるように介入群および対
照群の標本数を決定したい。
1群の必要標本数は次式で表される。
n>2((Zα/2+Zβ)σ/δ)2
なお、
σ:母集団の標準偏差
δ:検出したい平均値の差の大きさ
両群の比率の差を危険率5%(両側検定)、検出力90%(β=10%)
で検出したいとき、
Zα/2=1.96, Zβ=1.28
をそれぞれ代入して計算する。
なお、検出力を80%にする場合はZβ=0.84を用いる。
例題
運動群と対照群とで1ヶ月後の最大血圧値に
おいて介入群の方が降圧効果有意に大きいこ
とを証明しい。ただし、介入群は対照群より
も試験開始時期からの最大血圧の低下が8
mmHg大きいものと期待する。また、試験開
始時期からの血圧低下の標準偏差(SD)は
9mmHgとする。このときの必要な票本数を
求めなさい。
このときの第一種の過誤はα=0.05、第
二種の過誤はβ=0.10(検出力:1-β=
0.9、90%)の条件で計算する。