データの解釈

保健医療統計学 安細
平成 27 年 12 月 15 日(火)
※講義で使用するので、テキスト(地域診断のすすめ方)を必ず持参すること。
【5−4 統計処理のすすめ方】(テキスト P. 134
136)
1. 6つのステップ
・ 分布を知る(度数分布表、ヒストグラム)
・ 基礎統計量を求める
Ø
代表値
Ø
バラツキ:範囲(最大値、最小値、四分位偏位)、分散、標準偏差、
標準誤差
・ 集計する(単純集計、クロス集計)
・ 母集団の情報を推定する(母平均、母比率など)
・ 差の検定(パラメトリック検定、ノンパラメトリック検定など)
・ 結果の意味を解釈する(偶然、バイアス、交絡因子、サンプル数)
2.平均値の落とし穴
皆さんはデータをみると、とりあえず平均値をとってみようと思うかもしれないが、
平均値はくせ者だという認識をもつ必要がある。
例えば、5 名のスコア(点数)があったとする。
101、110、105、112、115、
この場合、平均値は 108.6 になる。ここに 200 という数字が加わったとするとどうな
るであろうか?
平均値は 123.8 となり、平均値の近くにはあまり観測値がないことになる。このように
極端に大きな観測値や小さな観測値が含まれていると、その影響を受けるということを
認識しておく必要がある。
こうした現象を見抜くにはデータの分布を見ることが大切である。
3.データの分布をみる
階級:変数が取る値の範囲をグループ分けしたそれぞれの区間のこと。
度数(頻度):階級に含まれる観測値の個数をその階級の度数という。
度数分布:階級ごとに度数を整理したものであり、その表のことを度数分布表という。
相対度数:階級の度数
度数の合計で求められる。相対度数を小さい階級から合計して
1
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
得られるものは累積相対度数という。
(累積度数分布図のイメージ):パーセンタイル図ともいう。
【度数分布表、ヒストグラムのイメージ】
2
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
【問題 1】
あるクラスで通学時間を調べたところ、次のような度数分布表が得られた。
通学時間(分)
度数
0 2
3
2 4
7
4 6
10
6 8
6
8 10
2
10 12
3
12 14
2
14 16
1
16 18
0
18 20
1
合計
35
問1.この度数分布表を使って描かれたヒストグラムとして適切なのはどれか。
問 2.この分布からわかることとして、適切でないのはどれか。
a. 最も度数の高い階級は、4
6 分である。
b. 通学時間が 10(分)以上の生徒は 7 人である。
3
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
c. 半数以上の生徒は通学時間は 5 分以下である。
d. 通学時間が 2 分以上 8 分未満の生徒の割合は約 66%である。
4.代表値とは?(P. 148
151)
一般に知られている代表値としては3つあり、平均値、中央値、最頻値である。
4-1 平均値
観測値
観測値の個数で定義される。ただし、はずれ値の影響を受けるので代表性の解
釈には注意を要する。
4-2 中央値
中位数、メジアン、メディアンという。はずれ値の影響を受けにくいという点で平均値
とは異なる性質を有している。n が奇数の場合は(n+1/2)を中央値とし、n が偶数の場合
は(n/2)と(n/2+1)の平均を中央値とする。
4-3 最頻値
モードともいう。最も頻繁に出現する値を意味する。
【問題 2】
次は、10 名の学生が読んだ本の数を示すデータである。
5、5、5、10、10、12、15、15、22、51(冊)
このデータに関する記述として、誤っているのはどれか。
a. 中央値は 12(冊)である。
b. 平均値は 15 である。
4
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
c. 最頻値は 5 である。
d. 最大値は 51 である。
5.分位数と箱ひげ図
分位数とはデータを大きさの順に並べ、データ全体をいくつかのグループに観測値の個
数で等分した際の境界となる値である。データ全体を 4 等分した場合の四分位数はよく
使われる。
また、最小値、第 1 四分位数(Q1)、第 2 四分位数(中央値)、第 3 四分位数(Q3)、
最大値の5つの数をまとめて、5 数要約といい、分布の形状を判断するために用いられ
る。
7.はずれ値
はずれ値とは、他の観測値と比べて大きくはずれた観測値のことをいう。箱ひげ図は、
5
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
はずれ値を検出するための簡易な手法であり、四分位範囲(Q3−Q1)の 1.5 倍よりも外
側に離れている観測値をはずれ値という。
【問題 3】
次のデータはあるクラスの 20 人の通学時間の測定結果である。
56
24
32
19
33
60
31
23
22
87
45
47
12
28
7
12
43
32
101
26
平均値は 37.0 分、第 1 四分位数 22.5 分、第 2 四分位数 31.5 分、第 3 四分位数 46.0 分、
最小値 7 分、最大値 101 分である。箱ひげ図を利用してはずれ値の検出を行い、その
結果を述べよ。
6
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
6.正規分布
データが左右対称で、1つの山型の分布に従う場合、正規分布に従う、という。人の身
長やよく管理された製品の寸法の分布などは正規分布に近いとされる。
正規分布の検定にはいくつかあるが、Kolmogorov-Smirnov 検定などが代表的。
正規分布の場合、理論上、以下の特徴がある。
1)平均値−標準偏差(SD)から平均値+SD の間にデータ全体の約 68%が存在する
2)平均値−2SD から平均値+2SD の間にデータ全体の約 95%が存在する
3)平均値−3SD から平均値+3SD の間にデータ全体の約 99.7%が存在する
7.スキューネスとカルトシス
検定ではないが、正規性があるかどうかの傾向をみる場合、Skewness や Kurtosis と
いった指標がある。
1)Skewness(歪度)
:分布の左右対称性の違いをみる。値が 0(ゼロ)に近いと左右
対称に分布していることがわかる。また正の値をとる場合、左に偏っていて、負の
値をとる場合は右に偏っていることを示す。
2)Kurtosis(尖度):分布の形が先がとがっているか偏平かを示す。値が大きいほど
尖った形の分布を示す。正規分布では3の値をとることがわかっている。
7
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
8.クロス集計(P. 163
168)
『行』と『列』の要因別に集計することをクロス集計という。
クロス集計を用いた検定としてχ2 検定がある(評価方法Ⅰで講義済み)。
また、類似した検定として、フィッシャーの直接確率検定(Fisher’s exact test)が
ある。この検定は、1つのセル内の数値が5以下の場合に適用される。
9.ノンパラかパラか、検定法の選択
ポイントとしては、正規分布に従うかどうか、2 群間の比較なのか、3 群間以上の比較
なのか、を考慮して選択する。
検定法の選択
•  パラメトリック検定
–  母集団が正規分布に従うと仮定できる場合
–  t検定
–  ANOVA検定(分散分析の一種)、など
•  ノンパラメトリック検定
–  母集団が正規分布に従うと仮定できない場合
–  Mann-Whitney U検定(2群間)
–  Kruscal-Wallis検定(3群間)、など
9.その他の解析方法(P. 136)
1)相関分析
相関の強さは相関係数によって求められ、ピアソン積率相関係数とスピアマン順位相関
係数などがある。相関係数は−1から1の間の値をとる。相関係数の値の正負は、正の
相関、負の相関を示し、値の絶対値が大きいほど強い相関といえる。目安としては、相
関係数が 0.4
0.7 の場合弱い相関、0.7
1の場合強い相関としていることが多い。
2)単回帰分析
単回帰分析は回帰分析の中で最も単純なモデルであり、目的変数(従属変数ともいう)
y の値を1つの説明変数(独立変数ともいう)x の一次式(y = ax + b)で予測する分析
方法である。この場合、目的変数および説明変数は連続変数を用いる。
3)重回帰分析
8
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
単回帰分析の応用編で、複数の説明変数 x1, x2, ,,, xi を組み合わせて1つの目的変数 y
を予測する方法である。変数は連続変数を用いる。
4)ロジスティック回帰分析
回帰分析の一つだが、目的変数が「成功・失敗」や「生存・死亡」といった 2 値(0か
1の変量)のデータである場合に用いる方法である。
10.第 1 種の過誤(αエラー)、第 2 種の過誤(βエラー)
αエラーとは、差がないのに差があると誤ってしまうこと。
βエラーとは、差があるのに差がないと見逃してしまうこと。
!エラーと"エラー
真実
差がないと
結論
差がない
差がある
正しい判定
"エラー
(確率")
!エラー
(確率!)
正しい判定
研究結果
差があると
結論
12.データの解釈
検定の結果、有意差があったかどうかだけをみるのではなく、例えば、バイアス(対象
者の選択バイアス、報告バイアス)の有無、交絡因子(原因と結果の両方の要因に関係
する要因の影響)の有無、標本数(サンプルサイズ)は十分だったか、などについて検
討することが必要である。
9
保健医療統計学 安細
平成 27 年 12 月 15 日(火)
選択バイアス
•  Selection bias
•  対象の設定から起こるバイアスのこと
•  研究対象が母集団を反映しないことに
よって起こる
•  例えば、健診会場では比較的健康で健康
意識の高い人が参加しやすいというバイ
アスを考慮すべきである
情報バイアス
•  Information bias
•  情報の集め方が不十分なために起こるバ
イアスのこと
•  例えば、情報を聞き取り調査で職歴を尋
ねるケースコントロール研究だとすると、
質問者が実験群には細かく聞き、対照群
には簡単にすませたりすると群間で差が
生じる
【補足】
パソコン用統計関連ソフト(P. 136)
代表的なのは、SPSS(エスピーエスエス)や SAS(サス)だが、他にも STATA や JMP
などもある。また、フリーソフトで R(アール)などもあり、慣れが必要だが根強い人
気がある。これらは通常、エクセルに入力されたデータを読み取る形で使用する。
【参考文献】
1)データの分析、日本統計学会 編、東京図書.
10