1 評価方法(Ⅰ) 九州歯科大学 地域健康開発歯学分野 邵 仁浩 1

1
2015 年 11 月 10 日
九州歯科大学歯学部2年次生保健医療統計学講義
評価方法(Ⅰ)
九州歯科大学 地域健康開発歯学分野
邵
仁浩
1.はじめに
“学問における偉大な進歩は、すべて、物事を定量的に測ろうとした人の努力によると
ころが大きい。”-J. Maxwell (物理学者、1831 –1879 年)
“目的とするものを測定し、それを数値で表現できて初めて,それが何であるかを知る
ことができる。逆に測定できなければ、知識はまだ十分であるとは言えない。
”-L. Kelvin
(工学者、数学者、物理者、1824-1907 年)
①
疫学では患者とは診断基準などで定義するものである。
②
曝露の測定も定義するものである。
③
同一の曝露でも測定方法は複数であることが多い。
④
危険因子である曝露の変化=予防。
中村好一
著『基礎から学ぶ
楽しい疫学
第3版』医学書院より
測定(measurement:検査や質問)は、現象を統計学的に処理可能な数値に変換する
プロセスである。研究の妥当性(validity)は、用いる変数(variable)が、
「目的とする
現象」
(phenomenon of interest)をどれほど的確に反映できているかにかかっている。
例えば、生活習慣に関するアンケートの質問項目が、普段の生活習慣を、どれほど的確
に反映しうるかといったことである。
本講義は、まず、測定に用いる尺度(スケール)の選び方によって、測定内容がどの
ような影響を受けるかを解説する。次に、測定誤差を減らす、すなわち、いかに精度
(precision:偶然誤差の少なさの程度=測定の安定性)と真度(accuracy:系統誤差の
少なさの程度=測定の的確性)の高い測定をデザインし、目的とする現象に対して妥当性
の高い推論が得られるようにするかということを解説する。
2.尺度(スケール)
事物や事象などの観測対象に、定められた操作に基づいて数値を割り当てることを「測
2
定」といい、測定によって割り当てられた数値を測定値という。測定によって数値を割
り当てる規則を「尺度 I という。スチーブンス(Stevens、1951)は尺度の性質を以下の
4 つの水準に分類した。
(1)質的尺度
①名義尺度(nominal scale):名目尺度ともいい、対象の区別をするために数字を
割り当てる。名称や識別記号と同等である。名義尺度では個々の対象の分類ができれ
ばよいために、分類に支障がない範囲で数値を任意に変換できる。例:スポーツ選手
の背番号、郵便番号、商品番号など。許される意味のある計算-計数、割合
②順序尺度(ordinal scale)
:序数尺度ともいい、対象の量の大小や強弱の順序関係
を区別する。例:クラス順位、モースの硬度、星の明るさの等級など。許される意味
のある計算-計数、割合、中央値
(2)量的尺度
①間隔尺度(interval scale)
:特性がない状態である絶対 O 点を定義できない。例:
摂氏温度、標準テストの点数、位置エネルギー、西暦年号など。許される意味のある
計算-計数、割合、中央値、平均値、和・差の演算
②比率尺度(ratio scale)
:比尺度とか比例尺度とも呼ばれ、特性がない状態である
絶対 O 点が存在する。例:重さ、長さ、絶対温度、時間など。許される意味のある計
算-計数、割合、中央値、平均値、四則演算
【補充①】
測定に用いるスケールの簡単な分類とそれぞれが表す情報を示した(表1)
。この分類
で重要なことは、変数のタイプによって、統計学的情報量が異なり、したがって、統計
学的パワー(検出力)
(=必要なサンプルサイズ)が異なるということである。
表1 測定のスケール(尺度)『医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版』
統計学的
変数の種類
変数の特徴
例
記述統計
パワー
カテゴリー変数
2区分変数
2 つのカテゴリ一
人口統計(生存/死亡)
計数、割合
低い
名義変数
大小関係なし
人種、血液型
計数、割合
低い
順序変数
大小関係あり(ただ
痛みの程度、社会階級
計数、割合、中
中程度
し間隔は非定量的)
央値
数量変数
連続変数
1
離散変数
間隔は定量的
体重
計数、割合、中
1 日の喫煙本数
央値、平均値、 高い
標準偏差
1
連続変数とは体重などのように値が連続の数であり、離散変数とは 1 日の喫煙本数など飛び飛びの値で与えられる変数であ
る。
3
(1)連続変数
数値変数(numeric variable)とは、量やカウント数を数値で表現する変数のこと
を言う。連続変数(continuous variable)とは、体重計で得られる体重値のように、
理論的に無限の値を取る変数で、最も情報量に富む変数である。これに対し、測定値
が、たとえば 1 日の歯磨き回数のように、決まったユニット(一般には整数)で与えられ
る変数を、離散変数(discrete variable)と呼ぶ。離散変数が非常に多くの値をとる
とき、離散変数は統計学的に連続変数に近い性格のものとなり、研究デザイン上は、
連続変数とほぼ同等のものとみなすことができる。
(2)力テコリー変数:2 区分変数、名義変数、順序変数
量的に表現しにくい現象にはカテゴリ一変数(categorical variable)が用いられる。
カテゴリー(区分)が 2 つの場合(例:生/死)を、2 区分変数(dichotomous variable)
と呼び、それ以上の多くの区分を持つ場合は、多区分変数(polychotomous variable)
と呼ぶ。カテゴリ一変数は、含まれる情報の種類によって、名義変数(名目変数)と順序
変数に分けられる。名義変数(nominal variable)とは、単に区分の名称を表わす変
数(例:ABO 式血液型)で、変数聞に大小関係(順序)はない。名義変数は、質的な情
報を表し、定義が比較的明確で測定も比較的簡単という利点がある。これに対し順序
変数(ordinal variable)とは、大小関係のあるカテゴリ一変数で、たとえば痛みを、
強い、中くらい、弱いなどに分類するのがその例である。順序変数は、順序があると
いう点で名義変数より情報量の多い変数であるが、区分間の量的違いが明確でない(例
強い痛みは、弱い痛みの3倍とは言えない) 点で、情報量としては離散変数や連続変
数に劣る。
(3)スケールの選び方
一般的には、情報量が多く統計学的に有利という意味で、連続的な数値が得られる
ようなスケールを選ぶのがよいと考えられる。たとえば、複数の降圧薬の治療効果を
比較する場合、血圧を mmHg という連続値で表せば、治療効果を量的に評価すること
ができますが、2 区分スケール(高血圧、正常血圧)にすると、観察のきめが粗くなり、
変化を捉えにくくる。連続変数は情報量が多いために統計学的に有利で、統計学的パ
ワーが大きく、サンプルサイズが小さくて済むというメリットがある。
連続変数は、アウトカムとの関連のパターンが複雑な場合などに、カテゴリ一変数
よりも柔軟性が高いという利点がある。たとえば、ビタミン D とがん死亡率との聞に
は、U 型の関連(ビタミン D が低値と髙値の場合に死亡率が高く、中間値では死亡率
が低いという関係)があるため、それを捉えるためには、ピタミン D を連続変数で測
定しておかねばならない。また、低体重児出生の予測因子に関する研究では、2500 g
という標準体重閾値より大きいか小さいかではなく、実際の出生体重を記録しておく
必要がある。それによって、分析の選択肢が広がり、「低体重」の基準値を変更するこ
と も 、 い く つ か の 体 重 区 分 を 表 す 順 序 変 数 ( 例 : > 2500g 、 2000 - 2499g 、
4
1500-1999g、<1500g)を作成することもできる。同じように、食べ物の好き嫌
いに関する質問のように、選択肢に順序変数を用いることができる場合には、選択肢
を「非常にきらい」から「非常に好き」までの6段階のカテゴリーに分類しておくと
便利である。なぜなら、後から「きらい」か「好き」かの 2 区分変数に仕立てること
ができるからである。しかし、その逆は不可能である。
カテゴリーや数値で表すことの難しい現象も少なくない。症状(例:痛み)やライ
フスタイルに関わるもの(例:生活の質[QOL])は特にそうである。しかし、これら
の現象も、診断や治療の決定上重要なことが多く、これらを測定することは、科学的
アプローチにとって不可欠である。よく知られたものとしては、QOL 測定の標準的ス
ケールである SF-36 がある。このような標準的スケールの利用は、それが適切なもの
であれば、知識の客観性を高め、バイアスを減らし、また研究相互の比較が可能とな
るというメリットがある。
3.評価方法
(1)質的データの評価方法
本講義では、代表的な質的データの評価方法であるχ2 検定を含むクロス集計表の分
析を取り上げる。
〈χ2 検定(独立性の検定)について〉
親子歯科健診受診別にみたう蝕有病状況(3歳児時点)
う蝕の有無
無
親受診有
親受診無
計
有
444
126
570
77.9%
22.1%
100.0%
1800
767
2567
29.9%
100.0%
70.1%
p=0.000
カイ二乗検定
2つの属性(親受診の有無)によって分類した分割表(クロス集計表)から,これ
らの分類が独立(無関係)かどうか調べるものは、独立性の検定と呼ばれる。表1の
ような分割表(クロス集計表)が得られたとき,2つの属性が独立(無関係)かどう
か・・・親受診の有無に差異があるかどうかを判断するには
表1
親受診有
親受診無
う蝕有
444
1800
2244
う蝕無
126
767
893
570
2567
3137
① 集計表の周辺和(行小計,列小計)の比率で割り出した期待度数(表 2:A,B,C,
D)を求める。→表3(親受診の有無がう蝕の有無に影響しないと想定した場合)
5
表2
親受診有
親受診無
う蝕有
A
C
2244
う蝕無
B
D
893
570
2567
3137
A=2244× 570/3137 B=893× 570/3137
C=2244×2567/3137 D=893×2567/3137
表3
親受診有
親受診無
う蝕有
408
1836
2244
う蝕無
162
731
893
570
2567
3137
② 表1(観測値)と表3(期待値)からχ2 値を計算する:
X
2
=(444-408)2/408
+ (126-162)2/162 + (1800-1836)2/1836 +
(767-731)2/731=13.・・・
③ m×nの分割表では,自由度は(m-1)(n-1)となるので、2×2の分割表では自
由度は1
④ χ2 分布表により、多くの場合、有意水準 5%のχ2 値と比較し、これよりも大き
ければ帰無仮説を棄却して有意差ありとし、そうでなければ有意差なしとする。
χ2 分布表
自由度\p 0.995 0.975
0.05 0.025
0.01 0.005
1
0.000 0.001 3.841 5.024 6.635 7.879
2
0.010 0.051 5.991 7.378 9.210 10.597
3
0.072 0.216 7.815 9.348 11.345 12.838
4
0.207 0.484 9.488 11.143 13.277 14.860
5
0.412 0.831 11.070 12.832 15.086 16.750
・・・
・・・ ・・・
・・・
・・・
・・・
・・・
6
自由度1のχ2 分布
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.0
2.0
4.0
6.0
8.0
右側 5%点:3.841
実現値:13.843
(2)量的データの評価方法
本講義では、代表的な量的データの評価方法である独立した2群のt検定を取り上
げる。
① Welch の t 検定
2群間に差はあるのか? T 統計量を求めて比較する。
T =
XA − XB
S A / n A + S B / nB
2
2
XA : A 群の平均値
XB : B 群の平均値
SA : A 群の標準偏差
SB : B 群の標準偏差
nA : A 群の例数
nB : B 群の例数
(利用条件の確認)
・計量データであるか? ・A 群・B 群とも正規分布であるか?→正規性の検定
② Student の t 検定
2群間に差はあるのか? T 統計量を求めて比較する。
XA − XB
T =
S 1 / n A + 1 / nB
XA : A 群の平均値
XB : B 群の平均値
S : A 群及び B 群の標準偏差
(分散は等しい)
nA : A 群の例数
(利用条件の確認)
nB : B 群の例数
・計量データであるか?
・分散は等しいか?(SA/SB≒1)→等分散性の検定=F 検定
7
*等分散なので、先程の Welch のt検定で SA=SB=S(共通の分散)とする
・A 群・B 群とも正規分布であるか?→正規性の検定
【補充②】
2 つの平均値・割合の比較
(1)統計学的検定
平均値・割合の差がバラツキによるか否か
(2)推定値と誤差
平均値・割合の差の推定とその確からしさ
〈統計学的検定について〉
① 帰無仮説 (null hypothesis)の設定
② 帰無仮説 にもとづく統計量
③ 計算された統計量のおこる確率(P-値)
④ P-値が小さいと帰無仮説は棄却され、対立仮説が採択される。「統計学的有意差
がある」との判断がされる。
慣例的に、P<0.05 または P<0.01 で帰無仮説が棄却される。
帰無仮説 を棄却する P-値を有意水準、危険度、あるいは第1種の過誤 (type I error)
と言う。
母集団 A
母集団 B
比較
標本
標本
比較
A
B
検定の概念
【参考文献】
1)「基礎から学ぶ楽しい疫学
第3版」
P7-14
中村好一
著
医学書院
2)「医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版」
スティーブン B. ハリーほか
著
木原雅子、木原正博
訳
P37-39
メディカル・サイエンス・インターナショナル