1 評価方法(Ⅱ) 九州歯科大学 地域健康開発歯学分野 邵 仁浩 1

1
2015 年 11 月 24 日
九州歯科大学歯学部2年次生保健医療統計学講義
評価方法(Ⅱ)
九州歯科大学 地域健康開発歯学分野
邵
仁浩
1.はじめに
測定(measurement:検査や質問)は、現象を統計学的に処理可能な数値に変換する
プロセスである。研究の妥当性(validity)は、用いる変数(variable)が、
「目的とする
現象」
(phenomenon of interest)をどれほど的確に反映できているかにかかっている。
例えば、生活習慣に関するアンケートの質問項目が、普段の生活習慣を、どれほど的確
に反映しうるかといったことである。
本講義は、まず、測定に用いる尺度(スケール)の選び方によって、測定内容がどの
ような影響を受けるかを解説する。次に、測定誤差を減らす、すなわち、いかに精度
(precision:偶然誤差の少なさの程度=測定の安定性)と真度(accuracy:系統誤差の
少なさの程度=測定の的確性)の高い測定をデザインし、目的とする現象に対して妥当性
の高い推論が得られるようにするかということを解説する。
2.精度(precision)
精 度 ( precision ) と は 、 測 定 の 安 定 性 ( 再 現 性 ) を 表 す 概 念 で あ る 。 再 現 性
(reproducibility)、信頼性(reliability)ということもある。精度は研究の統計学的パワ
ーに影響し、測定の精度が高ければ高いほどパワーは大きくなり、平均値の推定や、仮
説検定に必要なサンプルサイズは小さくて済む。
精度(precision)は偶然誤差の影響を受け、偶然誤差が大きいほど精度は低下する。
測定で生じる偶然誤差は、以下の 3 つに大別される。
〈測定者による誤差(observer variability)〉
測定者自身が原因となって生じる測定結果の誤差(変動)のことで、面接調査における
質問の言葉使いや、測定機器を用いるときの技量などがその原因となる。
〈測定手段による誤差(instrument variability)
〉
測定手段が原因となって生じる誤差で、たとえば温度などの環境要因、機器部品の
劣化などによって生じる。
〈対象者による誤差(subject variability)
〉
2
対象者自身の身体内部の状態などに起因する測定結果の誤差のことで、測定が行わ
れる時間、以後の食事や服薬からの時間など、研究対象とする変数とは無関係に生じ
る誤差のことをいう。
(1)精度の評価
精度(precision)は、同じ測定者が同じ対象者あるいは検体について同じ測定を繰
り返した場合(within-observer reproducibility)、あるいは異なる測定者が同じ対象
者 あ る い は 検 体 に つ い て 同 じ 測 定 を 実 施 し た 場 合 ( between observer
reproducibility)の結果の一致度(再現性)として評価される。また、測定手段
instrument(質問票や測定機器)についても、同じ測定手段内、もしくは異なる測定
手段間で精度を評価することができる。連続変数の測定の再現性の指標には、対象者
内標準偏差(within-subject standard deviation)、あるいは、変動係数(coefficient
of variation:対象者内標準偏差を対象者平均で割った値)が用いられる。カテゴリ一
変数の場合には、一致率(割合)(percent agreement)、級内相関係数(intraclass
correlation coefficient)やカッパ係数(kappa statistic)がよく用いられる。
【補充①:信頼性】
〈再テスト信頼性(test-retest reliability)〉
同じ対象者群に、ある期間を挟んで、同じ質問を行ったときに、同じような結果が
再現される程度。
〈測定者内信頼性 intra-rater reliability〉
同じ測定者が同じ測定を行った場合に結果が一致する程度。
〈測定者間信頼性 inter-rater reliability〉
異なる測定者が同じ測定を行った場合に結果が一致する程度。
*一般に、測定者内信頼性は測定者間信頼性よりも大きいため、測定はできる限り、
同じ測定者が行うようにすることが望ましい。
【補充②:相関と一致度】
精度は、相関(correlation)と一致度(agreement)という2つの概念に分割でき
る。一般的には、個人間の識別を目的とする測定手段には、高い相関が求められ、同
じ個人の変化を測定する場合には,高い一致度が求められる。
〈相関(correlation)〉
精度に関する多くの指標は、相関が基礎となっている。相関とは、2 つのデータセ
ット間で対応するデータの「関連(association)」の強さを意味し、この場合、対応
するデータ同士の値は必ずしも一致する必要はない。例えば、1,2,3 というデータセ
ットと 2,4,6 というデータセットが、この順番に対応するなら、データ間には、完全
な 相 関 が あ る が 値 は 等 し く な い 。 相 関 の 統 計 量 は 、 相 関 係 数 ( correlation
coefficient)と呼ばれる。
3
〈一致度(agreement)〉
相関が、2つのデータセット間の「関係(relationship)」を意味する概念であるの
に対し、一致度は、2つのデータセット間の値がどれほど等しいかを意味する概念で、
一致度が高い場合は、相関も高くなるが、相関が高くても、一致度が高いとは限らな
い。
(2)精度を向上させる方法
偶然誤差を減らし、測定の精度(precision)を向上させる 5 つの方法(表1)。
表1 偶然誤差を減らし、精度を高めるための対策-降圧治療の研究の例
偶然誤差を減らす
ための対策
偶然誤差の発生源
測定者
偶然誤差を減らす
対策の例
カフの減圧速度が一
カフの減圧速度を
定しないことによる
2mmHg/秒に統一
血圧値の変動(速す
する
ぎることが多い)
①測定の標準化
対象者
②測定スタッフのト
偶然誤差の例
測定前の安静時間の
血圧測定前に 5 分
違いによる血圧値の
間、対象者を静かな
変動
部屋で安静にさせる
測定者の技能の違い
測定者に標準的技法
による血圧値の変動
をトレーニングする
測定手段(この場合
機器の不具合からく
新しい高性能の血圧
は血圧計)および測
る血圧値の変動
計を購入する
測定者の技能の違い
自動血圧計の使用
測定者
レーニングと技能チ
ェック
③測定手段の改善
定者
測定者
による血圧値の変動
④測定手段の自動化
対象者
測定者に対する対象
自動血圧計の使用
者の情動的反応の違
いによる変動
⑤測定の反復
測定者、対象者、測
上記すべての偶然誤
2 回以上の血圧測定
定手段
差
値の平均値を用いる
『医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版』
①測定方法の標準化:研究プロトコールには、測定の手順を必ず記述しなければな
らない。つまり、測定環境や測定対象をどのように準備するのか、面接をどのように
4
実施し記録するのか、測定手段(instrument:質問票や分析機器など)をどのように
キャリプレーション(calibration)1するのかなどについて、明確に記載する必要があ
る。このような実施マニュアル(operations manual)を作成する。
②測定スタッフのトレーニングと技能チェック:複数の測定スタッフが関わる場合
には、測定方法を統一(標準化)するためのトレーニングが必要となる。そして、正
式な技能チェックを行い、マニュアル通りに測定が実施されているかどうか、測定ス
タッフが必要なレベルの技能をマスターしているかどうかを確認しなければならない。
③測定手段の改善:測定の変動(バラツキ)は、分析機器であれば機械的な調整を行う
ことによって、質問票や面接の場合は、質問を明解に表記することによって、変動を
小さくすることができる。
④測定手段の自動(自記)化:測定者自身に由来する測定の変動(バラツキ)を減
らすためには、分析機器の自動化や、質問票を自記式にするなどの方法がある。
⑤測定の反復:測定を何度か繰り返して、その平均値をデータとして用いれば、偶
然誤差の影響を滅らすことができる。この方法を用いると、精度(precision)はかな
り向上するが、時間や経費の増加が問題となり、また、測定を繰り返すことが実際上
困難な場合もある。
研究者は、用いる測定のそれぞれについて、①~⑤の対策をどれほど徹底するかを
決めなければならない。一般的には、
「①標準化」と「②トレーニング」は必須で、
「⑤
測定の反復」はオプションであるが、確実な効果が期待できるため、可能な限り実施
することが望まれる。
3.真度(accuracy)
真度(accuracy)とは、測定値が目的とする真の値(現象)にどれほど近い値をとる
か、その程度を表す概念である(表 2)。表 2 に示すように、真度と精度は、異なる概念
で、必ずしも関連した概念ではない(図 1)
。図 1 は 2 つの概念の関係を示している。し
かし、現実には真度と精度はいっしょに変化することが多く、精度を高める対策の多く
は真度も同時に高める。真度は、バイアス(系統誤差)の影響を受け、バイアスが大きいほ
ど、その変数の真度は低下する。精度の場合と同じように、バイアスをその発生源の観
点から、以下の 3 つに大別することができる。
〈測定者バイアス(observer bias)〉
測定情報を測定者が、故意あるいは無意識に歪めて認識したり報告したりすること
によって生じるバイアスである。(例)患者の血圧を低めに読んでしまう傾向、インタ
ピューをする際に誘導質問をすることなど。
〈測定手段バイアス(instrument bias)〉
1
測定器具の精度を調べたり、調節したりする行為
5
測定手段(測定機器や質問票)が原因となって生じるバイアスである。測定機器の
調整不良がその典型的な例である。
(例)キャリブレーションされていない体重計では、
常に体重が実際より低めに(あるいは高めに)出ることがある。
〈対象者バイアス(subject bias)〉
研究対象者が原因となって生じるバイアスのことで、ある質問に対する回答に、系
統的にバイアスが持ち込まれることをいう(応答バイアス(respondent bias)
、もし
くはリコールバイアス(recall bias)ともいう)。
(例)アルコール摂取ががんの原因と
信じている乳がん患者は、アルコール摂取量を実際より多めに報告する傾向がある。
表 2 測定の精度と真度
精度(precision)
定義
最もよい評価方法
研究にとっての意義
影響する要因
真度(accuracy)
繰り返し実施した測定の値が
測定値が目的とする真の値に
安定である度合
近い度合
測定を繰り返して値の変動を
ゴールドスタンダードとの比
調べる
較
効果検出のパワー(検出力)
結論の妥当性を高める
を高める
偶然誤差(偶然変動)
系統誤差(バイアス)
誤差の発生源:測定者、対象
誤差の発生源:測定者、対象
者、測定手段
者、測定手段
『医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版』
的の中心を真の姿、球の跡を測定結果と考える
図 1 精度と真度の関係
『基礎から学ぶ 楽しい疫学
第3版から改変引用』
6
測定値の真度(accuracy)は、ゴールドスタンダード(真の値を測定できると考えら
れる方法で測られた標準値)との比較で評価するのが理想的である。どういう測定をゴ
ールドスタンダードとするかの判断は、必ずしも簡単ではないが、過去の研究などを参
考にして決定する。連続変数(例:体重)の真度は、同じ対象者について、研究で用い
る測定法で得られた値とゴールドスタンダードとなる測定法で得られた値の平均値の差
を求めることで評価することができる。一方、2 区分変数の場合は、ゴールドスタンダー
ドとの比較は、感度 sensitivity と特異度 specificity として表現される。区分が 3 つ以上
のカテゴリ一変数の場合には、各項目の正答率によって評価する。
(1)真度を向上させる方法
真度(accuracy)を向上させるための主な対策には、精度(precision)のところ
で説明した①~④に加え、以下に述べる 3 つの対策がある(表 3)
。
⑤気づかれない方法(非干渉的方法)で測定を行う:対象者に気づかれない測定
(unobtrusive measure:非干渉的測定)を行うことができれば、対象者が意識的に
データを歪める可能性を排除することができる。
⑥測定機器のキャリブレーション:測定機器の多く、特に機械的あるいは電気的な
機器の場合には、ゴールドスタンダードを用いた定期的なキャリブレーションによっ
て、その真度を高めることができる。
⑦盲検化(blinding)
:マスク化(masking)ともいう。古典的な方法で、あらゆる
バイアスに有効というわけではないが、選別的バイアス(differential bias:特定のグ
ループの測定のみにバイアスが生じること)の排除には有効な手段である。2 重盲目法
(double blind test)では、対象者のみならず、研究者にも、試験薬とプラセボのど
ちらに割り付けられたかがわからないようになっており、たとえ何らかのバイアスが
入り込んだとしても、その影響は試験薬群とプラセボ群の両者で全く等しいことにな
る。
実際の研究で、これら①~⑦のどの対策をどの程度厳密に実施するかは、研究者の
判断に委ねられている(実施の程度によって、研究の結論、あるいは、研究の実施可
能性やコストにどれほどの影響が生じるかを判断しなければならない。)
。最初の 2 つ
の対策(標準化とトレーニング)は必須であるが、測定値が時間とともに変化する可
能性のある機器についてはキャリブレーションが必要となる。また、盲検化は、可能
な場合は、常に実施する必要がある。
7
表 3 系統誤差(バイアス)を減らし、真度を高めるための対策-降圧治療の研究の例
バイアスを減らす
バイアスの
ための対策
発生源
測定者
①測定の標準化
バイアスの例
バイアスを減らす
対策の例
音が急に小さくなる点を拡
拡張期圧の測定を音が聞こ
張期圧ととるために拡張期
えなくなる点と定義する
圧が高くなる
対象者
2 階の診療室に上がった直
2 人用の聴診器を使用し
後に測ると血圧が高くなる
て、測定者の測定方法の正
しさをチェックする
②測定スタッフの
マニュアルに定められた方
測定者に標準的技法をトレ
トレーニングと技
法を守らないため血圧値が
ーニングする
能チェック
高くなる
③測定手段の改善
測定者
測定手段(こ
非常に腕の太い対象者に標
対象者の腕の太さに合った
の場合は血圧
準サイズのカフを使用した
カフを選ぶ
計)および測
ために血圧が高めに出る
定者
測定者
降圧治療群に割り付けられ
自動血圧計の使用
た対象者の血圧値を測定者
が意識的あるいは無意識的
④測定手段の自動
化
に低めに読んでしまう傾向
対象者
魅力的な測定者に接近して
自動血圧計の使用
興奮したことによる血圧の
上昇
⑤対象者に気づか
対象者
対象者が、実際以上によく
れない測定(非干渉
服薬していると報告する傾
的測定)法を用いる
向
⑥測定手段のキャ
測定手段
リブレーション
機器の調整不良による血圧
尿中の薬物濃度を測定する
毎月血圧計を調整する
値の上昇
測定者
降圧治療群に割り付けられ
割り付けの内容がわからな
た対象者の血圧値を測定者
いようにプラセボを用いた
が意識的あるいは無意識的
2 重盲検法を導入する
に低めに読んでしまう傾向
⑦盲検化
対象者
実薬を投与されていること
割り付けの内容がわからな
を知った対象者が副作用を
いようにプラセボを用いた
過剰報告する傾向
2 重盲検法を導入する
『医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版』
8
4.妥当性
妥当性(validity)は、真度(accuracy)に似た概念であるが、妥当性には、研究対象
とする現象をその測定がどれほどよく代表しているかという、質的な側面が含まれてい
る。たとえば、クレアチニンとシスタチン C は、いずれも腎臓から排出される物質で、
その血中濃度は、いずれも「正確(accurate)」に真値の 1%の誤差で測定することがで
きるが、腎機能の指標として用いる場合には、シスタチン C の方がより「妥当(valid)」
な指標となる。なぜなら、クレアチニンは、筋量によっても影響を受けるからである。
上述の図 1 でいえば、妥当性とは、目標とする的(まと)の中心にどれほど、測定の意
味が向っているかということである。
測定する内容によっては、ゴールドスタンダードを用いた評価が不可能な場合もある。
痛みや生活の質のように、主観的あるいは抽象的な現象を測定するスケールの場合は特
にそうである。社会科学の分野では、そうした測定の妥当性を評価するためのいくつか
の質的、量的基準が考案されている。
【補充③:測定の妥当性(validity)】
〈内容妥当性(content validity)〉
測定が、研究しようとする現象のさまざまな側面をどれほど反映しえているか、そ
の程度を表す概念である。
(例)QOL を評価する場合には、社会的、身体的、情緒的、
あるいは知的な機能などの側面についての質問項目が含まれているかどうか。
〈表面妥当性(face validity)〉
その測定の本質的な適切性を表す概念である。
(例)痛みを 10 項目のスケールで測
定すること、社会階級を家庭所得で測定することが適切かどうか。
〈構成概念妥当性(construct validity)〉
用いる測定が、研究対象とする理論的概念をいかに正しく表現しえているかという
ことである。たとえば、明らかに知的レベルが異なる 2 つの集団を、知能指数測定に
よって正しく区別しうるかどうか。
〈予測妥当性(predictive validity)〉
その指標が、研究対象とするアウトカムの発生をどれほど正確に予測できるかとい
うことである。(例)うつ状態のスケール(尺度)が、その後の失業や自殺といった
出来事をどれほど正確に予測できるか。
〈基準関連妥当性(criterion-related validity)〉
新しい測定が、既存の評価の定まった測定とどれほどよく相関するか。
主観的で抽象的な現象を測定しようとする場合には、まず、文献を調べたり、専門家
に相談するなどして、すでに妥当性が確立している測定手段 instrument(例:質問票)を
探すことから始める。そのような測定手段が見つかれば、それを用いた他の研究と結果
9
を比較できるばかりではなく、研究費の申請や論文の執筆において、方法の部分を簡潔
でかつ手堅いものにできるというメリットがある。しかし、そうしたメリットの反面、
妥当性の検討が実は不十分であったり、すでに内容が時遅れになっていたり、自分のリ
サーチクェスチョンに不適切なこともあるため、安易な使用は禁物である。もし、既存
のどの測定手段も、自分の研究には適さないと思われる場合には、自ら測定手段を開発
し、その妥当性を評価しなくてはならない。これは興味深く、かつ新たな測定手段の創
造にもつながるという意味で、意義深い仕事であるが、多大の時間と労力を要すること
を認敵しておく必要がある。
4.測定方法が備えるべきその他の条件
測定(measurement)には、目的とする特性や状態の差異を捉えられるだけの感度
(sensitivity)が求められるが、求められる感度の程度は、リサーチクェスチョンによっ
て異なる。たとえば、ある新しい薬物にどれほどの禁煙効果があるかを検討する研究で
は、比較的大まかな指標(例:禁煙したかどうか)でも十分であるが、ニコチン含有量
が減った場合に喫煙本数がどう変わるかを調べる研究では、1 日数本の喫煙本数の変化が
わかるほどの感度が求められる。理想的な測定とは、目的とする特性だけを正確に捉え
られる測定である。たとえば、呼気中の一酸化炭素(CO)濃度は、喫煙量の指標として
用いられることがあるが、自動車の排気ガス中の CO による影響も受けるため、特異性
はあまり高いとはいえない。しかし、喫煙に関する質問調査や血中のコチニン濃度の測
定など、大気汚染の影響を受けない測定を同時に行っておけば、総合的に特異性を高め
ることができる。また、測定には、研究目的にふさわしいものを用いる必要がある。た
とえば、心筋梗塞のリスクファクターとしてのストレスの意義を研究しようと思えば、
測定法を細かく決める前に、どのタイプのストレス(心理的、身体的、急性あるいは慢
性)を測定の対象とするのかをよく検討する必要がある。
測定(検査値や回答)は、データの適切な分布が得られるものでなくてはならない。 た
とえば、ある機能状態を測定する場合には、機能の高い人から低い人までを適切に捉え
られる測定でなければならず、それを確かめるためには、パイロット調査を実施して、
データが測定範囲の端に偏らないことを確かめておく必要がある。
測定は、できる限り、主観的判断に左右されにくいもの、言い換えれば、客観的なも
のでなければならない。客観性を高めるには、たとえば、測定者の関与を減らす(例:
機器の自動化)、質問票をより構造的にする(例:自由記述を減らし、選択式にする)な
どの対策が可能である。しかし、これらの方法では、観察の視野が狭くなりがちで、予
期しない重要な事実を発見するチャンスが失われてしまうおそれがある。その対策とし
ては、客観的で定量的な測定項目だけではなく、主観的で質的(qualitative:定性的)
な測定項目を加えておくことが考えられる。
測定をデザインするとき、初心の研究者ほど、データを集めすぎる傾向がある。確か
10
に、質問を増やすことによって、予期しない知見など、興味深い知見を得る可能性が高
まるが、研究者は同時に、効率(efficiency)と節倹(parsimony)にも配慮しなければ
ならない。つまり、測定は、 目的とする情報を集めるのに必要十分であるだけでなく、
適切な時間や費用でできるものでなければならない。効率を高めるためには、各質問項
目の質を高め、かつ無駄な質問を減らさねばならない。測定項目が多すぎると、対象者
は疲れ、研究者にも負担がかかり、またデータ処理や分析も粗雑になりやすい傾向があ
り、費用がかかったわりには、肝心のリサーチクェスチョンに関する情報が不十分とい
う矛盾に陥ることになる。
【参考文献】
1)「基礎から学ぶ楽しい疫学
第3版」
P7-14
中村好一
著
医学書院
2)「医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版」
スティーブン B. ハリーほか
著
木原雅子、木原正博
訳
P39-49
メディカル・サイエンス・インターナショナル