「測定の信頼性」 J. L. フライス、「臨床試験のデザインと解析」第一章 を下敷きに 久留米大学バイオ統計センター 久留米大学大学院医学研究科バイオ統計学群 森川 敏彦 久留米大学バイオ統計センター公開セミナー 2005.7.2 久留米大学教育一号館1501号 1 J. L. フライス「臨床試験のデザイン と解析」第一章より いかに臨床研究のデザインが優れていた としても、測定の信頼性が低く不正確であ れば、そのことによる欠陥を克服すること はできない。 データの質が高いことは、ランダム化や二 重盲検化などと同じ位に重要な試験デザ インの要素である。 2 ICH E9統計ガイドライン ガイドラインの目的は 臨床試験から得られる結果の 偏りを最小に、精度を最大に (得られた結果・結論の科学的信憑性を最大に) すること これはガイドラインがあろうとなかろうと科学研究である 限り、当然追求しなければならないこと 3 • ICH E9 Statistical Principles For Clinical Trials – 2.2.2 Primary and Secondary Variables(主要変数及び副 次変数) "The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended.” ”There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria.” 4 2.2.3 Composite Variables(合成変数) "When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting change in the severity of disease.” ex. ADAS-cog.(Alzheimer’s Disease Assessment Scalecognitive subscale) Total Score 2.2.4 Global Assessment Variables(総合評価変数) "When a global assessment variable is used as a primary or secondary variable, further details of the scale should be included in the protocol with respect to: 1) the relevance of the scale to the objective of the trial 2) the basis for the validity and reliability of the scale ex. CIBIC (Clinician’s Interview Based Impression of Change) 5 Glossary Content Validity(内容妥当性) The extent to which a variable (e.g. a rating scale) measures what it is supposed to measure測りたいものが測れているか Inter-Rater Reliability(評価者間信頼性) The property of yielding equivalent results when used by different raters on different occasions違った評価者間で結果が再現するのか Intra-Rater Reliability(評価者内信頼性) The property of yielding equivalent results when used by the same rater on different occasions同じ評価者内で結果が再現するのか 6 一見客観的と思えるような種々の測定にも妥当 性、信頼性の問題は潜んでいる。客観的な測定 だから妥当で信頼がおけると天下り的に考える のは危険。 理想的な状態ではいい性能をもっている測定器 であても生体内の測定においては種々の乱れが 入ってくる。 外国で妥当性が確認された評価尺度であっても 日本で(あるいは適用しようとしている対象に対 して)妥当かどうかは確認しなければ分からない 7 例 骨密度の測定 コレステロール値の測定 血圧の測定 胃内pHの測定 血糖値の測定 痴呆・リウマチ・脳血管障害・うつ・不安な どの評価尺度 8 測定・評価の妥当性と信頼性 妥当性: 測りたいものが測れているか? (物差しで熱は測れない) 信頼性: 測りたいものが精度よく測れるか ?(熱を測るのに体温計? おでことおでこ をくっつける?) 結果の再現性 9 測定・評価の妥当性と信頼性 妥当性 的を得た・・・・ 的外れ・・・・・・ ピントがずれ て・・・・ 信頼性 ムラがある ・・・ 再現性がよ いからいい 測定器だ・・ 10 測定・評価の妥当性と信頼性 正解(“的”;gold standard)がわかっていれば、 それと付き合わせることにより、偏り(妥当性)や 精度(信頼性)がわかる。 正解がわからなくても精度は把握はできる。 血圧などの測定値はほんとのところはわからない が、T社、O社、M社などの簡易測定器で測ると会 社によって(機種によって?)高めや低めがあり、 また何回か測り直すと、いくらでも違う数値が表示 される。妥当性・信頼性の両方の問題を含む(?) 11 信頼性の尺度 連続データ:信頼性係数(またはICC) 分類データ:κ係数 12 信頼性の統計モデル 測定モデル X T e X : 測定値 T : 真値 e : 誤差 X2 T2 e2 13 信頼性係数 coefficient of reliability (reliability coefficient) 信頼性係数の定義 真値の分散 T2 T2 R 2 2 2 測定値の分散 X T e 誤差分散 1 1 1 2 2 測定値の分散 T e 2 e 2 X 2 e 14 級内相関係数 intraclass correlation coefficient(ICC) ICC:同じものを2度測ったときの相関係数 先ほどの測定モデルの下で ICC Cov( X ,Y ) Cov( T e X ,T eY ) V(T ) V ( X )V ( Y ) V ( X )V ( Y ) V ( X )2 T2 2 ( R) X すなわち、いま考えている測定モデルの下で ICCは信頼性係数に等しい 15 級内相関係数ICCと相関係数 ICCは同じ被験者(あるいは測定対象)を2回測ったときに 測定結果XとYが傾き45度の直線の上に乗っている程度( 測定の一致性・再現性) YX 一般の相関係数は単に直線の上に乗っている程度 Y aX b 相関係数が高いからといって、ICCが高いとは限らない ICCが低くても相関係数が高いことはありうる 逆にICCが高ければ相関係数も高いし、相関が低ければ ICCも低い 16 級内相関係数と相関係数 級内相関と相関 X 120 100 80 Y Z 60 40 20 Y 10 10 20 25 18 28 30 35 45 42 37 47 55 55 65 60 64 74 72 73 83 78 77 87 90 93 103 105 98 108 相関 ICC XとY 0.99 0.99 XとZ 0.99 0.954 0 0 20 40 60 80 X(一回目の観測値) 100 Z 120 17 信頼性が低いことがもたらす結果 ①相関の低下~相関構造を崩す X T e Y U f XY TU R X RY たとえばTU 0.8, R X 0.7 , RY 0.6 XY 0.52 18 信頼性が低いことがもたらす結果 ②サンプルサイズの増加 2群の患者からなる単純な2群比較試験 1 2 : 処理差 ( 検出したい2群間の平均反応の差) T2 : 測定による誤差がないときの反応のバラつき :両側検定を行うとき の有意水準 :第2種の過誤率( 1 は検出力) 19 信頼性が低いことがもたらす結果 ②サンプルサイズの増加 2標本t検定の1群当 りサンプルサイズ n* 2 T2 ( z / 2 z )2 2 もし測定に誤差があるとサンプルサイズは n 2( )( z / 2 z ) 2 T 2 e 2 2 n* R ここにRは信頼性係数 20 信頼性が低いことがもたらす結果 ②サンプルサイズの増加 たとえば拡張期血圧を用いて独立な2群を比較するものとし、 両側有意水準5%を採 用し、 群間の平均変化量の差 が5m m HGであれば その差を検出力80%でその差を検出したいとき 測定誤差を含まない場 合の標準偏差を8m m HGとして z / 2 z0.025 1.96, z z0.20 0.842, 5, T2 82 64より 2( 64 )(1.96 0.842)2 n* 40 52 ゆえに両群合わせて80例必要 しかし測定の信頼性係 数が R 0.67であれば、必要例数は 1群n 40 / 0.67 60,両群で120例必要 もしR 0.8であればn 40 / 0.8 50,両群で100例ですむ。 21 信頼性が低いことがもたらす結果 ③臨床試験での標本選択の偏り 本来は真値Tが閾値Aを上回る患者を試験の対象とし たい。しかし測定値が誤差を含むために本来組み入 れるべきではないT<Aなる患者もX=T+e>Aによって 組み入れられる(偽陽性)。 このような患者は十分重症でないために反応を示す ことができず、また選択された標本自体が想定してい る集団よりも広くなることにより比較の感度が鈍る。 このような標本が偏る性質はいわゆる中心への回帰 regression to the meanの特別の場合 22 信頼性が低いことがもたらす結果 ③臨床試験での標本選択の偏り 23 単純な繰り返し信頼性研究と 評価者内信頼性intra-rater reliability 同一の測定者(測定器)・同一の条件 N人の被験者 各被験者につきk回の測定の繰り返し 測定モデル(一元配置ランダム効果モデル) 24 データの形式 表1.2’ 一元配置デザインから得られるデータ ――――――――――――――――――――――― 被験者 k回の繰り返しから得られる測定値 ――――――――――――――――――――――― 1 X11, X12, ・・・・, X1k 2 X21, X22, ・・・・, X2k ・・・・・・・・・・・ N XN1, XN2, ・・・・, X Nk ――――――――――――――――――――――― 25 26 表1.3の元データ 表1.3 患者 平均 分散 X1 X2 1 0.235 0.0265 0.397788 0.072212 2 0.115 0.0005 0.137361 0.092639 3 0.14 0.0008 0.168284 0.111716 4 0 0 0 0 5 0.385 0.0061 0.463102 0.306898 6 2.655 0.0005 2.677361 2.632639 7 0.065 0.0013 0.101056 0.028944 8 0.375 0.0085 0.467195 0.282805 9 0.58 0.0002 0.594142 0.565858 10 3.9 0.0338 4.083848 3.716152 27 表1.3の元データのプロット X2 5 4.5 4 3.5 3 2.5 X2 2 1.5 1 0.5 0 0 1 2 3 4 5 28 一元配置分散分析表(cf.表1.4) 分散分析表 変動 平方和 平均平方 自由度 2 被験者間 i k( X i X ) BMS 被験者内 ij ( X ij X i )2 WMS (誤差) 合計 ij ( X ij X )2 N-1 (k-1)N 平均平方 の期待値 e2 k T2 e2 kN-1 29 30 分散分析 H0: 0 ならば E[BMS]= e2 ( 自由度N 1) また仮説にかかわらず E[WMS]= e2 (自由度は(k 1)N) 2 したがって帰無仮説 T 0 の下で、F=BMS /WMSは自由度N-1,(k-1)NのF分布に従う。 このF分布の上側α点を FN1,( k 1) N,として F BMS / WMS FN 1,( k 1 ) N , のときに帰無仮説を棄却する。 2 T 31 (参考)独立な平均平方の比 平均平方をM,対応する自由度をf、Mの期待値 をE[M]で表すと、fMは平方和で fM/E[M]は自由度fのχ2分布に従う。 独立な二つのχ2変量をχ12、χ22とし対応する 自由度をf1、f2とすると (χ12/f1)/(χ22/f2)は自由度f1、f2のF分布 共通の期待値を持つ独立な二つの平均平方を M1、M2とし対応する自由度をf1、f2とするとM1 /M2は自由度f1、f2のF分布 32 信頼性係数に関する推測 信頼性係数: R T2 /( T2 e2 ), 0 R 1 逆に信頼係数が与えられると 被験者間分散は R 2 2 T e 1 R R 0の検定 R 0 と T2 0は同値なので、先ほどの分散 分析がそのまま使える。 T2 R 2 2 T e 33 信頼性係数の推定値 2 2 E ( BMS ) k e T 2 E( WMS ) e BMS WMS 3.5192 0.0078 2 2 T の推定値 ˆ T k 2 1.7557 e2の推定値 ˆ e2 WMS 0.0078 信頼係数 Rの推定値 ( Rの定義に上の推定値代 入) BMS WMS 3.5192 0.078 ˆR 0.996 BMS ( k 1 ) WMS 3.5192 0.078 34 Rの信頼区間 R もし Rが与えられたものとす ると、 WMS k ( )WMS は 1 R BMSとは独立な E ( BMS)の推定量。ゆえに 1 (k 1) R F BMS /[{ }WMS ] 1 R とおくとFは所与の Rに対して自由度 N 1, (k 1) NのF分布 よって、 Rの上側信頼区間は BMS / WMS FN 1,( k 1) N , 3.5192/ 0.0078 3.02 R BMS / WMS (k 1) FN 1,( k 1) N , 3.5192/ 0.0078 3.02 0.987 により得られる。ここ に FN 1,( k 1) N ,は 自由度N 1, (k 1) NのF分布の上側α点 35 Rの信頼区間(2):両側 同様に、Rの下側信頼区間は R BMS / WMS FN 1,( k 1 ) N ,1 BMS / WMS ( k 1 )FN 1,( k 1 ) N ,1 あるいはFN 1,( k 1 ) N ,1 1 / F( k 1 ) N ,N 1, を利用して R ( BMS / WMS )F( k 1 ) N ,N 1, 1 ( BMS / WMS )F( k 1 ) N ,N 1, ( k 1 ) により得られる。 両側( 1 2 )信頼区間はこれと前の 上側信頼区間を 組み合わせることにより得られる。 36 表1.3のデータ(元に戻したデータを用いた場合)に よるICC(Rのirr packageによる ; cf. 鍵村、2005) ) > d< >icc(d,model="oneway",conf.level read.table("e:Tab1.3.txt",header =T) >d X1 X2 1 0.3977882 0.07221179 2 0.1373607 0.09263932 3 0.1682843 0.11171573 4 0.0000000 0.00000000 5 0.4631025 0.30689750 6 2.6773607 2.63263932 7 0.1010555 0.02894449 8 0.4671954 0.28280456 9 0.5941421 0.56585786 10 4.0838478 3.71615224 =0.9) Single Score Intraclass Correlation Model: oneway Type : consistency Subjects = 10 Raters = 2 ICC(1) = 0.991 F-Test, H0: r0 = 0 F(9,10) = 225 , p = 4.83e-10 90%-Confidence Interval for ICC Population Values: 37 0.974 < ICC < 0.997 信頼性試験の結果を利用した 次の臨床試験の例数設計 信頼性試験の結果から 得られた ˆ T2 1.7557とˆ e2 0.0078から ˆ X2 ˆ T2 ˆ e2 1.7635が求まる。 また1時間当り 9.0回と5.5回の期外収縮数(VP D)の差異 を検出したいものとすると ln(9.0 1) ln(5.5 1) 0.43となるから 2(1.7635)( 1.96 0.842)2 n 150 2 (0.43) として次の試験に必要な1群当りの例数が求まる。 38 繰り返しによる信頼性の向上 一人の被験者に対し、m回測定を繰り返し、そ の平均値で測定値を代表させるものとすると、そ の平均値の信頼性係数は mR Rm 1 ( m 1 )R Spearm an Brownの公式 この公式は求める信頼性を得るために必要なく り返し数を得るためにも使える。 39 繰り返しによる信頼性の向上 Rˆ を信頼性研究から得ら れる信頼性係数の推定 値、 R *を求める信頼性の程度 とすると、 R *を達成するために必要 なくり返し測定数 mは R * (1 Rˆ ) m Rˆ (1 R*) となる(オッズ比の形 式)。 Rˆ 0.75のとき R* 0.90を 達成するために、 m 0.90(0.25) / 0.75(0.10) 3回のくり返しが必要で ある。 40 評価者間信頼性研究:二元配置 41 評価者間信頼性 N人の被験者:第i被験者のスコア Ti j k人の評価者(測定器):第j評価者の効果 各評価者はすべての被験者を判定(測定) ランダム化と盲検化 モデル①評価者が固定されている場合 (二元配置混合モデル) X ij Ti j eij Ti : N ( , ), j 1 j 0 , eij : N ( 0 , e2 ) 2 T k Ti , eijそれぞれは独立に分布 ( eijは誤差 ) 42 評価者間信頼性:二元配置モデル ②評価者がランダムに選ばれている場合 (二元配置ランダム効果モデル) X ij Ti j eij Ti : N ( , T2 ), j : N ( 0, r2 ),eij : N ( 0, e2 ) それぞれは独立に分布 ( eijは誤差 ) 43 評価者間信頼性:二元配置モデル 44 多評価者間信頼性研究の例 45 多評価者間信頼性研究の例 46 二元配置の場合の級内相関係数 二元配置分散分析モデルで同じ被験者内の2つの 測定値間の相関をとると V(X ij ) V(Ti ) V( j ) V(e ij ) T2 2 e2 Cov(X ij , X ij' ) Cov(Ti j e ij , Ti j' eij' ) V(Ti ) T2 ICC Corr(X ij , X ij' ) Cov(X ij , X ij' ) / V(X ij )V(X ij' ) T2 /( T2 2 e2 ) これも一元配置の場合と同様に R=真値の分散 /測定値の分散の形をとり、やはり信頼性係数とも 呼ばれる。測定者間差および測定誤差がなく、測定 値の再現性が高いとき、ICCないし信頼性係数の値 は大きくなり、完全に再現するときR=1, 再現性が 乏しい極限でR=0。 47 二元配置分散分析表 分散分析表(二元配置) 変動 平方和 平均平方 自由度 被験者 i k( X i X )2 PMS N-1 e2 k T2 評価者 j N( X j X )2 RMS k-1 e2 N r2 被験者内 ij ( X ij X i EMS (k-1)(N-1) X j X )2 合計 ij ( X ij X )2 平均平方 の期待値 e2 kN-1 48 信頼係数(評価者間信頼係数) T2 R 2 T r2 e2 Rは r2のみならず e2が大きい場合にも 小さくなることに注意 したがってRの値が小さい場合は Rのみならず RE T2 /( T2 e2 )やRr r2 /( r2 e2 )などを 付加的に評価することが必要 REはEbelのICCと呼ばれる。 E( PMS ) e2 k T2 E( RMS ) e2 N r2 E( EMS ) e2 49 信頼係数Rの推定値 PMS EMS 225.7472 2.762 の推定値 ˆ k 4 55.7463 2の推定値 ˆ 2 RMS EMS 30.8917 2.7620 r r N 10 2.8130 e2の推定値 ˆ e2 EMS 2.7620 したがって N ( PMS EMS) ˆ R N PMS k RMS ( Nk N k ) EMS 0.9091 2 T 2 T 50 Rの信頼区間 Rの定義式から R( ) 1 R 2 T 2 r 2 e 2 2 kR ( kR 1 R ) 2 2 r e E [ PMS ] e k T 1 R 51 従ってE[PMS]の別の推定量は、R既知 として kRˆ r2 ( kR 1 R )ˆ e2 V 1 R kR( RMS EMS ) / N ( kR 1 R )EMS 1 R kR kR( 1 N ) ( 1 R )N { }RMS { }EMS ( 1 R )N ( 1 R )N により得られる。 52 Satterthwaite(1946)の近似 分散成分の荷重和のF近似 k個の独立な平均平方(分散成分) M i ,i 1,..k ;ここにf i M i / E [ M i ]はd . f . f iの 2分布 分散成分 i ai E [ M i ]の推定量 M i ai M i MについてもfM / E [ M ]がd . f . fの 2分布に従うと仮定 V [ M ] 2 E 2 [ M ] / f i a i2V [ M i ] 2 i { a i2 E 2 [ M i ] / f i } f E 2 [ M ] / i { a i2 E 2 [ M i ] / f i } したがってˆf { i ai M i }2 / i { a i2 M i2 / f i } 53 Satterthwaite(1946)の近似 k=1の場合 ˆf { a M }2 /{ a 2 M 2 / f } f 1 1 1 1 1 1 これはf1M 1 / E [ M 1 ]が自由度 f1のχ2分布 に従うとき、 M a1M 1について fM / E [ M ] fM 1 / E [ M 1 ] ゆえ、 f f1とすれば、fM / E [ M ]は正確に 自由度 f1のχ2分布 54 Satterthwaite(1946)の近似 k=2の場合 ˆf { a M a M }2 /{ a 2 M 2 / f a 2 M 2 / f } 1 1 2 2 1 2 2 2 1 1 一般のkの場合:すべての係数をh倍して も、 fは不変 (Mのスケールによらない) 55 Rの近似信頼区間 したがって kR kR(1 N ) (1 R ) N a1 { }, a2 { }, (1 R) N (1 R) N M 1 RMS, M 2 EMSとおいてfˆを求め PMS F kR kR(1 N ) (1 R) N { }RMS { }EMS (1 R) N (1 R ) N とすればFは近似的に自由度 N 1, fˆのF分布 これからRの上側信頼区間は N ( PMS FN 1, fˆ , EMS) R N PMS FN 1, fˆ , [k RMS ( Nk N k ) EMS] 0.757 となる 56 Rの近似信頼区間における自由度 fˆ {a1M 1 a2 M 2 }2 /{a12 M 12 / f1 a22 M 22 / f 2 }に kR kR(1 N ) (1 R) N a1 { }, a2 { }, (1 R) N (1 R) N M 1 RMS, M 2 EMSを代入すると ˆf {{ kR }RMS { kR(1 N ) (1 R) N }EMS}2 / (1 R) N (1 R) N kR kR(1 N ) (1 R) N 2 2 2 {{ } RMS / f1 { } EMS 2 / f 2 } (1 R) N (1 R) N 57 > d<-read.table("e:Tab1.7.txt",header=T) >d r1 r2 r3 r4 1 8 7 11 7 2 13 11 15 13 3 0 0 2 1 4 3 6 9 6 5 13 13 17 10 6 19 23 27 18 7 0 0 1 0 8 2 0 4 5 9 18 20 22 16 10 5 3 8 3 > icc(d,model="twoway",type="agreement ",conf.level=0.90) Single Score Intraclass Correlation Model: twoway Type : agreement Subjects = 10 Raters = 4 ICC(A,1) = 0.909 F-Test, H0: r0 = 0 F(9,9.3) = 81.7 , p = 1.92e-07 表1.7データのICC 90%-Confidence Interval for ICC Population Values: 0.757 < ICC < 0.97 > icc(d,model="twoway",type="con sistency",conf.level=0.90) Single Score Intraclass Correlation Model: twoway Type : consistency Subjects = 10 Raters = 4 ICC(C,1) = 0.953 F-Test, H0: r0 = 0 F(9,27) = 81.7 , p = 6.09e-17 90%-Confidence Interval for ICC Population Values: 0.898 < ICC < 0.983 58 評価者固定の場合 R T2 1 2j e2 k 2 T Rˆ N ( PMS EMS) 0.92 N PMS (k 1) RMS ( N 1)(k 1) EMS Fleiss(1986) この場合の推測の方法は十分に発展して いない 59 •The indexes of reliability (for categorical data) :kappa κCoefficient(κ係数) Rater A - ± + ++ +++ Total k - 4 2 0 0 0 6 Rater B ± + 1 4 1 0 0 6 ++ 0 1 5 0 0 6 0 0 0 3 0 3 +++ Total 0 5 0 7 0 6 1 4 5 5 6 27 p0 pe (4 4 5 3 5) / 27 (5 6 7 6 6 6 4 3 5 6) /(27 27) 0.720 1 pe 1 (5 6 7 6 6 6 4 3 5 6) /(27 27) Morikawa and Sekine (2000) DIA, Tokyo 60 •The indexes of reliability (for categorical data) :kappa kappa statistic Definition p p p 1 p κ κ 1 1 p 1 p 1 p p : the rate of agreement p : the expected rate of agreemet 0 E E E E E E 0 E Here,we call it ‘simple‘ κ. And other κ statistic can be defined by giving various weights(‘weighted’ κ). Cohen (1960), Cohen (1968), Fleiss (1981) 61 •The indexes of reliability (for categorical data) :kappa Observed agreement - - ± + ++ +++ ± + ++ +++ p 11 p 22 p 33 p 44 p 55 62 •The indexes of reliability (for categorical data) :kappa Agreement by chance - - ± + ++ +++ ± + ++ +++ p 1. p .1 p 2. p .2 p 3. p .3 p 4. p .4 p 5. p .5 63 •The indexes of reliability (for categorical data) :kappa Simple κ(unweighted κ) Simple κ pO p E 1 pE pO pE k p i 1 ii k p i 1 i p i 64 •The indexes of reliability (for categorical data) :kappa Weighted κ weighted κ p wO p wE κw 1 p wE p wO p wE k k w i 1 j1 k p ij ij k w i 1 j1 p i p j ij 65 •The indexes of reliability (for categorical data) :kappa Linear weights Cichetti and Allison(1971) ± - - ± + ++ +++ + ++ +++ 1 0.75 0.5 0.25 0 0.75 1 0.75 0.5 0.25 0.5 0.75 1 0.75 0.5 0.25 0 0.5 0.25 0.75 0.5 1 0.75 0.75 1 wij=1-|i-j|/(c-1) 66 •The indexes of reliability (for categorical data) :kappa Quadratic weights Fleiss and Cohen(1973) ± - - ± + ++ +++ + 1 0.9375 0.9375 ++ 0.75 0.4375 1 0.9375 0.75 0.9375 +++ 0 0.75 0.4375 1 0.9375 0.75 0.4375 0.75 0.9375 1 0.9375 0 0.4375 0.75 0.9375 1 2 2 wij=1-(i-j) /(c-1) 67 •The indexes of reliability (for categorical data) :kappa 0-th order weights:simple κ ± - - ± + ++ +++ + ++ +++ 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 wij=δij 68 •The indexes of reliability (for categorical data) :kappa ± - - ± + ++ +++ + ++ +++ 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 0 0 1 0 1 1 1 1 wij=1, |i-j|<=d =0, |i-j|>d 69 κの漸近分散 Fleiss, Levin, and Paik (2003) Cohenのκ V() 1 {i p ii [1 (p i. p.i )(1 )]2 (1 ) 2 i ji p ij (p i. p. j ) 2 [ (1 )]2 } 2 (1 ) n ここに Peは期待一致確率 重み付きκ V( w ) κ 1 2 2 { p [ w ( w w )( 1 )] [ ( 1 )] } ij ij i . . j w w w w 2 i j (1 w ) n ここに wi. j p. j wij , w. j i p.i. wij , w Pwe (重み付き期待一致確率 ) 多評価者の場合はSchouten (1982) 70 Rによるκの計算 cf.鍵村(2005) > grade<read.table("e:5grade.txt",h eader=T) > grade x1 x2 1 1 1 2 1 1 3 1 1 4 1 1 5 1 2 6 2 1 7 2 1 8 2 2 9 2 2 10 2 2 11 2 2 12 2 3 13 3 2 14 15 16 17 18 19 20 21 22 23 24 25 26 27 3 3 3 3 3 4 4 4 4 5 5 5 5 5 3 3 3 3 3 4 4 4 5 5 5 5 5 5 71 Rによるκの計算 > library(irr) Warning message: package irr was built under R version 2.1.0 > kappa2(grade) Cohen's Kappa for 2 Raters (Weights: unweighted) Subjects = 27 Raters = 2 Kappa = 0.72 z = 7.42 p-value = 1.20e-13 > kappa2(grade,"equal") Cohen's Kappa for 2 Raters (Weights: equal) Subjects = 27 Raters = 2 Kappa = 0.86 z = 5.64 p-value = 1.65e-08 > kappa2(grade,"squared") Cohen's Kappa for 2 Raters (Weights: squared) Subjects = 27 Raters = 2 Kappa = 0.944 z = 5.1 p-value = 3.42e-07 72 ICCとκの関係:順序カテゴリーの場 合(1) 2次重みつきκで1,2,3、・・・のスコア 2評価者の場合:Fleiss and Cohen (1973) R n(PMS- EMS) / {nPMS 2RMS (2n - n - 2)EMS} (PSS - ESS)/ {(PSS 2RSS ESS) - (2/n)(RSS ESS)} 一方 w (PSS - ESS)/ (PSS 2RSS ESS) したがって漸近的に両者は一致、かつRはICCの一致推定量 κwもICCの一致推定量 但し Pow Pew | i j |2 w , wij 1 1 Pew (c 1) 2 73 ICCとκの関係:順序カテゴリーの場 合(2) 2次重みつきκで1,2,3、・・・のスコア 多評価者(r人)の場合:森川 (2002,未公表) R {(r - 1)PSS- ESS}/{ (r - 1)T SS RSS - (r/n)(RSS ESS)} 一方 w (r - 1)PSS- ESS}/{ (r - 1)T SS RSS } ここに wはDavies and Fleiss (1982)あるいはSchouten(1982)により 定義されたもので、 P wo P we w 1 P e( w) 但し評価者対 kk 'に対して重み付きκ Pwo(kk ' ) Pwe(kk ' ) wkk' 1 Pwe(kk ' ) P wo, P weは、それぞれ各評価者 対kk 'に対する を定義したとき、 観測一致率 Pwo(kk ' ), 期待一致率 Pwe(kk ' )の平均値 74 ICCやκを計算してくれるソフト Rのirr Package(解説:鍵村、2005) SASのPROC FREQ κのみ この他にもSASにはMAGREE(κ用)、 INTRACC(ICC用)のマクロがある 75 文献(著書) 森川・熊澤監訳(KR研究会訳):臨床試験 のデザインと解析(Fleiss, J. L., The Design and Analysis of Clinical Experiments, Wiley, 1986) Fleiss, J. L., et al., Statistical Analysis of Rates and Proportions (3rd Ed.), Wiley, 2003. (Fleiss, J. L., 2nd ed., 1981) 76 文献(著書) Rao, P. S.R.S., Variance Components Estimation – Mixed models, methodologies and applications, Chapman&Hall, 1997. Dunn, G., Statistical Evaluation of Measurement Errors – Design and Analysis of Reliability Studies (2nd Ed), Arnold, 2004. Shoukri, M. M., Measures of Interobserver Agreement, Chapman&Hall/CRC, 2004. 77 文献(著書) 上坂浩之・森川敏彦、30.評価尺度の妥当 性と信頼性、臨床試験ハンドブック(丹後・ 上坂編)、朝倉書店、2005(出版予定)) 楠正監修(SKETCH研究会)、臨床データ の妥当性と信頼性、サイエンティスト社、 2 005(出版予定) 78
© Copyright 2024 ExpyDoc