級内相関係数に関する推測 - 久留米大学 | 人

「測定の信頼性」
J. L. フライス、「臨床試験のデザインと解析」第一章
を下敷きに
久留米大学バイオ統計センター
久留米大学大学院医学研究科バイオ統計学群
森川 敏彦
久留米大学バイオ統計センター公開セミナー
2005.7.2 久留米大学教育一号館1501号
1
J. L. フライス「臨床試験のデザイン
と解析」第一章より
いかに臨床研究のデザインが優れていた
としても、測定の信頼性が低く不正確であ
れば、そのことによる欠陥を克服すること
はできない。
 データの質が高いことは、ランダム化や二
重盲検化などと同じ位に重要な試験デザ
インの要素である。

2
ICH E9統計ガイドライン

ガイドラインの目的は
臨床試験から得られる結果の
偏りを最小に、精度を最大に
(得られた結果・結論の科学的信憑性を最大に)
すること

これはガイドラインがあろうとなかろうと科学研究である
限り、当然追求しなければならないこと
3
• ICH E9 Statistical Principles For Clinical Trials
– 2.2.2 Primary and Secondary Variables(主要変数及び副
次変数)
"The use of a reliable and validated variable with which
experience has been gained either in earlier studies or in
published literature is recommended.”
”There should be sufficient evidence that the primary
variable can provide a valid and reliable measure of
some clinically relevant and important treatment benefit in
the patient population described by the inclusion and
exclusion criteria.”
4
2.2.3 Composite Variables(合成変数)
"When a rating scale is used as a primary variable, it is
especially important to address such factors as content
validity (see Glossary), inter- and intra-rater reliability
(see Glossary) and responsiveness for detecting change
in the severity of disease.”
ex. ADAS-cog.(Alzheimer’s Disease Assessment Scalecognitive subscale) Total Score
2.2.4 Global Assessment Variables(総合評価変数)
"When a global assessment variable is used as a primary
or secondary variable, further details of the scale should
be included in the protocol with respect to:
1) the relevance of the scale to the objective of the trial
2) the basis for the validity and reliability of the scale
ex. CIBIC (Clinician’s Interview Based Impression of Change)
5

Glossary
 Content Validity(内容妥当性)
 The extent to which a variable (e.g. a rating
scale) measures what it is supposed to
measure測りたいものが測れているか


Inter-Rater Reliability(評価者間信頼性)
 The property of yielding equivalent results
when used by different raters on different
occasions違った評価者間で結果が再現するのか
Intra-Rater Reliability(評価者内信頼性)
 The property of yielding equivalent results
when used by the same rater on different
occasions同じ評価者内で結果が再現するのか
6



一見客観的と思えるような種々の測定にも妥当
性、信頼性の問題は潜んでいる。客観的な測定
だから妥当で信頼がおけると天下り的に考える
のは危険。
理想的な状態ではいい性能をもっている測定器
であても生体内の測定においては種々の乱れが
入ってくる。
外国で妥当性が確認された評価尺度であっても
日本で(あるいは適用しようとしている対象に対
して)妥当かどうかは確認しなければ分からない
7
例
骨密度の測定
 コレステロール値の測定
 血圧の測定
 胃内pHの測定
 血糖値の測定
 痴呆・リウマチ・脳血管障害・うつ・不安な
どの評価尺度

8
測定・評価の妥当性と信頼性

妥当性: 測りたいものが測れているか?
(物差しで熱は測れない)

信頼性: 測りたいものが精度よく測れるか
?(熱を測るのに体温計? おでことおでこ
をくっつける?) 結果の再現性
9
測定・評価の妥当性と信頼性
妥当性
的を得た・・・・
的外れ・・・・・・
ピントがずれ
て・・・・
信頼性
ムラがある
・・・
再現性がよ
いからいい
測定器だ・・
10
測定・評価の妥当性と信頼性



正解(“的”;gold standard)がわかっていれば、
それと付き合わせることにより、偏り(妥当性)や
精度(信頼性)がわかる。
正解がわからなくても精度は把握はできる。
血圧などの測定値はほんとのところはわからない
が、T社、O社、M社などの簡易測定器で測ると会
社によって(機種によって?)高めや低めがあり、
また何回か測り直すと、いくらでも違う数値が表示
される。妥当性・信頼性の両方の問題を含む(?)
11
信頼性の尺度

連続データ:信頼性係数(またはICC)

分類データ:κ係数
12
信頼性の統計モデル

測定モデル
X T e
X : 測定値
T : 真値
e : 誤差
 X2   T2   e2
13
信頼性係数
coefficient of reliability
(reliability coefficient)

信頼性係数の定義
真値の分散
 T2
 T2
R
 2  2
2
測定値の分散  X  T   e


誤差分散
 1
 1
 1 2
2
測定値の分散

T e
2
e
2
X
2
e
14
級内相関係数
intraclass correlation coefficient(ICC)


ICC:同じものを2度測ったときの相関係数
先ほどの測定モデルの下で
ICC 
Cov( X ,Y )
Cov( T  e X ,T  eY )
V(T )


V ( X )V ( Y )
V ( X )V ( Y )
V ( X )2
 T2
 2 ( R)
X

すなわち、いま考えている測定モデルの下で
ICCは信頼性係数に等しい
15
級内相関係数ICCと相関係数

ICCは同じ被験者(あるいは測定対象)を2回測ったときに
測定結果XとYが傾き45度の直線の上に乗っている程度(
測定の一致性・再現性)
YX

一般の相関係数は単に直線の上に乗っている程度
Y  aX  b



相関係数が高いからといって、ICCが高いとは限らない
ICCが低くても相関係数が高いことはありうる
逆にICCが高ければ相関係数も高いし、相関が低ければ
ICCも低い
16
級内相関係数と相関係数
級内相関と相関
X
120
100
80
Y
Z
60
40
20
Y
10
10
20
25
18
28
30
35
45
42
37
47
55
55
65
60
64
74
72
73
83
78
77
87
90
93
103
105
98
108
相関
ICC
XとY
0.99
0.99
XとZ
0.99
0.954
0
0
20
40
60
80
X(一回目の観測値)
100
Z
120
17
信頼性が低いことがもたらす結果

①相関の低下~相関構造を崩す
X T e
Y U  f
 XY  TU
R X RY
たとえばTU  0.8, R X  0.7 , RY  0.6
  XY  0.52
18
信頼性が低いことがもたらす結果

②サンプルサイズの増加
2群の患者からなる単純な2群比較試験
  1   2 : 処理差 ( 検出したい2群間の平均反応の差)
 T2 : 測定による誤差がないときの反応のバラつき
:両側検定を行うとき
の有意水準
:第2種の過誤率(
1  は検出力)
19
信頼性が低いことがもたらす結果

②サンプルサイズの増加
2標本t検定の1群当
りサンプルサイズ
n* 
2 T2 ( z / 2  z  )2
2
もし測定に誤差があるとサンプルサイズは
n
2(    )( z / 2  z  )
2
T
2
e
2
2
n*

R
ここにRは信頼性係数
20
信頼性が低いことがもたらす結果

②サンプルサイズの増加
たとえば拡張期血圧を用いて独立な2群を比較するものとし、
両側有意水準5%を採 用し、
群間の平均変化量の差 が5m m HGであれば
その差を検出力80%でその差を検出したいとき
測定誤差を含まない場 合の標準偏差を8m m HGとして
z / 2  z0.025  1.96, z   z0.20  0.842,   5,  T2  82  64より
2( 64 )(1.96  0.842)2
n* 
 40
52
ゆえに両群合わせて80例必要
しかし測定の信頼性係 数が R  0.67であれば、必要例数は
1群n  40 / 0.67  60,両群で120例必要
もしR  0.8であればn  40 / 0.8  50,両群で100例ですむ。
21
信頼性が低いことがもたらす結果

③臨床試験での標本選択の偏り



本来は真値Tが閾値Aを上回る患者を試験の対象とし
たい。しかし測定値が誤差を含むために本来組み入
れるべきではないT<Aなる患者もX=T+e>Aによって
組み入れられる(偽陽性)。
このような患者は十分重症でないために反応を示す
ことができず、また選択された標本自体が想定してい
る集団よりも広くなることにより比較の感度が鈍る。
このような標本が偏る性質はいわゆる中心への回帰
regression to the meanの特別の場合
22
信頼性が低いことがもたらす結果
③臨床試験での標本選択の偏り
23
単純な繰り返し信頼性研究と
評価者内信頼性intra-rater reliability
同一の測定者(測定器)・同一の条件
 N人の被験者
 各被験者につきk回の測定の繰り返し
 測定モデル(一元配置ランダム効果モデル)

24
データの形式









表1.2’ 一元配置デザインから得られるデータ
―――――――――――――――――――――――
被験者
k回の繰り返しから得られる測定値
―――――――――――――――――――――――
1
X11, X12, ・・・・, X1k
2
X21, X22, ・・・・, X2k
・・・・・・・・・・・
N
XN1, XN2, ・・・・, X Nk
―――――――――――――――――――――――
25
26
表1.3の元データ
表1.3
患者
平均
分散
X1
X2
1
0.235
0.0265
0.397788
0.072212
2
0.115
0.0005
0.137361
0.092639
3
0.14
0.0008
0.168284
0.111716
4
0
0
0
0
5
0.385
0.0061
0.463102
0.306898
6
2.655
0.0005
2.677361
2.632639
7
0.065
0.0013
0.101056
0.028944
8
0.375
0.0085
0.467195
0.282805
9
0.58
0.0002
0.594142
0.565858
10
3.9
0.0338
4.083848
3.716152
27
表1.3の元データのプロット
X2
5
4.5
4
3.5
3
2.5
X2
2
1.5
1
0.5
0
0
1
2
3
4
5
28
一元配置分散分析表(cf.表1.4)
分散分析表
変動
平方和
平均平方 自由度
2
被験者間  i k( X i  X ) BMS
被験者内  ij ( X ij  X i )2 WMS
(誤差)
合計
 ij ( X ij  X )2
N-1
(k-1)N
平均平方
の期待値
 e2  k T2
 e2
kN-1
29
30
分散分析



H0:  0 ならば
E[BMS]=  e2 ( 自由度N  1)
また仮説にかかわらず
E[WMS]= e2 (自由度は(k 1)N)
2
したがって帰無仮説  T
 0 の下で、F=BMS
/WMSは自由度N-1,(k-1)NのF分布に従う。
このF分布の上側α点を FN1,( k 1) N,として
F  BMS / WMS  FN 1,( k 1 ) N ,
のときに帰無仮説を棄却する。
2
T
31
(参考)独立な平均平方の比



平均平方をM,対応する自由度をf、Mの期待値
をE[M]で表すと、fMは平方和で
fM/E[M]は自由度fのχ2分布に従う。
独立な二つのχ2変量をχ12、χ22とし対応する
自由度をf1、f2とすると
(χ12/f1)/(χ22/f2)は自由度f1、f2のF分布
共通の期待値を持つ独立な二つの平均平方を
M1、M2とし対応する自由度をf1、f2とするとM1
/M2は自由度f1、f2のF分布
32
信頼性係数に関する推測
信頼性係数: R   T2 /(  T2   e2 ), 0  R  1
逆に信頼係数が与えられると
被験者間分散は
R 2
2
T 
e
1 R
 R  0の検定
R  0 と T2  0は同値なので、先ほどの分散
分析がそのまま使える。

 T2
R 2
2
T   e
33
信頼性係数の推定値
2
2
E
(
BMS
)



k


e
T
2
E( WMS )   e

BMS  WMS 3.5192 0.0078
2
2

  T の推定値 ˆ T 
k
2
 1.7557
 e2の推定値 ˆ e2  WMS  0.0078
信頼係数 Rの推定値 ( Rの定義に上の推定値代 入)
BMS  WMS
3.5192 0.078
ˆR 

 0.996
BMS  ( k  1 ) WMS 3.5192 0.078
34
Rの信頼区間
R
もし Rが与えられたものとす ると、 WMS  k (
)WMS は
1 R
BMSとは独立な E ( BMS)の推定量。ゆえに
1  (k  1) R
F  BMS /[{
}WMS ]
1 R
とおくとFは所与の Rに対して自由度 N  1, (k  1) NのF分布
よって、 Rの上側信頼区間は
BMS / WMS  FN 1,( k 1) N ,
3.5192/ 0.0078 3.02
R

BMS / WMS  (k  1) FN 1,( k 1) N , 3.5192/ 0.0078 3.02
 0.987
により得られる。ここ
に FN 1,( k 1) N ,は
自由度N  1, (k  1) NのF分布の上側α点
35
Rの信頼区間(2):両側
同様に、Rの下側信頼区間は
R
BMS / WMS  FN 1,( k 1 ) N ,1
BMS / WMS  ( k  1 )FN 1,( k 1 ) N ,1
あるいはFN 1,( k 1 ) N ,1  1 / F( k 1 ) N ,N 1, を利用して
R
( BMS / WMS )F( k 1 ) N ,N 1,  1
( BMS / WMS )F( k 1 ) N ,N 1,  ( k  1 )
により得られる。
両側( 1  2 )信頼区間はこれと前の 上側信頼区間を
組み合わせることにより得られる。
36
表1.3のデータ(元に戻したデータを用いた場合)に
よるICC(Rのirr packageによる ;
cf. 鍵村、2005)
) > d< >icc(d,model="oneway",conf.level












read.table("e:Tab1.3.txt",header
=T)
>d
X1
X2
1 0.3977882 0.07221179
2 0.1373607 0.09263932
3 0.1682843 0.11171573
4 0.0000000 0.00000000
5 0.4631025 0.30689750
6 2.6773607 2.63263932
7 0.1010555 0.02894449
8 0.4671954 0.28280456
9 0.5941421 0.56585786
10 4.0838478 3.71615224










=0.9)
Single Score Intraclass
Correlation
Model: oneway
Type : consistency
Subjects = 10
Raters = 2
ICC(1) = 0.991
F-Test, H0: r0 = 0
F(9,10) = 225 , p = 4.83e-10
90%-Confidence Interval for ICC
Population Values:
37
0.974 < ICC < 0.997
信頼性試験の結果を利用した
次の臨床試験の例数設計
信頼性試験の結果から 得られた
ˆ T2  1.7557とˆ e2  0.0078から
ˆ X2  ˆ T2  ˆ e2  1.7635が求まる。
また1時間当り
9.0回と5.5回の期外収縮数(VP D)の差異
を検出したいものとすると
ln(9.0  1)  ln(5.5  1)  0.43となるから
2(1.7635)(
1.96 0.842)2
n
 150
2
(0.43)
として次の試験に必要な1群当りの例数が求まる。
38
繰り返しによる信頼性の向上

一人の被験者に対し、m回測定を繰り返し、そ
の平均値で測定値を代表させるものとすると、そ
の平均値の信頼性係数は
mR
Rm 
1  ( m  1 )R
Spearm an Brownの公式

この公式は求める信頼性を得るために必要なく
り返し数を得るためにも使える。
39
繰り返しによる信頼性の向上
Rˆ を信頼性研究から得ら れる信頼性係数の推定 値、
R *を求める信頼性の程度 とすると、
R *を達成するために必要 なくり返し測定数 mは
R * (1  Rˆ )
m
Rˆ (1  R*)
となる(オッズ比の形
式)。 Rˆ  0.75のとき R*  0.90を
達成するために、
m  0.90(0.25) / 0.75(0.10)  3回のくり返しが必要で ある。
40
評価者間信頼性研究:二元配置
41
評価者間信頼性
N人の被験者:第i被験者のスコア Ti
j
 k人の評価者(測定器):第j評価者の効果
 各評価者はすべての被験者を判定(測定)
 ランダム化と盲検化
 モデル①評価者が固定されている場合
(二元配置混合モデル)

X ij  Ti   j  eij
Ti : N (  , ), j 1  j  0 , eij : N ( 0 , e2 )
2
T
k
Ti , eijそれぞれは独立に分布 ( eijは誤差 )
42
評価者間信頼性:二元配置モデル

②評価者がランダムに選ばれている場合
(二元配置ランダム効果モデル)
X ij  Ti   j  eij
Ti : N (  , T2 ), j : N ( 0, r2 ),eij : N ( 0, e2 )
それぞれは独立に分布 ( eijは誤差 )
43
評価者間信頼性:二元配置モデル
44
多評価者間信頼性研究の例
45
多評価者間信頼性研究の例
46
二元配置の場合の級内相関係数

二元配置分散分析モデルで同じ被験者内の2つの
測定値間の相関をとると
V(X ij )  V(Ti )  V( j )  V(e ij )   T2  2   e2
Cov(X ij , X ij' )  Cov(Ti   j  e ij , Ti   j'  eij' )  V(Ti )   T2
ICC  Corr(X ij , X ij' )  Cov(X ij , X ij' ) / V(X ij )V(X ij' )
  T2 /( T2  2   e2 )
これも一元配置の場合と同様に R=真値の分散
/測定値の分散の形をとり、やはり信頼性係数とも
呼ばれる。測定者間差および測定誤差がなく、測定
値の再現性が高いとき、ICCないし信頼性係数の値
は大きくなり、完全に再現するときR=1, 再現性が
乏しい極限でR=0。
47
二元配置分散分析表
分散分析表(二元配置)
変動
平方和
平均平方 自由度
被験者
 i k( X i  X )2 PMS
N-1
 e2  k T2
評価者
 j N( X  j  X )2
RMS
k-1
 e2  N r2
被験者内
 ij ( X ij  X i
EMS
(k-1)(N-1)
 X  j  X )2
合計
 ij ( X ij  X )2
平均平方
の期待値
 e2
kN-1
48
信頼係数(評価者間信頼係数)

 T2
R 2
 T   r2   e2
Rは r2のみならず e2が大きい場合にも
小さくなることに注意
したがってRの値が小さい場合は Rのみならず
RE   T2 /( T2   e2 )やRr   r2 /( r2   e2 )などを
付加的に評価することが必要
REはEbelのICCと呼ばれる。

E( PMS )   e2  k T2

E( RMS )   e2  N r2
E( EMS )   e2

49
信頼係数Rの推定値
PMS  EMS 225.7472 2.762

  の推定値 ˆ 
k
4
 55.7463
  2の推定値 ˆ 2  RMS  EMS  30.8917 2.7620
r
r
N
10
 2.8130
 e2の推定値 ˆ e2  EMS  2.7620
したがって
N ( PMS  EMS)
ˆ
R
N  PMS  k  RMS  ( Nk  N  k ) EMS
 0.9091
2
T
2
T
50
Rの信頼区間
Rの定義式から
R(    )
 
1 R
2
T
2
r
2
e
2
2
kR


(
kR

1

R
)

2
2
r
e
E [ PMS ]   e  k T 
1 R
51

従ってE[PMS]の別の推定量は、R既知
として
kRˆ r2  ( kR  1  R )ˆ e2
V
1 R
kR( RMS  EMS ) / N  ( kR  1  R )EMS

1 R
kR
kR( 1  N )  ( 1  R )N
{
}RMS  {
}EMS
( 1  R )N
( 1  R )N
により得られる。
52
Satterthwaite(1946)の近似
分散成分の荷重和のF近似
 k個の独立な平均平方(分散成分)

M i ,i  1,..k ;ここにf i M i / E [ M i ]はd . f . f iの 2分布
 分散成分  i ai E [ M i ]の推定量 M   i ai M i
MについてもfM / E [ M ]がd . f . fの 2分布に従うと仮定
 V [ M ]  2 E 2 [ M ] / f   i a i2V [ M i ]  2 i { a i2 E 2 [ M i ] / f i }
 f  E 2 [ M ] /  i { a i2 E 2 [ M i ] / f i }
したがってˆf  {  i ai M i }2 /  i { a i2 M i2 / f i }
53
Satterthwaite(1946)の近似

k=1の場合
ˆf  { a M }2 /{ a 2 M 2 / f }  f
1
1
1
1
1
1
これはf1M 1 / E [ M 1 ]が自由度 f1のχ2分布
に従うとき、
M  a1M 1について
fM / E [ M ]  fM 1 / E [ M 1 ] ゆえ、
f  f1とすれば、fM / E [ M ]は正確に
自由度 f1のχ2分布
54
Satterthwaite(1946)の近似

k=2の場合
ˆf  { a M  a M }2 /{ a 2 M 2 / f  a 2 M 2 / f }
1
1
2
2
1
2
2
2
1
1

一般のkの場合:すべての係数をh倍して

も、 fは不変
(Mのスケールによらない)
55
Rの近似信頼区間
したがって
kR
kR(1  N )  (1  R ) N
a1  {
}, a2  {
},
(1  R) N
(1  R) N
M 1  RMS, M 2  EMSとおいてfˆを求め
PMS
F
kR
kR(1  N )  (1  R) N
{
}RMS  {
}EMS
(1  R) N
(1  R ) N
とすればFは近似的に自由度 N  1, fˆのF分布
これからRの上側信頼区間は
N ( PMS  FN 1, fˆ , EMS)
R
N  PMS  FN 1, fˆ , [k  RMS  ( Nk  N  k ) EMS]
 0.757
となる
56
Rの近似信頼区間における自由度
fˆ  {a1M 1  a2 M 2 }2 /{a12 M 12 / f1  a22 M 22 / f 2 }に
kR
kR(1  N )  (1  R) N
a1  {
}, a2  {
},
(1  R) N
(1  R) N
M 1  RMS, M 2  EMSを代入すると
ˆf  {{ kR }RMS  { kR(1  N )  (1  R) N }EMS}2 /
(1  R) N
(1  R) N
kR
kR(1  N )  (1  R) N 2
2
2
{{
} RMS / f1  {
} EMS 2 / f 2 }
(1  R) N
(1  R) N
57






















> d<-read.table("e:Tab1.7.txt",header=T)
>d
r1 r2 r3 r4
1 8 7 11 7
2 13 11 15 13
3 0 0 2 1
4 3 6 9 6
5 13 13 17 10
6 19 23 27 18
7 0 0 1 0
8 2 0 4 5
9 18 20 22 16
10 5 3 8 3
>
icc(d,model="twoway",type="agreement
",conf.level=0.90)
Single Score Intraclass Correlation
Model: twoway
Type : agreement
Subjects = 10
Raters = 4
ICC(A,1) = 0.909
F-Test, H0: r0 = 0
F(9,9.3) = 81.7 , p = 1.92e-07
表1.7データのICC













90%-Confidence Interval for ICC
Population Values:
0.757 < ICC < 0.97
>
icc(d,model="twoway",type="con
sistency",conf.level=0.90)
Single Score Intraclass
Correlation
Model: twoway
Type : consistency
Subjects = 10
Raters = 4
ICC(C,1) = 0.953
F-Test, H0: r0 = 0
F(9,27) = 81.7 , p = 6.09e-17
90%-Confidence Interval for ICC
Population Values:
0.898 < ICC < 0.983
58
評価者固定の場合
R
 T2
1
    2j   e2
k
2
T
Rˆ 
N ( PMS  EMS)
 0.92
N  PMS  (k  1) RMS  ( N  1)(k  1) EMS
Fleiss(1986)
この場合の推測の方法は十分に発展して
いない
59
•The indexes of reliability (for categorical data) :kappa
κCoefficient(κ係数)
Rater A
-
±
+
++
+++
Total
k
-
4
2
0
0
0
6
Rater B
±
+
1
4
1
0
0
6
++
0
1
5
0
0
6
0
0
0
3
0
3
+++ Total
0
5
0
7
0
6
1
4
5
5
6
27
p0  pe (4  4  5  3  5) / 27  (5  6  7  6  6  6  4  3  5  6) /(27 27)

 0.720
1  pe
1  (5  6  7  6  6  6  4  3  5  6) /(27 27)
Morikawa and Sekine (2000) DIA, Tokyo
60
•The indexes of reliability (for categorical data) :kappa

kappa statistic
 Definition
 p

p p
1

p

κ
 κ
 1
 1 p

1 p
1

p


p : the rate of agreement
p : the expected rate of agreemet
0
E
E
E
E
E
E
0
E

Here,we call it ‘simple‘ κ. And other κ statistic can be
defined by giving various weights(‘weighted’ κ).
Cohen (1960), Cohen (1968), Fleiss (1981)
61
•The indexes of reliability (for categorical data) :kappa
Observed agreement
-
-
±
+
++
+++
±
+
++
+++
p 11
p 22
p 33
p 44
p 55
62
•The indexes of reliability (for categorical data) :kappa
Agreement by chance
-
-
±
+
++
+++
±
+
++
+++
p 1. p .1
p 2. p .2
p 3. p .3
p 4. p .4
p 5. p .5
63
•The indexes of reliability (for categorical data) :kappa
Simple κ(unweighted κ)

Simple κ
pO  p E

1  pE
pO 
pE 
k
p
i 1
ii
k
p
i 1
i
p i
64
•The indexes of reliability (for categorical data) :kappa
Weighted κ

weighted κ
p wO  p wE
κw 
1  p wE
p wO 
p wE 
k
k
w
i 1 j1
k
p ij
ij
k
w
i 1 j1
p i p  j
ij
65
•The indexes of reliability (for categorical data) :kappa
Linear weights
Cichetti and Allison(1971)
±
-
-
±
+
++
+++
+
++
+++
1
0.75
0.5
0.25
0
0.75
1
0.75
0.5
0.25
0.5
0.75
1
0.75
0.5
0.25
0
0.5
0.25
0.75
0.5
1
0.75
0.75
1
wij=1-|i-j|/(c-1)
66
•The indexes of reliability (for categorical data) :kappa
Quadratic weights
Fleiss and Cohen(1973)
±
-
-
±
+
++
+++
+
1 0.9375
0.9375
++
0.75 0.4375
1 0.9375
0.75 0.9375
+++
0
0.75 0.4375
1 0.9375
0.75
0.4375
0.75 0.9375
1 0.9375
0 0.4375
0.75 0.9375
1
2
2
wij=1-(i-j) /(c-1)
67
•The indexes of reliability (for categorical data) :kappa
0-th order weights:simple κ
±
-
-
±
+
++
+++
+
++
+++
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
1
0
0
1
wij=δij
68
•The indexes of reliability (for categorical data) :kappa
±
-
-
±
+
++
+++
+
++
+++
1
1
0
0
0
1
1
1
0
0
0
1
1
1
0
0
0
0
0
1
0
1
1
1
1
wij=1, |i-j|<=d
=0, |i-j|>d
69
κの漸近分散
Fleiss, Levin, and Paik (2003)
Cohenのκ
V() 
1
{i p ii [1  (p i.  p.i )(1  )]2  (1  ) 2 i  ji p ij (p i.  p. j ) 2  [   (1  )]2 }
2
(1  ) n
ここに  Peは期待一致確率
重み付きκ
V(  w ) 
κ
1
2
2
{
p
[
w

(
w

w
)(
1


)]

[



(
1


)]
}



ij
ij
i
.
.
j
w
w
w
w
2
i
j
(1   w ) n
ここに
wi.   j p. j wij , w. j  i p.i. wij ,  w  Pwe (重み付き期待一致確率 )
多評価者の場合はSchouten (1982)
70
Rによるκの計算 cf.鍵村(2005)
















> grade<read.table("e:5grade.txt",h
eader=T)
> grade
x1 x2
1 1 1
2 1 1
3 1 1
4 1 1
5 1 2
6 2 1
7 2 1
8 2 2
9 2 2
10 2 2
11 2 2
12 2 3
13 3 2














14
15
16
17
18
19
20
21
22
23
24
25
26
27
3
3
3
3
3
4
4
4
4
5
5
5
5
5
3
3
3
3
3
4
4
4
5
5
5
5
5
5
71
Rによるκの計算








> library(irr)
Warning message:
package irr was built
under R version 2.1.0
> kappa2(grade)
Cohen's Kappa for 2
Raters (Weights:
unweighted)
Subjects = 27
Raters = 2
Kappa = 0.72















z = 7.42
p-value = 1.20e-13
> kappa2(grade,"equal")
Cohen's Kappa for 2
Raters (Weights: equal)


Subjects = 27
Raters = 2
Kappa = 0.86
z = 5.64
p-value = 1.65e-08
> kappa2(grade,"squared")
Cohen's Kappa for 2
Raters (Weights: squared)
Subjects = 27
Raters = 2
Kappa = 0.944
z = 5.1
p-value = 3.42e-07
72
ICCとκの関係:順序カテゴリーの場
合(1)


2次重みつきκで1,2,3、・・・のスコア
2評価者の場合:Fleiss and Cohen (1973)
R  n(PMS- EMS) / {nPMS 2RMS (2n - n - 2)EMS}
 (PSS - ESS)/ {(PSS  2RSS  ESS) - (2/n)(RSS  ESS)}
一方
 w (PSS - ESS)/ (PSS  2RSS  ESS)
したがって漸近的に両者は一致、かつRはICCの一致推定量
κwもICCの一致推定量
但し
Pow Pew
| i  j |2
w 
, wij  1 
1  Pew
(c  1) 2
73
ICCとκの関係:順序カテゴリーの場
合(2)


2次重みつきκで1,2,3、・・・のスコア
多評価者(r人)の場合:森川 (2002,未公表)
R  {(r - 1)PSS- ESS}/{ (r - 1)T SS RSS - (r/n)(RSS ESS)}
一方
 w  (r - 1)PSS- ESS}/{ (r - 1)T SS RSS }
ここに wはDavies and Fleiss (1982)あるいはSchouten(1982)により
定義されたもので、
P wo  P we
w 
1  P e( w)
但し評価者対 kk 'に対して重み付きκ
Pwo(kk ' )  Pwe(kk ' )
 wkk' 
1  Pwe(kk ' )
P wo, P weは、それぞれ各評価者 対kk 'に対する
を定義したとき、
観測一致率 Pwo(kk ' ), 期待一致率 Pwe(kk ' )の平均値
74
ICCやκを計算してくれるソフト
Rのirr Package(解説:鍵村、2005)
 SASのPROC FREQ
κのみ
 この他にもSASにはMAGREE(κ用)、
INTRACC(ICC用)のマクロがある

75
文献(著書)
森川・熊澤監訳(KR研究会訳):臨床試験
のデザインと解析(Fleiss, J. L., The
Design and Analysis of Clinical
Experiments, Wiley, 1986)
 Fleiss, J. L., et al., Statistical Analysis of
Rates and Proportions (3rd Ed.), Wiley,
2003. (Fleiss, J. L., 2nd ed., 1981)

76
文献(著書)

Rao, P. S.R.S., Variance Components
Estimation – Mixed models, methodologies
and applications, Chapman&Hall, 1997.

Dunn, G., Statistical Evaluation of
Measurement Errors – Design and Analysis
of Reliability Studies (2nd Ed), Arnold, 2004.

Shoukri, M. M., Measures of Interobserver
Agreement, Chapman&Hall/CRC, 2004.
77
文献(著書)
上坂浩之・森川敏彦、30.評価尺度の妥当
性と信頼性、臨床試験ハンドブック(丹後・
上坂編)、朝倉書店、2005(出版予定))
 楠正監修(SKETCH研究会)、臨床データ
の妥当性と信頼性、サイエンティスト社、 2
005(出版予定)

78