編集者への手紙

編集者への手紙
丹後俊郎「確率変数を伴う線型方程式」医学統計誌 2005 年 24 巻掲載予定について
岡本悦司,畑栄一(国立保健医療科学院)
上記論文で,丹後博士は観察できない確率変数を推計する2つの手法として最尤推定法(MLE)と比例配分
推定法(PAE)を呈示し「レセプト」に当てはめたところ二つの結果はよく一致したと主張している。この点に
ついて我々は異議を唱える。
丹後博士が日本で両手法を 2003 年 11 月最初に発表[文献 1]した後,我々は MLE,PAE2つの手法と我々が以
前より考案していた比例配分法(PDM)を 2 つの異なるデータに適用した[文献 2]。2つの異なるデータとは,
ひとつはコンピューターで生成したシミュレーション(架空)データであり,もうひとつは名取市の外来レセプ
トである。我々がコンピューターで生成したシミュレーションデータは, 日本の本物の外来レセプトの傷病
別医療費になるべく似せて生成した(したがって傷病別医療費の正解が分かっている)[文献 3]。それに対して
本物の名取市のレセプトでは,傷病別医療費の正解はわからない。
MLE, PAE そして PDM をシミュレーションデータに当てはめた結果の妥当性は,既知の傷病別医療費の正
解と比較して検証した。しかし本物のレセプトに当てはめた結果は,正解がわからないので 2 つの結果ずつ相
互に比較してどれだけ一致しているか(同時妥当性)で評価した。その結果,シミュレーションでは 3 手法の結
果ともよく一致したが,本物のレセプトデータでは 3 つとも異なる結果になった。
MLE を本物のレセプトに適用した結果は,154 傷病分類中 18 でマイナス値となり,合計額も真の合計額を
21.3%も超過した。そのため我々は MLE はレセプト分析に使用できない,と結論した。
丹後博士が,論文中で「結果がよく一致した」と主張しているのは,本物のレセプトではなく我々が生成した
シミュレーションデータではないかと疑い,論文中の Table1【図 1】で示されている 15 の「レセプト」とされ
るデータを我々が保有しているシミュレーションデータと照合したところ,15 例全てについて我々のシミュ
レーションデータと一致した。
【図 1】中の手書きの数字は,我々が生成したシミュレーションデータ【図 2】中の通番を転記したもので
ある。たとえば【図 2】中の 579∼582 番目の 4 例は,【図 1】中の 5,7,8,13 番目とピタリ一致している(参考ま
で我々は丹後博士がレセプトと呼んだシミュレーションデータ 1000 例全てをインターネット上で公開した
http://resept.com/tangodata.csv)。なお我々はこのデータを乱数を使って生成したため,必ず整数であるはずの日
数が小数になっている。日数と点数があれば一日当たり点数は自動的に計算できるので,レセプトデータを呈
示するときは日数と点数を必ず表示するのが常識だが,丹後論文中の【図 1】においてで一日当たり点数のみ
呈示し,日数と点数は略している。これはちょうど健診データで身長,体重を呈示せず BMI のみ呈示するに等
しい不自然な呈示法であるが,小数の日数をそのまま呈示すると架空データであることが発覚するためこう
したと考えられる。
我々が丹後博士を詰問したところ,我々が提供したシミュレーションデータを無断で使用したことを認め
た(ただ謝辞にはデータを提供してくれた岡本に感謝すると書かれている)。
さらに問題なのは丹後博士が,外来で 2 番目に高額傷病である腎不全(傷病分類第 99)をまるまる削除してい
ることである。腎不全は日本の外来医療費の 8%を占め,同じシミュレーションデータを我々が PDM で分析
した結果は【図 3】に示すが,99 番目の腎不全の○はよく目立つ。ところが丹後論文中の MLE の分析結果で
は 99 番目の腎不全の○がどこにもみあたらない【図 4】
。99 番目の○が無いことは 99 番目付近の拡大図【図
5】でも確認される。腎不全は異常に高額な傷病であり,この傷病を加えると推計結果が悪くなるので削除し
たと考えられる(このことは論文中どこにも説明されていない)。
丹後博士は,捏造(=生成)されたデータを盗用したのみならず,提案した手法の精度の悪さを隠すため改竄ま
で加えた。さらに丹後博士は,岡本が最初に考案した PDM の文献を引用してはいるが,PAE を自ら考案したオ
リジナルな手法と主張している。我々は丹後博士の PAE は以前からある我々の PDM で使われる「重み」推
計に新しい手法を加えたものと理解しており,これらの手法をめぐって我々が頻繁に議論を重ねてきた事実
からみて,丹後博士の行為は剽窃にあたる。
彼の行為は重大な科学上の不正行為に該当し,編集者に対してこの論文の撤回を要求する。
1
2
20
【図3】丹後データのPDM法による推計結果
重み推計法:日傷病当点数,2次補正(PDM法Ver.2)
総
医
療 15
費
に
占
め
る
各
傷 10
病
医
療
費
割
合
5
(
%
)
高血圧性疾患
腎不全
糖尿病
0
0
20
40
60
傷病分類(1∼119)
80
100
120
REFERENCES
1
Tango T. Can S-PLUS provide an artistic tool for statisticians?—A case of estimating parts from the whole. Proceeding
from the 3rd Users’ Conference of S-PLUS 2003:1-15.
2
Okamoto E, Hata E. Estimation of Disease-specific Costs in Health Insurance Claims: A Comparison of Three Methods.
Japanese Journal of Public Health 2004; 51(11)926-937.
3
Okamoto E, Hata E. Estimation of Disease-specific Costs in a Dataset of Health Insurance Claims and its Validation
Using Simulation Data. Japanese Journal of Public Health 2003;50(12):1135-1143.
3