テキスト化/手作業での入力精度

目的
書籍の電子化を高精度(99.8%以上)で行いたい
方法
２チームに分かれて、それぞれ独立して打ち込みを行う
２チームの相違点を調べることにより、誤りを発見し、修正を行う
利点
diffコマンドなどを使用すれば、比較的簡単に実行可能
問題
２チームが伴に同じ間違いをしている場合、相違点の比較では発見できない
すべての入力の中から、２チームが伴に同じ間違いをしているものを
発見するのは困難
検証
修正後の精度が要求する精度に到達していることを調べるには？
全文字数 : n
担当者 A 、B が誤入力する文字数 : eA 、eB
A の入力精度 : pA  1  eA / n
A の誤り率 : qA  eA / n
ある文字の入力値が Aと B で異なる確率 : d
d  pAqB  qApB  qAqBD
(但し D は、Aと B が同時に誤入力した場合に於いて、その互いの入力値が異なっている確率 )
ある文字の入力値が、 A は正しく B は誤りである確率 : a 同じく b
a  pAqB 、b  qApB
a 、b は測れる。 未知数が 2 個で式が 2 個。 qA 、qB が求まる。 ★1
ある文字の入力値が Aと B で異なり、どちらも誤
f  qAqBD
りの確率 : f
この確率は、★ 1 の確率と独立し
ているわけではない筈。それにも関
わらずこの式では、独立して測定で
きるかのように扱っている。実際に、
★ 1 で算出した値が、この確率より
小さくなった為に、求めたい精度が
1 を超えた例もある。
f は測れる。 D が求まる。
求めたい精度 : x
x  1  qAqB ★2
求めたい精度は、補正し切れなかった分だけを除いた精度を厳
密に求める事を諦めて、精度の下限を求めることに留めておく事
にする。二人の担当者が共に誤入力する確率だけを考慮する事
にする。誤入力の幾つかは補正できるが、その補正後の精度を
算出することは諦める。
★1
r  pApB 、s  qAqBと書くことにする。
s  (1  pA )(1  pB)
r  s  pA  pB  1 ...... (1)
 一般的に r  sと言える。
...... (2)
式 (1) から、 ( pA  pB)  1の場合には r  sと言えて、 (qA  qB)  1の場合には r  sと言える。
a  pAqB 、b  qApB から、それぞれ
a  r  pA 、b  r  pB
辺々を掛け算して、
(a  r )(b  r )  r
 c  c 2  4ab
r
2
(但し c  a  b  1)
同様に、s 
...... (4.1)
 c  c 2  4ab
2
...... (4.2)
式 (2) 、(4.1) 、(4.2) から、
 c  t c 2  4ab
 c  t c 2  4ab
、s 
2
2
辺々、差をとって
r
r  s   c 2  4ab
(3) から、 (qA  qB)  1の場合は右辺は正になる。
s
 c  c 2  4ab
2
( pA  pB)  1  s 
 c  c 2  4ab
2
...... (3)
★2
f  qAqBD
f  sD
x  1  qAqB
x  1 s
c  a  b  1と書くことにして、
(qA  qB)  1の場合には、
 c  c 2  4ab
2
※ 現実問題としては、こ
x  1
の式を利用する事になる筈。
( pA  pB)  1の場合には、
x  1
 c  c 2  4ab
2

Download Report