ÿþåe,gÃ_ tf[ˆO

日心第70回大会(2006)
自然言語の単純接触効果を予測するロジスティック回帰分析
横山詔一
(国立国語研究所 & 政策研究大学院大学)
key words:単純接触効果,文字頻度,一般対応法則,選好予測,社会言語学,計量国語学
は線型の関数である。2 肢強制選択で選択肢 1 と 2 のうち 1 を
選ぶ確率を p1 とおくと,2 を選ぶ確率は 1-p1 となる。式(2)
の左辺に含まれる項 p1/(1-p1) をオッズ(odds)という。
log{p1/(1-p1)}=Z ------- (2)
選択肢 1 と 2 の反応頻度をそれぞれ R1,R2 とおけば,反応
の合計頻度 N は R1+R2 である。選択肢 1 を選ぶ確率 p1 は R1
/N で,オッズは式(3)になる。
p1/(1-p1) =(R1/N)/(R2/N) =R1/R2 ------- (3)
式(2)の右辺 Z に S log (r1/r2)+log b を代入すると,
式(4)にな
る。p1/(1-p1) =R1/R2 であるから,式(4)は式(1)と等しい。
log{p1/(1-p1)}=S log (r1/r2)+log b ------- (4)
これは単純接触効果を織り込んだ一般対応法則のモデル式で
あるだけではなく,ロジスティック回帰分析の形にもなってい
る。では,式(4)は字体選好課題の選択確率をどのくらい正確に
予測できるのであろうか。本研究はこの点を検討した。
実 験
方 法
手続き 実験の冒頭で“パソコンなどで字を書いている場面をイ
メージするように”と伝え,“桧-檜”のような異体字ペア263組を
実験参加者に呈示して,より使いたい方の字体を直観的に選択さ
せた。実験は1998年9月に京都の立命館大学で72名に実施した。
説明変数 新旧両字体ともJIS X0208-1983で表示可能な86組につ
いて新旧字体頻度を計数した。字体頻度は,横山・笹原・野崎・
ロング(1998)による朝日新聞漢字頻度データによった。漢字の
延べ数は約1,700万字で,異なり数は4,583。
結 果
新聞における旧字体頻度をr1,新字体頻度をr2,実験で得た旧
字体選択人数をR1,新字体選択人数をR2として,式(4)のロジス
ティック回帰分析を行い,最尤推定法でパラメータを推定した。
式(4)を変形すると式(5)が得られ,異体字ペアごとに旧字体選択
確率p1の予測値が求まる。
p1=1/{ 1+exp[-0.323 log (r1/r2) + 0.232 ] } ------- (5)
選択確率p1を100倍して旧字体選択率(PrefTrad)の予測値とし,
実測値との相関を算出したところ,r = . 804(p< .01,df = 84)と
なった。図1に旧字体選択率(%)の予測値と実測値の散布図を示す。
以上の結果から,単純接触効果の大きさは,一般対応法則のパラ
メータをロジスティック回帰分析で推定することで,かなり精度
良く予測できることが示唆された。
100
Observed PrefTrad (%)
言語コミュニケーションにおいては,どの表現を選択するか
という意思決定を絶え間なく瞬時に行う必要がある。例えば,
相手に話しかける際は“様,さん,君,ちゃん”などの呼称が選
択肢として浮上する。ある表現を選択する際の重要な要因は選
好(preference)であろう。人間は自分の好きな表現を使う傾向
にある。
では,日常生活における言語表現の選好は,どのようなメカ
ニズムによって決定されるのであろうか。選好に影響する要因
の説明でよく知られているのが,社会心理学の分野で Zajonc
(1968)が提唱してきた単純接触効果(mere exposure effect)で
ある(生駒,2005)
。単純接触効果とは,なじみのない新奇な刺
激に繰り返し接触しているだけで,その刺激に対する好み
(favorability)が高まるという現象である。単純接触効果の実
験室実験は,刺激に接触する頻度が最大でも 25 回ぐらいで,刺
激に接触する期間も実験実施の間だけという制約がある。とこ
ろが,自然言語に目を向けると,接触頻度が数百万回以上に達
するとか,接触期間が数十年にわたる刺激も珍しくない。
■異体字を刺激とする利点
日本語の漢字には異体字(variant)の豊富なバリエーションが
存在する。異体字とは“桧-檜”のように読みと意味は同じで字体
だけが異なる文字の集合を指す。異体字を刺激材料とすれば,文
字数,読み,意味がまったく等価で,形だけが異なる刺激ペアを
作成できる。社会言語学の分野では,異体字刺激を用いた選好の
研究がすでに行われている。その手法は,異体字ペアを実験参加
者に呈示して字体選好課題を実施するというものである。字体選
好課題とは“桧-檜”などの新旧字体ペアを実験参加者に呈示し,
パソコンなどで字を書く場面をイメージしたときに,より使いた
いと感じる方の字体を2肢強制選択させる課題である。
■一般対応法則の適用とロジスティック回帰分析の導入
さらに,計量国語学の分野では一般対応法則(generalized
matching low)を援用して,コーパスで計数した漢字頻度から字
体選好課題の結果を予測する試みがなされている
(横山,
2006)
。
一般対応法則は動物の選択行動研究から Baum(1974)が導い
たもので,反応比 R1/R2 と強化比 r1/r2 が式(1)のような単純
な関数関係のもとで対応していることをいう。log は自然対数
(底 e)
,パラメータ S は反応感度,b は反応バイアスを示す(乙
部,2005;竹村・藤井,2005)
。
log (R1/R2)=S log (r1/r2)+log b ------- (1)
計量国語学分野における一般対応法則の利用は次のようにし
てなされている。“桧-檜”のような異体字ペアのうち,日常の
言語生活で旧字体に接触する頻度は r1,新字体に接触する頻度
を r2 とする。同様に,字体選好課題で旧字体を選択する人数は
R1,新字体を選択する人数を R2 とする。それぞれの字体に対
して人間がどのくらい接触しているかの頻度 r1 と r2 について
は信頼に足る実測データがどこにも存在しないため,新聞での
使用頻度を接触頻度の推定値とする。新聞コーパスで計数した
漢字頻度データから式(1)における説明変数の接触頻度比につ
いて対数 log(r1/r2) を求め,最小自乗法でパラメータを推定
する手法が横山(2006)によって報告されている。その眼目は,
ロジスティック回帰分析の考え方を導入した点にある。ロジス
ティック回帰分析は医学統計などのほか,社会言語学で Labov
(1966,1972)によって開拓された変異理論の分野でも盛んに
利用されている(松田,2006)
。そのモデル式は式(2)になる。Z
80
60
40
20
0
0
20
40
60
80
100
Predicted PrefTrad (%)
図 1 旧字体選択率の予測値と実測値の散布図(京都 9 月)
(Yokoyama Shoichi)