日心第70回大会(2006) 自然言語の単純接触効果を予測するロジスティック回帰分析 横山詔一 (国立国語研究所 & 政策研究大学院大学) key words:単純接触効果,文字頻度,一般対応法則,選好予測,社会言語学,計量国語学 は線型の関数である。2 肢強制選択で選択肢 1 と 2 のうち 1 を 選ぶ確率を p1 とおくと,2 を選ぶ確率は 1-p1 となる。式(2) の左辺に含まれる項 p1/(1-p1) をオッズ(odds)という。 log{p1/(1-p1)}=Z ------- (2) 選択肢 1 と 2 の反応頻度をそれぞれ R1,R2 とおけば,反応 の合計頻度 N は R1+R2 である。選択肢 1 を選ぶ確率 p1 は R1 /N で,オッズは式(3)になる。 p1/(1-p1) =(R1/N)/(R2/N) =R1/R2 ------- (3) 式(2)の右辺 Z に S log (r1/r2)+log b を代入すると, 式(4)にな る。p1/(1-p1) =R1/R2 であるから,式(4)は式(1)と等しい。 log{p1/(1-p1)}=S log (r1/r2)+log b ------- (4) これは単純接触効果を織り込んだ一般対応法則のモデル式で あるだけではなく,ロジスティック回帰分析の形にもなってい る。では,式(4)は字体選好課題の選択確率をどのくらい正確に 予測できるのであろうか。本研究はこの点を検討した。 実 験 方 法 手続き 実験の冒頭で“パソコンなどで字を書いている場面をイ メージするように”と伝え,“桧-檜”のような異体字ペア263組を 実験参加者に呈示して,より使いたい方の字体を直観的に選択さ せた。実験は1998年9月に京都の立命館大学で72名に実施した。 説明変数 新旧両字体ともJIS X0208-1983で表示可能な86組につ いて新旧字体頻度を計数した。字体頻度は,横山・笹原・野崎・ ロング(1998)による朝日新聞漢字頻度データによった。漢字の 延べ数は約1,700万字で,異なり数は4,583。 結 果 新聞における旧字体頻度をr1,新字体頻度をr2,実験で得た旧 字体選択人数をR1,新字体選択人数をR2として,式(4)のロジス ティック回帰分析を行い,最尤推定法でパラメータを推定した。 式(4)を変形すると式(5)が得られ,異体字ペアごとに旧字体選択 確率p1の予測値が求まる。 p1=1/{ 1+exp[-0.323 log (r1/r2) + 0.232 ] } ------- (5) 選択確率p1を100倍して旧字体選択率(PrefTrad)の予測値とし, 実測値との相関を算出したところ,r = . 804(p< .01,df = 84)と なった。図1に旧字体選択率(%)の予測値と実測値の散布図を示す。 以上の結果から,単純接触効果の大きさは,一般対応法則のパラ メータをロジスティック回帰分析で推定することで,かなり精度 良く予測できることが示唆された。 100 Observed PrefTrad (%) 言語コミュニケーションにおいては,どの表現を選択するか という意思決定を絶え間なく瞬時に行う必要がある。例えば, 相手に話しかける際は“様,さん,君,ちゃん”などの呼称が選 択肢として浮上する。ある表現を選択する際の重要な要因は選 好(preference)であろう。人間は自分の好きな表現を使う傾向 にある。 では,日常生活における言語表現の選好は,どのようなメカ ニズムによって決定されるのであろうか。選好に影響する要因 の説明でよく知られているのが,社会心理学の分野で Zajonc (1968)が提唱してきた単純接触効果(mere exposure effect)で ある(生駒,2005) 。単純接触効果とは,なじみのない新奇な刺 激に繰り返し接触しているだけで,その刺激に対する好み (favorability)が高まるという現象である。単純接触効果の実 験室実験は,刺激に接触する頻度が最大でも 25 回ぐらいで,刺 激に接触する期間も実験実施の間だけという制約がある。とこ ろが,自然言語に目を向けると,接触頻度が数百万回以上に達 するとか,接触期間が数十年にわたる刺激も珍しくない。 ■異体字を刺激とする利点 日本語の漢字には異体字(variant)の豊富なバリエーションが 存在する。異体字とは“桧-檜”のように読みと意味は同じで字体 だけが異なる文字の集合を指す。異体字を刺激材料とすれば,文 字数,読み,意味がまったく等価で,形だけが異なる刺激ペアを 作成できる。社会言語学の分野では,異体字刺激を用いた選好の 研究がすでに行われている。その手法は,異体字ペアを実験参加 者に呈示して字体選好課題を実施するというものである。字体選 好課題とは“桧-檜”などの新旧字体ペアを実験参加者に呈示し, パソコンなどで字を書く場面をイメージしたときに,より使いた いと感じる方の字体を2肢強制選択させる課題である。 ■一般対応法則の適用とロジスティック回帰分析の導入 さらに,計量国語学の分野では一般対応法則(generalized matching low)を援用して,コーパスで計数した漢字頻度から字 体選好課題の結果を予測する試みがなされている (横山, 2006) 。 一般対応法則は動物の選択行動研究から Baum(1974)が導い たもので,反応比 R1/R2 と強化比 r1/r2 が式(1)のような単純 な関数関係のもとで対応していることをいう。log は自然対数 (底 e) ,パラメータ S は反応感度,b は反応バイアスを示す(乙 部,2005;竹村・藤井,2005) 。 log (R1/R2)=S log (r1/r2)+log b ------- (1) 計量国語学分野における一般対応法則の利用は次のようにし てなされている。“桧-檜”のような異体字ペアのうち,日常の 言語生活で旧字体に接触する頻度は r1,新字体に接触する頻度 を r2 とする。同様に,字体選好課題で旧字体を選択する人数は R1,新字体を選択する人数を R2 とする。それぞれの字体に対 して人間がどのくらい接触しているかの頻度 r1 と r2 について は信頼に足る実測データがどこにも存在しないため,新聞での 使用頻度を接触頻度の推定値とする。新聞コーパスで計数した 漢字頻度データから式(1)における説明変数の接触頻度比につ いて対数 log(r1/r2) を求め,最小自乗法でパラメータを推定 する手法が横山(2006)によって報告されている。その眼目は, ロジスティック回帰分析の考え方を導入した点にある。ロジス ティック回帰分析は医学統計などのほか,社会言語学で Labov (1966,1972)によって開拓された変異理論の分野でも盛んに 利用されている(松田,2006) 。そのモデル式は式(2)になる。Z 80 60 40 20 0 0 20 40 60 80 100 Predicted PrefTrad (%) 図 1 旧字体選択率の予測値と実測値の散布図(京都 9 月) (Yokoyama Shoichi)
© Copyright 2025 ExpyDoc