VARBRULプログラムとは何か

第14回社会言語科学会大会 ワークショップ(東京大学)
ことばのバリエーションをつかまえる: 分析ツールとしての
VARBRULプログラムの活用法と隣接分野への応用
VARBRULプログラムとは何か
神戸松蔭女子学院大学
松田謙次郎
[email protected]
2004/9/5
はじめに: あなたならどうする?
ある発音 x の変異 に関する仮想データ
年代
性別
若年
男性
老年
女性
88.1%
ス くだけた 90.3%
449/497 262/295
タ
イ 改まった 95.8%
95.1%
ル
137/143 372/391
男性
女性
35.5%
103/290
20.7%
123/594
40.9%
36/88
30.7%
177/577
対策、いろいろ
• 目でパーセンテージを追う
⇒4重以上のクロス表ではかなり難
• グラフ
⇒やはり限界あり。数値化は難。
• 2要因ずつカイ自乗
⇒複数要因を同時に分析できない
• よって他の関連する要因(交絡因子)を勘定に入れた
場合の重みがわからない。これは危険。
⇒検定の繰り返しで危険率が増加
そこで: VARBRUL
• ある要因(前後の音環境、話者の性別、etc)
が、どれほどある形式の使用に関わっている
(寄与しているか)を計算してくれる
• 一見有意差がありそうな区別は、他の要因を
考慮に入れた場合、 本当に有意差があるの
かを教えてくれる
• ある形式が使われるかどうかを予測するため
の最適モデルは何かを教えてくれる
• 統計手法: ロジスティック回帰分析
ロジスティック回帰分析
(logistic regression)
• 独立変数・従属変数ともに名目変数でOK
• 独立変数は、連続変数を含んでいてもOK。
ただしVARBRULでできるのは名目変数のみ。
• もともとは医学(疫学)で60年代後半に誕生
(冠状動脈性疾患の分析)。その後社会学な
どでも盛んに活用されるにいたる。
• VARBRUL以外でもSAS, SPSS等の統計
パッケージでも計算可。フリーウエアもあり。
線形回帰分析・分散分析 vs.
ロジスティック回帰分析
• 「統計入門」に出てくるおなじみの線形回帰分析
– 予測対象(従属変数)・要因(独立変数)いずれも間隔・比
率尺度 (長さ、重さ、周波数、etc…)
– パーセンテージをそのまま使うと予測が100%を超える事
態も起きてしまう
– ロジスティック回帰のロジットは-∞から∞まで
• やはり「統計入門」でおなじみの分散分析
– 変異理論が主として扱う自然談話データでは、セルにより
データ件数が大幅に異なるのが普通
– これは分散分析では好ましくない事態
ここでビミョーに頭の整理
• VARBRUL=製品名、ロジスティック回帰分析=統計手法名
• よって社会学の研究者に「私、VARBRUL分析やったの」と
言っても通じないが「ロジスティック回帰分析だぞぅ」と言うと
一目置いてくれる(はず)
分析法
変数/尺度
線形回帰分析
従属変数=連続変数
独立変数=連続・名目変数
統計入門に必ず
登場
従属変数=連続変数
独立変数=名目変数
統計入門に必ず
登場
従属変数=名目変数
独立変数=連続・名目変数
統計入門では絶対
登場しない
分散分析
ロジスティック回帰
ちなみに
ロジスティックモデル 1
•
•
•
表の「若者・男性・和語・友人同士」の部分
における発音Xの出現割合(P)は…
「若者という効果の重み」+ 「男性という効
果の重み」+ 「和語という効果の重み」+
「友人同士という効果の重み」+全体の重
み、と表現できる
「~の重み」を、「~のオッズ(p/(1-p))の対
数(ln)」に変換(「ロジット」)
発音 X に関する仮想データ、アゲイン
年代
若年(y)
老年(o)
性別
男性(m) 女性(f)
男性(m)
女性(f)
88.1%
ス くだけた 90.3%
(c)
449/497 262/295
タ
イ 改まった 95.8%
95.1%
(f)
ル
137/143 372/391
35.5%
103/290
20.7%
123/594
40.9%
36/88
30.7%
177/577
ロジスティックモデル 2
• 表の「老年・男性・くだけたスタイル」の部分は
ln(P/(1-P))= ln(Pα/(1-Pα))+ ln(P老/(1-P
老))+ln(P男/(1-P男)) +ln(Pくだ/(1-Pくだ)) とな
る
• 表のセルすべてについてこうしたモデルを作
成、そこからそれぞれのPを計算
• モデルの予測と実際のデータとの当てはまり
具合(フィット)は、カイ自乗値を用いて計算。
• モデルの選択は、対数尤度を用いて計算。
VARBRUL 分析の流れ
コーディング作業(テキストエディタ、Excel)
↓
トークンファイル(***.tok)
↓
コンディションファイル (***.con)
↓
VARBRUL
セルファイル(***.cel)
クロス表作成
プログラム
回帰分析・変数選択
回帰分析・フィットの確認
↓
最適モデル!
コーディング・トークンファイルの作成
•
•
•
•
VARBRULのもっとも基本的なデータファイル
独立・従属要因それぞれにコードを与える
最初のコラムに半角空き括弧
コードの後に、スペースを開けて発話データ
の入力も可能(GV2001は日本語OK)
• GoldVarb, GoldVarb2001の中でもできるが、
テキストエディタやワード、エクセルでもOK
• ただしテキストフォーマットで、拡張子は .tok
これがトークンファイルだ!
(謎の発音x をめぐる仮想データ)
(xymc
(xyfc
(xyfc
(xyfc
(xymf
(yomc
(yomc
(yyff
コード
ここに自由にデータの出現した
談話を書いていってもよい
ここで見るように
日本語でもオッケーになっている
ただしこれはGoldVarb2001の場合であり
GoldVarb (Macintosh)では
どうもだめなようだ
それにしてもコーディングは退屈だ
出典・発話情報
コンディションファイル
• 必要に応じて要因をまとめたり、組み合わせ
たりするための指示を与えるファイル
• これとトークンファイルがセルファイル作成に
必要
• GoldVarb,GoldVarb2001ならプログラムの
中で作成。ただし拡張子を .conとすれば、エ
ディタで書いても OK
これがコンディションファイルだっ!
従属変数+独立変数5つの場合
(
(1)
(2)
(3 (b (col 3 a)))
(4 (x (and (col 5 y)(col 4 z))
(k (elsewhere)))
(5 (/ (col 6 j)))
(6 (nil (col 6 m)))
; comment
)
始まりにカッコ
最初に来るのが従属変数
そのまま使うならそのまま
a と b の区別をなくす
この要因が zで第5要因がy なら
x という新しいコードに
それ以外はk にまとめる
第6要因が j なら第5要因区別なし
この要因で m のものはデータから
外す
コメント行はセミコロン
終わりにもカッコ
セルファイルの作成
• クロス表、ロジスティック回帰分析への入力
• トークンファイルデータの中にある、すべての
独立変数の組み合わせと、その組み合わせ
のもとで観察された従属変数の実数
– つまり最初の表の各セルとその中身
• VARBRULプログラムで作成
• レベル(”factor”)が一つだけの要因(”factor
group”) があると警告を出す(”singleton
factor!)⇒コンディションファイルからやり直し
セルファイルはこんな感じ♪
1x
3
2yo
2mf
2cf
123 471
ofc
177 400
off
[一部省略]
137 6
ymf
-1
従属変数はX の割合を数
える
独立変数は3つ
各独立変数のコードの数
とコードを列挙
セルofc (老年女性くだけ
たスタイル)ではxが
123個、そうでないのが
471個。以下同様。
ファイルの終わり
クロス表分析
• クロス表分析の目的
– 交互作用の発見
– データの偏りに由来する各種問題点の発見
– データの分布についてのおおまかな当たりをつける
• 多重クロスは、コンディションファイルでデータを分
割して行う
• カイ自乗値などは計算しない
• エクセルのピボットテーブルの方が使えるか?
クロス表はこんな感じ☆★
(Goldvarbの画像出力)
メfictiona l.Celモ
• 04.9.4•6:16 PM
• Token file: fictionaldata.Tkn
• Conditions: fictional.Cnd
Group #1 -- horizontally.
Group #2 -- vertically.
y
%
o
%
•
%
m x
-
586 92
54 8
640
f x
-
634 92 300 26 934 50
52 8
871 74 923 50
686
1171
1857
• x
1220 92 439 28 1659 58
106 8 1110 72 1216 42
1326
1549
2875
•
•
•
-
139 37 725 71
239 63 293 29
378
1018
若年(y)男性(m)の発
音 x 使用度数は586
(92%)、それ以外が
54(8%)
ロジスティック回帰分析 1
•
•
入るもの(入力ファイル)=セルファイル
出すもの(出力内容):
–
–
•
各要因のレベルごとの重み
対数尤度値(Log-likelihood)
「重み」の解釈
–
–
–
0.5 を中心として、それ以上がXという形式の実現に、
以下がXでない形式の実現に働く(ただし二項の場合)
値が0.5 から離れれば離れるほど強力
重みのつけ方はソフト・バージョンで異なるので注意!
ロジスティック回帰分析 2
• 2つの回帰分析
1.変数選択つき: 与えられた要因の最適の組み合
わせ(対数尤度による計算)を探る
– 一般の回帰分析と同様の機能
– 変数ゼロから積み上げる方式と、すべての要因を入れ
たモデルから削っていく方式の2つで選択
2.変数選択なし(one-level): 与えられた要因全部
を使った上での実測値とのフィット(カイ自乗値)
– すでにモデルが決定している場合の当てはまりを見る
ための分析
– セルごとのカイ自乗値と、フィットのグラフも出力される
そしてこれが出力例 1
変数選択付き回帰分析(のごく一部)
Run # 7, 8 cells:
要因の重み
Convergence at Iteration 6
Input 0.707
性別なしモデルとLog
Group # 1 -- y: 0.840, o: 0.160
likelihoodで検定すると
Group # 2 -- m: 0.562, f: 0.438
有意に良い。よって含む
Group # 3 -- c: 0.433, f: 0.567
Log likelihood = -1274.131 Significance = 0.000
Add Group # 2 with factors mf
Best stepping up run: #7
そしてこれが出力例 2
フィットの分析の一部
Cell
ymf
ymc
yff
yfc
omf
omc
off
ofc
セル
Total
143
497
391
295
88
290
577
594
総観測値
App‘ns
137
449
372
262
36
103
177
123
発音xの観測
度数
Expected
136.595
459.932
362.919
260.374
38.335
89.875
183.889
127.081
Error
0.027
3.484
3.164
0.086
0.252
2.777
0.379
0.167
発音xの予
測度数
カイ自乗値
予測値と観測値のグラフ
(点は各セル; 対角線上が完璧な予測)
公刊表データもVARBRULしたい!
• 論文中に表として引かれているデータも、最
初の表のように、すべての組み合わせが表
示されているものであれば、トークンファイル
に変換して、VARBRUL分析が可能
• 例えばSPSSのスクリプトが使えるが、いずれ
にしても超簡単なスクリプトで可能
• 公刊データのロジスティックモデルによる再
検討も可能に!
VARBRULプログラムの発展
1. VARBRUL(大型汎用機)
–
–
Cedergren & Sankoff (1974)のオリジナル版
70年代の変異理論の論文の多くはこれを使う
2. VARBRUL 2S(MS-DOS)
–
–
–
前述のロジスティックモデル(Sankoff & Labov 1979)
変数選択機能あり
従属変数が3項のモデルも可能(⇒片岡発表)
3. GoldVarb(Macintosh ― Classic 環境)
4. GoldVarb2001(Windows XP対応)
• 2~4は関連サイトからダウンロード可
VARBRULプログラムの…
良いところ
1.
2.
3.
4.
ただ
扱いが簡単
各種OSに対応
変異理論の事実上の
スタンダードソフト
•
他の研究と結果が比
較しやすい
悪いところ
1. 変異理論以外では知
られていない
•
よって日本で知名度低
2. 詳しい解説書が乏し
かった
3. 出力統計値の種類・
オプションが少ない
4. 交互作用の扱いは微
妙
Paolillo さん、ありがとさん
• VARBRULとその統計
的・言語学的背景に関
する優れた解説書
• John C. Paolillo.
Analyzing Linguistic
Variation: Statistical
Models and Methods.
Stanford: CSLI
Publications, 2002.
VARBRUL関連ウェブサイト
• VARBRUL2S (MS-DOS)
– ftp://ftp.cis.upenn.edu/pub/ldc/misc_sw/varbru
l.tar.Z
• GoldVarb2001(Windows)
– http://www.york.ac.uk/depts/lang/webstuff/gold
varb/
• GoldVarb (Macintosh)
– http://www.crm.umontreal.ca/~sankoff/GoldVa
rb_Eng.html
おまけ: VARBRULの生みの親・近影
Prof. David Sankoff