第14回社会言語科学会大会 ワークショップ(東京大学) ことばのバリエーションをつかまえる: 分析ツールとしての VARBRULプログラムの活用法と隣接分野への応用 VARBRULプログラムとは何か 神戸松蔭女子学院大学 松田謙次郎 [email protected] 2004/9/5 はじめに: あなたならどうする? ある発音 x の変異 に関する仮想データ 年代 性別 若年 男性 老年 女性 88.1% ス くだけた 90.3% 449/497 262/295 タ イ 改まった 95.8% 95.1% ル 137/143 372/391 男性 女性 35.5% 103/290 20.7% 123/594 40.9% 36/88 30.7% 177/577 対策、いろいろ • 目でパーセンテージを追う ⇒4重以上のクロス表ではかなり難 • グラフ ⇒やはり限界あり。数値化は難。 • 2要因ずつカイ自乗 ⇒複数要因を同時に分析できない • よって他の関連する要因(交絡因子)を勘定に入れた 場合の重みがわからない。これは危険。 ⇒検定の繰り返しで危険率が増加 そこで: VARBRUL • ある要因(前後の音環境、話者の性別、etc) が、どれほどある形式の使用に関わっている (寄与しているか)を計算してくれる • 一見有意差がありそうな区別は、他の要因を 考慮に入れた場合、 本当に有意差があるの かを教えてくれる • ある形式が使われるかどうかを予測するため の最適モデルは何かを教えてくれる • 統計手法: ロジスティック回帰分析 ロジスティック回帰分析 (logistic regression) • 独立変数・従属変数ともに名目変数でOK • 独立変数は、連続変数を含んでいてもOK。 ただしVARBRULでできるのは名目変数のみ。 • もともとは医学(疫学)で60年代後半に誕生 (冠状動脈性疾患の分析)。その後社会学な どでも盛んに活用されるにいたる。 • VARBRUL以外でもSAS, SPSS等の統計 パッケージでも計算可。フリーウエアもあり。 線形回帰分析・分散分析 vs. ロジスティック回帰分析 • 「統計入門」に出てくるおなじみの線形回帰分析 – 予測対象(従属変数)・要因(独立変数)いずれも間隔・比 率尺度 (長さ、重さ、周波数、etc…) – パーセンテージをそのまま使うと予測が100%を超える事 態も起きてしまう – ロジスティック回帰のロジットは-∞から∞まで • やはり「統計入門」でおなじみの分散分析 – 変異理論が主として扱う自然談話データでは、セルにより データ件数が大幅に異なるのが普通 – これは分散分析では好ましくない事態 ここでビミョーに頭の整理 • VARBRUL=製品名、ロジスティック回帰分析=統計手法名 • よって社会学の研究者に「私、VARBRUL分析やったの」と 言っても通じないが「ロジスティック回帰分析だぞぅ」と言うと 一目置いてくれる(はず) 分析法 変数/尺度 線形回帰分析 従属変数=連続変数 独立変数=連続・名目変数 統計入門に必ず 登場 従属変数=連続変数 独立変数=名目変数 統計入門に必ず 登場 従属変数=名目変数 独立変数=連続・名目変数 統計入門では絶対 登場しない 分散分析 ロジスティック回帰 ちなみに ロジスティックモデル 1 • • • 表の「若者・男性・和語・友人同士」の部分 における発音Xの出現割合(P)は… 「若者という効果の重み」+ 「男性という効 果の重み」+ 「和語という効果の重み」+ 「友人同士という効果の重み」+全体の重 み、と表現できる 「~の重み」を、「~のオッズ(p/(1-p))の対 数(ln)」に変換(「ロジット」) 発音 X に関する仮想データ、アゲイン 年代 若年(y) 老年(o) 性別 男性(m) 女性(f) 男性(m) 女性(f) 88.1% ス くだけた 90.3% (c) 449/497 262/295 タ イ 改まった 95.8% 95.1% (f) ル 137/143 372/391 35.5% 103/290 20.7% 123/594 40.9% 36/88 30.7% 177/577 ロジスティックモデル 2 • 表の「老年・男性・くだけたスタイル」の部分は ln(P/(1-P))= ln(Pα/(1-Pα))+ ln(P老/(1-P 老))+ln(P男/(1-P男)) +ln(Pくだ/(1-Pくだ)) とな る • 表のセルすべてについてこうしたモデルを作 成、そこからそれぞれのPを計算 • モデルの予測と実際のデータとの当てはまり 具合(フィット)は、カイ自乗値を用いて計算。 • モデルの選択は、対数尤度を用いて計算。 VARBRUL 分析の流れ コーディング作業(テキストエディタ、Excel) ↓ トークンファイル(***.tok) ↓ コンディションファイル (***.con) ↓ VARBRUL セルファイル(***.cel) クロス表作成 プログラム 回帰分析・変数選択 回帰分析・フィットの確認 ↓ 最適モデル! コーディング・トークンファイルの作成 • • • • VARBRULのもっとも基本的なデータファイル 独立・従属要因それぞれにコードを与える 最初のコラムに半角空き括弧 コードの後に、スペースを開けて発話データ の入力も可能(GV2001は日本語OK) • GoldVarb, GoldVarb2001の中でもできるが、 テキストエディタやワード、エクセルでもOK • ただしテキストフォーマットで、拡張子は .tok これがトークンファイルだ! (謎の発音x をめぐる仮想データ) (xymc (xyfc (xyfc (xyfc (xymf (yomc (yomc (yyff コード ここに自由にデータの出現した 談話を書いていってもよい ここで見るように 日本語でもオッケーになっている ただしこれはGoldVarb2001の場合であり GoldVarb (Macintosh)では どうもだめなようだ それにしてもコーディングは退屈だ 出典・発話情報 コンディションファイル • 必要に応じて要因をまとめたり、組み合わせ たりするための指示を与えるファイル • これとトークンファイルがセルファイル作成に 必要 • GoldVarb,GoldVarb2001ならプログラムの 中で作成。ただし拡張子を .conとすれば、エ ディタで書いても OK これがコンディションファイルだっ! 従属変数+独立変数5つの場合 ( (1) (2) (3 (b (col 3 a))) (4 (x (and (col 5 y)(col 4 z)) (k (elsewhere))) (5 (/ (col 6 j))) (6 (nil (col 6 m))) ; comment ) 始まりにカッコ 最初に来るのが従属変数 そのまま使うならそのまま a と b の区別をなくす この要因が zで第5要因がy なら x という新しいコードに それ以外はk にまとめる 第6要因が j なら第5要因区別なし この要因で m のものはデータから 外す コメント行はセミコロン 終わりにもカッコ セルファイルの作成 • クロス表、ロジスティック回帰分析への入力 • トークンファイルデータの中にある、すべての 独立変数の組み合わせと、その組み合わせ のもとで観察された従属変数の実数 – つまり最初の表の各セルとその中身 • VARBRULプログラムで作成 • レベル(”factor”)が一つだけの要因(”factor group”) があると警告を出す(”singleton factor!)⇒コンディションファイルからやり直し セルファイルはこんな感じ♪ 1x 3 2yo 2mf 2cf 123 471 ofc 177 400 off [一部省略] 137 6 ymf -1 従属変数はX の割合を数 える 独立変数は3つ 各独立変数のコードの数 とコードを列挙 セルofc (老年女性くだけ たスタイル)ではxが 123個、そうでないのが 471個。以下同様。 ファイルの終わり クロス表分析 • クロス表分析の目的 – 交互作用の発見 – データの偏りに由来する各種問題点の発見 – データの分布についてのおおまかな当たりをつける • 多重クロスは、コンディションファイルでデータを分 割して行う • カイ自乗値などは計算しない • エクセルのピボットテーブルの方が使えるか? クロス表はこんな感じ☆★ (Goldvarbの画像出力) メfictiona l.Celモ • 04.9.4•6:16 PM • Token file: fictionaldata.Tkn • Conditions: fictional.Cnd Group #1 -- horizontally. Group #2 -- vertically. y % o % • % m x - 586 92 54 8 640 f x - 634 92 300 26 934 50 52 8 871 74 923 50 686 1171 1857 • x 1220 92 439 28 1659 58 106 8 1110 72 1216 42 1326 1549 2875 • • • - 139 37 725 71 239 63 293 29 378 1018 若年(y)男性(m)の発 音 x 使用度数は586 (92%)、それ以外が 54(8%) ロジスティック回帰分析 1 • • 入るもの(入力ファイル)=セルファイル 出すもの(出力内容): – – • 各要因のレベルごとの重み 対数尤度値(Log-likelihood) 「重み」の解釈 – – – 0.5 を中心として、それ以上がXという形式の実現に、 以下がXでない形式の実現に働く(ただし二項の場合) 値が0.5 から離れれば離れるほど強力 重みのつけ方はソフト・バージョンで異なるので注意! ロジスティック回帰分析 2 • 2つの回帰分析 1.変数選択つき: 与えられた要因の最適の組み合 わせ(対数尤度による計算)を探る – 一般の回帰分析と同様の機能 – 変数ゼロから積み上げる方式と、すべての要因を入れ たモデルから削っていく方式の2つで選択 2.変数選択なし(one-level): 与えられた要因全部 を使った上での実測値とのフィット(カイ自乗値) – すでにモデルが決定している場合の当てはまりを見る ための分析 – セルごとのカイ自乗値と、フィットのグラフも出力される そしてこれが出力例 1 変数選択付き回帰分析(のごく一部) Run # 7, 8 cells: 要因の重み Convergence at Iteration 6 Input 0.707 性別なしモデルとLog Group # 1 -- y: 0.840, o: 0.160 likelihoodで検定すると Group # 2 -- m: 0.562, f: 0.438 有意に良い。よって含む Group # 3 -- c: 0.433, f: 0.567 Log likelihood = -1274.131 Significance = 0.000 Add Group # 2 with factors mf Best stepping up run: #7 そしてこれが出力例 2 フィットの分析の一部 Cell ymf ymc yff yfc omf omc off ofc セル Total 143 497 391 295 88 290 577 594 総観測値 App‘ns 137 449 372 262 36 103 177 123 発音xの観測 度数 Expected 136.595 459.932 362.919 260.374 38.335 89.875 183.889 127.081 Error 0.027 3.484 3.164 0.086 0.252 2.777 0.379 0.167 発音xの予 測度数 カイ自乗値 予測値と観測値のグラフ (点は各セル; 対角線上が完璧な予測) 公刊表データもVARBRULしたい! • 論文中に表として引かれているデータも、最 初の表のように、すべての組み合わせが表 示されているものであれば、トークンファイル に変換して、VARBRUL分析が可能 • 例えばSPSSのスクリプトが使えるが、いずれ にしても超簡単なスクリプトで可能 • 公刊データのロジスティックモデルによる再 検討も可能に! VARBRULプログラムの発展 1. VARBRUL(大型汎用機) – – Cedergren & Sankoff (1974)のオリジナル版 70年代の変異理論の論文の多くはこれを使う 2. VARBRUL 2S(MS-DOS) – – – 前述のロジスティックモデル(Sankoff & Labov 1979) 変数選択機能あり 従属変数が3項のモデルも可能(⇒片岡発表) 3. GoldVarb(Macintosh ― Classic 環境) 4. GoldVarb2001(Windows XP対応) • 2~4は関連サイトからダウンロード可 VARBRULプログラムの… 良いところ 1. 2. 3. 4. ただ 扱いが簡単 各種OSに対応 変異理論の事実上の スタンダードソフト • 他の研究と結果が比 較しやすい 悪いところ 1. 変異理論以外では知 られていない • よって日本で知名度低 2. 詳しい解説書が乏し かった 3. 出力統計値の種類・ オプションが少ない 4. 交互作用の扱いは微 妙 Paolillo さん、ありがとさん • VARBRULとその統計 的・言語学的背景に関 する優れた解説書 • John C. Paolillo. Analyzing Linguistic Variation: Statistical Models and Methods. Stanford: CSLI Publications, 2002. VARBRUL関連ウェブサイト • VARBRUL2S (MS-DOS) – ftp://ftp.cis.upenn.edu/pub/ldc/misc_sw/varbru l.tar.Z • GoldVarb2001(Windows) – http://www.york.ac.uk/depts/lang/webstuff/gold varb/ • GoldVarb (Macintosh) – http://www.crm.umontreal.ca/~sankoff/GoldVa rb_Eng.html おまけ: VARBRULの生みの親・近影 Prof. David Sankoff
© Copyright 2024 ExpyDoc