音声学会特別講演2(101009)

東京大学大学院 総合文化研究科 言語情報科学特別講義Ⅰ
「言語の認知・記憶・習得に関する計量的研究法」の第11回(最終回)
分散分析や文字論など
<分散分析,コーパスを利用した漢字研究>
2013年1月25日(金)
言語循環システム=人間社会
*推薦図書:統計的検定や分散分析の考え方を親切に解説してくれる名著

佐藤 信(1968). 『推計学のすすめ―決定と計画の科学』
(ブルーバックス) 講談社
*きょうの配布資料

横山詔一(2012). 「コーパス本文批評と統計的検定の考え方」,荻野綱男・田
野村忠温(編),講座ITと日本語研究第4巻『コーパスの作成と活用』, pp.123164,明治書院,ISBN:978-625-43442-6
横山詔一(国立国語研究所)
[email protected]
1
分散分析について
• きょうは最終回なので理論面の説明は省略
• 分散分析(Analysis of Variance,略称ANOVA)は
実証的研究の論文によく登場
• 実例=>山形県鶴岡市の共通語化データ
• きょうは第3回調査までのデータを解析
• 実証的研究=>仮説をデータで検証
• 統計的検定(ANOVA)で「有意差」があれば,論文
を仕立てることが可能
2
同一人物を追跡:パネル調査データ
1950年,1971年,1991年の3回すべてに参加したインフォーマントは53名
そのデータを解析
1950
1971
1991
Random
Sample
496(577)
Random
Sample
401(457)
Random
Sample
405
Panel Sample
107
Panel Sample
261
Panel Sample
53
4
アクセントについて
203a セナカ(共通語LHH,方言LHL)
207a ネコ(共通語HL,方言LH)
210a ハタ(共通語LH,方言HL)
228a カラス(共通語HLL,方言LHL)
231a ウチワ(共通語LHL,方言LLH)
パネルデータ(縦断調査)の分析例: まず得点を求める
1. 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目は音
韻とアクセントのデータを記録
2. この5項目のうち,共通語アクセントで回答された
項目がいくつあるかを言語研究者が判定
3. これを「共通語化得点」とする。0点から5点まで
• たとえば, Aさんの1991年調査で共通語アクセントだと判定
された項目が「ネコ,カラス」だとすると得点は2点
• Bさんの1950年調査で「ネコ,ハタ,カラス」だとすれば得点
は3点
6
要因を決める: 調査年と性差の2要因分散分析ANOVA
• 共通語化得点は,たとえば,Aさんの1950年は0点,1971年は0点,
1991年は1点というようになる
• 同じように,Bさんの1950年は0点,1971年は0点,1991年は0点というよ
うなデータが得られる
1. アクセントの共通語化得点を1950年,1971年,
1991年の3回について53名分そろえる
2. 次に男女別に区分する
7
分散分析ANOVAに投入するデータセットの内容は?
以下の各行は先頭から1950年得点,1971年得点,1991年得点を示す。
001
000
101
上記の3行分が男性,下記の4行分が女性のデータだとしよう。
000
000
000
023
• 同一集団から得たデータを「参加者内(Within)要因」という=>たとえば,
同一人物に調査を3回繰り返した場合など。
• 別の集団から得たデータは「参加者間(Between)要因」という=>たと
えば,男性と女性は別の人物。
• 今回は調査年がWithinで,性差がBetweenのデザイン。混合計画とも。
8
「アクセント」のパネルデータ
3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行
共
通
語
化
得
点
●男性
□女性
調査年
アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ)
STARに投入するデータを準備する=>お経の書き方
AsB <=先頭行に解析デザインを示す。BetweenとWithinの混合計画。
性差 <=参加者間要因の名前
2 <=参加者間要因の水準数:男女なので2
調査年 <=参加者内要因の名前
3 <=参加者内要因の水準数:調査年は1950年,1971年,1991年の3回なので3
29 29 29 24 24 24 <=先頭から3つは男性人数で29,4つ目からは女性人数で24
3 0 0 <=男性1番目データ:先頭から1950年,1971年,1991年の共通語化得点
2 1 1 <=男性2番目データ,以下同様にして男性29番目まで書く
【中略:男性29番目まで入力したら,続けて女性1番目データから入力】
3 5 5 <=女性22番目データ
5 3 2 <=女性23番目データ
4 5 5 <=女性24番目データ
• STARのお経は冒頭部6行が難解なだけ。
• 要因は「性差」と「調査年」の2要因計画。性差はBetweenで,調査年は
Within=>2要因混合計画なので「 AsB」と書く。
• 一番のヤマは6行目。ここは横山もマニュアルを参照しながら書く。
10
STARに投入するデータ53名分(実物)=>以下を後ほどコピー&ペースト
AsB
性差
2
調査年
3
29 29 29 24 24 24
001
000
022
101
232
000
000
000
044
000
000
023
555
322
300
001
000
000
001
010
021
020
000
011
010
002
001
021
001
000
001
110
002
002
534
000
021
000
010
001
021
010
224
001
544
001
001
000
323
001
010
000
103
11
WebでSTARを呼び出す
http://www.kisnet.or.jp/nappa/software/star/
12
データ入力の方法は以下の2つ
(1)この画面で入力=>初心者には簡単だが慣れてくるとかえって面倒
(2)データセットを準備して一括投入=>「テキストエリア」をクリック,きょうはコレで
13
デフォルトで表示されるのは下記のようなダミー例示画面
上から6行目が参考になるので注目=>お経の書き方を復習するのに役立つかも
そして「データ消去」をクリック
14
15
この真っ白な入力欄に,あらかじめ準備しておいたデータセット(お経)をペースト
16
準備しておいたデータセット(お経)を下記のようにコピー&ペーストしてから
「LSD法」にチェックを入れる=>多重比較(下位検定)の方法の一つ
「計算!」をクリック
17
「結果」に平均値,分散分析表,多重比較の結果などが表示される
結果をコピー&ペーストして,自分でファイル名を付けて保存しておきましょう
18
平均値と標準偏差(SD)の一覧表
結果の読み方:たとえば,1行目の「1 1 29 0.4827」=>「男性,1950年の
得点平均は0.4827」という意味
この数値を用いてグラフを描くのがよい
[ AsB-Type Design ]
== Mean & S.D. ( SD=sqr(V/n) ) ==
A= 性差
B= 調査年
----------------------------------------------------A B N
Mean
S.D.
----------------------------------------------------1 1 29
0.4827
1.1925
1 2 29
0.9310
1.3373
1 3 29
1.0000
1.2594
2 1 24
0.7083
1.4855
2 2 24
0.7916
1.1173
2 3 24
1.2500
1.3617
----------------------------------------------------19
「アクセント」のパネルデータ
3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行
共
通
語
化
得
点
●男性
□女性
調査年
アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ)
分散分析表=>「ns」は有意差なし,「*」ならば有意差あり
Nが不揃いです。
Unweighted-Mean ANOVAを行います。
N= 26.26(調和平均)と仮定します。
----------------------------------------------------== Analysis of Variance ==
A(2) = 性差
B(3) = 調査年
----------------------------------------------------S.V
SS
df
MS
F
----------------------------------------------------A
0.4947 1
0.4947 0.12 ns
Sub 207.8448 51
4.0754
----------------------------------------------------B
7.3624
2
3.6812 6.40 **
AxB
1.2492
2
0.6246 1.09 ns
SxB 58.6753 102
0.5752
----------------------------------------------------Total 275.6266 158 +p<.10, *p<.05, **p<.01
21
多重比較の結果,有意差があったのは B1 < B3
つまり,1950年よりも1991年の方が共通語化得点が高いということ
【蛇足】ほかのソフトは多重比較のために特別なお経が必要
== Multiple Comparisons by LSD ==
----------------------------------------------------(MSe= 0.5752, * p<.05)
(LSD=
0.2935)
----------------------------------------------------[Main Effect of Factor B]
B N
Mean
----------------------------------------------------1 53
0.5955
2 53
0.8613
3 53
1.1250
----------------------------------------------------B1 = B2 n.s.
B1 < B3 *
B2 = B3 n.s.
----------------------------------------------------_/_/_/ Analyzed by JavaScript-STAR _/_/_/
22
分散分析の結果をまとめた文章:査読者はどこに着眼するか
• アクセントの共通語運用能力が,同一人物内で41年間にわたってどのよ
うに変化するかを追跡調査した。
• 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目について,各インフォーマン
トが共通語アクセントで回答した項目を判定し,その項目数を各イン
フォーマントの「共通語化得点」とした。得点は0点から5点まで。
• 共通語化得点を「性差(男,女)」と「調査年(1950年,1971年,1991年)」
の2要因分散分析(混合デザイン)にかけた。
• その結果,調査年の主効果が有意となった(F [ 2 / 102 ]=6.40, p
<.01 )。しかし,性差の主効果はなかった。調査年と性差の交互作用も
なかった。
• 多重比較をLSD法でおこなったところ,1950年よりも1991年の得点が高
いことが明らかになった(p<.05)。
• これは,加齢とともに共通語化する可能性を示唆している。
23
まとめにかえて:「言語」の計量的研究に統計的検定は必要不可欠か?
新聞コーパスで新聞の用字用語調査をした論文=>査読者の着眼点は?
*コーパスを使った用字調査のクイズ
以下の問題文は○か×か。その理由は?
•
問題1: 朝日新聞や毎日新聞などの新聞コーパスは,新聞紙面のテキスト部分
(文章や語)を正確に反映している。
•
問題2: 新聞コーパスの漢字で,たとえば撹乱の「撹」という字は新聞紙面と同じ
である。
•
問題3: 新聞コーパスで,たとえば「槙」という字がほとんどすべて消えてしまっ
ている場合がある。
=>問題3のみが○。解説は以下を参照のこと。
横山詔一(2012). 「コーパス本文批評と統計的検定の考え方」,荻野綱男・田野村忠温(編),
講座ITと日本語研究第4巻『コーパスの作成と活用』, pp.123-164,明治書院
*次に用語調査について
1. たとえば「朝日新聞の2000年代の用語変化」をコーパスで調査した場合,統計的
検定は必要なのか?
2. ほぼ全数調査になるから,統計的検定は意味をなさないのでは?
24