音声学会特別講演2(101009)

パネル調査データの分散分析: Webで js-STAR を使う
2015年度Sセメスター 言語情報科学特別講義1
「言語認知・習得の社会言語科学」の第11回
6月26日(金)13:00~14:45 8号館8-320
横山詔一(国立国語研究所)
[email protected]
*推薦図書:統計的検定や分散分析の考え方を親切に解説してくれる名著
佐藤 信(1968). 『推計学のすすめ―決定と計画の科学』 (ブルーバ
ックス) 講談社
きょうの配布資料は
「成人の同一話者を41年間追跡した共通語化研究」横山・中村・阿部・前
田・米田(2013)『計量国語学』
1
分散分析について
• 今回は理論面の説明は省略
• 分散分析(Analysis of Variance,略称ANOVA)は
実証的研究の論文によく登場
• 実例=>山形県鶴岡市の共通語化データ
• きょうは第3回調査までのデータを解析
• 実証的研究=>仮説をデータで検証
• 統計的検定(ANOVA)で「有意差」があれば,論文
を仕立てることが可能
2
同一人物を追跡:パネル調査データ
1950年,1971年,1991年の3回すべてに参加したインフォーマントは53名
そのデータを解析
1950
1971
1991
Random
Sample
496(577)
Random
Sample
401(457)
Random
Sample
405
Panel Sample
107
Panel Sample
261
Panel Sample
53
4
アクセントについて
203a セナカ(共通語LHH,方言LHL)
207a ネコ(共通語HL,方言LH)
210a ハタ(共通語LH,方言HL)
228a カラス(共通語HLL,方言LHL)
231a ウチワ(共通語LHL,方言LLH)
パネルデータ(縦断調査)の分析例: まず得点を求める
1. 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目は音
韻とアクセントのデータを記録
2. この5項目のうち,共通語アクセントで回答された
項目がいくつあるかを言語研究者が判定
3. これを「共通語化得点」とする。0点から5点まで
• Aさん: 1991年調査で共通語アクセントだと判定された項目
が「ネコ,カラス」だとすると,1991年調査の得点は2点
• Bさん: 1950年調査で「ネコ,ハタ,カラス」だとすれば,1950
年調査の得点は3点
6
要因を決める: 調査年と性差の2要因分散分析ANOVA
• 共通語化得点は,たとえば,Aさんの1950年は0点,1971年
は0点,1991年は2点というようになる
• 同じように,Bさんの1950年は3点,1971年は2点,1991年
は1点というようなデータが得られる
1. アクセントの共通語化得点を1950年,1971年,
1991年の3回について53名分あつめる
2. 次に男女別に区分する
7
分散分析ANOVAに投入するデータセットの内容は?
列の先頭から1950年得点,1971年得点,1991年得点を示す。
001
000
101
上記の3行分が男性,下記の4行分が女性のデータだとしよう。
000
000
000
023
• 同一集団から得たデータを「参加者内(Within)要因」という=>たとえば,
同一人物に調査を3回繰り返した場合など。
• 別の集団から得たデータは「参加者間(Between)要因」という=>たと
えば,男性と女性は別の人物。
• 今回は調査年がWithinで,性差がBetweenのデザイン。混合計画とも。
8
「アクセント」のパネルデータ
3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行
共
通
語
化
得
点
●男性
□女性
調査年
アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ)
js-STAR 2012に投入するデータを準備する → お経の書き方
AsB <=先頭行に解析デザインを示す。BetweenとWithinの混合計画。
性差 <=参加者間要因の名前
2 <=参加者間要因の水準数:男女なので2
調査年 <=参加者内要因の名前
3 <=参加者内要因の水準数:調査年は1950年,1971年,1991年の3回なので3
29 29 29 24 24 24 <=先頭から3つは男性人数で29,4つ目からは女性人数で24
3 0 0 <=男性1番目データ:先頭から1950年,1971年,1991年の共通語化得点
2 1 1 <=男性2番目データ,以下同様にして男性29番目まで書く
【中略:男性29番目まで入力したら,続けて女性1番目データから入力】
3 5 5 <=女性22番目データ
5 3 2 <=女性23番目データ
4 5 5 <=女性24番目データ
• STARのお経は冒頭部6行が難解なだけ。
• 要因は「性差」と「調査年」の2要因計画。性差はBetweenで,調査年は
Within=>2要因混合計画なので「 AsB」と書く。
• 一番のヤマは6行目。ここは横山もマニュアルを参照しながら書く。
10
js-STARに投入するデータ53名分の一部
AsB
性差
2
調査年
3
29 29 29 24 24 24
001
000
022
101
232
000
<中略>
001
010
000
103
11
データ53名分(実物)=>以下を後ほどコピー&ペースト
AsB
性差
2
調査年
3
29 29 29 24 24 24
001
000
022
101
232
000
000
000
044
000
000
023
555
322
300
001
000
000
001
010
021
020
000
011
010
002
001
021
001
000
001
110
002
002
534
000
021
000
010
001
021
010
224
001
544
001
001
000
323
001
010
000
103
12
WebでSTARを呼び出す
http://www.kisnet.or.jp/nappa/software/star/
13
データ入力の方法は以下の2つ
(1)この画面で入力=>初心者には簡単だが慣れてくるとかえって面倒
(2)データセットを準備して一括投入=>「テキストエリア」をクリック,きょうはコレで
14
デフォルトで表示されるのは下記のようなダミー例示画面
上から6行目が参考になるので注目=>お経の書き方を復習するのに役立つかも
そして「データ消去」をクリック
15
16
この真っ白な入力欄に,あらかじめ準備しておいたデータセット(お経)をペースト
17
準備しておいたデータセット(お経)を下記のようにコピー&ペーストしてから
「LSD法」にチェックを入れる=>多重比較(下位検定)の方法の一つ
「計算!」をクリック
18
「結果」に平均値,分散分析表,多重比較の結果などが表示される
結果をコピー&ペーストして,自分でファイル名を付けて保存しておきましょう
19
平均値と標準偏差(SD)の一覧表
結果の読み方:たとえば,1行目の「1 1 29 0.4827」=>「男性,1950年の
得点平均は0.4827」という意味
この数値を用いてグラフを描くのがよい
[ AsB-Type Design ]
== Mean & S.D. ( SD=sqr(V/n) ) ==
A= 性差
B= 調査年
----------------------------------------------------A B N
Mean
S.D.
----------------------------------------------------1 1 29
0.4827
1.1925
1 2 29
0.9310
1.3373
1 3 29
1.0000
1.2594
2 1 24
0.7083
1.4855
2 2 24
0.7916
1.1173
2 3 24
1.2500
1.3617
----------------------------------------------------20
「アクセント」のパネルデータ
3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行
共
通
語
化
得
点
●男性
□女性
調査年
アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ)
分散分析表=>「ns」は有意差なし,「*」ならば有意差あり
Nが不揃いです。
Unweighted-Mean ANOVAを行います。
N= 26.26(調和平均)と仮定します。
----------------------------------------------------== Analysis of Variance ==
A(2) = 性差
B(3) = 調査年
----------------------------------------------------S.V
SS
df
MS
F
----------------------------------------------------A
0.4947 1
0.4947 0.12 ns
Sub 207.8448 51
4.0754
----------------------------------------------------B
7.3624
2
3.6812 6.40 **
AxB
1.2492
2
0.6246 1.09 ns
SxB 58.6753 102
0.5752
----------------------------------------------------Total 275.6266 158 +p<.10, *p<.05, **p<.01
22
多重比較の結果,有意差があったのは B1 < B3
つまり,1950年よりも1991年の方が共通語化得点が高いということ
【蛇足】ほかのソフトは多重比較のために特別なお経が必要
== Multiple Comparisons by LSD ==
----------------------------------------------------(MSe= 0.5752, * p<.05)
(LSD=
0.2935)
----------------------------------------------------[Main Effect of Factor B]
B N
Mean
----------------------------------------------------1 53
0.5955
2 53
0.8613
3 53
1.1250
----------------------------------------------------B1 = B2 n.s.
B1 < B3 *
B2 = B3 n.s.
----------------------------------------------------_/_/_/ Analyzed by JavaScript-STAR _/_/_/
23
分散分析の結果をまとめた文章:査読者はどこに着眼するか
• アクセントの共通語運用能力が,同一人物内で41年間にわたってどのよ
うに変化するかを追跡調査した。
• 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目について,各インフォーマン
トが共通語アクセントで回答した項目を判定し,その項目数を各イン
フォーマントの「共通語化得点」とした。得点は0点から5点まで。
• 共通語化得点を「性差(男,女)」と「調査年(1950年,1971年,1991年)」
の2要因分散分析(混合デザイン)にかけた。
• その結果,調査年の主効果が有意となった(F [ 2 / 102 ]=6.40, p
<.01 )。しかし,性差の主効果はなかった。調査年と性差の交互作用も
なかった。
• 多重比較をLSD法でおこなったところ,1950年よりも1991年の得点が高
いことが明らかになった(p<.05)。
• これは,加齢とともに共通語化する可能性を示唆している。
24