パネル調査データの分散分析: Webで js-STAR を使う 2015年度Sセメスター 言語情報科学特別講義1 「言語認知・習得の社会言語科学」の第11回 6月26日(金)13:00~14:45 8号館8-320 横山詔一(国立国語研究所) [email protected] *推薦図書:統計的検定や分散分析の考え方を親切に解説してくれる名著 佐藤 信(1968). 『推計学のすすめ―決定と計画の科学』 (ブルーバ ックス) 講談社 きょうの配布資料は 「成人の同一話者を41年間追跡した共通語化研究」横山・中村・阿部・前 田・米田(2013)『計量国語学』 1 分散分析について • 今回は理論面の説明は省略 • 分散分析(Analysis of Variance,略称ANOVA)は 実証的研究の論文によく登場 • 実例=>山形県鶴岡市の共通語化データ • きょうは第3回調査までのデータを解析 • 実証的研究=>仮説をデータで検証 • 統計的検定(ANOVA)で「有意差」があれば,論文 を仕立てることが可能 2 同一人物を追跡:パネル調査データ 1950年,1971年,1991年の3回すべてに参加したインフォーマントは53名 そのデータを解析 1950 1971 1991 Random Sample 496(577) Random Sample 401(457) Random Sample 405 Panel Sample 107 Panel Sample 261 Panel Sample 53 4 アクセントについて 203a セナカ(共通語LHH,方言LHL) 207a ネコ(共通語HL,方言LH) 210a ハタ(共通語LH,方言HL) 228a カラス(共通語HLL,方言LHL) 231a ウチワ(共通語LHL,方言LLH) パネルデータ(縦断調査)の分析例: まず得点を求める 1. 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目は音 韻とアクセントのデータを記録 2. この5項目のうち,共通語アクセントで回答された 項目がいくつあるかを言語研究者が判定 3. これを「共通語化得点」とする。0点から5点まで • Aさん: 1991年調査で共通語アクセントだと判定された項目 が「ネコ,カラス」だとすると,1991年調査の得点は2点 • Bさん: 1950年調査で「ネコ,ハタ,カラス」だとすれば,1950 年調査の得点は3点 6 要因を決める: 調査年と性差の2要因分散分析ANOVA • 共通語化得点は,たとえば,Aさんの1950年は0点,1971年 は0点,1991年は2点というようになる • 同じように,Bさんの1950年は3点,1971年は2点,1991年 は1点というようなデータが得られる 1. アクセントの共通語化得点を1950年,1971年, 1991年の3回について53名分あつめる 2. 次に男女別に区分する 7 分散分析ANOVAに投入するデータセットの内容は? 列の先頭から1950年得点,1971年得点,1991年得点を示す。 001 000 101 上記の3行分が男性,下記の4行分が女性のデータだとしよう。 000 000 000 023 • 同一集団から得たデータを「参加者内(Within)要因」という=>たとえば, 同一人物に調査を3回繰り返した場合など。 • 別の集団から得たデータは「参加者間(Between)要因」という=>たと えば,男性と女性は別の人物。 • 今回は調査年がWithinで,性差がBetweenのデザイン。混合計画とも。 8 「アクセント」のパネルデータ 3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行 共 通 語 化 得 点 ●男性 □女性 調査年 アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ) js-STAR 2012に投入するデータを準備する → お経の書き方 AsB <=先頭行に解析デザインを示す。BetweenとWithinの混合計画。 性差 <=参加者間要因の名前 2 <=参加者間要因の水準数:男女なので2 調査年 <=参加者内要因の名前 3 <=参加者内要因の水準数:調査年は1950年,1971年,1991年の3回なので3 29 29 29 24 24 24 <=先頭から3つは男性人数で29,4つ目からは女性人数で24 3 0 0 <=男性1番目データ:先頭から1950年,1971年,1991年の共通語化得点 2 1 1 <=男性2番目データ,以下同様にして男性29番目まで書く 【中略:男性29番目まで入力したら,続けて女性1番目データから入力】 3 5 5 <=女性22番目データ 5 3 2 <=女性23番目データ 4 5 5 <=女性24番目データ • STARのお経は冒頭部6行が難解なだけ。 • 要因は「性差」と「調査年」の2要因計画。性差はBetweenで,調査年は Within=>2要因混合計画なので「 AsB」と書く。 • 一番のヤマは6行目。ここは横山もマニュアルを参照しながら書く。 10 js-STARに投入するデータ53名分の一部 AsB 性差 2 調査年 3 29 29 29 24 24 24 001 000 022 101 232 000 <中略> 001 010 000 103 11 データ53名分(実物)=>以下を後ほどコピー&ペースト AsB 性差 2 調査年 3 29 29 29 24 24 24 001 000 022 101 232 000 000 000 044 000 000 023 555 322 300 001 000 000 001 010 021 020 000 011 010 002 001 021 001 000 001 110 002 002 534 000 021 000 010 001 021 010 224 001 544 001 001 000 323 001 010 000 103 12 WebでSTARを呼び出す http://www.kisnet.or.jp/nappa/software/star/ 13 データ入力の方法は以下の2つ (1)この画面で入力=>初心者には簡単だが慣れてくるとかえって面倒 (2)データセットを準備して一括投入=>「テキストエリア」をクリック,きょうはコレで 14 デフォルトで表示されるのは下記のようなダミー例示画面 上から6行目が参考になるので注目=>お経の書き方を復習するのに役立つかも そして「データ消去」をクリック 15 16 この真っ白な入力欄に,あらかじめ準備しておいたデータセット(お経)をペースト 17 準備しておいたデータセット(お経)を下記のようにコピー&ペーストしてから 「LSD法」にチェックを入れる=>多重比較(下位検定)の方法の一つ 「計算!」をクリック 18 「結果」に平均値,分散分析表,多重比較の結果などが表示される 結果をコピー&ペーストして,自分でファイル名を付けて保存しておきましょう 19 平均値と標準偏差(SD)の一覧表 結果の読み方:たとえば,1行目の「1 1 29 0.4827」=>「男性,1950年の 得点平均は0.4827」という意味 この数値を用いてグラフを描くのがよい [ AsB-Type Design ] == Mean & S.D. ( SD=sqr(V/n) ) == A= 性差 B= 調査年 ----------------------------------------------------A B N Mean S.D. ----------------------------------------------------1 1 29 0.4827 1.1925 1 2 29 0.9310 1.3373 1 3 29 1.0000 1.2594 2 1 24 0.7083 1.4855 2 2 24 0.7916 1.1173 2 3 24 1.2500 1.3617 ----------------------------------------------------20 「アクセント」のパネルデータ 3回すべてに参加した【鶴岡ネイティブ+非ネイティブ】53名 → 共通語化が進行 共 通 語 化 得 点 ●男性 □女性 調査年 アクセント5項目「セナカ,ネコ,ハタ,カラス,ウチワ」(音韻項目と同じ) 分散分析表=>「ns」は有意差なし,「*」ならば有意差あり Nが不揃いです。 Unweighted-Mean ANOVAを行います。 N= 26.26(調和平均)と仮定します。 ----------------------------------------------------== Analysis of Variance == A(2) = 性差 B(3) = 調査年 ----------------------------------------------------S.V SS df MS F ----------------------------------------------------A 0.4947 1 0.4947 0.12 ns Sub 207.8448 51 4.0754 ----------------------------------------------------B 7.3624 2 3.6812 6.40 ** AxB 1.2492 2 0.6246 1.09 ns SxB 58.6753 102 0.5752 ----------------------------------------------------Total 275.6266 158 +p<.10, *p<.05, **p<.01 22 多重比較の結果,有意差があったのは B1 < B3 つまり,1950年よりも1991年の方が共通語化得点が高いということ 【蛇足】ほかのソフトは多重比較のために特別なお経が必要 == Multiple Comparisons by LSD == ----------------------------------------------------(MSe= 0.5752, * p<.05) (LSD= 0.2935) ----------------------------------------------------[Main Effect of Factor B] B N Mean ----------------------------------------------------1 53 0.5955 2 53 0.8613 3 53 1.1250 ----------------------------------------------------B1 = B2 n.s. B1 < B3 * B2 = B3 n.s. ----------------------------------------------------_/_/_/ Analyzed by JavaScript-STAR _/_/_/ 23 分散分析の結果をまとめた文章:査読者はどこに着眼するか • アクセントの共通語運用能力が,同一人物内で41年間にわたってどのよ うに変化するかを追跡調査した。 • 「セナカ,ネコ,ハタ,カラス,ウチワ」の5項目について,各インフォーマン トが共通語アクセントで回答した項目を判定し,その項目数を各イン フォーマントの「共通語化得点」とした。得点は0点から5点まで。 • 共通語化得点を「性差(男,女)」と「調査年(1950年,1971年,1991年)」 の2要因分散分析(混合デザイン)にかけた。 • その結果,調査年の主効果が有意となった(F [ 2 / 102 ]=6.40, p <.01 )。しかし,性差の主効果はなかった。調査年と性差の交互作用も なかった。 • 多重比較をLSD法でおこなったところ,1950年よりも1991年の得点が高 いことが明らかになった(p<.05)。 • これは,加齢とともに共通語化する可能性を示唆している。 24
© Copyright 2024 ExpyDoc