や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.4.9 第 1回 「 導 入 : な ぜ 社 会 を 数 値 に す る の か 」 ■全体的な目標 計 量 社 会 学 ( quantitative sociology) と は 、 社 会 を 知 る た め に 積 極 的 に 数 値 ( 統 計 デ ータ)を活用する社会学の一分野である。社会へのアプローチ方法によって分類した呼び 方で、理論によるアプローチ(理論社会学)や歴史によるアプローチ(歴史社会学)と対 比される。家族や組織、教育など、対象とする社会現象の領域は問わない。 この講義では、ⅠとⅡを合わせて計量社会学の基本的な考え方を使いこなせるようにな る こ と を め ざ す 。 大 き く 考 え る と 、 Iで は 記 述 統 計 ( descriptive statistics) の 活 用 を 、 Ⅱ は 推 測 統 計 ( inferential statistics) の 活 用 を 学 修 す る 。 合 わ せ て 修 得 す る こ と が 望 ましいが、一方だけでも理解できるように講義する。 記述統計……データがもつ情報を要約して記述する統計的方法 例 ) 関 大 生 100人 の 調 査 を 集 計 す る と 、 1ヶ 月 の 読 書 冊 数 は 平 均 10.2冊 だ っ た 推測統計……一部のデータから調べてもいない全体を推し測る統計的方法 例 )関 大 生 100人 の 調 査 か ら 、大 学 全 体 で バ イ ト を し て い る の は 55~ 65% と 予 想 さ れ る 計 量 社 会 学 Ⅰ の 具 体 的 な 目 標 は 以 下 の 3点 で あ る 。 1) 基 本 的 な 記 述 統 計 の 数 値 を 算 出 し 、 そ の 意 味 を 読 み 取 れ る よ う に な る 2) 関 心 に 即 し て 、 調 査 デ ー タ の 集 計 方 法 を 立 案 で き る よ う に な る 3) 計 量 社 会 学 の 意 義 を 理 解 す る ただ単に「○○を算出しなさい」と言われて計算できるのではなく、置かれている状況に 応 じ て ど ん な 数 値 を 整 理 す べ き か 自 分 で 考 え 、他 人 に そ の 意 味 を 説 明 で き る こ と を 求 め る 。 逆に、 ( Ⅱ も 含 め て )こ の 講 義 を 終 え て も 、以 下 の 点 は 限 界 と し て 残 る こ と を 了 承 し て ほ しい。あくまで「考え方」を身につけてもらう。 1) 数 学 的 な 理 解 は 最 小 限 に 留 ま る 2) 逆 に 、 実 際 的 な 統 計 分 析 ソ フ ト の 操 作 を 練 習 す る わ け で も な い 3) デ ー タ の 集 め 方 ( 社 会 調 査 の 方 法 ) に つ い て は 解 説 し な い ※ 1) に つ い て は 、 関 心 が あ れ ば 授 業 外 で 教 え る 。 2) に つ い て は 、「 社 会 学 研 究 法 a」( 2年 生 以 上 配 当 ) で 、 あ る 程 度 触 れ る 。 3) に つ い て は 、「 社 会 調 査 方 法 論 」「 社 会 調 査 論 」 で 学 べ る 。 「 社 会 調 査 演 習 」「 社 会 調 査 実 習 」( 2年 生 以 上 配 当 ) で は 全 体 を 深 く 経 験 で き る 。 以 上 の 科 目 + 社 会 学 研 究 法 bが 社 会 調 査 士 資 格 の 取 得 の た め に 必 要 な 科 目 ( 社 会 学 研 究 法 a,bは 一 応 ど ち ら か 一 方 で も 可 だ が 、 両 方 の 履 修 を 強 く 奨 め る )。 1 ■計量社会学の意義 今 回 は 、は じ め に「 な ぜ 社 会 を 数 値 に す る の か 」、つ ま り「 な ぜ 社 会 学 に 統 計 を 使 わ な け ればならないのか」ということについて、簡単に解説する。 大雑把にいえば、社会学に関心のある人々の中で数字を扱うことが好きな人は、そう多 く は な い( と い う か 、相 当 に 少 な い )。皆 さ ん の 中 に は 、統 計 と い う と 難 し そ う で 、自 分 の 手に負えるようなものではない、と感じている人もいるだろう。また、数値で示されるよ うな薄っぺらい内容には興味がもてない、と否定的な印象をもつ人もいるだろう。 にもかかわらず、社会学部の科目として計量分析や統計的調査に関する科目が多く設け ら れ て い る の は な ぜ だ ろ う か 。そ し て 、そ の 多 く が「 1年 生 の 配 当 科 目 に な っ て い る 」の は なぜだろうか。それはもちろん役立つからではあるのだが、いろいろな分野で役立つ統計 学 を 、と く に 社 会 学 に 活 用 す る こ と に は「 特 別 な 意 義 」が あ る 。こ こ で は 、次 の 2つ の 意 義 に注目しよう。 ・数値を使えば、社会に実態を与えることができる ・数値を使えば、他人と協力できる これらの意義があるからこそ、自らは理論的考察や質的調査(観察や聞き取りによるフ ィールドワーク)に取り組む研究者であっても、計量社会学の取り組みを軽視することは ない。また、その意義があるからこそ、計量社会学からは、ただの技術を超えた学問的な お も し ろ さ が 感 じ ら れ る ( は ず )。 ■数値で社会に実態を与える それぞれ、もう少しきちんと説明しよう。社会学はいろいろな現象を扱う学問だが、と も か く「 社 会 」 ( 人 間 関 係 の 集 ま り )を 対 象 に し て い る 。と こ ろ が 、社 会 を 科 学 的 に 扱 お う としたとき重大な問題にぶつかる。当たり前のことであるが、社会は目に見えない。科学 の基本姿勢は「まず観察し、次に観察された不思議なことを説明すること」であるが、そ の 第 一 歩 で あ る「 観 察 」が で き な い の で あ る 。 「 い や 、私 は 社 会 で 暮 ら し て い る 人 々 を 見 た り、その人たちから話を聞いたりすることができる」と思う人もいるかもしれないが、そ こで見ているのは社会の影響を受けた(あるいは社会を作り出している)人々の様子であ って、社会そのものではない。また、聞くことのできる話は、その人が感じている社会の あり方であって、やはり社会そのものではない。 この難しさを克服するために、社会学者は観察可能な情報から理論的に社会のあり方を 予想したり、関心のある社会集団に深く関わっている人々の話に深く耳を傾けたり、ある いはその社会の中に自ら飛び込んだり(参与観察)と、実にさまざまな手段でアプローチ する。社会学の方法が何でもありになることの一因は、この「社会が観察困難」というこ とへのチャレンジの結果なのである。 その中で、計量社会学のアプローチは、見えるもの(測定できる個人レベルの情報)を 集計すれば、見えない社会も見えるようになるはずだ、というものである。たとえば「日 本 社 会 で 夫 婦 別 姓 に 賛 成 の 人 は 50% で す 」と い う 統 計 は 、1人 ひ と り が 夫 婦 別 姓 に 賛 成 し て い る 、あ る い は 反 対 し て い る 、と い う 観 察 可 能 な 情 報 を 集 め て 、 「 賛 成 の 割 合 」と い う 社 会 の数値を作ることで、社会に実態を与えているわけである。 2 このアプローチがもつとりわけ強力な点は、その社会について誰も知らない新たな事実 を「発見できる」ということにある。インタビューの結果は、当事者にとっては自明です で に 知 っ て い る こ と で あ る( 一 般 の 人 に は 知 れ わ た っ て い な い か も し れ な い が )。ま た 、研 究者の理論的な考察は、その研究者が頭の中で知っている事実にもとづいている(甚大な 苦 労 の 末 に た ど り 着 い た も の で は あ る が )。 こ れ に 対 し て 、 数 値 で 表 さ れ る 社 会 の 様 子 は 、 ときに、本当に世の中の誰一人として考え及ばなかった意外な事実を教えてくれる。計量 社会学者はよく「データに語らせる」という言い方をするが、まさに人工的に実態を与え られた社会が、自分のことをしゃべりだすわけである。この未知の発見が、計量社会学の 第一の意義、魅力である。 例 ) 夫 婦 別 姓 に つ い て 「 平 成 24年 度 家 族 の 法 制 に 関 す る 世 論 調 査 」( 内 閣 府 2012) 渡 辺 ( 2011) p.18 事 実 婚 ・ 同 棲 の 割 合 の 国 際 比 較 p.29 生 涯 未 婚 率 の 推 移 ■数値にすれば協力できる 数値によって表現された社会は、通常、ほかの手段よりも客観的なものである。客観的 であることは何となくよいことと感じられるだろうが、実際には、客観的な情報よりも主 観的な助言の方が、人の心を深く打ったり、より役に立ったりすることが多い。そもそも 客 観 性 と は 何 だ ろ う か 。 主 観 ( subjectivity) が 観 察 を す る 側 を メ イ ン に し て い る の に 対 し て 、客 観( objectivity)は 観 察 さ れ る 側 が メ イ ン に な っ て い る 状 態 を 指 す 。つ ま り 、主 観的な観察は見る人によって見え方が違う(それゆえに、より適切な観察に近づける可能 性を秘めているともいえる)が、客観的な観察は誰が見ても同じということである。 客観 主観 誰が見ても同じ数値であるという事実は、ひとりよがりではない、といった消極的な利 点を超えて非常に重要な意味をもっている。すなわち、誰が行っても同じということは、 無 限 に 多 く の 研 究 の 間 で 協 力 す る こ と が で き る と い う こ と を 意 味 し て い る 。1980年 代 に「 新 人類」と呼ばれた若者がどのような価値観を持っていたのか数値化した研究があったとす る 。こ の と き 、同 じ 方 法 で 現 在 の 若 者 を 数 値 化 す れ ば 、2つ の 若 者 社 会 を 時 空 を 超 え て 比 較 研究できる。誰が見ても同じであるから、すでにこの世にいない研究者とも協力できる。 多様で変化の激しい社会現象を研究する上で、この無限の協力は強い武器となる。 ※もちろん、実際には「同じ方法で数値化」することが、そんなに容易なわけではない が、その問題は調査法の課題なので、この講義では追求しない。社会科学における客観 性 の 利 点 と 問 題 点 に つ い て は 、 竹 内 ( 1971) が 深 く 考 察 し て い る 。 例 ) 片 桐 ( 2014) の 5年 お き の 学 生 調 査 極旨醤油らーめん一刻堂 お客様アンケート 3 計量社会学のこれらの利点は、当たり前のように感じられるかもしれないが、我々凡人 が社会学という難しい課題に立ち向かうためには、極めてありがたい。計量社会学は、捉 えがたい社会の姿を直接的に観察することを可能にし、薄っぺらい数値を(他人といっし ょに)無数に積み重ねることで重厚な社会認識に地道に近づくことを可能にする。 やや長 い 道 の り に な る が 、計 量 社 会 学 の 考 え 方 を 1つ で も 多 く 身 に つ け て 、そ の 共 同 作 業 に 参 加 し てほしい。そして、皆さん自身の「社会学」の役に立ててほしい。 今日のポイント ①計量社会学は、研究対象ではなく、アプローチ法による社会学の分類 ②数値を使って社会学をすることの意義 ・数値を使えば、社会に実態を与えることができる ・数値を使えば、他人と協力できる ■授業の予定 1. 導 入 : な ぜ 社 会 を 数 値 に す る の か 2. 計 量 社 会 学 で 扱 う デ ー タ 3~ 4. 分 布 の 読 み 方 ( 1) 度 数 分 布 と 代 表 値 ( 2) ば ら つ き 5~ 7. 関 係 の 読 み 方 ( 1) 散 布 図 と ク ロ ス 表 ( 2) 相 関 係 数 ( 3) ク ロ ス 表 の 連 関 係 数 8~ 10. 記 述 の 実 践 ( 1) PPDACサ イ ク ル ( 2) 比 較 の プ ラ ン と 作 表 ( 3) グ ラ フ の 描 き 方 11~ 12. 因 果 関 係 へ の 注 意 ( 1) 相 関 と 因 果 ( 2) 見 せ か け の 関 係 の 追 求 13~ 14. 経 年 変 化 へ の 注 意 ( 1) 白 書 と 政 府 統 計 ( 2) 変 化 の 意 味 15. ま と め : 発 見 を 共 有 す る 学期末試験 ■事務連絡 ・ 第 3回 以 降 、 毎 回 、 √ の 計 算 で き る 電 卓 を 持 参 の こ と 。 ・成績評価について 学 期 末 の 試 験 の み で 評 価 ( 持 ち 込 み 全 て 可 )、 出 席 に よ る 加 点 ・ 減 点 な し 60点 以 上 で 合 格 ( 60~ 69点 = C可 、 70~ 79点 = B良 、 80~ 89点 = A優 、 90~ 100点 = S秀 ) た だ し 、 事 前 の 4回 の 小 テ ス ト で 60% 得 点 し て い な い 者 は 学 期 末 試 験 を 受 験 で き な い 小 テ ス ト は 、 A4用 紙 1枚 を 持 ち 込 み 可 。 最 終 日 に は 小 テ ス ト の 追 試 も お こ な う ・ 質 問 は 授 業 後 か 、 研 究 室 ( C605)、 メ ー ル ( [email protected]) で ・ テ キ ス ト は 用 い な い が 、 岩 井 ・ 保 田 ( 2007) な ど で 自 学 す る こ と も で き る ( と 思 う ) <文献> 岩 井 紀 子 ・ 保 田 時 男 2007 『 調 査 デ ー タ 分 析 の 基 礎 』 有 斐 閣 . 片 桐 新 自 2014 『 不 透 明 社 会 の 中 の 若 者 た ち 』 関 西 大 学 出 版 部 . 竹 内 啓 2013[1971] 『 社 会 科 学 に お け る 数 と 量 増 補 新 装 版 』 東 京 大 学 出 版 会( と く に 第 1、2章 ). 保 田 時 男 2014 「 計 量 社 会 学 の 考 え 方 」 永 井 良 和 ・ 間 淵 領 吾 ・ 大 和 礼 子 編 『 基 礎 社 会 学 新 訂 第 3 版 』 世 界 思 想 社 , pp.43-54( 4章 ) . 渡 辺 淳 一 2011 『 事 実 婚 新 し い 愛 の 形 』 集 英 社 新 書 . 4 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.4.16 第 2回 「 計 量 社 会 学 で 扱 う デ ー タ 」 ■社会学のデータは多様 前回解説したとおり、社会学の対象である「社会」は直接見たり触ったりすることがで きない。そのため、社会学者はありとあらゆる手段で、社会を知るための根拠、すなわち 「データ」を集めようとする。社会学でいうデータには、数値で整理される統計的なデー タだけではなく、人々を観察したりインタビューで話を聞いたりした記録や、日記など の 歴史的な資料など、幅広いものが含まれる。大量の対象について一定の単純な方法で測定 を 繰 り 返 し て 集 め る い わ ゆ る 統 計 デ ー タ の こ と を 、一 般 に 量 的 デ ー タ( quantitative data) と呼ぶ。一方、少量の事例について会話や映像、文章やなど比較的自由度の高い方法で集 め ら れ た デ ー タ を 質 的 デ ー タ ( qualitative data) と 呼 ぶ 。 計量社会学では、量的データを分析して利用するが、質的データの重要性も忘れてはな ら な い 。大 切 な こ と は 、困 難 に 立 ち 向 か う た め に あ ら ゆ る 手 段 を 尽 く す と い う 姿 勢 で あ り 、 逆に言えば、量的データは使わないという拒絶もあってはならない。 量的データの例 001 002 003 004 005 006 007 2 1 1 1 2 2 1 31 29 33 30 28 35 30 3 2 2 2 1 1 2 1 3 2 2 1 1 1 …… 2 2 2 1 1 2 1 2001 2000 1998 2003 2003 1999 2002 質的データの例 2012年 10月 23日 13:00か ら の イ ン タ ビ ュ ー 校長「私は子どもが何を求めているのかは突き 詰めると大人にはわからないものだと思 っ て る ん で す よ 。そ う い う と 誤 解 さ れ る か もしれませんが」 調査者「もう少し詳しくその考えを聞かせてくだ さい」 校長「私が言いたいのは子どもの世界には子ど も の 世 界 の ル ー ル が あ っ て 、大 人 の も の と は 違 う 。そ れ を 大 人 が 知 ろ う と し て も 子 ど もは明かしてはくれない…… 4 3 2 4 4 1 1 ■計量社会学で扱うデータ 次の表は、計量社会学で扱われる典型的な量的データを例示している。ある大学の学生 120人 に つ い て 、性 別 、や る 気 、家 庭 学 習 時 間 の 違 い が 、あ る 科 目 の 成 績 に ど の よ う な 影 響 を 与 え る の か を 調 べ よ う と し て い る 。1行 1行 に 対 し て 1人 1人 の 学 生 の 情 報 が 対 応 し て い る 。 性 別 、 IQ等 は 、 そ れ ぞ れ の 生 徒 が さ ま ざ ま な 値 を と る の で 、 デ ー タ の 変 数 ( variable; 変 量 [ variate] も ほ ぼ 同 じ 意 味 ) と 呼 ば れ る 。 そ れ ぞ れ の 変 数 に 対 し て 1つ の 決 ま っ た 値 を 持 つ 単 位 を ケ ー ス ( case) と 呼 ぶ 。 こ こ で は 、 1人 1人 の 学 生 が ケ ー ス で あ る 。 そ れ ぞ れ の ケースに対して、それぞれの変数の値が記されているものがデータである。通常、社会調 査 の デ ー タ で は 、 変 数 は 個 々 の 質 問 項 目 に 対 応 し 、 ケ ー ス は 1人 1人 の 回 答 者 に 対 応 す る こ とが多い。 このようなデータを集計して、たとえばクラス別の平均値をまとめたような情報もデー タ と 呼 ぶ こ と が あ る 。区 別 の た め に 、1ケ ー ス ご と の 細 か い 情 報 が 揃 っ て い る デ ー タ を 素 デ ー タ[ ロ ー デ ー タ ] ( raw data)と 呼 び 、一 定 の グ ル ー プ で 情 報 を ま と め た デ ー タ を 集 計 デ ー タ ( aggregate data) と 呼 ぶ 。 5 1人 目 2人 目 3人 目 4人 目 性別 女 女 男 女 やる気 非常に強い やや強い やや弱い やや弱い 家庭学習時間 4時 間 5時 間 30分 2時 間 4時 間 成績 優 秀 可 可 119人 目 120人 目 女 男 ふつう 非常に弱い 2時 間 4時 間 30分 不可 良 Ai Bi Ci Di i=1 i=2 i=3 i=4 2 2 1 2 5 4 2 2 4.0 5.5 2.0 4.0 3 4 1 1 i=119 i=120 2 1 3 1 2.0 4.5 0 2 い ず れ に し て も 、 統 計 デ ー タ は ま ず 複 数 の 数 値 情 報 で な け れ ば な ら な い ( dataは datum の 複 数 形 )。 た と え ば 、「 山 田 君 の 身 長 は 150cm」 と い う 情 報 や 「 中 学 2年 生 男 子 の 平 均 身 長 は 159.9cm」 と い う 集 計 値 は 、 単 独 で は デ ー タ で は な い 。 ま た 、 1つ の ケ ー ス に つ い て 様 々 な事柄を調べて多くの数値情報を集めているのではなく、同じ事柄(変数)について、複 数のケースから情報を集めていることが重要である。そうでなければ、統計的に扱うこと ができない。だから、まずデータは縦に長くなければならない。 通常、あらゆるデータは統計学で扱いやすいように、すべて記号と数字に置き換えて扱 わ れ る 。 上 の 場 合 、 家 庭 学 習 時 間 と い う 変 数 を C と い う 記 号 で 表 し た 。 C i は 特 に i番 目 の 学 生 の 家 庭 学 習 時 間 を 表 し 、iに 具 体 的 な 数 値 を 入 れ る と 、そ れ は 特 定 の 値 を 表 す よ う に な る 。 た と え ば 、 C 2 は 2番 目 の 学 生 の 家 庭 学 習 時 間 を 表 し 、 C 2 =5.5と 書 け る 。 もともと数字で表されていなかったデータも数字に置き換えて扱われる。たとえば性別 A i は 男 を 1、 女 を 2で 表 す こ と に し た 。 同 じ よ う に 成 績 D i は { 秀 ,優 ,良 ,可 ,不 可 } を そ れ ぞ れ { 4,3,2,1,0} で 表 し て い る 。 ■質的変数と量的変数の区別 このように全ての変数のデータを数字にしてしまうと、全ての変数を同じように扱える ような気分になってしまうが、それは誤りである。ある変数の数字がもともとどのように 作られたのかによって、その変数の扱いは変える必要がある。特に、質的変数と量的変数 の 区 別 は 非 常 に 重 要 で あ る 。 質 的 変 数 [ カ テ ゴ リ ー 変 数 ]( qualitative variable; categorical variable) と は 、 数 量 的 な 特 色 が な い た め 計 算 が で き な い 変 数 を 指 す 。 こ れ に 対 し て 、 量 的 変 数 ( quantitative variable ) は 、 数 量 的 な 計 算 が 可 能 な 変 数 で あ る 。 ※テキストによっては、質的変数/量的変数という用語の代わりに、質的データ/量 的データという用語を使っている。このような表現は、データといえば統計的なデータ に決まっているような(いわゆる理系の)分野を前提とする場合によく使われる。我々 にとっては紛らわしいので、この用法は避けた方がよい。 6 たとえば、先のデータでは性別や成績は質的変数であり、家庭学習時間は量的変数であ る 。 成 績 は 量 的 変 数 じ ゃ な い の か 、 と 思 う か も し れ な い が 、 不 可 が 可 に な る こ と ( 0→ 1) と 可 が 良 に な る こ と( 1→ 2)は 、ど ち ら も 差 が 1で あ る が 、全 然 意 味 が 違 う の で 数 量 と し て 計 算 は 成 り 立 っ て い な い 。と い う こ と は 、本 来 、成 績 の 平 均 値 を 出 す よ う な こ と は で な い 。 統 計 的 な 視 点 か ら は 、推 薦 入 試 の「 評 定 平 均 4.0以 上 」と か「 GPA3.2」と い う 計 算 は 不 適 切 である。この計算が適切になるような成績の付け方をしているという前提が必要になる。 質的変数と量的変数の区別は、どのような統計的分析が可能かを決定する重要な別れ目 である。当然のことながら、ふつうは計算ができる方が分析しやすい。質的変数と量的変 数をしっかりと区別して、可能であれば質的変数ではなく量的変数にすることができない か考えることが重要である。データの集め方を変更して量的変数にできないか、あるいは 集めた後でデータを加工して量的変数を作り出すことはできないか、という発想が必要に なる。 と こ ろ で 、 も う 1つ の 変 数 「 や る 気 」 が 質 的 変 数 か 量 的 変 数 か は や や 大 切 な 問 題 な の で 、 授業の最後に改めて考える。 「 や る 気 」の よ う に 、5段 階 や 4段 階 で 意 見 や 意 識 の 強 さ を 測 る 尺 度 を と く に 評 定 尺 度( rating scale)と 呼 ぶ 。( 例 : 5 非 常 に 賛 成 、4 賛 成 、3 ど ち ら と もいえない、2 反対、1 非常に反対) ■測定尺度 ある変数が質的変数か量的変数かは、その変数の数値がどのようなものさしで測定され たものであるかによって判断される。もう少し細かくこの辺りの事情を見てみよう。 ス テ ィ ー ブ ン ス ( Stanley S. Stevens) は 1946年 に 測 定 の も の さ し 、 つ ま り 測 定 尺 度 ( measurement scale) の 水 準 を 名 義 、 順 序 、 間 隔 、 比 率 の 4段 階 に 分 類 す る こ と を 提 案 し ているが、現在もこの考え方は有効である。一般に、名義、順序尺度により測定された変 数を質的変数、間隔、比率尺度により測定された変数を量的変数と呼ぶ(この辺りのこと は 多 く の 入 門 書 に 記 さ れ て い る が 、小 田( 2009)や 轟・杉 野( 2010)な ど が わ か り や す い )。 測 定 尺 度 の 4つ の 水 準 名 義 尺 度 ( nominal scale) 順 序 尺 度 ( ordinal scale) 間 隔 尺 度 ( interval scale) 比 率 尺 度 [比 例 尺 度 ] ( ratio scale) 数字は名札替わりの記号として使っているだけで、まったく計 算はできない変数 (例:性別、学科、職業) 1よ り 2が 大 き い な ど 、数 字 の 順 序・大 小 関 係 に は 意 味 が あ る が 、 実際的にはほとんど計算のできない変数 ( 例 : 学 年 内 の 成 績 順 位 、) 数字の間隔(差)が同じなら同じ数量とみなせるので、平均を 出すなど、ほとんどの計算ができる変数 ( 例 : 気 温 、 5点 満 点 の 意 識 評 定 ) 数 字 が 2倍 な ら 、 数 量 も 2倍 と み な せ る の で 、 ど ん な 計 算 で も で きる変数 (例:体重、年収、通勤時間) ※測定尺度の違いは、かなりの程度、絶対的な基準により判断される。しかし、測定尺 度 の 水 準 が 必 ず し も は っ き り し な い 場 合 も あ る の で 注 意 は 必 要 で あ る ( 例 : 教 育 年 数 )。 7 質的変数と量的変数の区別は最も基礎的な区別として重要であるが、ある変数に対して あ る 統 計 的 な 手 続 き を 当 て は め る こ と が で き る か ど う か を 、よ り 細 か く 判 断 す る た め に は 、 4つ の 測 定 尺 度 の 違 い に 注 意 し な け れ ば な ら な い 。 ■離散変数と連続変数 量 的 変 数 は 、 測 定 尺 度 と は 別 の 視 点 か ら 離 散 変 数 ( discrete variable) と 連 続 変 数 ( continuous variable)に 分 類 で き る 。離 散 変 数 と は 、取 り う る 値 が い く つ か の 点 で 定 ま っ て お り 、間 の 値 を 取 り え な い 変 数 で あ る 。た と え ば 、家 族 の 人 数 は 、3.5人 の よ う な 値 は 取りえないので、離散変数である。これに対して、連続変数は理論上、無限に細かい測定 が可能である。たとえば、家の広さ(㎡)は連続変数である。家族の人数も家の広さも、 測定尺度の視点からは、比率尺度による量的変数で変わりはない。 離散変数と連続変数の区別は、当面取り組むデータの整理・要約の視点からはあまり重 要でないが、確率論との結びつきを考える際には重要となるので、概念としては覚えてお こう。 今日のポイント ①計量社会学で扱う量的データ(統計データ)は、同じ変数について、多くのケー スから情報を集めて積み重ねたもの ②計算できる「量的変数」と計算できない「質的変数」の区別は重要 ( よ り 細 か く は 、 測 定 尺 度 の 4段 階 [ 名 義 ・ 順 序 ・ 間 隔 ・ 比 率 ] に も 注 意 ) (問題) 1. 次 の よ う な 変 数 は 、 名 義 ・ 順 序 ・ 間 隔 ・ 比 率 の ど の 尺 度 で 測 ら れ た 変 数 だ ろ う ? ( 1) 4年 間 の 取 得 単 位 数 ( 2) 好 き な ス ポ ー ツ 選 手 ( 1= イ チ ロ ー 、 2= 浅 田 真 央 、 3= … … ) ( 3) オ リ ン ピ ッ ク で の 国 別 メ ダ ル 獲 得 数 の 順 位 ( 1位 = ア メ リ カ 、 2位 = ロ シ ア 、 … … ) ( 4) 西 暦 ○ ○ 年 生 ま れ 2.評 定 尺 度 を 順 序 尺 度 と み な す か 、間 隔 尺 度 と み な す か は 、社 会 調 査 の デ ー タ 分 析 で は 非 常に重大な問題である。どちらで考えるべきか、自分の意見をまとめてみよう。 <文献> 小 田 利 勝 2009 『 社 会 調 査 法 の 基 礎 』 プ レ ア デ ス 出 版 . 轟 亮 ・ 杉 野 勇 編 2010 『 入 門 ・ 社 会 調 査 法 : 2ス テ ッ プ で 基 礎 か ら 学 ぶ 』 法 律 文 化 社 . ※ 過 去 の 配 付 資 料 は webに 置 い て い ま す 。 欠 席 時 は 各 自 で 補 充 を 。 http://www2.itc.kansai-u.ac.jp/~tyasuda/ 8 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.4.23 第 3回 「 分 布 の 読 み 方 ( 1) 度 数 分 布 と 代 表 値 」 ■度数分布表 調査データの分析の第一歩は通常、それぞれの変数に対してそれぞれの値を取るケース の 数 、つ ま り 度 数( frequency)を 数 え る こ と か ら 始 ま る 。非 常 に 単 純 な 作 業 で あ る が 、あ る側面から見てどのような人々が何人いるかという度数分布は、その社会の姿をもっとも 端的に表しておりばかにできない。 表1 計量社会学Ⅰ履修者の「数字の好き嫌い」 ( a) 2015年 度 1 2 3 4 5 計 大嫌い まあ嫌い ふつう まあ好き 大好き 度数 5 29 41 29 6 110 ( b) 2014年 度 % 4.5 26.4 37.3 26.4 5.5 100.0 1 2 3 4 5 計 大嫌い まあ嫌い ふつう まあ好き 大好き 度数 6 24 23 27 3 83 % 7.2 28.9 27.7 32.5 3.6 100.0 そ れ ぞ れ の 変 数 の 集 計 結 果 を 上 の よ う な 度 数 分 布 表 ( frequency distribution table ) に ま と め て お く と 、分 布 状 態 が 大 ま か に 分 か る の で 、便 利 で あ る( 表 1)。度 数 分 布 表 で は 、 人数そのもの(度数)に加えてパーセント(%)などを示すことがよくある。%は全体を 100人 に 統 一 し た 場 合 の 相 対 的 な 人 数 を 示 す の で 、相 対 度 数( relative frequency)と 呼 ば れ る 。 犯 罪 被 害 率 な ど 出 現 頻 度 の 低 い 現 象 に つ い は 、 1000人 あ た り の 人 数 ( パ ー ミ ル ‰ ) や 10万 人 あ た り の 人 数 な ど 、全 体 を 100に し な い 相 対 度 数 も 用 い ら れ る 。相 対 度 数 は 必 要 に 応じて付け加えたり省いたりしてもかまわないが、あくまで調査結果の基本は度数だ、と い う こ と を 忘 れ て は な ら な い 。 た と え ば 同 じ 相 対 度 数 50% で も 、 600人 中 300人 の 場 合 と 4 人 中 2人 の 場 合 で は 結 果 の 読 み 取 り が 当 然 異 な る 。だ か ら 、基 本 と な る 度 数 が 不 明 に な る よ うな表(%のみの表)は、通常作成してはならない。少なくとも全体のケース数は明記し な け れ ば な ら な い 。全 体 の 人 数 は「 n= 103」の よ う に 、 「 n」で 表 記 す る 約 束 に な っ て い る 。 ■取りうる値が多い場合の度数分布表の作り方 上の例のように、扱う変数で選択肢の限られている場合には、そのままそれぞれの値ご とにケース数を数えればよい。しかし、取りうる値の数が多い場合には、全ての値につい て 度 数 分 布 表 を 作 っ て も 、 ほ と ん ど 役 に 立 た な い ( 例 : 身 長 142.6cm 1人 、 142.7cm 1人 、 142.8cm 2人 、… … )。一 定 の 範 囲 の 階 級( class)を 作 成 し 、各 階 級 の 範 囲 に 入 る 回 答 の 数 を数えるのが一般的である。 そ れ ぞ れ の 階 級 に つ い て 、級 間 の 中 心 の 値 を 階 級 値[ 中 心 点 ] ( midpoint)と 呼 ぶ 。中 心 点を示しておくとグラフを作成する際や、平均などの統計値を計算する際に便利である。 9 表2 通 勤 時 間 の 度 数 分 布 表 ( 第 2回 全 国 家 族 調 査 NFRJ03若 年 デ ー タ ) 中心点 度数 % 7分 以 下 - 344 13.6 約 15分 ( 8~ 22分 ) 15 636 25.2 約 30分 ( 23~ 37分 ) 30 319 12.6 約 45分 ( 38~ 52分 ) 45 177 7.0 約 60分 ( 53~ 67分 ) 60 182 7.2 約 75分 ( 68~ 82分 ) 75 54 2.1 約 90分 ( 83~ 97分 ) 90 49 1.9 98分 以 上 - 28 1.1 1789 70.9 計 階 級 の 幅 を 自 分 で 設 定 す る の は 意 外 と 難 し い 。厳 密 な 規 則 は な い が 、次 の 3点 く ら い に 注 意 し な が ら 、 5~ 10個 程 度 の 階 級 に わ け る こ と が 原 則 で あ る 。 1) 全 て の ケ ー ス が い ず れ か 1つ の 階 級 に 収 ま る よ う に 、 階 級 幅 は 互 い に 排 他 的 ( exclusive) で 、全 体 と し て 包 括 的( exhaustive)に 定 め な け れ ば な ら な い 。2つ の 階 級 に ま た が ら な い よ う に 、「 以 上 」「 未 満 」 を 用 い る な ど す る 。 2) そ れ ぞ れ の 階 級 幅 は 等 し く す る 。 幅 が 異 な る と 、 分 布 が 把 握 し に く い 。 た だ し 、 一 番 上 や 一番下の階級の幅は等しくできないことが多い。 3)キ リ の よ い 数 値 の 扱 い に は 注 意 す る 。社 会 調 査 の デ ー タ で は 、例 え ば 通 勤 時 間 の 分 布 が「 15 分」 「 30分 」な ど キ リ の よ い 値 に 集 中 す る こ と が あ る の で 、階 級 を キ リ の よ い 数 値 で 区 切 る と 分 布 が 歪 ん で 表 れ る こ と が あ る ( 表 2)。 ■基本統計量 度数分布表は、データのおおまかな分布を知るために作成するものであった。いろいろ なデータの度数分布表を作ってみれば分かることであるが、多くの量的変数は、どこかの 点を中心にして多くの度数が分布し、中心から離れるとだんだん度数が少なくなるという 形で分布する。したがって、 1) 中 心 が ど の 辺 り に あ る の か 2) 中 心 か ら ど の 程 度 ば ら つ い て い る の か さえ数値で表せば、度数分布表を作成する手間をかけることなく、およその分布を把握で き る ( 図 1)。 中 心 を 表 現 す る 一 連 の 統 計 量 を 代 表 値 [ 中 心 傾 向 ]( average; measure of central tendency)、 ば ら つ い て い る 程 度 を 表 現 す る 一 連 の 統 計 量 を ば ら つ き [ 散 ら ば り 、 散 布 度 ] ( variability; measure of dispersion) と 呼 ぶ 。 代 表 値 と ば ら つ き は ま と め て 基 本 統 計 量 [ 要 約 統 計 量 、 記 述 統 計 量 ]( basic statistics; summary statistics; descriptive statistics) な ど と 呼 ば れ る 。 代 表 値 も ば ら つ き も 、 具 体 的 な 計 算 方 法 ( 統 計 量 ) は 複 数 のやり方がある。 10 ばらつきは同じで、中心傾向の異なる分布 図1 中心傾向は同じで、ばらつきの異なる分布 代表値とばらつき ■さまざまな代表値 今 回 は 代 表 値 に つ い て の み 解 説 す る( ば ら つ き に つ い て は 次 回 )。代 表 値 と し て は 、以 下 の 3つ が よ く 使 用 さ れ る 。デ ー タ の 分 布 が き れ い に 左 右 対 称 で あ る 場 合 に は 、こ れ ら は い ず れも同じ値を取る。しかし、実際の分布には多かれ少なかれ歪みがあるので、これらの 3 つの代表値は異なった値になる。代表値の種類によって、捉えることのできる特性が異な るので、場合によって使い分けなければならない。 最 頻 値 ( mode) ······· も っ と も 度 数 の 多 い 測 定 値 ま た は 階 級 中 央 値 ( median) ····· 測 定 値 を 大 き さ の 順 に 並 べ た と き 真 ん 中 番 目 に く る 値 (ケース数が偶数のときは 平 均 値 ( mean) ······· x n 2 番目と n 2 + 1 番目の数値の平均) 1 xi n mean (26.5) median(25) mode(24) → → → ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ☆ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ ■ 年齢 20 度数 累積度数 3 5 7 8 9 7 6 5 4 3 3 3 2 3 2 2 0 0 0 2 1 3 8 15 23 32 39 45 50 54 57 60 63 65 68 70 72 72 72 72 74 75 25 30 図2 35 40 計 75 代表値の模式図 もっともよく用いられる代表値は平均値であり、数学的に非常に扱いやすい。ただし、 11 平 均 は は ず れ 値( outlier)の 影 響 を 受 け や す い( 図 2)。中 央 値 は は ず れ 値 の 影 響 を 受 け に くく、情報が完結していない場合でも算出できる(例:半数が死亡した時点で寿命の中央 値 は 確 定 す る )。し か し 、そ れ は 逆 に デ ー タ の 全 情 報 を 代 表 し て い な い と も 言 え る 。最 頻 値 は他のカテゴリーの分布について情報が全く繁栄されていないが、一方で「多数を占める ものが中心」という日常的な代表性感覚に見合う。 また、測定尺度の水準によって、用いることのできる代表値の限界があることにも、注 意が必要である。たとえば、中央値は順序尺度でも算出できるが、平均値は数値の間隔が 一定でなければ意味がないので、間隔尺度か比率尺度でなければ算出できない。それぞれ の意味と限界を正確に理解して、用いる代表値を選ぶことが肝要である。 今日のポイント ①調査データ分析の第一歩は、各変数の度数分布をよく観察すること 度 数 分 布 表 の 基 本 ル ー ル に 注 意 ( nの 提 示 、 階 級 の 区 切 り 方 ) ②度数分布の概要は、基本統計量(代表値とばらつき)で示せる ③代表値の種類(平均値、中央値、最頻値)は、長所と短所を考えて使い分ける (問題) 1. バ イ ト 時 給 の デ ー タ { 820,900,850,1100,2300,870 } に つ い て 、 平 均 値 と 中 央 値 を 示 そ う ( す べ て 1ケ ー ス ず つ な の で 、 最 頻 値 は 出 せ な い )。 2.表 1( a) ( b)の デ ー タ を 間 隔 尺 度 と み な し て 、そ れ ぞ れ の 年 度 の 、平 均 値 、中 央 値 、最 頻値を示そう。 3.結 婚 年 齢 の 平 均 値 の 代 わ り に 、中 央 値 や 最 頻 値 を 大 き く 報 道 す れ ば 、人 々 の 結 婚 行 動 に 何 ら か の 社 会 的 影 響 が あ る だ ろ う か ( あ る い は 、 な い だ ろ う か )。 自 分 の 予 想 を 論 じ て みよう。 12 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2014.5.7 第 4回 「 分 布 の 読 み 方 ( 2) ば ら つ き 」 ■さまざまなばらつき 基 本 統 計 量 は 、代 表 値 と ば ら つ き と い う 2つ の 数 値 で 、度 数 分 布 の お お ま か な 状 態 を 表 現 するものであった。今回は、分布の裾野がどの程度広がっているのか、つまり分布のばら つきの程度を示す統計量について解説する。量的変数のばらつきの指標としては、一般に 次 の 5つ が よ く 用 い ら れ る 。 範囲 R= 最 大 値 - 最 小 値 四分位偏差 分散 s2 Q 1 n 1 Q3 Q1 2 xi x 標準偏差 s s2 変動係数 C.V . 2 ( nで 割 る 場 合 も あ る が 、標 本 調 査 の 分 散 は 通 常 n-1で 割 る ) s x ■範囲 範 囲( range)の 意 味 は す ぐ 分 か る で あ ろ う 。最 大 値 と 最 小 値 の 間 の 幅 は 、も っ と も 直 感 的 に デ ー タ の ば ら つ き の 程 度 を 示 し て い る 。 た と え ば 、「 先 月 、 何 日 ア ル バ イ ト を し た か 」 と い う 学 生 調 査 で { 5,8,12,19,21}( 単 位 : 日 ) と い う デ ー タ が 得 ら れ た と す る と 、 範 囲 R = 21- 5= 16で あ る 。 範囲はもっとも単純なばらつきの指標なので、もっとも単純な代表値である最頻値とセ ットで用いられることが多い。代表値とばらつきの種類の中で何を用いるかは、基本的に 図 1の よ う な 対 応 が あ る 。 長 所 と 短 所 も 、 対 応 す る 代 表 値 と 同 様 と 考 え て よ い 。 代表値 最頻値 中央値 平均値 図1 ばらつき 対 応 範囲 四分位偏差 分散/標準偏差/変動係数 代表値とばらつきの指標の対応 ■四分位偏差 中 央 値 と セ ッ ト で 用 い ら れ る の は 四 分 位 偏 差 ( qrartile deviation) で あ る 。 中 央 値 は 分 布 全 体 を 二 等 分 す る 点 で あ る が 、 全 体 を 4等 分 す る 3つ の 点 を 四 分 位 数 ( quartile) と 呼 び 、 小 さ い 方 か ら 第 1四 分 位 数 ( Q 1 )、 第 2四 分 位 数 ( Q 2 )、 第 3四 分 位 数 ( Q 3 ) と 呼 ぶ 。 25パ 13 ー セ ン タ イ ル 点 、 50パ ー セ ン タ イ ル 点 、 … … も 同 じ 意 味 で あ る ( 図 2)。 四 分 位 偏 差 は 、 全 体 の 分 布 を ケ ー ス 数 で 4等 分 に 分 割 し た 場 合 に 、 1番 目 の 区 切 り 点 で あ る 第 1四 分 位 数 ( Q 1 ) と 3番 目 の 区 切 り 点 で あ る 第 3四 分 位 数 ( Q 3 ) と の 間 の 幅 を 2で 割 っ た も の で あ る 。つ ま り 、中 央 値( 第 2四 分 位 数 )を 中 心 と 考 え た 場 合 に 、中 心 か ら ど の 程 度 離 れれば、分布の端までの半分に至るかということで、中心からの標準的なばらつきの程度 を表している。 Q 1 … … 第 1四 分 位 数 = 25パ ー セ ン タ イ ル 点 Q Q1 Q 3 2 25% 25% 25% Q1 図2 Q2 Q 2 … … 第 2四 分 位 数 = 50パ ー セ ン タ イ ル 点 = 中 央 値 Q 3 … … 第 3四 分 位 数 = 75パ ー セ ン タ イ ル 点 25% Q3 四分位数と四分位偏差 ※ 四 分 位 偏 差 と 同 じ も の を 四 分 偏 差 や 四 分 領 域 と 呼 ん だ り す る こ と も あ る 。 ま た 、 Q 3 -Q 1 を 2で 割 ら な い 値 を 四 分 位 範 囲 ( quartile range; inter-quartile range) と い う 指 標 で 用 い る こ と も あ る 。 quartile関 連 の 用 語 、 訳 語 は や や 混 乱 し が ち な の で 注 意 し よ う 。 ( 問 題 1) 2009年 の 第 3回 全 国 家 族 調 査( NFRJ08)の デ ー タ を 使 っ て 、働 い て い る 40歳 の 人 々 の 通 勤 時 間 を 男 女 で 比 較 し て み た ( 自 営 を 除 く )。 そ の 結 果 は 、 以 下 の と お り で あ る 。 男性 女性 ケ ー ス 数 ( n) 44 36 平均値 28.7分 17.3分 中央値 20分 15分 最頻値 20分 10分 最小値 3分 0分 最大値 90分 45分 第 1四 分 位 数( Q 1 ) 15分 10分 第 2四 分 位 数( Q 2 ) 20分 15分 第 3四 分 位 数( Q 3 ) 40分 25分 分散 475.7 148.8 標準偏差 21.8 12.2 ( 1) 男 女 別 に 通 勤 時 間 の 「 範 囲 」 を 求 め な さ い 。 ( 2)男 女 別 に 通 勤 時 間 の「 四 分 位 偏 差 」を 求 め な さ い 。 ( 3)こ れ ら の 指 標 で 男 女 の 通 勤 時 間 に つ い て ど の よ う な 違 い を 読 み 取 る こ と が で き る の か 。「 範 囲 」 や 「 四 分 位 偏 差 」と い う 用 語 を 知 ら な い 人 に 説 明 し てみよう。 ■分散・標準偏差・変動係数 残りのばらつきの指標である分散、標準偏差、変動係数は一連のものである。平均を中 心 と 考 え る と 、各 ケ ー ス の ば ら つ き は 平 均 と の 偏 差 xi x で 表 せ る 。ば ら つ き の 大 き さ を 示 す 上 で 、偏 差 の 正 負 に は 意 味 が な い の で 、偏 差 を 2乗 し て 符 号 を 消 し て や る 。そ の 上 で 全 ケ ー ス を 合 計 す れ ば 、全 体 的 な ば ら つ き の 量 が 1つ の 数 字 に な る 。こ の 合 計 を 全 体 の ケ ー ス 数 n で 割 っ て 平 均 化 し た 値 が 分 散( variance)で あ る 。た だ し 、一 般 に は n の 代 わ り に n -1で 割 る こ と が 多 い( 特 に 区 別 す る 場 合 に は 、n -1で 割 る 方 を 不 偏 分 散 と 呼 ぶ )。n -1で 割 る 理 由 は 14 全く数学的な都合のためである。現時点でその理由を理解する必要はない。実際的には、 扱 う ケ ー ス 数 が 大 き け れ ば 、 nで 割 る 結 果 と n-1で 割 る 結 果 は ほ と ん ど 変 わ ら な い 。 先 ほ ど の 5ケ ー ス の デ ー タ { 5,8,12,19,21} で は 、 平 均 x = 13.0な の で 、 分 散 s2= ( xi x ) 2 n 1 = (5 13) 2 (8 13) 2 (12 13) 2 (19 13) 2 ( 21 13) 2 = 47.5 5 1 と 計 算 で き る 。 デ ー タ { 2,7,12,20,24} で は 、 平 均 は 同 じ く x = 13.0で あ る が 、 分 散 を 計 算すると、 分 散 s2= ( xi x ) 2 n 1 = ( 2 13) 2 (7 13) 2 (12 13) 2 ( 20 13) 2 ( 24 13) 2 = 82.0 5 1 と な る 。 後 の デ ー タ の 方 が ば ら つ き が 大 き い こ と が 数 値 に 反 映 さ れ て い る ( 47.5< 82.0)。 た だ し 、分 散 は 計 算 の 過 程 で 単 位 も 2乗 さ れ て い る の で 、数 値 の 大 き さ が 具 体 的 に 何 を 意 味 す る の か わ か り に く い ( ア ル バ イ ト 日 数 の 分 散 は 「 47.5日 2 」 な ど )。 そ こ で 分 散 の 正 の 平 方 根 を 取 る こ と で 単 位 を 戻 し て わ か り や す く し た も の が 標 準 偏 差( standard deviation; SD) で あ る 。 た と え ば 最 初 の デ ー タ の 標 準 偏 差 は s= s 2 = 47.5 ≒ 6.89と 計 算 で き る 。 こ の と き 、 単 位 は 「 6.89日 」 と と な り 、 標 準 的 に は 平 均 値 ±標 準 偏 差 、 つ ま り 13.0±6.89日 ( 6.11~ 19.89日 )く ら い の 間 に 多 く の 人 々 が ば ら つ い て い る こ と が 、具 体 的 に わ か る 。標 準偏差はもっともポピュラーに用いられるばらつきの指標である。 感覚的にはわかりやすい標準偏差も、目的によっては欠点を持っている。例えば、幼稚 園 児 の 身 長 の 標 準 偏 差 が 4.5cmで 、 20歳 の 成 人 の 身 長 の 標 準 偏 差 が 5.0cmで あ っ た と す る 。 この場合、絶対的な量としては成人の方が身長のばらつきが大きい。しかし、幼稚園児は 成 人 よ り も は る か に 平 均 身 長 が 低 い に も か か わ ら ず 、4.5cmも の 標 準 偏 差 を 示 し て お り 、相 対的には、成人よりもむしろ大きくばらついている。このようなときに用いるのが変動係 数 ( coefficient of variation) で あ る 。 変 動 係 数 は 平 均 的 な 規 模 の 違 い を 相 殺 す る た め に 、 標 準 偏 差 を 平 均 値 で 割 っ た 値 を 用 い る 。 仮 に い ま の 例 で 幼 稚 園 児 の 平 均 身 長 が 100cm、 成 人 の 平 均 身 長 が 165cmで あ っ た と す る と 、そ れ ぞ れ の 変 動 係 数 は 、4.5÷100≒ 0.045、5.0 ÷165≒ 0.030...と 算 出 さ れ 、幼 稚 園 児 の 方 が 相 対 的 に は ば ら つ き が 大 き い こ と が 示 さ れ る 。 こ れ ら の 数 値 は つ ま り 、幼 稚 園 児 は 平 均 身 長 の 4.5% 程 度 の 幅 で ば ら つ い て い る の に 対 し て 、 成 人 は 平 均 身 長 の 3.0% 程 度 の 幅 で し か ば ら つ い て い な い 、 と い う 意 味 で あ る 。 ■Σの計算 分 散 な ど の 計 算 で は 、 記 号 「 Σ 」( シ グ マ ) が 用 い ら れ る 。 Σ は ア ル フ ァ ベ ッ ト の 「 S」 に 当 た る ギ リ シ ャ 文 字 で 、「 合 計 」 を 表 す 英 単 語 「 sum」 の 頭 文 字 を 示 し て い る 。 そ の 由 来 から分かるように、Σの意味は「計算結果を合計する」という意味で、統計学ではほとん ど 1つ の 使 い 方 し か し な い 。 す な わ ち 、「 す べ て の ケ ー ス に つ い て 同 じ 計 算 を 行 い 、 そ の 結 果を全員について合計する」という意味である。この用い方しかしないので、Σの上下の 表記は通常、省略される。 Σを用いた分散の計算式がしっくりこない場合には、 「すべてのケースについて同じ計算 をする」という過程を下のように表にしてみるとよい。 15 𝑥 1 人目 25 2 人目 29 3 人目 32 4 人目 25 5 人目 21 (𝑥𝑖 − 𝑥̅ )2 合計 ÷(n-1) 分 散 s 2= ∑(𝑥𝑖 − 𝑥̅ )2 = ( 問 題 2) 上 の デ ー タ { 25,29,32,25,21} は 、 あ る 調 査 で 5 人 の 女 性 に 理 想 の 結 婚 年 齢 を 尋 ね た 結 果である。 ( 1) 平 均 値 と 中 央 値 を 算 出 し な さ い ( 復 習 )。 ( 2) 上 の 表 を 使 っ て 、 分 散 ( n-1 で 割 る 不 偏 分 散 の 方 ) を 計 算 し な さ い 。 ( 3) 標 準 偏 差 を 算 出 し な さ い 。 ( 4)算 出 し た 標 準 偏 差 を デ ー タ と 照 ら し 合 わ せ て 、計 算 が お よ そ 間 違 い な い か 確 認 し よ う 。 ( 問 題 3) 「 問 題 1」( 40歳 の 男 女 別 の 通 勤 時 間 ) の 表 を 参 照 。 ( 1) 男 女 別 に 、 通 勤 時 間 の 変 動 係 数 を 算 出 し な さ い 。 ( 2) 変 動 係 数 は 比 率 尺 度 の 変 数 に し か 使 え な い ( 間 隔 尺 度 の 変 数 で は ダ メ )。 な ぜ か 。 理 由を説明しなさい ( 3)表 に 示 さ れ て い る 統 計 量 や 、こ れ ま で に 算 出 し た ば ら つ き の 統 計 量 か ら 、男 女 そ れ ぞ れの通勤時間の分布を、およそのグラフで描きなさい。 ( 4)40歳 の 男 女 で 、な ぜ こ の よ う な 通 勤 時 間 の 違 い が 出 る の か 、そ の 社 会 的 な 理 由 を 予 想 してみよう。 今日のポイント ①ばらつきの各指標は、それぞれ代表値の種類と対応している。 ② ば ら つ き の 各 指 標 は 、そ れ ぞ れ 計 算 で き る よ う に な っ て お こ う( と く に 標 準 偏 差 )。 ③基本統計量の数値から、具体的な分布の形が想像できるようになろう。 ※ 次 回 ( 5/ 14) の 授 業 初 め に 1 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 1~ 4 回 の 内 容 に つ い て 、 基 本 統 計 量 の 計 算 や 語 句 の 意 味 な ど を 確 認 。 √ が 計 算 で き る 電 卓 必 須 。 小 テ ス ト で は 携 帯 電 話 の 電 卓 機 能 で も よ い ( 学 期 末 試 験 で は 不 可 )。 16 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.5.14 第 5回 「 関 係 の 読 み 方 ( 1) ク ロ ス 表 」 ■変数間の関係を読む こ れ ま で 、度 数 分 布 表 や 基 本 統 計 量 の 解 説 に お い て は 、1つ の 変 数 の 分 布 に つ い て 考 え る ことを前提に話を進めてきた。しかし、社会学的に意味のあるデータの読み取りをするに は 、2つ 以 上 の 変 数 の 分 布 を 同 時 に 観 察 し 、そ の 関 係 性 を 捉 え る こ と が 有 効 で あ る こ と が 多 い 。 2つ 以 上 の 変 数 を 同 時 に 考 慮 す る も っ と も 基 本 的 な 方 法 は 、 ク ロ ス 集 計 表 [ ク ロ ス 表 、 分 割 表 ]( cross tabulation; cross table; contingency table ) を 作 成 す る こ と で あ る 。 クロス表は非常によく目にするもので、基本的な作り方も簡単である。例えば、次のよ う な 質 問 に よ っ て 捉 え ら れ る「 三 世 代 同 居 へ の 賛 否 」が 、 「 性 別 」に よ っ て ど う 異 な る の か 、 に関心を持っているとしよう。 問 あなたは一般に、三世代同居(親・子・孫の同居)は望ましいことだと考えますか。 1 望ましい 2 望ましくない こ の 場 合 、 下 の よ う な 「 性 別 」 と 「 三 世 代 同 居 へ の 賛 否 」 の ク ロ ス 表 を 作 成 す る ( 表 1)。 条件が交差(クロス)したマスの中にそれぞれの度数を書き入れるので、クロス表と呼ば れ る 。ク ロ ス 表 の 1つ 1つ の マ ス は セ ル( cell)と 呼 ぶ 。例 え ば 、左 上 の セ ル の「 927」と い う 数 値 は「 男 性 」で 、か つ 三 世 代 同 居 に「 賛 成 」と い う ケ ー ス が 927人 い た こ と を 示 す 。通 常 は 周 り に 合 計 の 人 数 を 書 き 入 れ る が 、 こ の 部 分 を 周 辺 度 数 ( marginal frequency ) と 呼 ぶ。周辺度数は場合によっては省略する。 表1 男女別の三世代同居への賛否 賛成 反対 計 男性 927 366 1293 女性 950 600 1550 1877 966 2843 計 注 : JGSS-2000の デ ー タ か ら 作 成 ■相対的に読む 表 1の ク ロ ス 表 を よ く 見 れ ば 、「 男 性 の 方 が 三 世 代 同 居 に 賛 成 し や す く 、 女 性 の 方 が 反 対 しやすい」という傾向がわかるはずである。つまり、性別と三世代同居の賛否は無関係で は な く 、 2つ の 変 数 に は 関 係 が あ る 。 こ こ で 、「 男 性 も 女 性 も 、 反 対 よ り 賛 成 の 方 が 多 い の だから性別は関係なかった」と読んではならない。統計的な社会調査データは、常に相対 的 な 視 点 か ら 読 み 取 る 。つ ま り 、 「 比 較 的 ○ ○ だ 」と い う 読 み 方 が 重 視 さ れ る 。男 性 で は 反 対 よ り も 賛 成 が 約 2.5倍 も い る の に 対 し て 、 女 性 で は 約 1.5倍 し か い な い 。 女 性 の 方 が 相 対 的に賛成しにくい(反対しやすい)という関係は明らかである。 17 計量社会学でこのような相対的な見方が重視されるのは、調べている変数の分布に絶対 的な意味がないことが多いためである。たとえば、全体的に見ると三世代同居に賛成して い る 人 は 反 対 の 2倍 く ら い い る が 、こ の 結 果 か ら「 日 本 人 は 三 世 代 同 居 を 支 持 反 対 の 2倍 ! 」 といった見出しの新聞記事を書くことはおかしい。なぜならば、これは「三世代同居は望 ま し い こ と だ と 考 え ま す か 」と い う 聞 き 方 を し た ら そ う な っ た だ け で 、 「三世代同居はすば ら し い と 思 い ま す か 」と か 、 「 三 世 代 同 居 を 積 極 的 に 支 持 し ま す か 」と い っ た 別 の 聞 き 方 で 基 準 が 変 わ れ ば 、簡 単 に 数 値 が 違 っ て く る か ら で あ る( お そ ら く 賛 成 が 減 る )。一 方 で 、聞 き方によって基準が変わっても、 「 男 性 の 方 が 女 性 よ り も 三 世 代 同 居 に 賛 成 で あ る 」と い う 関係性には、違いが出ないはずである。 ■ 3つ の パ ー セ ン ト さて、いまの例の場合はかなり男女の違いがはっきりしていたが、もう少し微妙な傾向 を 即 座 に 判 断 し た い と き に は 、や は り 相 対 度 数( % )を 併 記 す る こ と が 望 ま し い 。た だ し 、 ク ロ ス 集 計 表 に は 、% の 算 出 の 仕 方 が 複 数 あ り う る 。1行 1行 を 100% と し た と き の 相 対 度 数 で あ る 行 % ( row percent)、 1列 1列 を 100% と し た と き の 列 % ( column percent)、 全 体 を 100% と し た と き の 全 体 % ( total percent) の 3つ で あ る ( 図 1)。 列 賛成 行 反対 計 男性 100% 男性 女性 100% 女性 計 計 図1 賛成 反対 100% 100% 計 行%と列% 3つ の % を す べ て 併 記 し て ク ロ ス 表 を 作 っ て み る と 、 下 の よ う に な る ( 表 2)。 表2 3種 類 の % 付 き の ク ロ ス 表 三世代同居への賛否 賛成 反対 計 男性 度数 行% 列% 全体% 927 71.7 49.4 32.6 366 28.3 37.9 12.9 1293 100.0 45.5 45.5 女性 度数 行% 列% 全体% 950 61.3 50.6 33.4 600 38.7 62.1 21.1 1550 100.0 54.5 54.5 計 度数 行% 列% 全体% 1877 66.0 100.0 66.0 966 34.0 100.0 34.0 2843 100.0 100.0 100.0 18 し か し 、実 際 に は こ の よ う な ク ロ ス 表 は 作 成 し な い 。3種 類 の % の 意 味 を 考 え て 、必 要 と さ れ る も の だ け を 残 し 、不 要 な も の は 省 く べ き で あ る 。こ の ク ロ ス 表 の 場 合 、そ れ ぞ れ の % は以下の情報を表している。 行 %:男性の中での賛否の分布と、女性の中での賛否の分布を比べる 列 %:賛成の人の中での男女の分布と、反対の人の中での男女の分布を比べる 全体%:全回答者の中での性別と賛否の組み合わせの分布(各割合を比べる) いまここでクロス表を作っている目的を思い出してみると、三世代同居への賛否の分布が 男女でどう違っているのかを確かめることであった。つまり、男性の中での賛否の分布と 女性の中での賛否の分布を比較して違いを見つけたいわけである。すると当然、必要な% の種類は行%であり、それ以外の列%、合計%は不要である。結局、例えば次のような形 で ク ロ ス 表 を 作 成 す る こ と が 適 切 と い う こ と に な る ( 表 3)。 表3 男女別の三世代同居への賛否 賛成 反対 計 男性 927 (71.7% ) 366 (28.3% ) 1293 (100% ) 女性 950 (61.3% ) 600 (38.7% ) 1550 (100% ) 計 1877 (66.0% ) 966 (34.0% ) 2843 (100% ) 注 : JGSS-2000の デ ー タ か ら 作 成 どの%が適切かピンときにくい場合は、その%からできあがるグラフを考えてみるとわ か り や す い 。こ の 場 合 、図 2の よ う に 比 べ て み る と 、行 % の グ ラ フ こ そ 知 り た い 情 報 で あ る ことが理解できるのではないだろうか。 100% 80% 0% 20% 40% 60% 80% 100% 男性 n=1293 女性 n=1550 賛成, 71.7 賛成, 61.3 反対, 28.3 反対, 38.7 ( a) 行 % の 場 合 図2 60% 40% 20% 男性, 37.9 男性, 49.4 女性, 62.1 女性, 50.6 0% 賛成 n=1877 女性× 反対, 21.1% 女性× 賛成, 33.4% 反対 n=966 ( b) 列 % の 場 合 男性× 賛成, 32.6% 男性× 反対, 12.9% (n=2843) ( c) 全 体 % の 場 合 それぞれの%に対応するグラフ表現 な お 、一 般 的 に は 、列 % で は な く 行 % を 書 き 入 れ る よ う に 想 定 し て 、2つ の 変 数 を 配 置 す る方がわかりやすいクロス表になる。つまり、最終的に大事な「結果」の変数を列側に、 その分布を左右する「原因」の変数を行側に配置して、行%を記すことがふつう、という 19 ことである(後の回で触れるが、原因・結果という言い方は、統計データを見る際にはや や 語 弊 が あ る が 、 考 え る 際 に は こ の 方 が わ か り や す い )。 また、相対度数(%)は副次的な統計量に過ぎないので、基本となる度数を必ず示すこ とも重要な注意点である。何らかの理由で各セルの度数を示さない場合でも、それぞれの グ ル ー プ の 100% に 相 当 す る 合 計 ケ ー ス 数 ( n) だ け は 記 し て お か な け れ ば な ら な い 。 こ れ は ク ロ ス 表 を も と に し て グ ラ フ を 作 成 す る 際 に も 同 じ で あ る 。100% に 相 当 す る 合 計 ケ ー ス 数 ( n) だ け は グ ラ フ 脇 に 明 記 す る 。 (問題) 1. 下 の 表 は 、「 婚 姻 状 態 ( 既 婚 / 未 婚 )」 と 「 欲 し い 子 ど も の 性 別 ( 男 の 子 / 女 の 子 )」 の ク ロ ス 表 で あ る ( JGSS-2000の デ ー タ )。 こ の ク ロ ス 表 を ( 1) ~ ( 4) の 目 的 で 作 っ て い るとすると、それぞれの場合について望まれる%の種類は行%、列%、全体%のいずれ か。また、実際に%を算出して、それぞれの疑問に回答せよ。 欲しい子ども 婚 姻 状 態 男の子 女の子 計 既婚 992 1359 2351 未婚 219 211 430 計 1211 1570 2781 ( 1) 男 の 子 を 欲 し い 人 と 女 の 子 を 欲 し い 人 で 、 既 婚 者 の 割 合 が 高 い の は ど ち ら な の か 。 ( 2) 既 婚 者 と 未 婚 者 で 欲 し い 子 ど も の 性 別 に 違 い が あ る の だ ろ う か 。 ( 3) 全 体 に 占 め る 未 婚 で 女 の 子 を 欲 し が っ て い る 人 の 割 合 は ど の く ら い な の か 。 ( 4) 女 の 子 を 欲 し が っ て い る 人 の 割 合 が 高 い の は 、 既 婚 者 な の か 、 未 婚 者 な の か 。 2.以 下 の 仮 説 を 検 証 し た い と き 、ど の よ う な ク ロ ス 表 が 作 成 で き れ ば よ い か 、表 の 枠 組 み を提案しなさい。また、仮にこのクラスで調査をすれば、おそらくこのような結果にな るという架空の度数を各セルに記入し、必要なパーセントを計算しなさい。その上で、 その結果が仮説を支持する結果なのか、支持しない結果なのかを明記しなさい。 ( 1) 男 子 学 生 と 女 子 学 生 で は 、 男 子 学 生 の 方 が 一 人 暮 ら し を し て い る 割 合 が 高 い だ ろ う 。 ( 2) ア ル バ イ ト を し て い る 比 率 が 大 き い の は 、 1年 生 よ り も 2年 生 以 上 の 方 だ ろ う 。 今日のポイント ① 2変 数 間 の 関 係 性 の 分 析 は 、 ク ロ ス 表 の % を 相 対 的 に 比 べ る こ と が 基 本 。 ② 目 的 に 応 じ て 3つ の % ( 行 % 、 列 % 、 全 体 % ) を 使 い 分 け る 。 20 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.5.21 第 6回 「 関 係 の 読 み 方 ( 2) 散 布 図 と 相 関 係 数 」 ■散布図 2つ の 変 数 の 間 の 関 係 性 を 調 べ る た め に ク ロ ス 表 の 作 成 に つ い て 学 習 し た が 、量 的 変 数 の 場 合 は 同 じ 目 的 で し ば し ば 散 布 図 ( scatter plot; scattergram; scatter diagram ) が 作 成 さ れ る 。散 布 図 は 、2つ の 変 数 を そ れ ぞ れ X軸 、Y軸 と し て 1人 1人 の 回 答 を 対 応 す る 座 標 に 体重(kg) 点 で 記 し た 図 で あ る ( 図 1)。 90 80 70 60 50 40 30 130 140 150 160 170 180 190 身長(cm) 図1 散布図の例 散 布 図 は ク ロ ス 表 よ り も 直 感 的 に 2つ の 変 数 の 関 係 性 を 理 解 で き る が 、残 念 な が ら 計 量 社 会学における活用機会は限られる。なぜならば、社会調査のデータに含まれる変数は、多 く の 場 合 、回 答 選 択 肢 の 数 が 少 な く 散 布 図 を 描 く の に 適 し て い な い か ら で あ る( 5段 階 の 評 定 尺 度 な ど )。あ く ま で ク ロ ス 表 が 基 本 と 考 え た 上 で 、十 分 に 多 様 な 値 を 取 り 得 る 変 数 の 場 合(年齢、取得単位数など、あるいは複数の項目の合計得点、集計データにおける平均値 や比率など)には、散布図も積極的に活用する、というぐらいの姿勢が適切であろう。 ■ 「 2変 数 の 関 係 性 」 を さ ら に 比 較 す る さ て 、で は こ こ で「 2変 数 の 関 係 性 を さ ら に 比 較 す る 」と い う 状 況 を 考 え て み よ う 。た と え ば 、「 授 業 へ の 出 席 率 が 高 い ほ ど 成 績 が よ い 」 と い う 関 係 が あ る と し て 、 1年 生 の 場 合 で も 2年 生 の 場 合 で も 同 じ 程 度 の 関 係 性 が 見 ら れ る の か 、と い っ た 疑 問 が 浮 か ん だ と す る 。こ の こ と を 確 認 す る た め に は 、 1年 生 と 2年 生 で 別 々 に 、 散 布 図 を 作 成 し て 比 較 す れ ば よ い 。 と こ ろ が 、 2学 年 な ら ま だ よ い が 、 4学 年 ×13学 部 = 72個 の グ ル ー プ で 違 い を 調 べ よ う と か 考 え る と 、散 布 図 を 比 較 し て 読 み 取 る だ け で も 大 変 で あ る 。そ こ で 、自 然 な 発 想 と し て 、 2変 数 の 関 係 性 の 程 度 を 「 1つ の 数 字 」 に 要 約 で き れ ば 、 比 較 が 簡 単 に な る は ず だ 、 と い う 考えが思い浮かぶ。度数分布表を読み取る代わりに、平均や標準偏差といった数値(基本 統計量)に要約したのと同じことである。 そ こ で 、 使 用 さ れ る 統 計 量 が 相 関 係 数 ( correlation coefficient ) で あ る 。 2つ の 量 的 変数の関係を要約する統計量は他にも多数存在するが、相関係数が圧倒的によく用いられ る ( 厳 密 に は ピ ア ソ ン の 積 率 相 関 係 数 )。 相 関 係 数 は 、 一 般 常 識 の レ ベ ル の 統 計 量 で あ り 、 その利便性と欠点を十分に理解していなければならない。 21 ■相関係数の意味 相 関 係 数 は 、 2つ の 量 的 変 数 の 関 係 性 に つ い て 、 そ の 「 方 向 性 」 と 「 強 さ 」 を 1つ の 数 値 に 要 約 す る 。 理 由 に か か わ ら ず 2つ の 変 数 間 に 何 ら か の 規 則 的 な 関 係 が 見 ら れ る と き 、 2つ の 変 数 の 間 に 相 関 ( correlation) が あ る 、 と い う 。「 理 由 に か か わ ら ず 」 と い う の は 、 そ の関係が本質的に意味のある因果関係かどうかとか、その関係にどんな意味を見出すかと か 、そ う い っ た こ と を ま っ た く 問 わ ず に 、た だ 単 に 客 観 的 に 2変 数 の 間 に 統 計 的 な 関 係 が 観 察される、という意味で使う用語だということである。 相 関 係 数 で は 、相 関 の 中 で も と く に 代 表 的 な 関 係 で あ る 直 線 的 な 関 係 傾 向 を 数 値 で 表 す 。 つ ま り 、 量 的 変 数 Xと Yの 間 で 、 図 2( a)( b) の よ う な 傾 向 の 関 係 を も つ 場 合 で あ る 。( a) は Xが 増 え れ ば Yも 増 え 、Xが 減 れ ば Yも 減 る の で 、2つ の 変 数 が 同 じ 方 向 に 動 く 。こ の 場 合 を 正 の 相 関 と 呼 ぶ 。 一 方 、( b) は 、 Xと Yが 逆 方 向 の 動 く ( Xが 増 え れ ば Yは 減 り 、 Xが 減 れ ば Y は 増 え る )の で 、負 の 相 関 と 呼 ん で 区 別 す る 。た と え ば 、 「読書量と成績は正の相関をもつ」 とか「仕事へのやる気と疲労感は負の相関を示す」とかいう使い方をする。 ( a) 正 の 相 関 r= 0.804 ( b) 負 の 相 関 r= - 0.697 図2 ( c) 無 相 関 r= 0.066 相関関係 相 関 係 数 は 、通 常 、記 号「 r」で 表 し 、必 ず - 1か ら + 1の 間 の 値 を と る 。相 関 係 数 は 、関 係 の「 方 向 性 」を 値 の ±で そ の ま ま 表 現 し 、正 の 相 関 を 持 つ 場 合 に は + の 値( r> 0)、負 の 相 関 を 持 つ 場 合 に は - の 値 ( r< 0) と な る 。 さ ら に 、 そ の 関 係 の 「 強 さ 」 を 値 の サ イ ズ で 比 較 で き る 。 正 の 相 関 が 強 い ほ ど + 1に 近 い 値 に な り 、 負 の 相 関 が 強 い ほ ど - 1に 近 い 値 に な る 。ほ と ん ど 関 係 が 見 ら れ な い 場 合 に は 0に 近 い 値 に な る 。図 2の 場 合 、 ( a)と( b)で は ( a)の 方 が r= 0.804と サ イ ズ が 大 き い の で 、よ り 強 い 相 関 と い う こ と に な る 。か り に( b) が r= -0.9で あ れ ば 、( b) の 方 が 相 対 的 に 強 い 相 関 で あ る 。 相関係数の大きさがどの程度あれば、 「 強 い 」相 関 と 考 え れ ば よ い の か は 、一 概 に は 言 え な い 。た だ 、社 会 学 的 な ト ピ ッ ク の 場 合 、お よ そ 次 の よ う に み な さ れ る 。±0.2を 越 え る と 弱 い 相 関 が あ る と 見 ら れ る こ と が 多 い 。さ ら に ±0.4を 越 え て い れ ば 、は っ き り と 相 関 が あ る と 見 ら れ る 。 ±0.7を 越 え て い る と 、 か な り 強 い 相 関 と 見 ら れ る 。 ( 問 題 1) ある大学生の調査で、アルバイトの量(時間/月)と読書冊数(冊/月)の相関係数を調べると、 r= - 0.55だ っ た と い う 。 こ の 結 果 の 正 し い 読 み 取 り す べ て に ○ を 付 け な さ い 。 ( )アルバイトが多いほど読書が多い傾向がある ( )アルバイトが多いほど読書が少ない傾向がある ( )アルバイトが少ないほど読書が多い傾向がある ( )アルバイトが少ないほど読書が少ない傾向がある 22 ( 問 題 2) 次 の ア ン ケ ー ト を 男 女 10人 ず つ に 行 っ て み る 。2変 数 の 散 布 図 を 男 女 別 に 描 い た 上 で 、そ れぞれの相関係数を予想しなさい。 【男性】 1200 結婚生活に必要と思う年間世帯収入(万円) 結婚生活に必要と思う年間世帯収入(万円) Q1: 卒 業 の 5年 後 、 あ な た は 自 分 の 年 間 収 入 が 何 万 円 に な っ て い る と 予 想 し ま す か ( 税 金 を 抜 く 前 の額面通りの収入) Q2: 結 婚 生 活 を 始 め る た め に は「 夫 婦 合 わ せ て 」 年 間 ど の く ら い の 世 帯 収 入 が 必 要 だ と 思 い ま す か 1000 (予 想 ) 800 r= 600 400 (実 際 ) 200 0 0 200 400 600 800 1000 1200 r= 【女性】 1200 1000 (予 想 ) 800 r= 600 400 (実 際 ) 200 0 0 卒業5年後の自分の年間収入の予想(万円) 200 400 600 800 1000 1200 r= 卒業5年後の自分の年間収入の予想(万円) ( 問 題 3) 下 の 表 は 複 数 の 変 数 の 間 で の 相 関 係 数 を ま と め た も の で あ る ( 相 関 表 と 呼 ば れ る )。「 理 想 の 恋 人 と し て 何 を 重 視 す る か 」と い う 質 問 に 対 す る 各 項 目 の 得 点 を X 1 ~ X 5 で 表 し て い る 。 こ の 表 か ら 読 み 取 れ る 事 柄 と し て 正 し い も の に ○ 、 誤 っ て い る も の に ×を 付 け な さ い 。 ( ( ( ( )顔の良さを重視している人ほどスタイルも重視している傾向がある )性格を重視することと顔の良さを重視することは、ほとんど関係がない )スタイルを重視しない人は、価値観を重視する傾向がある ) X 1 と X 2 の 相 関 が も っ と も 強 く 、 X 3 と X 4 の 相 関 が 2番 目 に 強 い X1 顔 の 良 さを重視 X1 X2 X3 X4 X5 顔の良さを重視 スタイルを重視 頭の良さを重視 性格の良さを重視 価値観を重視 X2 ス タ イ ルを重視 .389 .389 -.005 -.273 -.252 .044 -.137 -.328 X3 頭 の 良 さを重視 -.005 .044 X4 性 格 の 良さを重視 -.273 -.137 .046 .046 -.102 X5 価 値 観 を重視 -.252 -.328 -.102 -.009 -.009 ■相関係数の計算 2つ の 変 数 Xと Yの 相 関 係 数 の 計 算 式 は 、 次 の と お り で あ る 。 ( X X )(Y Y ) 相関係数 r n 1 ( X X ) (Y Y ) 2 n 1 2 XとYの共分散 Xの標準偏差・ Yの標準偏差 n 1 XはXの 平 均 値 Y はYの 平 均 値 nは 全 回 答 者 数 数学的な理解はこの講義の目的ではないが、それほど複雑なことを考えているわけではな い 。 相 関 係 数 の 分 子 は 共 分 散 と 呼 ば れ る 数 値 で 、 2つ の 変 数 で の 2次 元 の 散 ら ば り 具 合 を 示 している。平均を中心にして右上や左下への散らばりが大きいほど、大きなサイズの正の 値になり、右下や左上への散らばりが大きいと、大きなサイズの負の値になる。 共 分 散 自 体 を 相 関 の 指 標 と す る こ と も で き る が 、 共 分 散 は Xと Yの 各 変 数 が も つ そ も そ も 23 の 散 ら ば り 具 合 が 大 き け れ ば 、 大 き な サ イ ズ の 値 に な っ て し ま う 。 そ こ で 、 共 分 散 を Xと Y の 標 準 偏 差 で 割 っ て や り 、純 粋 に 相 関 の 強 さ だ け を 示 す よ う に し た も の が 相 関 係 数 で あ る 。 例)右のデータから相関係数を算出したい。 (高齢者の友人関係についての仮想データ) 1人 目 2人 目 3人 目 4人 目 5人 目 ① Xと Yの 基 本 統 計 量 を 算 出 Xの 平 均 = 59 Yの 平 均 = 3.9 Xの 標 準 偏 差 = 6.86 Yの 標 準 偏 差 = 0.49 X= 年 齢 (歳 ) 50 55 62 60 68 Y= 友 人 と の 会 話 時 間 (hour) 4.2 4.5 3.3 4.0 3.5 ② Xと Yの 共 分 散 を 算 出 s xy ( X X )(Y Y ) n 1 1 (50 59)( 4.2 3.9) (55 59)( 4.5 3.9) (62 59)(3.3 3.9) (60 59)( 4.0 3.9) (68 59)(3.5 3.9) 5 1 1 ( 2.7 2.4 1.8 0.1 3.6) 2.6 4 ③相関係数を算出 r 2.6 0.77 6.86 0.49 ■相関係数の注意点 相 関 係 数 は 非 常 に 頻 繁 に 用 い ら れ る が 、万 能 で は な い こ と に 注 意 し な け れ ば な ら な い 。2 つの変数の間の直線的な関係性しか表していないので、直線的でない規則的な関係性(曲 線 的 な 関 係 な ど ) に は 反 応 し な い ( 図 3の a、 b)。 ま た 、 外 れ 値 の 影 響 を 非 常 に 受 け や す い ( 図 3の c)。こ れ は 、平 均 値 が 持 っ て い た 欠 点 と 同 様 で あ り 、デ ー タ が 持 つ す べ て の 情 報 を 利用するタイプの統計量が持つ宿命のようなものである。 140 120 160 120 100 140 100 120 80 80 100 60 60 80 60 40 40 20 20 0 0 0 10 20 30 40 50 60 ( a) r = -0.32 40 20 0 0 10 20 30 ( b) r = 0.15 0 10 20 30 ( c) r = -0.36 ※ 外 れ 値 が な け れ ば 、 -0.91 図3 相関係数に反映されない関係性のパターン 今日のポイント ① 使 え る 場 面 は 限 定 的 だ が 、 散 布 図 で も 2変 数 間 の 関 係 性 が 読 み 取 れ る 。 ② 散 布 図 に 表 さ れ る 関 係 性 を 1つ の 数 値 に 要 約 す る の が 相 関 係 数 。 +1に 近 い ほ ど 正 の 相 関 。 -1に 近 い ほ ど 負 の 相 関 。 0に 近 い ほ ど 無 相 関 。 24 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.5.28 第 7回 「 関 係 の 読 み 方 ( 3) ク ロ ス 表 の 連 関 係 数 」 ■大きな話の流れ 数 回 に わ た っ て 統 計 操 作 の 説 明 が 積 み 重 な っ て き た の で 、ポ イ ン ト を 整 理 し て お こ う( 表 1)。ま ず 大 切 な こ と は 各 変 数( 各 調 査 項 目 )の 度 数 分 布 表 を よ く 観 察 す る こ と で あ る( 第 3 回 )。し か し 、実 際 に は 多 く の 度 数 分 布 表 の 観 察 は 大 変 な の で 、分 布 の 中 心 と 散 ら ば り 具 合 だ け を 基 本 統 計 量 で 要 約 す る 方 法 を 学 習 し た ( 第 3、 4回 )。 次 に 、 2つ 以 上 の 変 数 の 関 係 を 読 み 取 る 話 で あ る 。 社 会 調 査 の デ ー タ で は 、 2変 数 の 関 係 は 基 本 的 に ク ロ ス 表 で 読 み 取 る ( 第 5回 )。 一 方 、 利 用 場 面 は 限 ら れ る が 、 量 的 変 数 同 士 の 関係は散布図でも読み取ることができる。 さ ら に 、散 布 図 に 表 れ る 関 係 は「 相 関 係 数 」と い う 1つ の 統 計 量 に 要 約 で き る 。散 布 図 の 代 わ り に 相 関 係 数 を 比 較 す れ ば 、「 2変 数 の 関 係 性 の 比 較 」 が 容 易 に な る ( 第 6回 )。 こ れ は 代 表 値 や ば ら つ き の 指 標 で 「 1変 数 の 分 布 の 比 較 」 が 容 易 に な る の と 同 じ こ と で あ る 。 こ こ で 、当 然 の 発 想 と し て 、 「クロス表に見られる関係性も何らかの統計量で要約できる はずだ」と考なければならない。 表1 いま学習していること 素朴な観察 1つ の 変 数 の 分布を調べる→ 度数分布表 2つ の 変 数 の 関係を調べる→ クロス表 散布図 統計量による要約 基本統計量 代表値(最頻値、中央値、平均値) ば ら つ き( 範 囲 、四 分 位 偏 差 、分 散・標 準 偏 差・変 動 係 数 ) 関係性を表わす統計量 相関係数 連 関 係 数 ( ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 な ど ) ■ 2×2の ク ロ ス 表 に お け る 3つ の 連 関 係 数 ク ロ ス 表 に 示 さ れ る 関 係 性 を 、相 関 係 数 と 同 じ よ う に 1つ の 統 計 量 に 要 約 し た も の を 総 称 し て 連 関 係 数 ( association coefficient; coefficient of association )、 関 連 性 の 指 標 、 関 連 性 の 統 計 量 な ど と 呼 ぶ 。 連 関 係 数 は も っ と も 基 本 的 な 2×2の ク ロ ス 表 に つ い て 、 と く に よ く 考 え ら れ て お り 、次 の 3つ が よ く 用 い ら れ る 。ク ロ ス 表 の 各 セ ル の 度 数 を 下 の よ う に a、 b、 c、 dで 表 す な ら ば 、 そ れ ぞ れ の 連 関 係 数 は 次 の よ う に 算 出 さ れ る ( 図 1)。 a b c d ユールのQ 図1 ファイ係数 オッズ比 ad bc ad bc Q OR = ad bc 2×2の ク ロ ス 表 に お け る 連 関 係 数 25 ad bc (a b)(c d )(a c)(b d ) ■ ユ ー ル の Qと フ ァ イ 係 数 い ず れ の 連 関 係 数 で も 、2つ の 変 数 の 間 に 関 連 が ま っ た く な い 状 態 の 定 義 は 共 通 し て い る 。 2つ の 変 数 の 間 に 関 連 が な い 状 態 と は 、一 方 の 変 数 の 値 が 違 っ て も 他 方 の 変 数 の 分 布 に 変 動 が な い 状 態 の こ と で あ る 。 つ ま り 、 1行 目 の グ ル ー プ で も 2行 目 の グ ル ー プ で も 、 も う 一 方 の 変 数 の 分 布 に 違 い が な い 。こ の と き 、a:b=c:dで 、変 形 す る と ad=bcと な る 。す な わ ち 、2 つ の 変 数 に ま っ た く 関 連 が な い 状 態 と は 「 a×d」 と 「 b×c」 が 一 致 す る ク ロ ス 表 で あ る 。 ユ ー ル の Q( Yule’s Q)と フ ァ イ 係 数( phi coefficient)の 式 に 注 目 す る と 、分 子 が ad-bc な の で 、関 連 が ま っ た く な い 場 合 に は 値 が 0に な る こ と が わ か る 。ま た 、aや dが 大 き い 関 連 で は + の 値 、 bや cが 大 き い 関 連 で は - の 値 を 取 る 。 相 関 と 同 じ よ う に 、 前 者 を 正 の 関 連 、 後 者 を 負 の 関 連 と 呼 ぶ ※ 。さ ま ざ ま な 例 で 確 認 す る と わ か る が 、ユ ー ル の Qも フ ァ イ 係 数 も - 1~ + 1の 値 し か 取 ら な い 。 つ ま り 、 い ず れ も 相 関 係 数 と ま っ た く 同 じ 読 み 方 が で き る 。 ※ 質 的 変 数 で は 、「 賛 成 /反 対 」 の よ う に ど ち ら が プ ラ ス 側 な の か は っ き り し て い る 変 数 も あ る が 、「 男 性 /女 性 」 の よ う に ど ち ら が プ ラ ス 側 な の か は っ き り し な い 変 数 も 多 い 。こ の 場 合 も 便 宜 的 に セ ル aや セ ル dが 多 い こ と を 正 の 関 連 と 呼 ぶ こ と に す る 。 少 し 前 の 回 で あ げ た「 性 別 」と「 三 世 代 同 居 へ の 賛 否 」の ク ロ ス 表 で 、ユ ー ル の Qと フ ァ イ 係 数 を 算 出 し て み よ う ( 表 2)。 程 度 は 強 い と は い え な い が 、 い ず れ も 正 の 値 な の で 、 ク ロス表に見られる正の関係性を適切に反映している。 表2 男女別の三世代同居への賛否 賛成 反対 計 男性 927 366 1293 女性 950 600 1550 計 1877 966 2843 注 : JGSS-2000の デ ー タ か ら 作 成 ユールのQ ファイ係数 ϕ= Q= ad − bc 927 × 600 − 366 × 950 = = 0.231 ad + bc 927 × 600 + 366 × 950 ad − bc √(a + b)(c + d)(a + c)(b + d) = 927 × 600 − 366 × 950 √1293 × 1550 × 1877 × 966 = 0.109 読 み 取 り 方 が 同 じ な の に 、ユ ー ル の Qと フ ァ イ 係 数 で 数 値 が 異 な る の は な ぜ だ ろ う か 。こ れ は 両 者 の 間 で「 最 大 の 関 連 」の 定 義 が 異 な る か ら で あ る 。フ ァ イ 係 数 で は 2つ の 変 数 の 値 が 1対 1に 対 応 す る こ と が 最 大 の 関 連 と み な す 。 た と え ば 、 男 性 は こ の 法 案 に 全 員 賛 成 す る が 、女 性 は 全 員 反 対 と い っ た 場 合 で あ る 。そ の た め 、フ ァ イ 係 数 は 、b=c=0の と き が 最 大 の 正 の 関 連 で 「 + 1」 と な り 、 a=d=0の と き が 最 大 の 負 の 関 連 で 「 -1」 と な る 。 こ れ に 対 し て ユ ー ル の Qで は 最 大 の 関 連 を も っ と 緩 や か に 考 え る 。男 性 は 法 案 に 全 員 賛 成 し て い る が 、女 性 は 賛 否 が 分 か れ て い る と い う 場 合 で も 、ユ ー ル の Qは 性 別 と 賛 否 の 間 に 最 大 の 関 連 が あ る と 考 え る 。 つ ま り 、 b=0ま た は c=0の と き 「 + 1」 と な り 、 a=0ま た は d=0の と き 「 - 1」 に な る。これはどちらが正しいという問題ではないが、社会調査で扱われる変数は、多くの場 合 、「 相 対 的 な 」 測 定 の 結 果 に す ぎ な い 。 そ の 意 味 か ら は 、 2つ の 選 択 肢 の 間 に 絶 対 的 な 断 絶 を 認 め な い ユ ー ル の Qの 方 が ふ さ わ し い 場 面 は 、 自 然 科 学 に 比 べ れ ば 多 い と い え る 。 26 ( 問 題 1) ク ラ ス 内 の ア ン ケ ー ト で 何 ら か の 2×2の ク ロ ス 表 を 作 成 し 、ユ ー ル の Qと フ ァ イ 係 数 を 算 出し、意味を説明しなさい。 計 ( %) ( %) ( %) ( %) 計 ユールのQ Q= ファイ係数 φ= ■オッズ比 別 の 統 計 量 で あ る オ ッ ズ 比( odds ratio)は 、「 オ ッ ズ 」と い う 概 念 に 基 づ い て い る 。オ ッ ズ と は あ る こ と が 起 こ る「 見 込 み 」の こ と で あ り 、正 確 に 記 す と 、 「あることが起こらな い確率に対して、あることが起こる確率が何倍あるか」を表わす。いまの例では、男性グ ル ー プ に 注 目 す る と 、三 世 代 同 居 に 賛 成 す る 確 率 は したがって、三世代同居に賛成するオッズは 𝑎 𝑎+𝑏 𝑏 𝑎+𝑏 𝑎 𝑎+𝑏 = 𝑎 𝑏 で あ り 、賛 成 し な い 確 率 は = 927 366 𝑏 𝑎+𝑏 である。 = 2.53と 算 出 で き る 。 つ ま り 、 男 性 は 、 三 世 代 同 居 に 反 対 す る 確 率 に 比 し て 賛 成 す る 確 率 が 2.53倍 あ る ( 男 性 の 賛 成 オ ッ ズ は 2.53)。 同 様 に 、 女 性 グ ル ー プ で は 、 三 世 代 同 居 に 賛 成 す る オ ッ ズ が こ れ ら 2つ の オ ッ ズ の 比 2.53 1.58 𝑐 𝑑 = 1.58で あ る 。 = 1.60が 、オ ッ ズ 比 で あ る 。つ ま り 、女 性 に 比 べ て 男 性 は 、1.6 倍ほど三世代同居に賛成する見込み(オッズ)が大きいことを示す。オッズ比の式は、結 局、 𝑎 𝑏 𝑐 𝑑 = 𝑎𝑑 𝑏𝑐 と 非 常 に 簡 単 な も の に 整 理 で き る 。 変 数 間 に ま っ た く 関 連 が な け れ ば 𝑎𝑑 = 𝑏𝑐 な の で 、オ ッ ズ 比 は 𝑎𝑑 𝑏𝑐 = 1に な る 。正 の 関 連 が 強 い ほ ど オ ッ ズ 比 は 1よ り 大 き く な り 、負 の 関 連 が 強 い ほ ど 1よ り 小 さ く な る 。 オッズ比の長所は「見込みが○倍」という具体性をもつことである。一方、ユールのQ や フ ァ イ 係 数 は 最 大 の 関 連 が ±1で 、プ ラ ス 側 と マ イ ナ ス 側 で 対 称 に な る と い う 点 で 、抽 象 的だが扱いやすい。用途に応じてこれらを使い分けなければならない。 ■連関係数の値を比較する 相関係数と同様に、連関係数も複数の数値を相対的に比較するときにこそ意味がある。 た と え ば 、 い ま 例 に あ げ て い る 三 世 代 同 居 へ の 賛 否 に つ い て 、「 男 性 の 方 が 賛 成 し や す い 」 27 ことがわかったが、この関係性はどの年齢層でとくに強く見られるのか、相対的に比較し て み よ う 。改 め て 、年 齢 層 別 に 複 数 の ク ロ ス 表 を 作 成 し て 、ユ ー ル の Qや オ ッ ズ 比 な ど の 連 関 係 数 を 比 較 す れ ば よ い 。複 数 の ク ロ ス 表 を た だ 慎 重 に 読 み 取 る よ り 、確 実 で 簡 便 で あ る 。 ( 問 題 2) 実 際 に 上 の 関 心 を 満 た す た め に ク ロ ス 表 を 作 成 し た ( JGSS-2000の デ ー タ )。 こ れ を も と に し て 20~ 70代 の そ れ ぞ れ に つ い て オ ッ ズ 比 を 算 出 し 、 ど の 年 齢 層 で 「 男 性 の 方 が 同 居 に 賛成する」傾向が強いのか確かめなさい。 オッズ比 20代 30代 → 40代 50代 60代 70代 ↓ 2.4 2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 20代 30代 40代 50代 60代 70代 今日のポイント ① 2×2の ク ロ ス 表 で は 、 2変 数 の 関 係 性 を 要 約 す る た め に 連 関 係 数 を 使 う 。 主 な 連 関 係 数 は 、 ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 └→相関係数と同じ読み方 └→関連がないとき値が1 ②使い分けに注意 具 体 性 を 取 る か ( オ ッ ズ 比 )、 抽 象 性 を 取 る か ( フ ァ イ 係 数 、 ユ ー ル の Q) 最 大 の 関 連 を 厳 し く 捉 え る か ( フ ァ イ 係 数 )、 緩 や か に 捉 え る か ( ユ ー ル の Q) ※ 次 回 ( 6/ 4) の 授 業 初 め に 2 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 5~ 7回 の 内 容 に つ い て 、 ク ロ ス 表 の 作 り 方 と 読 み 方 、 相 関 係 数 ・ 各 種 の 連 関 係 数 の 読 み 取 り と 計算、語句の意味などを確認。 28 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.6.4 第 8回 「 小 休 止 ( 復 習 と 補 足 )」 ■ 行 % 、 列 % 、 全 体 % ( p.20の 問 題 再 掲 ) 欲しい子ども 婚 姻 状 態 男の子 女の子 計 既婚 992 1359 2351 未婚 219 211 430 計 1211 1570 2781 ( 1) 男 の 子 を 欲 し い 人 と 女 の 子 を 欲 し い 人 で 、 既 婚 者 の 割 合 が 高 い の は ど ち ら な の か 。 ( 2) 既 婚 者 と 未 婚 者 で 欲 し い 子 ど も の 性 別 に 違 い が あ る の だ ろ う か 。 ( 3) 全 体 に 占 め る 未 婚 で 女 の 子 を 欲 し が っ て い る 人 の 割 合 は ど の く ら い な の か 。 ( 4) 女 の 子 を 欲 し が っ て い る 人 の 割 合 が 高 い の は 、 既 婚 者 な の か 、 未 婚 者 な の か 。 も し も 世 界 全 体 が 100人 の 村 だ っ た ら … … と 考 え た い → 全体% も し も 世 界 が 「 既 婚 者 ば か り の 100人 の 村 」 と 「 未 婚 者 ば か り の 100人 の 村 」 だ っ た ら … … (既婚者村と、未婚者村で、ほしい子どもの違いを比べたい) → 行% も し も 世 界 が 「 男 の 子 が ほ し い 100人 の 村 」 と 「 女 の 子 が ほ し い 100人 の 村 」 だ っ た ら … … (男の子ほしがり村と、女の子ほしがり村で、婚姻状態の違いを比べたい) → 列% 自分でクロス表を作るときには、行%を出せばいいようにすることが基本 ①回答の分布を知りたい、関心の中心となる変数 →列側に配置 ② 比 べ や す い よ う に 、 100 人 ず つ に 統 一 す る グ ル ー プ を 表 わ す 変 数 →行側に配置 ③グループ間で行%を比較 ■「関係」を要約するとは? 相 関 係 数 ( r) は 、 2つ の 変 数 の 関 係 を 「 方 向 性 」 と 「 強 さ 」 に 絞 っ て 要 約 す る 。 ① 関 係 の 方 向 性 ( → ±で 表 わ す ) Xが 増 え れ ば 、 Yは 増 え る の か 、 そ れ と も 減 る の か 10 10 8 8 6 6 4 4 2 2 0 0 Xが 年 収 ( 万 円 ) Yが 幸 福 感 ( 10点 満 点 ) 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.80 (正の相関) 仮想データ r= - 0.55 (負の相関) 29 ② 関 係 の 強 さ ( → 数 値 の サ イ ズ が ±1に ど れ だ け 近 い か で 表 わ す ) Xの 値 に よ っ て 、 Yは ど れ だ け は っ き り 予 測 で き る の か Xが 1増 え た と き に Yが ど れ だ け 多 く 増 え る の か ( 傾 き の 角 度 )、 で は な い 10 10 8 8 6 6 4 4 2 2 0 0 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.80 r= 0.81 はっきり予測できるというのは、比例関係(直線)にどれだけ近いかということ 10 10 10 8 8 8 6 6 6 4 4 4 2 2 2 0 0 0 1400 1200 1000 800 600 400 r= 0.56 (直線からややずれている) 200 0 1400 1200 1000 800 600 400 200 0 1400 1200 1000 800 600 400 200 0 r= 0.96 (直線に非常に近い) r= - 0.95 (直線に非常に近い) ■関係を比べるとは? 世帯年収と幸福感の関係は、性別や年齢層によってどう違うのか? 「 20 代 男 性 の 場 合 」「 30 代 女 性 の 場 合 」 … … と い く つ も 見 比 べ る の は 大 変 。 6 4 2 8 6 4 2 0 0 0 200 400 600 800 1000 1200 1400 4 2 0 8 200 400 600 800 1000 1200 1400 6 4 2 世帯収入(万円) 2 200 400 600 800 1000 1200 1400 6 4 2 世帯収入(万円) 200 400 600 800 1000 1200 1400 10 8 6 4 2 6 4 2 男性 女性 40 代 200 400 600 800 1000 1200 1400 60 代 10 8 6 4 2 200 400 600 800 1000 1200 1400 世帯収入(万円) 0.196 0.221 0.180 0.227 0.254 0.167 0.223 0.270 0.227 0.171 0.2 0.1 0 20代 70 代 -0.031 0.3 30代 40代 50代 男性 女性 60代 70代 -0.1 -0.2 注 : JGSS-2010 の 実 際 の 分 析 結 果 30 2 200 400 600 800 1000 1200 1400 世帯収入(万円) 世帯年収×幸福感の散布図 (70代女性) 10 8 6 4 2 0 0 -0.122 幸福感と世帯年収の相関係数 4 0 世帯年収×幸福感の散布図 (60代女性) 世帯収入(万円) 50 代 6 世帯収入(万円) 各グループで、世帯年収と幸福感の関係を相関係数に要約すれば一目瞭然 30 代 8 200 400 600 800 1000 1200 1400 ↓ 20 代 10 0 0 0 0 世帯収入(万円) 世帯年収×幸福感の散布図 (70代男性) 0 0 0 8 200 400 600 800 1000 1200 1400 世帯年収×幸福感の散布図 (50代女性) 8 0 0 世帯年収×幸福感の散布図 (60代男性) 10 世帯収入(万円) 10 0 0 4 0 幸福感(10点満点) 6 6 200 400 600 800 1000 1200 1400 世帯年収×幸福感の散布図 (40代女性) 10 幸福感(10点満点) 8 8 世帯収入(万円) 世帯年収×幸福感の散布図 (30代女性) 幸福感(10点満点) 幸福感(10点満点) 世帯年収×幸福感の散布図 (30代女性) 10 10 0 0 世帯収入(万円) 女性 世帯年収×幸福感の散布図 (50代男性) 10 70 代 幸福感(10点満点) 8 60 代 幸福感(10点満点) 世帯年収×幸福感の散布図 (40代男性) 10 幸福感(10点満点) 幸福感(10点満点) 世帯年収×幸福感の散布図 (30代男性) 50 代 幸福感(10点満点) 男性 40 代 幸福感(10点満点) 30 代 幸福感(10点満点) 20 代 0 200 400 600 800 1000 1200 1400 世帯収入(万円) ■連関係数の場合も考え方はまったく同じ フ ァ イ 係 数 は 、ク ロ ス 表 に お け る 2つ の 変 数 の 関 係 性 を「 方 向 性 」と「 強 さ 」に 絞 っ て 要 約する。 ( ※ 実 は 、ク ロ ス 表 の 選 択 肢 を 0と 1の 値 で 表 わ し て 相 関 係 数 を 無 理 や り 計 算 す る と 、 ファイ係数と一致する。ファイ係数は相関係数のクロス表版で、数学的にも扱いやすい) ① 関 係 の 方 向 性 ( → ±で 表 わ す ) Xが ポ ジ テ ィ ブ な ら ば 、 Yは ポ ジ テ ィ ブ な の か 、 そ れ と も ネ ガ テ ィ ブ な の か 週末に 出かける 恋人がいる 出かけない 週末に 出かける 計 35 15 50 ( 70.0% ) ( 30.0% ) ( 100% ) 恋人がいる い な い 50 100 150 ( 33.3% ) ( 66.6% ) ( 100% ) 計 85 115 出かけない 計 10 40 50 ( 20.0% ) ( 80.0% ) ( 100% ) い な い 120 30 150 ( 80.0% ) ( 20.0% ) ( 100% ) 200 計 130 70 200 フ ァ イ 係 数 = 0.32 フ ァ イ 係 数 = - 0.54 (正の関連) (負の関連) (恋人がいる方が週末に出かけやすい) (恋人がいる方が週末に出かけにくい) ② 関 係 の 強 さ ( → 数 値 の サ イ ズ が ±1に ど れ だ け 近 い か で 表 わ す ) Xの 値 に よ っ て 、 Yは ど れ だ け は っ き り 予 測 で き る の か 恋人がいる 週末に 出かける 出かけない 50 0 50 150 150 150 200 いない 0 計 50 計 恋人がいる 週末に 出かける 出かけない 計 0 50 50 0 150 50 200 い な い 150 計 150 フ ァ イ 係 数 = 1.00 フ ァ イ 係 数 = - 1.00 (完全に予測できる) (こちらも完全に予測できる) ただし、社会調査の回答は質問文が違えば、容易に動くなど、測定の曖昧さがある。 例 )「 週 末 に 出 か け る 予 定 が あ り ま す か 」 を 「 週 末 に で か け よ う と 思 い ま す か 」 に 変 更 →「 出 か け る 」 と い う 回 答 が 増 え る ユ ー ル の Qで あ れ ば 、 こ う し た 影 響 を 受 け に く い 。 回 答 が 絶 対 的 な も の で な い 場 合 、ユ ー ル の Qの 方 が 関 連 性 の 強 さ を 妥 当 に 表 せ る こ と が 多 い 。 恋人がいる 週末に 出かける 出かけない 50 0 50 150 150 150 200 いない 0 計 50 計 恋人がいる 週末に 出かける 出かけない 計 50 0 50 110 150 165 200 い な い 40 計 50 フ ァ イ 係 数 = 1.00 フ ァ イ 係 数 = 0.64 ユ ー ル の Q= 1.00 ユ ー ル の Q= 1.00 クロス表の関連性を具体的に「見込み(オッズ)が何倍」と表わしたいならばオッズ比。 31 ( 問 題 1) 高齢女性の医療不安について分析している。一人暮らしの女性の方が、将来の医療に不 安を感じているのではないか、という仮説を考えて、下のようなクロス表を作成した。 不安がある 不安がない 計 一人暮らし 18 14 32 一人暮らしでない 56 73 129 計 74 87 161 注 : JGSS-2008の デ ー タ か ら 70代 女 性 の み 抽 出 し て 集 計 。 質 問 文 は 「 ご 自 身 や ご 家 族 の 将 来 の こ と を 考 え た と き 、「 必 要 な と き に 医 療 を 受 け ら れ な い 」 と い う 不 安 を ど の く ら い 感 じ ま す か 」 ( 1) 回 答 の 分 布 を 知 り た い 、 関 心 の 中 心 と な る 変 数 は ? →{一人暮らしかどうか・不安があるかどうか} 比 べ や す い よ う に 、 100 人 ず つ に 統 一 す る グ ル ー プ を 表 わ す 変 数 は ? →{一人暮らしかどうか・不安があるかどうか} ( 2) 必 要 な パ ー セ ン ト を 計 算 し て 、「 仮 説 は 正 し い 」 と い え る か 結 果 を 読 み 取 り な さ い 。 ( 3) フ ァ イ 係 数 、 ユ ー ル の Q、 オ ッ ズ 比 を そ れ ぞ れ 算 出 し な さ い 。 ■(補足)大きなクロス表での関係性の統計量 2×2よ り 大 き な ク ロ ス 表 で の 連 関 係 数 と し て は 、 ク ラ メ ー ル の V( Cramer’s V) が も っ と も よ く 利 用 さ れ る 。ク ラ メ ー ル の Vは 0~ 1の 値 を 取 り 、1に 近 い ほ ど 関 係 性 が 強 い 。た だ し 、 この統計量では、関係性の中身がまったくわからないことに注意が必要である。 また、大きなクロス表を作っている変数が順序尺度の変数の場合(例:これまでに海外 に 行 っ た こ と が「 1 ま っ た く な い 」 「2 一度はある」 「 3 何 度 も あ る 」)に は 、そ の 順 序 情 報 を利用して関係性を要約する統計量を用いる。この種の統計量は順序相関係数[順位相関 ロー 係 数 ]( rank correlation coefficient ) と 総 称 さ れ 、 ス ピ ア マ ン の ρ 、 グ ッ ド マ ン と ク ラ ガンマ タウ ス カ ル の γ 、ケ ン ド ー ル の τ な ど 多 様 な も の が あ る が 、い ず れ も 通 常 の 相 関 係 数 と 同 じ よ う に + 1~ - 1の 値 で 関 係 性 を 要 約 す る 。 ( 問 題 2) テレビへの信頼 右 の ク ロ ス 表 は 、20代 の 若 者 に「 新 聞 を 信 頼 す る か 」「 テ レ ビ を 信 頼 す る か 」 を 尋 ね た 調 査 結 果 で あ る ( JGSS-2000, 2005,2010)。 2つ の 変 数 の 関 係 性 に つ い て 、 順 序 相 関係数(グッドマンとクラスカルのγ) を算出すると、調査年ごとに、 2000年 … … 0.528 2005年 … … 0.911 2010年 … … 0.815 で あ っ た 。 調査年 新聞への信頼 20 0 0 20 0 5 20 1 0 とても信頼している 少しは信頼している ほとんど信頼していない 計 とても信頼している 少しは信頼している ほとんど信頼していない 計 とても信頼している 少しは信頼している ほとんど信頼していない 計 とても 信頼し ている 21 9 0 30 12 7 0 19 14 4 0 18 少しは 信頼し ている 51 18 8 3 24 2 24 11 8 3 14 5 27 11 5 4 14 6 ほとん ど信頼 計 してい ない 16 56 16 88 0 27 18 45 4 25 26 55 88 25 3 19 36 0 36 15 2 21 20 9 45 14 4 30 21 9 順 序 相 関 係 数 か ら 読 み 取 れ る こ と と し て 正 し い も に は ○ 、間 違 っ て い る も の に は ×を つ け な さ い 。 ( ( ( ( ) 2000年 よ り も 2010年 の 方 が テ レ ビ を 信 頼 す る 若 者 が 増 え た ) 新 聞 を 信 頼 す る 人 は 、 2000年 か ら 2005年 に か け て 減 少 し た )どの年でも、新聞を信頼しない人の方がテレビも信頼しない傾向がある ) 新 聞 を 信 頼 す る 人 ほ ど テ レ ビ も 信 頼 す る と い う 関 係 性 が 一 番 強 い の は 2005年 だ 32 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.6.11 第 9回 「 記 述 の 実 践 ( 1) 比 較 の プ ラ ン と 作 表 」 ■個別の技術をつなげる ここまでに、計量社会学で必要になるデータ記述について、基本的な方法を学習し終わ った。すなわち、数値を用いることで社会に客観的な形を与えるための方法として、 1) 1つ の 変 数 の 分 布 の 示 し 方 ( 度 数 分 布 表 、 基 本 統 計 量 [ 代 表 値 と ば ら つ き ]) 2) 2つ の 変 数 の 関 係 の 示 し 方 ( ク ロ ス 表 、 散 布 図 、 連 関 係 数 、 相 関 係 数 ) を学習した。これらの方法を駆使すれば、たいていの分析目的は果たすことができる。 この授業の後半は、個別に学習してきた技術を組み合わせて、統計データによる社会の 記述の「実践」に触れてもらう。それぞれの作業を全体の目的とつなげて理解することを 意識してもらいたい。 ■統計分析≒作表 実 践 的 な 分 析 の 一 番 大 切 な 枠 組 み は 、 作 表 ( tabulation) で あ る 。 つ ま り 、 ど ん な 分 析 をするかを考えるということは、突き詰めると「どんな表を作るかを考えること」といっ て よ い 。最 終 的 に「 表 」で は な く「 グ ラ フ 」や「 文 章 」で 表 現 す る と し て も 、そ の 元 は「 表 」 だからである。 自ら調査を実施してデータを集める場合には、目的を果たすためにはどのような表が必 要か、その表を作るためにはどのような変数群が必要か、それらの変数はどのような質問 項目で測定できるか、といったことをさかのぼって考える。つまり、作表のイメージがな ければ、そもそもデータを集めることもできない。 ■基本:まず度数分布表とクロス表 一口に作表といっても、いろいろな種類の表があるが、私たちは少なくとも度数分布表 とクロス表の作成について学んでいる。まずは、これらを確実に扱えるようになろう。下 .. . . . の よ う に 、 目 的 に 沿 っ た 作 表 の イ メ ー ジ 化 を 1人 で 実 践 で き な け れ ば な ら な い 。 「 学 園 祭 に は 何 年 生 が 多 く 来 て い る の だ ろ う か 」( 目 的 ) →参加者を調査して「学年の度数分布表」を作ろう(抽象的な作表イメージ) → 具 体 的 に は こ ん な 形 の 表 で 、た と え ば こ ん な 数 値 が 入 る は ず だ( 作 表 イ メ ー ジ の 具 体 化 ) 「 自 宅 生 よ り 下 宿 生 の 方 が 学 園 祭 に 参 加 し て い そ う だ が 、 本 当 に そ う だ ろ う か 」( 目 的 ) → 在 学 生 を 調 査 し て 「 住 居 ×学 園 祭 参 加 の ク ロ ス 表 」 を 作 ろ う ( 抽 象 的 な 作 表 イ メ ー ジ ) → 仮 説 ど お り な ら ば 、ク ロ ス 表 に こ ん な 数 値( % )が 入 る は ず だ( 作 表 イ メ ー ジ の 具 体 化 ) これらに十分理解した上で、さらに一変数の分布を要約した基本統計量(平均値や標準 33 偏差)を整理した作表や、二変数の関係を要約した相関係数や連関係数を整理した作表に も慣れてほしい。 も ち ろ ん 、実 際 に 作 表 を す る た め に は 、SPSSな ど 何 ら か の 統 計 分 析 ソ フ ト を 使 用 し な け れ ば な ら な い( 使 用 し な い と 大 変 で あ る )。し か し 、ど ん な 表 が 作 り た い か と い う こ と が 手 書きでもはっきりとイメージできていれば、ソフトの操作はまったく難しくない(楽に集 計 を す る た め の ソ フ ト な の だ か ら 、難 し い わ け が な い )。こ う い う こ と を 知 り た い と す る と 、 どんな表を作ればよいことになるのか、まずはコンピューターやデータを離れてイメー ジ・トレーニングを積んでほしい。 ■補足:比較の重要性を再び 改めて強調しておくが、計量社会学のデータから適切に意味を読み取るには、比較の視 点が大切になる。単純な度数分布表やクロス表を作成しているときも、どんな人々とどん な人々のグループを比べているのか(何を比較の軸にしているのか)をはっきりと意識し な け れ ば な ら な い 。 た と え ば 、「 未 婚 男 性 の 生 活 満 足 度 が 低 い 」 と い う 分 析 結 果 は 、 1つ の 数 値 で 示 せ る と 思 う か も し れ な い( 平 均 値 が 2.2点 等 )。し か し 、1つ の 数 値 で は 何 と 比 較 し て「低い」と判断しているのか不明なため、メッセージの説得力は弱い。 実際、比較の視点は多様に考えられ、比較対象によってメッセージはまったく異なって く る 。 未 婚 「 女 性 」 と 比 べ て 低 い 、「 既 婚 」 男 性 と 比 べ て 低 い 、「 10年 前 の 」 未 婚 男 性 と 比 べ て 低 い 、「 外 国 の 」 未 婚 男 性 と 比 べ て 低 い な ど で あ る 。 い ず れ に し て も 、 1つ の 数 値 だ け ではなく複数のグループについて、同じ種類の数値を算出して比較する必要がある。つま り、必然的に「作表」につながる。 ■補足:クロス表の縮約 社会調査のデータで作るクロス表は、調査項目の選択肢をそのまま用いるのではなく、 行や列の数を減らして、縮約したクロス表を作ることが必要になってくる場合が意外と多 い ( 表 1、 2が 縮 約 の 例 )。 た と え ば 、 選 択 肢 が 5つ の 評 定 尺 度 は 一 般 的 で あ る が 、 そ う し て 得 ら れ た 2つ の 変 数 の 関 係 性 を 5×5の ク ロ ス 表 で 表 現 す る と 、25個 の セ ル で 読 み 取 り に 骨 が 折 れ る 。 こ の 場 合 、 た と え ば 3×3の ク ロ ス 表 や 2×2の ク ロ ス 表 に 縮 約 し て 表 現 す る 。 表1 世帯収入と貧富解消政策への賛否(縮約前) 注 : デ ー タ は JGSS-2000 34 表2 世帯収入と貧富解消政策への賛否(縮約後) 賛否 世帯収入 少ない ほぼ平均 多い 計 どちらとも いえない 賛成 反対 計 725 384 100 1209 60.0% 31.8% 8.3% 100% 613 522 166 1301 47.1% 40.1% 12.8% 100% 134 123 65 322 41.6% 38.2% 20.2% 100% 1472 1029 331 2832 52.0% 36.3% 11.7% 100% 今日のポイント ①どんな分析をするかは、どんな「作表」をするかに集約される ②データを集める「前に」作表のプランを立てるイメージ・トレーニングが大切 (問題) 右 の よ う な 質 問 紙 調 査 を 120名 の 大 学生に対して行ったとする。 次のようなことを知りたいときに、 どのような表を作成すればよいか。そ れぞれイメージする表を作成して、数 値は予想で書き入れなさい。 ( 1) こ の 学 生 た ち は 「 お 金 」 を ど の く ら い重要と考えているか? ( 2) 男 子 と 女 子 で は 、 ど ち ら の 方 が 大 阪 を「 住 み や す い 」と 感 じ て い る の だ ろ う 。 35 ( 3) 大 阪 び い き な 人 は 東 京 を 目 の 敵 に す る こ ( 6) 自 分 が 重 要 視 し て い る 事 柄 ほ ど 、 力 を 入 と が あ る と 聞 く 。た と え ば 、大 阪 を「 楽 し い 」 れているので満足しているとも考えられる と 主 張 す る 人 は 、東 京 を 楽 し く な い と 主 張 す し 、逆 に 要 求 水 準 が 高 ま っ て 不 満 を 抱 え て い る傾向があるのか? る と も 考 え ら れ る 。 た と え ば 、「 趣 味 」 が 重 要 と 考 え て い る 人 は 、そ う で な い 人 よ り も 自 分 の 趣 味 へ の 満 足 度 が 高 い の か 、低 い の か ? ( 4) 結 局 の 所 、 学 生 は 全 体 的 に 見 て 大 学 生 活 ( 7) 重 要 に 思 っ て い る こ と と 満 足 し て い る こ の何を重要視しているのかを要約したい。a とがマッチしている項目とマッチしていな ~ nの 中 で 、重 要 度 が 高 い 項 目 は ど れ な の か 、 い項目(重要だけど満足できていないなど) 教えてほしい。 を 知 り た い 。a~ nの そ れ ぞ れ に つ い て 、重 要 度 と 満 足 度 の 間 の 関 係 が 強 い 項 目 、弱 い 項 目 はどれなのか? ( 5) 誰 で も 同 じ く ら い 満 足 し て い る 項 目 も あ れ ば 、人 に よ っ て 満 足 ・ 不 満 が 大 き く 分 か れ る 項 目 も あ る 。a~ nの 中 で 、満 足 度 の 格 差 が 大きい項目がどれなのかを知りたい。 ( 8) 男 子 と 女 子 で は 東 京 の イ メ ー ジ が い く ら か 違 う だ ろ う が 、ど の 選 択 肢 に つ い て 、と く に イ メ ー ジ が 違 っ て い る の か 、男 女 差 が 大 き い ベ ス ト 3を 特 定 し た い 。 ( 9) 自 由 な 分 析 視 点 か ら 、 こ の デ ー タ を 使 っ てできる面白い「作表」を提案てほしい。 36 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.6.18 第 10回 「 記 述 の 実 践 ( 2) グ ラ フ の 描 き 方 」 ■グラフの必要性 視覚に訴えるグラフは、数値が持つ情報を伝えるための強力な武器になる。とくに、多 くの数値からパターンを読み取る場合には、表のままよりも格段に情報が伝わりやすい。 何より、情報が視覚化されるグラフ作りは単純に楽しい。 グ ラ フ 作 成 に あ た っ て は 、 次 の 2つ の 目 的 を 見 失 わ な い よ う に し な け れ ば な ら な い 。 ・グラフは何らかの数値を比較する。 ・グラフはそのために何らかの視覚情報を利用する。 これらは当たり前のように思えるかもしれないが、どの「種類」のグラフがどのような 数値の比較をするために、どのような視覚情報を利用しているのかは、意外と意識されて い な い 。 表 1は 代 表 的 な 5種 類 の グ ラ フ に つ い て 、 こ れ ら の 情 報 を ま と め て い る 。 表1 棒グラフ 折れ線グラフ 円グラフ 帯グラフ ヒストグラム 代表的なグラフのポイント 比較の対象 利用する視覚情報 ある数量の大きさ ある数量の連続的な変化 全体に占める構成比 グループ別の構成比 連続した階級の度数 棒の長さ 線の傾き パイの面積 帯の面積 柱の面積 棒グラフは何らかの数量の大きさを比較するために、棒の長さでその数量の大きさを表 ........ し た も の で あ る 。比 較 す る も の は 、度 数 の 他 に 相 対 度 数( % )や 比 率 尺 度 の 変 数 の * 注 平 均 値 な ど 、そ の 絶 対 的 な 大 き さ に 意 味 が あ る も の で あ れ ば 何 で も よ い( 図 1)。 〔 ※ 注:間 隔 尺 度の変数は数値の絶対量を比べられないので、棒グラフはおかしいことに注意〕 一方、折れ線グラフで比較すべきなのは、それぞれの頂点の高さではない。比較すべき 単位は、頂点と頂点を結ぶそれぞれの線分である。線分の傾き方を比較することで、変化 の 傾 向 が 読 み 取 れ る ( 図 2)。 円グラフと帯グラフは両方とも、全体に占めるそれぞれのカテゴリーの構成比を示す。 帯 グ ラ フ は 、 特 に そ の 構 成 比 を グ ル ー プ 間 で 比 較 す る の に 向 い て い る ( 図 3、 4)。 ヒストグラムは、棒グラフの棒と棒の間の隙間をなくしただけに見えるが、その意味合 いは全く異なる。棒グラフがその長さに意味があるのに対して、ヒストグラムはその「面 積」に意味がある。ヒストグラムの柱と柱がくっついているのは、隣の区分と連続的に繋 がっているからである。したがって、隣あった柱の面積を合わせて、より広い範囲の度数 を 一 目 で 把 握 す る こ と も で き る ( 図 5)。 37 (%) 70 60 50 40 30 20 10 0 20代 47位 三重 46位 福井 45位 東京 44位 山梨 …… 43位 大阪 5位 沖縄 4位 静岡 3位 秋田 2位 長野 1位 新潟 0 出 所:2009年 度「 バ ス ケ ッ ト ボ ー ル 競 技 者 登 録 者 数 」 (財団法人日本バスケットボール協会) 出 所 : JGSS-2000 図3 宝くじを買う頻度? よくする 無回答 全くしない /知らない 時々する あまり しない 出 所 : JGSS-2000 図4 ふつうの収入の人が宝くじを買う(収入と宝くじ購入頻度の関係) 収入が平均よりかなり多い(n=26) 収入が平均より多い(n=299) 収入がほぼ平均(n=1,306) 収入が平均より少ない(n=930) 収入が平均よりかなり少ない(n=293) (%) 0 よくする 時々する 10 20 30 40 50 60 70 80 90 100 あまりしない 全くしない/知らない 出 所 : JGSS-2000 図 5 ペ ッ ト を 飼 っ て い る 人 が 1日 に ペ ッ ト と 過 ご す 時 間 8時間以上 7~8時間未満 6~7時間未満 5~6時間未満 4~5時間未満 3~4時間未満 2~3時間未満 1~2時間未満 1時間未満 600 500 400 度300 数200 100 0 出 所 : JGSS-2000 38 無回答 80代 20 50代 40 40代 60 1つ 1つ の 線 の 傾きに注目する 30代 (人) 80 70代 100 図2 世代によるカラオケをする割合の変化 60代 図 1 人 口 10万 人 あ た り の バ ス ケ 競 技 者 人 口 ■グラフのパーツ パーツに注目すると、グラフ作りの基本原則として以下のような点があげられる。 ・ 必 ず 図 表 番 号 ( 図 4、 表 5な ど ) と タ イ ト ル を 付 け る 。 ・ ど こ か か ら デ ー タ を 取 っ た 場 合 、 出 所 を 示 す 。( 何 年 に 誰 が し た 何 と い う 調 査 か ) ・軸には必ず軸ラベル、目盛りラベルを付ける。 ・プロットエリアには、極力プロット以外(凡例など)を含めない。 ・ 1つ の グ ラ フ の 中 に 複 数 の 比 較 軸 を 複 雑 に 持 ち 込 ま な い 。 ・不必要な装飾は避ける。 タイトル (title) 図6 縦軸 (vertical scale) プロットエリア (plot rectangle) 伸びる大学進学率 60 51.3 軸ラベル (scale label) マーカー (plot symbol) 50 目盛り (tick mark) 目盛り線 (reference line) 進学率(%) 41.0 36.8 40 データラベル (data label) 30 20 13.0 13.1 10 目盛りラベル (tick mark label) 2.4 0 1950 1960 横軸 (horizontal scale) 1970 1980 進学年度 男子 1990 2000 女子 出 所 : 1954~ 2006年 度 「 学 校 基 本 調 査 」( 文 部 科 学 省 ) 凡例 (key) 注釈 (caption) ■グラフの誤用 比較のために利用する「重要な視覚情報」を混乱させるようなグラフは作成してはなら な い 。 た と え ば 、 図 7の よ う に 目 盛 り が 0か ら 始 ま っ て い な い 棒 グ ラ フ が 不 適 切 で あ る 。 な ぜならば、棒グラフにとって数値の大きさを表す「命」であるはずの「棒の長さ」を混乱 さ せ る か ら で あ る 。 折 れ 線 グ ラ フ で あ れ ば 目 盛 り が 0か ら 始 ま っ て い な く て も 問 題 は な い 。 折 れ 線 グ ラ フ の 命 は 線 の 高 さ で は な く「 線 の 傾 き( の 相 対 的 比 較 )」だ か ら で あ る 。折 れ 線 グ ラ フ で は む し ろ 、 全 体 的 な 傾 き が お よ そ 45度 程 度 に な る よ う に 目 盛 り を 調 整 す る と 、 線 の 間 で 傾 き を 比 べ や す く 望 ま し い と さ れ て い る ( 人 間 は 45度 付 近 の 角 度 を も っ と も 敏 感 に 感 知 で き る )。 図7 不適切な棒グラフ(打ち切り) 39 ま た 、図 8の よ う な 立 体 の 棒 グ ラ フ が 不 適 切 と さ れ る の も 、棒 の 長 さ が わ か り に く く な る か ら で あ る 。 そ の 意 味 で 、( a) よ り も ( b) の 方 が 混 乱 が 大 き く な る 。 こ れ に 対 し て ( c) の 立 体 棒 グ ラ フ に は ほ と ん ど 問 題 は な い ( 棒 の 長 さ が わ か り や す い た め )。 ( a) 図8 ( b) ( c) 不適切な棒グラフ(立体) 視覚情報の混乱ではなく、そもそもそのグラフで比較できない数値をグラフ化してしま うことにも注意しなければならない。例えば、間隔尺度の変数の平均値を棒グラフで比較 し て い る 誤 り を よ く 見 か け る 。0か ら の 距 離 に 意 味 が な い 間 隔 尺 度 の 平 均 値 は そ の サ イ ズ に 意味がない。直感に訴えるグラフは強い力を持つだけに扱いに注意を要する。 ■文献紹介 通 り 一 遍 の こ と が 知 り た け れ ば 、 山 本 ( 2005) が コ ン パ ク ト で あ る 。 上 田 ( 2005) は 基 本を押さえつつも、グラフの研究者としてマニアックな指摘もあり、おもしろい。ジョー ン ズ( 2007= 2008)は 一 見 す る と た だ の ビ ジ ネ ス 書 だ が 、意 外 と 内 容 が し っ か り し て い る 。 実 践 的 な Excelに よ る グ ラ フ 作 成 の 本 は 、早 坂 清 志 の も の が 圧 倒 的 に よ い 。ハ ウ ツ ー と し て優れているだけでなく、統計学的な視点をふまえて適切なグラフ作成を促している。基 本 的 な も の は 早 坂 ( 2009)、 マ ニ ア ッ ク な も の は 早 坂 ( 2011) で 解 説 さ れ て い る 。 〈文献〉 ジ ェ ラ ル ド ・ E・ ジ ョ ー ン ズ 著 、 夏 目 大 訳 2008 『 チ ャ ー ト ・ 図 解 の す ご い 技 』 日 本 実 業 出 版 社 .( 原 著 2007年 刊 行 ) 早 坂 清 志 2009 『 達 人 が 教 え る Excelグ ラ フ テ ク ニ ッ ク 101』 毎 日 コ ミ ュ ニ ケ ー シ ョ ン ズ . 早 坂 清 志 2011 『 Excelの 極 意 2 グラフ』 毎日コミュニケーションズ. 上 田 尚 一 2005 『 統 計 グ ラ フ の ウ ラ ・ オ モ テ 』 ブ ル ー バ ッ ク ス . 山 本 義 郎 2005 『 グ ラ フ の 表 現 術 』 講 談 社 現 代 新 書 . 今日のポイント ①単純な集計で作表のプランを立てることにひたすら慣れよう ② グ ラ フ は 「 何 の 数 値 を 比 較 す る の か 」「 ど ん な 視 覚 情 報 で 比 較 す る の か 」 に 注 意 ③ 基 本 の 5つ の グ ラ フ か ら 、 意 識 的 に 最 適 な グ ラ フ を 選 ぼ う 40 (前回の問題の模範解答) ※当然、他のやり方もある。数値は実際の調査結果。 ( 1)表 Aの よ う に 、お 金 の 重 要 度 は 非 常 に 高 く 評 定 さ れ て い る 。 約 6割 の 人 が 5点 満 点 で の 「 5 極 め て 重 要 」 と い う 回 答 で 、「 1」 や 「 2」 と い う 人 は ほ と ん ど い な い。 ( 4) 表 Dは 各 項 目 の 重 要 度 の 高 さ を 平 均 値 で 要 約 し て 、 数 値 が 高 い 順 に 並 べ 直 し た も の で あ る 。 1位 ~ 5 位 ま で の お 金 ~ 就 職 の 見 込 み ま で は 、 い ず れ も 4.2点 以上の高い平均値を示している。 表A 表D お金の重要度の度数分布表 度数 重要度 1 2 3 4 5 計 % 0 1 10 20 49 80 0.0 1.3 12.5 25.0 61.3 100.0 (g)お金 (a)目標を立てること (e)十分な睡眠 (l)友人関係 (m)就職の見込み (f)よい食事 (b)授業での勉強 (k)一人の時間 (h)趣味 (d)家族からの支援 (n)部活・サークル (c)授業外の勉強 (j)アルバイト (i)資格の取得 ( 2)表 Bの ク ロ ス 表 で わ か る と お り 、男 女 の 間 で 大 阪 が「 住 み や す い 」と ○ し て い る 割 合 に は ほ と ん ど 違 い が な い 。男 女 と も 十 数 % の 学 生 だ け が 大 阪 を 住 み や す いと感じている。 表B 学生生活の各項目の重要度の平均値 重要度の平均値 4.46 4.34 4.34 4.24 4.24 4.11 4.01 4.00 3.93 3.85 3.71 3.68 3.67 3.64 性別と「大阪は住みやすい」のクロス表 男子 女子 計 住みやすいに ○あり 5 13.5% 5 11.9% 10 12.7% ○無し 32 86.5% 37 88.1% 69 87.3% 計 ( 5)表 Eは 各 項 目 の 回 答 の ば ら つ き 具 合 を 標 準 偏 差 で 要 約 し て 、高 い 順 に 項 目 を 並 べ た リ ス ト で あ る 。数 値 が 高 い こ と は 、人 に よ っ て 満 足・不 満 の 回 答 が 分 か れ や す い こ と を 意 味 し て い る 。極 端 な 違 い は な い が 、ア ル バ イ ト 、部 活 ・ サ ー ク ル 、十 分 な 睡 眠 な ど で 、満 足 度の格差が大きい。 37 100% 42 100% 79 100% 表E 満足度の標準偏差 ( 3)表 Cの と お り 、大 阪 が 楽 し い と 思 う 人 は 、東 京 も 楽 し い と 思 う 割 合 が 相 対 的 に 高 い の で 、仮 説 は 否 定 さ れ る 。た だ し 、大 阪 は 楽 し い が 東 京 は 楽 し く な い と い う 人 が 18人 い る の に 対 し て 、逆 に 東 京 だ け が 楽 し い と い う 人 が 7人 し か い な い こ と に は 注 目 す べ き で あ る 。 (j)アルバイト (n)部活・サークル (e)十分な睡眠 (k)一人の時間 (l)友人関係 (h)趣味 (f)よい食事 (d)家族からの支援 (g)お金 (a)目標を立てること (c)授業外の勉強 (i)資格の取得 (b)授業での勉強 (m)就職の見込み 表 C 「 大 阪 は 楽 し い 」と「 東 京 は 楽 し い 」の ク ロ ス 表 東京:楽しいに ○あり 大阪:楽しいに 17 ○あり 48.6% 7 ○無し 15.6% 24 計 30.0% ○無し 18 51.4% 38 84.4% 56 70.0% 学生生活の各項目の満足度の標準偏差 計 35 100% 45 100% 80 100% 41 1.30 1.26 1.26 1.16 1.14 1.14 1.11 1.11 1.10 0.98 0.93 0.93 0.92 0.82 ( 6)表 Fは 趣 味 の 重 要 度 に よ っ て 満 足 度 が ど う 異 な る か ク ロ ス 集 計 し た も の で あ る 。 選 択 肢 が 5つ で 煩 雑 な の で 、点 数 が 高 い グ ル ー プ と 低 い グ ル ー プ に 分 割 し 直 し た 。趣 味 を 重 要 と 思 っ て い る 学 生 の 方 が 、若 干 、趣 味 へ の 満 足 度 が 高 い 傾 向 が あ る が 、割 合 で 言 え ば 10% 程度の違いであり、強い関係性とは言えない。 表F 趣味の重要度と満足度のクロス表(縮約) 趣味の満足度 高い(4・5) 低い(1・2・3) 趣味の重要度 28 24 高い(4・5) 53.8% 47.2% 12 16 低い(1・2・3) 42.9% 57.1% 40 40 計 50.0% 50.0% 計 52 100% 28 100% 80 100% ( 8) 性 別 と 東 京 の イ メ ー ジ の 各 項 目 で 15個 の ク ロ ス 表 を 作 り 、各 表 で 男 女 の 選 択 割 合 を 比 較 す れ ば 、イ メ ー ジ の 違 い を 特 定 で き る 。男 女 差 が 大 き か っ た 順 に 並 べ 直 し た リ ス ト が 表 Hで あ る 。 息 苦 し い 、 さ み し い な ど の イ メ ー ジ は 男 子 の 方 が 強 く 、華 々 し い 、活 気 が あ る 、怖 い 、か っ こ い い と い っ た イ メ ー ジ は や や 女 子 に 強いことがわかる。 た だ し 、選 択 率 で 比 較 し て し ま う と 、性 別 と は 関 係 なくそもそも選択率が高い項目では男女差も大きく な り や す く 、選 択 率 が 低 い 項 目 で は 男 女 差 が 小 さ く な り や す く な っ て し ま う 。こ の こ と を 問 題 と 考 え る な ら ば 、各 ク ロ ス 表 で の 関 係 性 を 連 関 係 数 で 要 約 し て 比 較 す る 方 が よ い 。 表 Iは ユ ー ル の Qで 比 較 し た 結 果 で あ る 。 結 果 は 表 Hと 似 通 っ て い る 。 表H 東京のイメージの男女差(選択率で比較) 東京は…… 8 息苦しい 14 さみしい 12 すばらしい 6 住みやすい 1 ごみごみしている 11 悲しい 2 好ましい 15 恥ずかしい 9 安らか 13 忙しい 5 楽しい 10 かっこいい 4 怖い 3 活気がある 7 華々しい n ( 7)表 Gは 各 項 目 の 重 要 度 と 満 足 度 の 関 係 性 を 相 関 係 数 で 要 約 し た も の で あ る 。値 が 大 き い 順 に 並 べ 替 え て い る 。つ ま り 、部 活 ・ サ ー ク ル で は 、正 の 相 関 が 強 い の で 、重 要 と 考 え て い る 人 ほ ど 満 足 度 も 高 く 、両 者 が マ ッ チ し て い る 。一 方 、お 金 や 一 人 の 時 間 な ど は 負 の 相 関 で あ り 、お 金 を 重 要 と 思 っ て い る 人 ほ ど 、満 足 度 が低いということである。 表G 学生生活の各項目の重要度と満足度の相関係数 (n)部活・サークル (l)友人関係 (a)目標を立てること (c)授業外の勉強 (i)資格の取得 (h)趣味 (b)授業での勉強 (j)アルバイト (m)就職の見込み (d)家族からの支援 (f)よい食事 (e)十分な睡眠 (k)一人の時間 (g)お金 重要度と満足度の 相関係数 0.338 0.168 0.155 0.107 0.083 0.037 0.016 0.003 -0.103 -0.119 -0.160 -0.175 -0.201 -0.269 表I 男子の 女子の 男女差 選択率 選択率 (男-女) 54.1 38.1 16.0 29.7 16.7 13.1 16.2 7.1 9.1 16.2 9.5 6.7 67.6 61.9 5.7 10.8 7.1 3.7 10.8 7.1 3.7 0.0 0.0 0.0 0.0 2.4 -2.4 54.1 57.1 -3.1 27.0 31.0 -3.9 21.6 38.1 -16.5 32.4 50.0 -17.6 29.7 52.4 -22.7 40.5 64.3 -23.7 37 42 東 京 の イ メ ー ジ の 男 女 差 ( ユ ー ル の Qで 比 較 ) 東京は…… 12 すばらしい 14 さみしい 8 息苦しい 6 住みやすい 2 好ましい 11 悲しい 1 ごみごみしている 13 忙しい 5 楽しい 4 怖い 10 かっこいい 3 活気がある 7 華々しい 9 安らか 15 恥ずかしい 性別と各項目の関 連性(ユールのQ) 0.431 0.358 0.313 0.295 0.224 0.224 0.124 -0.063 -0.095 -0.351 -0.381 -0.444 -0.451 -1.000 -- (問題) 1. 上 記 の 表 A~ Iを グ ラ フ 化 す る と す れ ば 、 表2 健康関係の満足度の平均値の推移 基 本 の 5種 類 の グ ラ フ ( 棒 グ ラ フ ・ 折 れ 調査年 線 グ ラ フ・円 グ ラ フ・帯 グ ラ フ・ヒ ス ト 2013 2014 2015 十分な睡眠 3.13 2.86 2.69 よい食事 3.67 3.31 3.59 項目 グラム)の中でどれが最適か。 2. 右 の 表 を 折 れ 線 グ ラ フ で 表 現 し な さ い 。 た だ し 、グ ラ フ の 各 パ ー ト が 完 全 に 整 っ 注 :「 計 量 社 会 学 1」 で の 「 実 習 用 ア ン ケ ー ト 」 か ら 作 ている隙のないグラフを描くこと。 成 ( 2013~ 2015年 に 実 施 ) 42 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.6.25 第 11回 「 記 述 の 実 践 ( 3) PPDACサ イ ク ル 」 ■ PPDACサ イ ク ル と は ? 前 の 2回 で 計 量 的 な 記 述 に お い て は 、① 作 表 を 意 識 し た 分 析 プ ラ ン と 、② 適 切 な グ ラ フ 表 現 が 重 要 な こ と を 学 習 し た 。ま た 、こ の 講 義 の 前 半 で は ③ 各 種 の 分 析 の 道 具 立 て( 統 計 量 ) について学習した。いま、改めてこれらが一連の研究、あるいは問題解決の流れの中でど のように結びついてくるのかを確認しよう。 計 量 社 会 学 に 限 ら ず 、 統 計 的 な 証 拠 に 基 づ い て 何 ら か の 問 題 解 決 を 探 る 手 順 を PPDACサ イ ク ル と 呼 ぶ ※ 。PPDACサ イ ク ル と は 、ニ ュ ー ジ ー ラ ン ド の 統 計 教 育 学 者 が 90年 代 後 半 に 提 唱 し た 考 え 方 で( Wild & Pfannkuch 1999)、基 本 的 な 流 れ が 端 的 に ま と め ら れ て い る( 図 1)。 ※ 似 た よ う な 言 葉 に PDCAサ イ ク ル が あ る が 、別 も の で あ る( 経 営 学 や 品 質 管 理 で 用 い る )。 問題 まとめ 計画 分析 データ 図 1 PPDACサ イ ク ル P、P、D、A、Cは 、そ れ ぞ れ Problem( 問 題 )、Plan( 計 画 )、Data( デ ー タ )、Analysis( 分 析 )、 Conclusion( ま と め ) の 頭 文 字 で あ る 。 大 雑 把 に 言 え ば 次 の よ う な 流 れ に な る 。 [P]自 分 が 取 り 組 も う と し て い る 問 題 ・ 疑 問 が 何 な の か 、 は っ き り と さ せ る 。 [P]ど う す れ ば そ の 疑 問 が 解 け る の か 、計 画 を 立 て る 。ど こ か ら ど の よ う な デ ー タ を 取 っ てきて、どのような作表を目指すのか、大雑把な全体像を描く。 [D]分 析 に 必 要 な デ ー タ 収 集 を 行 う 。あ る い は 、す で に 存 在 す る 二 次 利 用 で き る デ ー タ を 入手する。 [A]デ ー タ を 計 画 ど お り に 分 析 し て 、 数 値 の 比 較 や パ タ ー ン の を 読 み 取 り を お こ な う 。 [C]分 析 に よ っ て わ か っ た こ と を ま と め て 、最 初 に 設 定 し た 疑 問 へ の 解 答 を 示 す 。こ こ で は、自分の答えを間違いなく他人に伝えるコミュニケーションの技術も重要となる。 43 ■最初と最後を意識する 一連の流れを一回限りの問題解決で終わらせずに「サイクル」として継続させることは 非 常 に 大 切 で あ る 。つ ま り 、C( ま と め )の 段 階 で 解 答 が 出 な か っ た 点 や 新 た に 生 じ た 疑 問 を 改 め て P( 問 題 )と し て 研 究 を 続 け る と い う こ と で あ る 。と く に 計 量 社 会 学 で は「 他 人 と 協力できる」という特徴を生かすために、この意識が殊更に重要になる。 そ の た め に は PPDACサ イ ク ル の 最 初( 問 題 )と 最 後( ま と め )に 意 識 的 に 力 を 入 れ な け れ ばならない。具体的には、まず「問題」を疑問文の形で明確に限定しなければならない。 たとえば、 「 研 究 の テ ー マ は〈 大 学 周 辺 の ゴ ミ の ポ イ 捨 て 問 題 〉で す 」と い っ た だ け で は 曖 昧 で あ る 。「 大 学 前 の 通 り で は 、 い つ 誰 が ポ イ 捨 て を し て い る の か ? 」「 男 子 学 生 の 方 が 多 くポイ捨てをしているのはなぜなのか?」といった具体的なリサーチ・クエスチョン ( research question) を 疑 問 文 の 形 で 明 確 に す る 。 一般的に言えば、計量的な研究では、問題の実態・原因・解決策のどの段階についての 疑問なのかをはっきりさせることは有効である。たとえば、ゴミのポイ捨て問題の場合、 実 際 に ど の く ら い ポ イ 捨 て が あ る の か( 実 態 )、な ぜ ポ イ 捨 て が な く な ら な い の か( 原 因 )、 ポイ捨て対策としてゴミ箱を増やすことは有効なのか(解決策)といった水準がある。 ま た 、サ イ ク ル の 最 後( ま と め )の 段 階 に お い て も 、計 量 的 研 究 に は 独 特 の 困 難 が あ る 。 端的に言ってしまうと、多くの人々は数字を見るのが嫌いであり、ただ数値を示すだけで はメッセージは伝わらない。客観的な情報として数値を示した上で、そこから何が読み取 れるのかを普通の言葉で伝えなければならない。残りの時間は、統計的なメッセージを発 す る と き に 気 を 付 け る べ き 3つ の ポ イ ン ト に つ い て 解 説 す る 。 1) 文 章 ・ グ ラ フ ・ 表 の 選 択 2) 関 係 の 方 向 性 と 強 さ を 明 示 3) GEEア プ ロ ー チ ( 問 題 1) いま「高校生の友達作り」という研究テーマで問題を考えているとする。問題の実態、 原 因 、解 決 策 の そ れ ぞ れ の 段 階 を 扱 っ た リ サ ー チ・ク エ ス チ ョ ン の 例 を 、1つ ず つ 考 え な さ い。なるべく細かい点に入り込んだ疑問文を目指すこと。 ■文章・グラフ・表の選択 統計的な分析結果は、文章・グラフ・表のいずれかで表現される。どれでも表現できる 場合でも、大まかに以下のような点に留意して最適なツールを選択すべきである。 ・伝達したい数値の個数は多いのか少ないのか? ・伝達時間はどのくらいあるのか? ・正確な値を伝える必要があるか? 伝 達 し た い 数 値 が 2、 3個 し か な い の で あ れ ば 、 図 表 は 大 げ さ で 、 文 章 の 中 に 数 値 を 含 め た方がよい。多くの数値を表現したいときには図表を用いるが、グラフと表の役割は大き 44 く 異 な る 。短 い 時 間 で 多 く の 情 報 が 伝 わ る の は グ ラ フ で あ る 。ま た 、1つ ひ と つ の 正 確 な 値 を伝える必要がなく、大まかなパターンを伝えたい場合にはグラフの方が適切である。 1 つずつの値を正確に伝えたい場合は表を用いる。このような側面から総合的に判断する。 ■関係の方向性と大きさ 分 析 結 果 を た だ 図 表 な ど で 提 示 す る だ け で は な く 、必 ず「 言 葉 で 」記 述 す る 必 要 が あ る 。 1変 数 の 分 布 を 表 現 す る こ と は 多 く の 人 が で き る(「 ○ ○ し た 人 は ××% で し た 」等 )。一 方 で 、 2変 数 の 「 関 係 性 」 を 正 し く 言 葉 で 表 現 す る こ と は 、 意 外 と で き て い な い 。 よくある悪い例は「死亡率は年齢と関係する」というように関係の有無にだけ言及して し ま う 記 述 で あ る 。 関 係 の 方 向 性 ( ±) と 強 さ ( サ イ ズ ) を 示 さ な け れ ば 、 十 分 な 記 述 で は な い 。た と え ば 、 「 年 齢 が 上 が る に つ れ て 死 亡 率 も 上 が る 」は 、関 係 の 方 向 性 は 示 し て い るが強さを示していない。 「 年 齢 が 上 が る に れ て 死 亡 率 は 上 昇 し 、5歳 ご と に ほ ぼ 倍 増 す る 」 といったように方向性と強さを含んだ上で、なるべく簡潔な表現を心がける。 ■ GEEア プ ロ ー チ また、関係性を記述するといっても、グラフ等が複雑なパターンを示すことがある。こ のときよくある間違いは、細かな点を一つずつ並べて記述してしまい、結局まとめになっ ていないというものである。 複 雑 な パ タ ー ン を バ ラ ン ス よ く 言 語 化 す る に は GEEア プ ロ ー チ ( GEE approach) が 効 果 的 で あ る ( Miller 2004)。 ま ず 、 細 か い こ と は 無 視 し て 図 表 の 一 番 大 き な パ タ ー ン を 記 述 す る ( 一 般 化 generalization)。 次 に 、 そ の パ タ ー ン が 具 体 的 に 図 表 の ど こ か ら ど の よ う に 読 み 取 ら れ た の か 、い く つ か の 数 値 で 例 を 示 す( 例 示 example)。最 後 に 、そ の パ タ ー ン が当てはまらない箇所が図表の中にある場合には、その箇所について言い訳をする(例外 exception)。 こ の 枠 組 み を 意 識 す れ ば 、 正 確 な 情 報 を わ か り や す く 伝 え や す い 。 60 大 学 40 進 学 30 率 ( 20 % ) 10 55.9 男子 50 47.5 女子 13.1 2.3 0 1945 1955 1965 1975 1985 1995 2005 2015 進学年度 図2 男女別大学への進学率の推移(短期大学は除く) 出 典 : 学 校 基 本 調 査 ( 文 部 科 学 省 1955~ 2014) ( GEEア プ ロ ー チ に よ る 記 述 の 例 ) 図 2の よ う に 、 男 子 も 女 子 も 大 学 進 学 率 は 急 上 昇 し て お り 、10年 ご と に 約 7ポ イ ン ト の ペ ー ス で 進 学 が 増 え て い る [G]。最 新 の 2014年 調 査 で は 、 男 子 55.9% 、 女 子 47.5% と 約 半 数 も の 人 々 が 大 学 に 進 学 し て い る [E]。 た だ し 、 1975~ 90 年 ご ろ は 例 外 的 に 進 学 率 が 停 滞 し て い る [E]。 男 女 の 差 に 注 目 す る と 、 男 子 の 方 が 常 に 進 学 率 が 高 く 、 約 10ポ イ ン ト の 差 が あ る [G]。 た と え ば 、 1955年 で は 10.8ポ イ ン ト 差 、 2014年 調 査 で も 8.4ポ イ ン ト 差 と 大 き な 違 い は な い [E]。 例 外 は や は り 1975~ 90年 ご ろ で 、 こ の 時 期 は 男 子 の 進 学 率 だ け が 急 上 昇 し 、 男 女 差 が 最 大 30ポ イ ン ト ま で 広 が っ た 特 殊 な 時 代 で あ る [E]。 45 (問題) ( 1)「 関 係 の 方 向 性 と 強 さ 」 と い う 視 点 か ら 、 次 の 記 述 の 改 善 す べ き 点 を 指 摘 し な さ い 。 ・アンケートの結果、食堂の満足度は値段と関係することがわかりました。 ・この大学生調査から、飲酒の翌日はケガをしやすいことが明らかになった。 ( 2)「 GEEア プ ロ ー チ 」 と い う 視 点 か ら 、 次 の 記 述 を よ り よ い も の に 書 き 換 え な さ い 。 通路に置くゴミ箱の数を増やせばゴミのポイ捨てが減るか、実験してみました。ゴミ箱を5 個 に し た 月 曜 日 は 、 ゴ ミ の ポ イ 捨 て が 25か 所 で み つ か り ま し た 。 ゴ ミ 箱 を 6個 に し た 火 曜 日 は 22か 所 で 、 ゴ ミ 箱 7個 の 水 曜 日 は 20か 所 、 ゴ ミ 箱 8個 の 木 曜 日 は 10か 所 、 ゴ ミ 箱 9個 の 金 曜 日 は 11か 所 で し た 。 ゴ ミ 箱 の 数 と ポ イ 捨 て の 量 が 関 係 す る こ と が わ か り ま す 。 月 火 水 木 金 ゴミ箱の数 5 6 7 8 9 ポイ捨ての数 25 22 20 10 11 今日のポイント ①統計的な問題解決は、データの収集・分析の技術があるだけではだめ PPDACサ イ ク ル を 意 識 し よ う ② リ サ ー チ ・ ク エ ス チ ョ ン は 、実 態 ・ 原 因 ・ 解 決 策 の ど の 段 階 の 疑 問 な の か を 明 確 に意識しよう ②分析結果の表現では、以下の点にとくに気をつけよう ・文章/表/グラフのどれを使うのが一番よいか、自覚的に判断する ・ 変 数 間 の 関 係 は 、 関 係 の 方 向 性 ( ±) と 強 さ ( サ イ ズ ) を 両 方 と も 示 そ う ・ 複 雑 な パ タ ー ン は 、 GEEア プ ロ ー チ で 文 章 を 整 理 し よ う <文献> C.J. Wild and M. Pfannkuch . 1999. “Statistical Thinking in Empirical Enquiry ,” International Statistical Review , 67(3):223-265. Miller, Jane E. 2004. The Chicago Guide to Writing about Numbers . The University of Chicago Press.( = 長 塚 隆 監 訳 . 2006. 『 数 を 表 現 す る 技 術 : 伝 わ る レ ポ ー ト ・ 論 文 ・ プ レ ゼ ン テ ー シ ョ ン 』 オ ー ム 社 .) ※ 次 回 ( 7/2) の 授 業 初 め に 3 回 目 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 第 9~ 11回 の 内 容 に つ い て 確 認 。 必 要 な 作 表 の 判 断 、 グ ラ フ の 適 切 な 使 用 、 結 果 を 伝 え る 文 章 の 書き方など。 46 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.7.2 第 12回 「 因 果 関 係 へ の 注 意 ( 1) 相 関 と 因 果 」 ■シンプソンのパラドックス 1つ の 調 査 デ ー タ の 中 で 、次 の よ う な 矛 盾 す る よ う な 結 果 が 得 ら れ る こ と は 、あ り え る だ ろうか。 1)男 子 学 生 の 中 で 、自 宅 生 と 下 宿 生 で ど ち ら の 方 が 自 分 で 料 理 を し て い る か を 調 べ る と 、( 当 然 で あ る が ) 下 宿 生 の 方 が 料 理 を し て い た 。 2) 女 子 学 生 の 中 で 調 べ て も 、 や は り 下 宿 生 の 方 が 料 理 を し て い た 。 ...... 3) と こ ろ が 、 男 女 を 合 わ せ た 全 体 で み る と 、 自 宅 生 の 方 が 料 理 を し て い た 。 結論を言ってしまうと、このようなパラドックス(逆説)は起こりうる。下のようにやや 極端な数値で例をあげてみれば、そのことはすぐわかるであろう。 表1 男女別のクロス表 表2 自分で料理をするか する 男 性 女 性 自宅生 3( 10% ) 一人暮らし 20( 20% ) 計 23 自宅生 一人暮らし 計 97 男女を合わせたクロス表 自分で料理をするか しない 計 27 30 自宅生 73( 56% ) する しない 57 130 計 80 100 一人暮らし 47( 36% ) 83 130 107 130 計 120 140 260 70( 70% ) 30 100 27( 90% ) 3 30 33 130 このように、集団に分けた場合と全体で観察した場合で認められる関連性が大きく異な る 現 象 を 、 シ ン プ ソ ン の パ ラ ド ッ ク ス ( Simpson’s paradox) と 呼 ぶ 。 統 計 的 な 調 査 で 非 常 によく見られる現象で、解釈を誤りやすいので、確実にその意味を理解する必要がある。 ■シンプソンのパラドックスの原理 この一見すると奇妙な現象は、言葉で書けば次のように説明できる。全体として見たと きに自宅生に料理をする人が多くなっているのは、ただ単に女子学生に自宅生が多いため である。女子学生の方が男子学生よりも料理をしているので、集計上は、自宅生に料理を している人が多いことになる。 も う 少 し シ ス テ マ テ ィ ッ ク に は 、3つ の 変 数 の 関 係 図 式 か ら 理 解 で き る 。も と も と 観 察 し て い る 2つ の 変 数 を X と Y 、 集 団 に 分 け る た め の 変 数 を Z と す る 。 集 団 に 分 け た 3重 ク ロ ス 表 で 見 え て い る X と Y の 関 係 性 は 、 図 1( a) の 太 線 の 部 分 の み を 純 粋 に 表 し て い る 。 こ れ に対して、変数Zで分けずに全体で観察しているXとYの関係性は、純粋なXY間の関係 性に加えて、XZ間の関係性とYZ間の関係性が折り重なって見える関係性が、いっしょ く た に 混 ざ っ た も の を 表 し て い る こ と に な る ( b)。 47 (a) (b) Z Z こうなって… わからない X 図1 Y X 合わさる Y X Y X Y シンプソンのパラドックスの原理 ■見せかけの関係 こ の と き 混 ざ り あ っ た 関 連 性 の 組 み 合 わ せ に よ っ て 、い ろ い ろ と 不 思 議 な 現 象 が 起 こ る 。 この現象を正しく解釈するためのもっとも重要なキーワードが、見せかけの関係[擬似相 関 ]( spurious relation; spurious correlation) で あ る 。 見 せ か け の 関 係 と は 、 適 切 な グ ル ー プ 分 け を し な い で 全 体 を 見 る と 、2つ の 変 数 の 間 に あ た か も 重 要 な 関 係 が あ る か の よ う に 見 え る が 、そ れ は 共 通 の 原 因 で あ る 第 3の 変 数 に よ っ て 引 き 起 こ さ れ て い る に す ぎ な い 、 という場合を指している。このとき、本質的には意味がない歪んだ関係が観察されること に な る 。最 初 に あ げ た 例 は 、 「 性 別 」と い う 共 通 原 因 に よ っ て 、 「 自 宅 生 で あ る こ と 」と「 料 理をすること」の間に、見せかけの正の関係が発生して、本来の負の関係を覆い隠してし まったのである。ここでは質的変数(カテゴリー変数)によるクロス表で例を示したが、 量的変数であっても、考え方はまったく変わらない。 この現象は、計量社会学にとって極めて重要な問題を示唆している。我々が統計的な調 査 デ ー タ か ら 知 り た い こ と は 、ほ と ん ど の 場 合 、何 ら か の 因 果 関 係( causal relation)の 有無やその大きさである。統計は、その因果関係を客観的に示す、と多くの人々が信じて い る 。 つ ま り 、「 自 宅 生 の 方 が 料 理 を し て い る 」 と い う 統 計 デ ー タ は 、「 自 宅 生 で あ る こ と が料理をすることを引き起こす」証拠である、と考えてしまう。ところが、見せかけの関 係 が 存 在 す る 以 上 、た だ 単 に 2つ の 変 数( Xと Y)の 関 係 を 統 計 的 に 調 べ て も 、そ れ で 因 果 関 係がわかるわけではない。一般に、この事実は「相関と因果は異なる」という戒めとして 徹底的に注意される(ここで用いられる「相関」は、相関係数に表される直線的な関係に 限 定 せ ず に 、統 計 デ ー タ の 表 面 的 な 関 係 全 般 を 指 す 広 義 の 相 関 で あ る )。こ の 戒 め を 忘 れ る と、完全に間違ったデータ解釈を次々におこなってしまうことになる。 ■共通の原因への注目 一方で、この問題を回避する方法は難しいわけではない。先の例からもわかるように、 問 題 を 引 き 起 こ す 第 3の 変 数 さ え 自 覚 し て い れ ば 、そ の 変 数 で グ ル ー プ 分 け し た 上 で 、も と も と 関 心 の あ っ た 2つ の 変 数 の 関 係 を 調 べ れ ば よ い 。も し 、見 せ か け の 関 係 で あ れ ば 、グ ル ー プ 別 の 観 察 で は 関 係 性 が 見 ら れ な く な る は ず で あ る し 、見 せ か け の 関 係 で な い の な ら ば 、 グループ分けしても同様の関係性が残るはずである。 具 体 例 を 示 そ う 。表 3は 、実 際 の 調 査 デ ー タ で の 見 せ か け の 関 係 の 例 で あ る 。 「子どもを1 人 だ け も つ と し た ら 、 男 の 子 が ほ し い か 、 女 の 子 が ほ し い か 」 を 尋 ね て い る 。 表 3( a) か らは、 「 タ バ コ を 吸 う 人 の 方 が 男 の 子 を ほ し が る 傾 向 が 強 い 」と い う こ と が わ か る 。こ の 関 係性は客観的な事実であるが、このことから「タバコを吸えば、男の子がほしい気持ちが 引 き 起 こ さ れ る 」、つ ま り 因 果 関 係 が あ る 、と 解 釈 す る こ と は 思 考 が 飛 躍 し て い る 。少 し 考 48 え れ ば わ か る よ う に 、こ れ は 性 別 と い う 共 通 の 原 因 に よ る 見 せ か け の 関 係 で あ る 。一 般 に 、 現代日本人は自分と同性の子どもをほしがる傾向があるので、男性は男の子をほしがり、 女性は女の子をほしがりやすい。また、男性の方が喫煙率が高い。このことから、本質的 な 因 果 関 係 が な い 2つ の 変 数 の 間 に 見 せ か け の 関 係 が 観 察 さ れ る こ と に な る 。 そ こ で 、 本 当 に 見 せ か け の 関 係 か ど う か を 確 認 す る た め に 、 表 3( b) の よ う に 男 女 別 に して集計をやり直してみると、 「 喫 煙 」と「 ほ し い 子 ど も の 性 別 」の 間 に は ほ と ん ど 何 の 関 係もなくなった。同じ性別の中では、何の関係性も観察されないという結果が、性別が重 要な共通原因であったことを示している。もし、男女別でもまだ関係性が観察されるなら ば、性別が引き起こす見せかけの関係以外の意味が残されていることを意味する(本質的 な 因 果 関 係 か も し れ な い し 、 ま た 別 の 原 因 に よ る 見 せ か け の 関 係 か も し れ な い )。 表3 実 際 の 見 せ か け の 関 係 の 例 ( 喫 煙 ×ほ し い 子 ど も の 性 別 : JGSS-2000) ( a) グ ル ー プ 分 け し な い 場 合 男の子が 女の子が ほしい ほしい 喫煙する 479 54 . 8 % 395 45 . 2 % 874 喫煙しない 729 38 . 5 % 1164 61 . 5 % 1893 計 1208 1559 計 2767 ( b) 性 別 で グ ル ー プ 分 け し た 場 合 → 「 喫 煙 」 と 「 ほ し い 子 ど も の 性 別 」 の 関 係 が 消 滅 男性 女性 男の子が 女の子が 欲しい 欲しい 喫煙する 411 65 . 2 % 219 34 . 8 % 630 喫煙しない 384 61 . 3 % 242 38 . 7 % 626 計 795 喫煙する 68 27 . 9 % 176 72 . 1 % 244 喫煙しない 345 27 . 2 % 922 72 . 8 % 1267 計 413 461 1098 計 1256 1511 このように見せかけの関係を引き起こす共通原因のことを、先行変数[交絡変数] ( antecedent variable; confounding variable ) と 呼 ぶ ※ 。 ※ 本 来 の 用 語 の 意 味 か ら は 、「 交 絡 変 数 」 の 方 が 正 確 な 用 語 で あ る が 、 社 会 学 で は 当 初 こ の 考 え 方 が 紹 介 さ れ た と き に 、「 先 行 変 数 」 の 呼 び 方 が 広 ま っ て し ま っ た の で 、 伝 統 的 にこちらをよく用いる。先行変数は、本来、ある変数よりも先に起こると想定される変 数のことを指す。だから、正確には、先行変数の一部が交絡変数として見せかけの関係 を引き起こす、といえる。 と に も か く に も 重 要 な こ と は 、社 会 現 象 を 観 察 す る と き に 、積 極 的 に 第 3の 変 数 に よ る 見 せかけの関係の可能性を考慮することである。統計調査の結果を用いて新聞等でなされる 主張の中には、見せかけの関係を示しているにすぎない可能性が高いものが頻繁に見受け 49 ら れ る( 例: 別 資 料 の「 コ ー ヒ ー と 肝 が ん 」 「 朝 食 と 成 績 」)。も ち ろ ん 、本 当 に 見 せ か け の 関係かどうかは、データによって検証しなければはっきりとした結論を下すことはできな い。しかし、大部分の過ちは、慎重な思考だけで十分に看破できる。常に、見せかけの関 係の可能性を疑って、先行変数[交絡変数]を頭の中で探すクセを付けることである。そ れだけで一段階も二段階も上の水準で社会現象について考えることができる。 (問題) 1. 次 の よ う な 2変 数 に つ い て 調 査 デ ー タ で 関 係 性 を 調 べ る と 、 ま ず 間 違 い な く 強 い 関 係 性 が観察される。しかし、この関係性は見せかけの関係の可能性がある。どのような共通原 因が見せかけの可能性を引き起こすと考えられるか、先行変数を想像してみよう。 ( 1) ( 2) 四 十 代 の 男 性 小 学 体重 生 × (+ ) 足の速さ ( 3) × 肺がん × 給料 (+ ) ( 4) 三 十 代 の 就 労 者 中 学 生 家に灰皿 がある TVを 視 る 時間数 × (- ) 成績 手の 大きさ (+ ) 2.身 近 な こ と で 、見 せ か け の 関 係 が 観 察 さ れ る で あ ろ う 現 象 を 、何 か 1 つ 想 像 し 、共 通 原 因を含めた 3 つの変数の関係を図示しなさい。矢印には正の関係か負の関係かがわかるよ うに+-の記号を付けること。 今日のポイント ①統計でわかるのは相関関係。因果関係とは違う ②見せかけの関係(疑似相関)にだまされないためには、関係を引き起こす共通原 因(先行変数、交絡変数)を想像することが大切 〈文献〉 ボ ー ン シ ュ テ ッ ド & ノ ー キ 著 海 野 道 郎 ・ 中 村 隆 監 訳 1990 『 社 会 統 計 学 』 ハ ー ベ ス ト 社 . 保 田 時 男 2014 「 見 せ か け の 関 係 に だ ま さ れ な い 」 関 西 大 学 WEB 版 模 擬 講 義 http://www. kansai-u.ac.jp/koudai/movie/index.html( 2015 年 7 月 1 日 確 認 ) ( iTunesU で も 配信しているらしい) 50 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.7.9 第 13回 「 因 果 関 係 へ の 注 意 ( 2) 見 せ か け の 関 係 の 追 求 」 ■相関関係と因果関係は異なる(復習) 前回、 「 相 関 関 係 と 因 果 関 係 は 異 な る 」と い う こ と を 学 習 し た 。つ ま り 、ク ロ ス 表 や 散 布 図 、あ る い は そ れ を 要 約 し た 相 関 係 数 や 連 関 係 数 で 2つ の 変 数 に 関 係 性 が あ る こ と が わ か っ た と し て も 、そ れ は そ の ま ま 因 果 関 係 が 存 在 す る こ と の 証 明 に は な ら な い 。た と え ば 、 「友 人が多い学生の方が、大学生活に満足している」ということが調査でわかったとしても、 それは「友人の数」という原因が「大学生活の満足」という結果を引き起こす因果関係を 示すことにはならない(友人の少ない学生に強制的に友人を作らせても、大学生活の満足 度 の 分 布 が 上 昇 し な い 可 能 性 が あ る )。 そ の 理 由 は 、2つ の 変 数 の 相 関 関 係 が 共 通 の 原 因( 先 行 変 数 )に よ る 見 せ か け の 関 係 で あ る 可 能 性 が あ る か ら で あ っ た 。た と え ば 、 「 部 活 や サ ー ク ル に 入 っ た 」と い う こ と が 、友 人 を 増 や し 、同 時 に 大 学 生 活 の 満 足 度 を 高 め て い る の か も し れ な い 。あ る い は 、 「適応力の高 い性格」が共通の原因なのかもしれない。 ■因果関係は証明できるのか 相関関係は因果関係の存在を保証してはくれない。では、因果関係の存在を証明するた め に は 、ど う す れ ば よ い の か 。こ の 辺 り の 事 情 に つ い て 詳 し い 書 籍 と し て は 、久 米( 2013) をお勧めする。政治学の例が中心だが、社会科学全般に通用する優れたテキストである。 結論を述べてしまうと、究極的には統計データから因果関係を証明することは、不可能 である。なぜならば、統計データからは社会で起こっていることについて、何らかの原因 が何らかの効果を「引き起こしていることそのもの」を観察することができないからであ る。我々に可能なことは、因果関係を主張するために最低限満たしていなければならない 条 件 ( 因 果 関 係 の 必 要 条 件 ) に 注 意 を 払 う こ と で あ る 。 一 般 的 に は 次 の 3点 が あ げ ら れ る 。 条件① 統計的関係性の存在 条件② 時間順序が正しい 条件③ 見せかけの関係でないこと ま ず 、2つ の 変 数 の 間 に 統 計 的 な 関 係 性 が 存 在 し な け れ ば な ら な い 。こ れ は 当 た り 前 の こ と で あ っ て 、ク ロ ス 表 や 散 布 図 で ま っ た く 何 の 関 係 性 も 見 ら れ な い 2つ の 変 数 の 間 に 因 果 関 係があると考えることはできない。 次に、時間順序を考えたときに、原因の方が結果に先行していなければならない。前回 は注目しなかったが、因果関係の誤解として、単純に原因と結果を逆に考えてしまう、と いう可能性もある。たとえば、友人が多いから大学生活に満足しているのではなく、大学 生活に満足しているからよく学校に脚を運び、友人が増えているのかもしれない。この条 件のポイントは、 「 時 間 順 序 が 分 か ら な け れ ば 、因 果 関 係 を は っ き り さ せ る こ と は で き な い 」 51 と い う こ と で あ る 。先 ほ ど も 例 に あ げ た と お り 、 「 友 人 が 多 い 学 生 ほ ど 、大 学 生 活 に 満 足 し ている」ということが観察されても、友人が多いことと、大学生活に満足していることの どちらが時間的に先行しているのかわからない。そのため、この情報だけでは、どちらが 原因かを特定して因果関係を定めることはできない。 3つ 目 の 条 件 を 理 解 す る こ と は 、 も っ と も 重 要 で あ る 。 た と え 、 2つ の 変 数 の 間 に 統 計 的 な関係性が存在し、時間順序が確認されたとしても、共通の原因による見せかけの関係か もしれない。 前回からの繰り返しになるが、見せかけの関係に惑わされないためには、常識的な知識 や 理 論 的 な 考 察 を も と に 、2つ の 変 数 に は「 共 通 の 原 因 が あ る か も し れ な い 」と 常 に 注 意 を 払うことが、もっとも大切である。共通の原因の可能性に気づくことさえできれば、その 変数を考慮した統計分析、あるいは質的なアプローチ(インタビューや観察)から、その 検討を行うことはそう難しいことではない。 新聞や雑誌、インターネットには、統計的な相関関係をもとにして因果関係を主張する 記事がよく見られる。それは本当に因果関係なのか。因果が逆の可能性、見せかけの関係 である可能性に常に注意を払い、批判的に検討する姿勢を日々訓練しよう。 ( 問 題 1) 「家族といっしょの方が自殺する?」 高齢者の自殺というと一人暮らしの孤独な老人というイメージを持ちがちだが、上野 ( 2007= 2011) に よ る と 、 高 齢 者 の 自 殺 率 は 、 意 外 な こ と に 一 人 暮 ら し の 老 人 よ り も 同 居 家 族 が い る 老 人の 方 が高 い 。ここ で根 拠と し ている 調査 デー タは 明 記され てい ない が、福 島県精神保健福祉センターの調査や秋田県の調査などいくつかのデータで、このような事 実が確認されているので、 「 一 人 暮 ら し の 高 齢 者 よ り も 、家 族 と 同 居 し て い る 高 齢 者 の 方 が 、 自殺率が高い」ことは安定的な客観的事実のようである。 ( 1) こ の 事 実 か ら 、 次 の よ う に 述 べ る こ と は 適 切 か 、 そ れ ぞ れ ○ ×を 付 け な さ い 。 ( )家族と同居している老人は、一人暮らしに変えた方が自殺の可能性が減る ( )いま家族と同居している老人は、いま一人暮らしの老人よりも自殺する可能性が高い ( )家族との同居は、老人が自殺する原因の一つである ( )「 家 族 と 同 居 す る こ と 」 と 「 自 殺 」 は 、 因 果 が 逆 の 可 能 性 が あ る ( 2)「 家 族 と の 同 居 」 と 「 自 殺 」 の 間 の 見 せ か け の 関 係 は 、 ど の よ う な 先 行 変 数 ( 共 通 の 原因)によって発生している可能性があるか、考えてみよう。 ヒ ン ト ① 自 殺 は 女 性 よ り 男 性 に 圧 倒 的 に 多 い ( 7割 が 男 性 )。 ヒント②現在の日本社会では、経済的に許されれば一人暮らしをする老人が多い。 ( 問 題 2) あ な た の 友 人 が 新 聞 記 事「 父 親 と 長 く 過 ご す ほ ど 我 慢 強 い 子 に 」 ( 別 資 料 )を 読 ん で 、次 のように主張している。見せかけの関係の視点から、できるだけ簡単な言葉で(中学生で 52 もわかる程度の言葉で)この主張を批判しなさい。 「新聞で見たけど、赤ちゃんの時に父親と過ごす時間が長かった子どもは、大きくなって から我慢強かったり、集中力が高かったりするらしいよ。ていうことは、法律で強制的に 『父親は週に○○時間以上子どもと過ごすこと』とか決めれば、我慢強い子どもが増える ってことだよね。日本の将来を考えたら、そのくらいやっちゃった方がいいんじゃないか な 。 国 が 何 年 も か け て や っ た 調 査 で わ か っ た こ と な ん だ か ら 、 活 か さ な い と 。」 ■補論:先行変数と媒介変数の違い あ る 関 係 が 見 せ か け の 関 係 で あ る 、と い う 場 合 に 大 切 な こ と は 、第 3の 変 数 Z が X に 因 果 関 係 上 で 先 行 し て い る こ と で あ る( 図 1の a)。Z → X と い う 方 向 の 因 果 だ か ら こ そ 、X の 値 を人為的に操作したとしても、Yの値が変化することはない(X→Z→Yという流れはで き な い の で )。一 方 で 、X → Z と い う 矢 印 の 方 向 で あ れ ば 、X の 値 が 変 わ れ ば Z の 値 の 変 化 を 介 し て Y の 値 も 変 化 す る( 図 1の b)。し た が っ て 、 ( a)は 見 せ か け の 関 係 だ が 、 ( b)は 見 .... せ か け の 関 係 で は な い 。第 3の 変 数 Z を 加 え る こ と で 、X と Y の 関 係 の 道 筋 を よ り 詳 し く 示 し た こ と に な る 。2つ の 変 数 の 共 通 の 原 因 と し て 見 せ か け の 関 係 を 作 っ て い る 変 数 の こ と を 先 行 変 数[ 交 絡 変 数 ]と 呼 ぶ の に 対 し て 、2つ の 変 数 の 間 に 入 っ て 関 係 を 仲 介 す る 変 数 の こ と を 媒 介 変 数 ( intervening variable ) と 呼 ん で 区 別 す る 。 このように矢印の方向は重要であるが、統計データから矢印の方向を知ることはできな い。そのための材料は、統計の外(理論や日常の観察)から持ち込まなければならない。 Z 媒介変数 Z 先行変数 X Y ( a) Z → X の 場 合 図1 X Y ( b) X → Z の 場 合 先行変数と媒介変数 ■補論:実験と調査 一般的に、いわゆる「理系」では見せかけの関係への注意は大きな問題になりにくい。 見せかけの関係は特に「文系」で問題になる。それは、理系の統計データが主に実験によ っ て 収 集 さ れ る の に 対 し て 、文 系 の 統 計 デ ー タ が 主 に 調 査 に よ っ て 収 集 さ れ る か ら で あ る 。 なぜ、実験だと見せかけの関係が問題にならないのか。実験では、何らかの効果を発揮 す る と 仮 定 さ れ る 刺 激 に つ い て 、一 方 の グ ル ー プ に は そ の 刺 激 を 与 え( 実 験 群 と 呼 ぶ )、も う 一 方 の グ ル ー プ に は 刺 激 を 与 え な い ( 統 制 群 と 呼 ぶ )。 こ れ ら 2つ の グ ル ー プ を 比 較 す る ことで、その刺激の効果を計測する。たとえば、ある薬が特定の病気に効果をもつかどう かを調べるために、一方のグループにはその薬を与え、もう一方のグループには与えない ( 偽 薬 を 与 え る )。 このとき重要なことは、誰をどちらのグループに割り当てるかはランダム(無作為)に 決 め ら れ る 、 と い う こ と で あ る 。 つ ま り 、「 X→ Y」 に お け る 「 X」 は 完 全 に 偶 然 に よ っ て 決 53 ま る も の な の で 、 そ の 先 行 変 数 ( Xと Yに 共 通 の 原 因 ) は 存 在 す る は ず が な く 、 し た が っ て 見せかけの関係も起こりえない。 これに対して、調査は人工的な刺激を与えるのではなく、人々のあるがままの現状を調 べ る 。 し た が っ て 、「 X→ Y」 に お け る 「 X」 は 、 そ の 人 の 自 由 意 思 や 社 会 経 済 的 な 制 約 な ど から様々な影響を受け、見せかけの関係が発生する危険性に満ちあふれている。この面で は、文系の計量社会学は、理系の実験統計よりも明らかに困難な問題に立ち向かわなけれ ばならない。 ( 問 題 3) 「出席と成績の関係」 ( 1)一 般 に 、た い て い の 講 義 科 目 で は 学 生 の 出 席 回 数 と 成 績 の 間 に 正 の 相 関 関 係 が 見 ら れ る 。つ ま り 、出 席 回 数 が 多 い 学 生 ほ ど 成 績 が よ い 。こ の こ と か ら 、 「成績を上げるためには、 とにかく出席することが大切だ」という意見をよく聞く。この意見に対して、見せかけの 関係の側面から批判を加えなさい。 ( 2) 実 際 の 社 会 で は 、 見 せ か け の 関 係 と 本 当 に 意 味 の あ る 因 果 関 係 が 混 じ り 合 っ て い て 、 非 常 に や や こ し い 。計 量 社 会 学 の 授 業 に つ い て 、学 生 の「 出 席 」 「成績」 「意欲」 「 理 解 」を 調べたとすると、どんな関係性が現れると思うか、図式(矢印と+-)を描いた上で、そ の図式で何を表したつもりか、文章で説明しなさい。 今日のポイント ①因果関係を主張するための必要条件に注意を払う ・統計的関係性の存在 ・時間順序が正しい ・見せかけの関係でないこと ②見せかけの関係と媒介関係を混同しないように注意 ③見せかけの関係は、調査データを使う限り逃れられない問題 〈文献〉 久 米 郁 男 2013 『 原 因 を 推 論 す る : 政 治 分 析 方 法 論 の す ゝ め 』 有 斐 閣 . 上 野 千 鶴 子 2007 『 お ひ と り さ ま の 老 後 』 法 研 .( 文 庫 版 、 2011、 文 春 文 庫 ) ... ※ 次 回 ( 7/ 16) の 授 業 の 終 わ り に 最 後 の 小 テ ス ト 小 テ ス ト は 、 A4 用 紙 1 枚 を 持 ち 込 み 可 。 見 せ か け の 関 係 + 次 回 の 授 業 内 容 に つ い て 。 4 回 の 小 テ ス ト の 合 計 点 が 60 点 以 上 な い 場 合 、 学 期 末 試 験 を 受 験 で き な い 。 小 テ ス ト が 60 点 に 満 た な か っ た 者 は 15 回 目 の 授 業 後 に 小 テ ス ト の 追 試 を 受 け る こ と 。 (一部の小テストを受験できなかった者も含む) 54 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.7.16 第 14回 「 白 書 と 政 府 統 計 」 ■既存の統計資料の利用 計量社会学を実践するためには、当然、目的に見合った統計データを手に入れなければ ならない。データを得るためには自らが社会調査をして一次データを集める以外に、他人 が 集 め た デ ー タ を 再 利 用 す る 方 法 も あ る 。 他 人 が 集 め た デ ー タ を 二 次 デ ー タ ( secondary data) と 呼 び 、 そ の 分 析 を 二 次 分 析 ( secondary analysis) と 呼 ぶ 。 と く に 、 政 府 調 査 な どの既存統計を二次データとして利用することは有益である。自ら調査をすることに比べ れば極めてわずかな労力で信頼性の高いデータが利用できる。うまく活用しよう。 ■内閣府の世論調査 一昔前まで、既存統計を利用するためには、図書館で分厚い冊子をめくり、必要な統計 表を探し、たくさんの数字を書き写さなければならなかった(図書館のリファレンスコー ナ ー )。 し か し 、 現 在 は 多 く の 統 計 資 料 が イ ン タ ー ネ ッ ト で 公 開 さ れ て お り 、 Excelデ ー タ でそのまま利用できるものも多い。 非 常 に 便 利 な 世 の 中 だ が 、逆 に 、ど こ か ら 手 を 付 け れ ば い い の か わ か ら な い こ と も あ る 。 初めて統計資料を探索する者は、まず「内閣府の世論調査」を眺めてみるとよいだろう。 比較的身近なテーマについての短いアンケートデータが、大雑把な集計で公開されている ( ほ と ん ど の 場 合 、単 純 な 度 数 分 布 表 の ま ま )。調 査 テ ー マ は 多 岐 に わ た る の で 、い く つ か 興味のあるデータが見つかるに違いない。 ○内閣府の世論調査 http://survey.gov-online.go.jp/ 55 ■基幹統計 内閣府の論調査は、親しみやすくおも しろいものの、かなり荒い集計データな の で 、突 っ 込 ん だ 分 析 に は む い て い な い 。 より深い情報を手に入れるためには、も う少し「固い」統計資料を探したい。た と え ば 、国 勢 調 査 は 5年 に 一 度 、日 本 に 住 むすべての人々を対象に行われる、もっ ↑国勢調査イメージキャラクター センサスくん。 とも固い統計資料である。固い統計資料 平 成 2年 調 査 か ら 使 用 。( ※ セ ン サ ス censusと は 、 は他にもたくさんあるが、特に重要な統 国勢調査のように原則全戸を対象とする公的人口 計 資 料 は 基 幹 統 計 ( 2009年 施 行 の 統 計 法 調査のこと) 改正で指定統計から改名)と呼ばれ、国 民はその作成に協力することが法律で義務付けられている。基幹統計は、ほぼ同じ調査内 容で毎年(あるいは数年おきに)データが集められる繰り返し横断調査[反復横断調査] ( repeated cross-sectional surveys ) で あ る 。 基 幹 統 計 一 覧 ( 平 成 27年 3月 現 在 、 55種 ) 内閣府 国民経済計算 総務省 国勢統計 住宅・土地統計 労働力統計 小売物価統計 家計統計 個人企業経済統計 科学技術研究統計 地方公務員給与実態統計 就業構造基本統計 全国消費実態統計 社会生活基本統計 経済構造統計 産業連関表 財務省 法人企業統計 国税庁 民間給与実態統計 文部科学省 学校基本調査 学校保健統計 学校教員統計 厚生労働省 人口動態統計 毎月勤労統計 薬事工業生産動態統計 医療施設統計 患者統計 賃金構造基本統計 社会教育調査 国民生活基礎統計 生命表 社会保障費用統計 農林水産省 農林業構造統計 漁業構造統計 経済産業省 工業統計 牛乳乳製品統計 木材統計 経済産業省生産動態統計 ガス事業生産動態統計 造船造機統計 建設工事統計 商業動態統計 経済産業省特定業種石油等消費統計 経済産業省企業活動基本統計 港湾統計 海面漁業生産統計 商業統計 石油製品需給動態統計 特定サービス産業実態統計 国土交通省 作物統計 農業経営統計 鉱工業指数 建築着工統計 船員労働統計 鉄道車両等生産動態統計 自動車輸送統計 内航船舶輸送統計 法人土地・建物基本統計 こ の よ う な 固 い 統 計 資 料 は 、 政 府 統 計 の 総 合 窓 口 サ イ ト 「 e-Stat( イ ー ・ ス タ ッ ト )」 か ら入手できる。ただし、膨大な統計表があるため、慣れないと目的の情報のありかを探す だけで一苦労である。また、古い資料にはアクセスできない場合がある。 56 ○ 政 府 統 計 の 総 合 窓 口 「 e-Stat( イ ー ・ ス タ ッ ト )」 http://www.e-stat.go.jp/ ■どんな既存統計があるのかを、知るためには? e-Statは 非 常 に 便 利 で あ る が 、そ も そ も ど ん な 統 計 資 料 が 存 在 す る の か を 知 ら な け れ ば 、 目 当 て の も の を 見 つ け る こ と は 難 し い 。代 表 的 な 既 存 統 計 を 知 る た め の 1つ の 方 法 は 、白 書 を読むことである。白書は、官公庁のそれぞれが担当分野の動向をまとめて毎年発行する 冊子である。白書には実にさまざまな統計資料が利用されており、何度も出てくるような 統計は、その分野の代表的な統計資料であることがわかる。近年の白書は電子版がインタ ーネットで公開されている。 ○首相官邸から白書へのリンク 「資料集」→「白書」 http://www.kantei.go.jp/ ○内閣府から白書へのリンク 「活動・白書等」→「白書、年次報告書等」 http://www.cao.go.jp/ また、国立国会図書館の「リサーチ・ナビ」は、もっと直接的に、代表的な既存統計を 教えてくれる。いくらかは統計資料に慣れていないと統計の内容が想像しにくいが、非常 によくまとめられているので、自分の関心のある分野について、じっくりと取り組んでみ るとよい。 57 ○国立国会図書館 「調べ方案内」→「リサーチ・ナビ」→「統計」 http://www.ndl.go.jp/ ■素データの利用 二次データとして利用できるのは、ほとんどの場合、集計データであるが、素データの ま ま 公 開 利 用 で き る も の も あ る 。 社 会 学 で は 、 2000年 か ら 1、 2年 お き に 行 わ れ て い る 繰 り 返 し 横 断 調 査 の JGSS( 日 本 版 総 合 的 社 会 調 査 )な ど が 学 生 で も 利 用 で き る( 指 導 教 員 を 通 し た 申 請 が 必 要 )。 素データとして公開利用できるデータは、ふつうデータアーカイブという機関を通して 利用できる。調査の実施者は自分が集めたデータを広く有効活用してもうために、データ ア ー カ イ ブ に デ ー タ を 預 け 、デ ー タ を 必 要 と す る 利 用 者 は 、デ ー タ ア ー カ イ ブ に 申 請 し て 、 データを貸してもらう。日本の社会科学分野での最大のデータアーカイブは、東京大学の SSJデ ー タ ア ー カ イ ブ で あ る 。 一 部 の デ ー タ は 、 学 生 で も 利 用 で き る 。 ま た 、 素 デ ー タ が 利用できない場合でも全体の集計データは公開されている。一度、データを探索してみる とよい。 ○ JGSS ○ SSJデ ー タ ア ー カ イ ブ http://jgss.daishodai.ac.jp/ http://ssjda.iss.u -tokyo.ac.jp/ 58 ■その他 ここで紹介した以外にも、世の中には多くの既存統計があふれている。市町村が行った 調査や、大学、民間団体が行った調査もある。インターネットで検索できるデータもあれ ば、紙媒体だけで手に入るデータや、調査実施者だけが持っているデータもある。いずれ にしても、自ら一次データを集めることに比べれば、既存統計を探すことの手間は、非常 に小さい。テーマに合ったおもしろいデータがないか、よく探索してみることである。 おまけ:小学生~高校生向けの統計学習サイト「なるほど統計学園」 統計を利用する流れがわかりやすく、わりと使えるサイト ○統計局 統計学習サイト 「なるほど統計学園」 http://www.stat.go.jp/naruhodo/ 今日のポイント ①基幹統計など信頼できるデータは積極的に二次分析に利用すべき ②データアーカイブを利用すれば、素データを自由に分析できる 59 や す だ 計 量 社 会 学 I( 2015年 度 春 学 期 担 当 :保 田 ) 2015.7.23 第 15回 「 ま と め 」 ■計量社会学とは ・計量社会学……積極的に数値(統計データ)を活用する社会学の一分野 記述統計……データが持つ情報を要約して記述する(計量社会学Ⅰ) 推測統計……一部のデータから調べてもいない全体を推し測る(計量社会学Ⅱ) ・数値を使う意義 ①数値を使えば、社会に実態を与えることができる( ←誰も知らない社会をデータが語る ) ②数値を使えば、他人と協力できる(←客観的だから) ■計量社会学のデータ ・社会学のデータ=量的データ+質的データ ・ 計 量 社 会 学 の デ ー タ = 変 数 ×ケ ー ス 集めたままの細かいデータ=素データ[ローデータ] グループでまとめたデータ=集計データ ・測定尺度による変数の分類 名義尺度……数字は名札代わり →質 的 変 数 ( 計 算 で き な い 変 数 ) 順序尺度……数字の順序だけに意味がある 間隔尺度……数字の間隔が量を表す →量 的 変 数 ( 計 算 で き る 変 数 ) 比 率 尺 度 … … 数 字 が 2倍 な ら 量 も 2倍 ・確率論からの変数の分類 離散変数……取りうる値がいくつかの点で決まっており、間はありえない変数 連続変数……理論上、無限に細かい測定ができる変数 ■記述統計の基本的な道具 素朴な観察 1つ の 変 数 の 分布を調べる 統計量による要約 基本統計量 度数分布表 → 代表値(最頻値、中央値、平均値) ばらつき(範囲、四分位偏差、分散・標準偏差 ・変動係数) 2つ の 変 数 の 関係性を表わす統計量 関係を調べる クロス表 相関係数 → 散布図 連 関 係 数 ( ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 な ど ) 60 ■ 1つ の 変 数 の 分 布 を 表 わ す ( 度 数 分 布 表 ) ・ 度 数 分 布 表 は 度 数 が 重 要 。 相 対 度 数 の み で は ダ メ ( 少 な く と も 全 体 の nは 示 す )。 ・階級の分け方の原則 ①排他的で包括的 ②階級幅は等しくする ③キリのよい数値の扱いに注意 ■基本統計量の利用 ・ 基 本 統 計 量 … … 1つ の 変 数 の 分 布 を 要 約 す る 統 計 的 な 数 量 代表値+ばらつき ・ ど の 代 表 値 を 用 い る か は 、 長 所 と 欠 点 を よ く 考 え る こ と ( は ず れ 値 の 影 響 な ど )。 最頻値(モード)とにかく度数の多いも の └ ─ → 中央値(メディアン)ちょうど真ん中 平均値(ミーン)全部足してケース数で 割る ・どのばらつきの統計量を用いるかも、それぞれの意義をよく考えること。 範囲 最大値-最小値 四分位偏差 中央値から第 3四分位までの距離と第 1四分位までの距離の平 均 └ ─ → 分散 平均との偏差を平方し たものの平均 標準偏差 分散の正の平方根 変動係数 標準偏差を平均で割っ たもの ・補足的な基本統計量 歪度……左右対称からのゆがみ具合 尖度……きれいなベル型と比べたとがり具合 ・Σの計算は「すべてのケースで同じ計算をして、結果を足し合わせる」だけ。 ■ 2つ の 変 数 の 関 連 性 を 表 わ す ( ク ロ ス 表 、 散 布 図 ) ・ 2変 数 の 関 連 性 を 探 る と き に は 、 ク ロ ス 表 が 基 本 ( 全 体 を グ ル ー プ に 分 け て 集 計 )。 ・クロス表の相対度数は、適切なものを選ぶことが重要。 └ ─ → 行 % /列 % /全 体 % が あ り う る ・量的変数同士の関係は、散布図でも読める。 ■関連性の統計量の利用 ・ 2つ の 変 数 の 関 連 性 も 1つ の 数 値 で 表 せ れ ば 便 利 ( 基 本 統 計 量 と 同 じ 発 想 )。 ・ 相 関 係 数 … … 散 布 図 に 表 わ さ れ る 量 的 変 数 同 士 の 関 係 性 を - 1~ + 1で 表 わ す 。 r> 0→ 正 の 相 関 ( 2つ の 変 数 が 同 じ 方 向 に 増 減 す る ) r< 0→ 負 の 相 関 ( 2つ の 変 数 が 別 々 の 方 向 に 増 減 す る ) ・連関係数……クロス表に表わされる質的変数同士の関係性を表わす統計量の総称。 2×2の ク ロ ス 表 の 場 合 → ユ ー ル の Q、 フ ァ イ 係 数 、 オ ッ ズ 比 より大きなクロス表の場合→クラメールのV (順序尺度変数の場合は、各種の順序相関係数も使える) 61 ■統計的な記述の実践 ・統計分析≒作表 どんな分析をするかを考えることは、どんな表を作るか考えること。 作表を考えるためには、比較の軸を意識しなければならない。 度数分布表、基本統計量、クロス表、相関係数など単純な道具だけで十分効果的。 ・実際のクロス表は縮約する必要がある場合が多い。 ・グラフ作成の原則 ①グラフは数値を比較する ②グラフは視覚情報を利用する →代 表 的 グ ラ フ で 、 ど ん な デ ー タ を 比 較 す る た め に 、 どの視覚情報を利用しているのか、注意 ※そのグラフの大事な視覚情報を軽視すると、誤解を招くグラフを作成してしまう。 ・ PPDACサ イ ク ル … … 統 計 的 に 問 題 を 解 決 す る 際 の ス テ ッ プ 。 Problem, Plan, Data, Analysis, Conclusion 問題、計画、データ、分析、まとめ ・「 文 章 ・ グ ラ フ ・ 表 」 の 選 択 を 自 覚 的 に 。 ・発見したパターンを文章にする際の注意。 変 数 間 の 関 係 性 を 記 述 す る こ と が 基 本 。 関 係 性 の 方 向 性 ( ±) と 強 さ を 両 方 示 す 。 複 雑 な 記 述 は GEEア プ ロ ー チ ( 一 般 化 、 例 示 、 例 外 の 順 序 ) に 留 意 。 ■見せかけの関係 ・シンプソンのパラドックス … … 2つ の 集 団 に 分 け た 場 合 と 全 体 で 見 た 場 合 で 関 連 性 の あ り 方 が 異 な る 現 象 ・相関と因果は異なる ⇒「見せかけの関係」の仕組みを確実に理解する。 先行変数と媒介変数を区別。 ・ 因 果 関 係 は 証 明 で き な い ( 最 低 限 の 必 要 条 件 が あ る の み )。 └→①統計的関係の存在 ②時間順序が正しい ③見せかけの関係でない ■既存の統計資料の利用 ・基幹統計を中心に、二次分析できそうなデータの雰囲気を知っておくこと。 ・データアーカイブで素データの分析も可能なことを知っておくこと。 〈学期末試験について〉 7月 30日 に 60分 間 の 試 験 持ち込みすべて可(ただし、頭に入っていないと時間が足りなくなるはず) 電卓は携帯電話以外で(小テストと異なるので注意) 62
© Copyright 2024 ExpyDoc