データ分析入門(8) 第8章 散布図と相関係数 廣野元久 1 本章の概要 2つの量的データのばらつき方を調べ,その関連 (相関関係)をグラフと数値で評価する 2変量間の相関関係には, 因果関係と擬似相関があるため, 関連を見誤らないように, 現象からの考察の重要性を学習する JMPを使った散布図や相関係数の求め方を 理解する 第8章 散布図と相関係数 廣野元久 &高橋行雄 2/28 1.相関と相関係数 1.1相関 2変量の関連を調べるにはグラフ(散布図)を作 ることが第一である. 2つの変量に直線的関連が見えるとき 身長が高ければ体重が重い(右上がり):正相関 紙コプタの重りが増えれば滞空時間が短い:負相関 電子時計の精度と価格 :無相関 2つの変量に曲線的関係が見えるとき 年齢と運動能力 直線的な相関関係では測れない 第8章 散布図と相関係数 廣野元久 &高橋行雄 3/28 1.1相関 Dasampleの 県データ.jmpより 強い正相関 強い負の相関 無相関 相関の強さは 赤の楕円の状態でみる 面積の広い円から, 面積の小さい直線的な楕円 になるにつれ相関が強くなる 第8章 散布図と相関係数 廣野元久 &高橋行雄 4/28 1.2 相関係数 散布図は,2変量の関連を視覚的に理解できる 相関係数の値 1.0 ~ 0.7 0.7 ~ 0.4 0.4 ~ 0.2 0.2 ~-0.2 -0.2 ~-0.4 -0.4 ~-0.7 -0.7 ~-1.0 相関係数の強弱 強い正の相関がある 中程度の正の相関がある 弱い正の相関がある ほとんど相関がない 弱い負の相関がある 中程度の負の相関がある 強い負の相関がある 上は一応の目安:標本の数や 研究分野で異なる 第8章 散布図と相関係数 廣野元久 &高橋行雄 5/28 2. 散布図と相関係数 2.1 散布図を描く ビッグクラス.jmpをロードする 多変量の相関をクリック 第8章 散布図と相関係数 廣野元久 &高橋行雄 6/28 2.1散布図を描く(1) 1.身長(インチ)をクリック 2.&4.Y,列をクリック 3.体重(ポンド)をクリック 5.OKボタンをクリック 第8章 散布図と相関係数 廣野元久 &高橋行雄 7/28 2.1散布図を描く(1) 1.相関係数行列が表示される 自分自身との相関なので, ここは1となる ‘½•Ï—Ê ‘ŠŠÖ ’·(ƒCƒ“ƒ`) g ‘Ì d(ƒ|ƒ“ƒh) g’·(ƒCƒ“ƒ`) ‘Ì d(ƒ|ƒ“ƒh) 1.0000 0.7092 0.7092 1.0000 ŽU•z } s —ñ 身長と体重の相関 体重と身長の相関 つまり同じもの 70 65 60 g’·(ƒCƒ“ƒ`) 55 180 160 140 ‘Ì d(ƒ|ƒ“ƒh) 120 100 80 55 60 65 70 80 100 120 140 160 180 このようなテーブル(行列)を 対称行列という 変量が増えると一覧としてみ やすい表現 第8章 散布図と相関係数 廣野元久 &高橋行雄 8/28 ‘½•Ï—Ê ‘ŠŠÖ 2.1散布図を描く(2) g’·(ƒCƒ“ƒ`) ‘Ì d(ƒ|ƒ“ƒh) g’·(ƒCƒ“ƒ`) 1.0000 0.7092 ‘Ì d(ƒ|ƒ“ƒh) 0.7092 1.0000 ŽU•z } s —ñ 確率楕円 70 楕円内に95%の データが分布している 範囲を表す 65 60 g’·(ƒCƒ“ƒ`) 55 180 160 140 ‘Ì d(ƒ|ƒ“ƒh) 120 100 80 55 60 65 70 80 100 120 140 160 180 相関が低いほど円に近い 相関ゼロで,円 相関が高いほど面積が小さい 相関±1で,直線 身長と体重は, 正の相関(直線的傾向)が かなり強いことが分かる 第8章 散布図と相関係数 廣野元久 &高橋行雄 9/28 2.2 散布図による2変量間の関係の表現 (1) 県データ.jmpをロードする 都道府県 面積(平方km2) 人口(千人) 持家比率% 商店数(千店) 電力消費量 一人当 地方税収入(千円) 一人当 地方交付税交付金(千円) 第8章 散布図と相関係数 廣野元久 &高橋行雄 自動車 保有台数 (千台) 10/28 2.2 散布図による2変量間の関係の表現 (2) 県データの散布図行列を描画する 強い正相関 ŽU•z } s—ñ 90000 70000 50000 30000 10000 10000 6000 –Ê Ï lŒû 2000 対角成分のセルクリックして, 別な対角成分のセルに ドラック&ドロップすれば 散布図行列の順番が変わる 80 60 40 600 400 200 0 3500 2500 1500 500 Ž ‰ Æ”ä— ¦ ’n•ûŒð•t Å ’n•û Å Žû 125 ¤ “X ” 75 25 25000 ‘ŠŠÖ –Ê Ï 1.0000 lŒû 0.1121 Ž ‰ Æ ”ä— ¦ -0.1098 ’n•ûŒð•t Å 0.8636 ’n•û Å Žû 0.0155 Ž©“®ŽÔ•Û—L ¤ “X ” 0.0977 “d—Í Á ”ï—Ê 0.0485 Ž©“®ŽÔ•Û—L 0.1749 25 75 125 5000 20000500 2000 “d—Í Á ”ï—Ê –Ê Ï 15000 5000 2500 1500 500 1000060000 2000 8000 40 60 80 0 200 500 500 2500 第8章 散布図と相関係数 廣野元久 &高橋行雄 lŒû Ž ‰ Æ ”ä— ’n•ûŒð•t ¦ Å ’n•û Å Žû 0.1121 -0.1098 0.8636 0.0155 1.0000 -0.8039 -0.1541 0.7239 -0.8039 1.0000 0.0536 -0.5028 -0.1541 0.0536 1.0000 -0.1803 0.7239 -0.5028 -0.1803 1.0000 0.9756 -0.8113 -0.1547 0.7665 0.9919 -0.8054 -0.2271 0.7573 0.9690 -0.7504 -0.1074 0.6397 “X ¤ ” “d—Í Á ”ï—ÊŽ©“®ŽÔ•Û—L 0.0977 0.0485 0.1749 0.9756 0.9919 0.9690 -0.8113 -0.8054 -0.7504 -0.1547 -0.2271 -0.1074 0.7665 0.7573 0.6397 1.0000 0.9841 0.9265 0.9841 1.0000 0.9407 0.9265 0.9407 1.0000 11/28 2.2 散布図による2変量間の関係の表現 (3) (1)高い相関と低い相関、無相関 高い相関 人口 と商店数,人口と電力消費量 低い相関 人口と地方交付税 無相関 持家比率と地方交付税 第8章 散布図と相関係数 廣野元久 &高橋行雄 12/28 2.2 散布図による2変量間の関係の表現 (4) (2)正の相関と負の相関 正の相関 人口と商店数:散布図は右上がり相関係数正 負の相関 地方交付税と商店数:散布図は右下がり相関係数負 地方交付税と人口 :散布図は右下がり相関係数負 地方交付税 地方 中小土木 人口 商店数 第8章 散布図と相関係数 廣野元久 &高橋行雄 都市部 多産業、本社 13/28 3. 相関と因果 3.1 相関と因果の関係 因果 ある現象が原因となって別の現象(結果)を引き起こす 通貨供給量と物価 北海道から南下するに従い、青色の嗜好が下がる (1979:読売新聞調べ) 因果と散布図 因果関係があると強い相関を持つ 散布図に右上がり正相関(右下がり負相関)が見られる 相関と因果 逆に相関があるからといって、直ちに因果があるとはい えない 第8章 散布図と相関係数 廣野元久 &高橋行雄 14/28 3.1 相関と因果の関係(2) 車とテレビ.jmpをロードする ‘½•Ï—Ê ‘ŠŠÖ Ž©“®ŽÔ ƒJƒ‰ [ ƒeƒŒƒr Ž©“®ŽÔ 1.0000 0.9368 ƒJƒ‰ [ ƒeƒŒƒr 0.9368 1.0000 相関あり →因果は背後の変量 ŽU•z } s —ñ Car 9000 7000 5000 Ž©“®ŽÔ 0.9368 TV (疑似相関) 3000 1000 20000 15000 ƒJƒ‰ [ ƒeƒŒƒr 10000 5000 X(豊かさ) 0 1000 4000 7000 0 5000 15000 第8章 散布図と相関係数 廣野元久 &高橋行雄 所得 経済成長 価格低下 15/28 3.1 相関と因果の関係(3) 廃棄物処理.jmpをロードする ‘ ½•Ï —Ê ‘ ŠŠÖ 相関あり →因果 lŒû ƒSƒ ~Žû W—Ê l Œû 1.0000 0.9832 ƒSƒ ~Žû W — Ê0.9832 1.0000 ŽU • z } s— ñ 600000 500000 人口 400000 l Œû 300000 廃棄物量 200000 住民生活ごみ 人口が増れば廃棄物も増る 100000 150000 100000 ƒSƒ ~Žû W—Ê 50000 100000 300000 500000 50000 100000 150000 相関は統計量から分かるが, 因果は変量の意味が 分からなければ解釈できない 第8章 散布図と相関係数 廣野元久 &高橋行雄 16/28 3.2 みせかけの相関(疑似相関) (1) •第3の変量zが原因で,第1と第2の変量x、yに影響を与え, xとyに相関が生じたとき,xとyを疑似相関と呼ぶ 本来は無関係 Car 相関が出た TV Car TV 年と共に,所得が増え その結果 豊かさ(経済成長)に起因して増えたもの ならどんな項目でも良い 例) 土地価格 ビール消費量 大学進学率 第8章 散布図と相関係数 廣野元久 &高橋行雄 豊かさ 経済成長 17/28 3.2 みせかけの相関(疑似相関) (2) 県データ.jmpをロードする ‘½•Ï—Ê ‘ŠŠÖ lŒû “d—Í Á ”ï—ÊŽ©“®ŽÔ•Û—L l Œû 1.0000 0.9919 0.9690 “d—Í Á ”ï—Ê 0.9919 1.0000 0.9407 Ž©“®ŽÔ•Û—L 0.9690 0.9407 1.0000 ŽU•z } s—ñ 12000 10000 8000 6000 4000 l Œû 2000 25000 20000 15000 消費電力と自動車保有台数 の相関は因果があるか 消費電力が上がれば, 自動車保有台数が増えるの? 自動車保有台数が減れば, 消費電力が減るの? 疑似相関 “d—Í Á ”ï—Ê 10000 5000 3000 2500 2000 1500 1000 Ž©“®ŽÔ•Û—L PCで相関を調べ, 人間の知恵で因果を考察 疑似相関の罠から逃れよう 500 2000 6000 10000 5000 1500025000500 1500 2500 第8章 散布図と相関係数 廣野元久 &高橋行雄 18/28 4. 層別 データ全体から幾つかのグループに分類(層別)したとき 分類毎に散布図を作ると“ものの本質”が分かる 層別 無相関 異なるグループを混ぜると 相関が消える 第8章 散布図と相関係数 廣野元久 &高橋行雄 強い相関 強い相関 19/28 4.1 層別 (2) 1.あやめ.jmpをロードする 2.二変量の関係をクリック 6.yをクリック 4.xをクリック 3.がくの長さをクリック 5.がくの幅をクリック 第8章 散布図と相関係数 廣野元久 &高橋行雄 7.OKをクリック 20/28 あやめのデータ 第8章 散布図と相関係数 廣野元久 &高橋行雄 21/28 4.1 層別 (3) ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 1.散布図が描画される がくの長さ と がくの幅の 相関が見られないぞ! 4.5 4.0 ‚ª‚‚Ì• 3.5 3.0 2.5 3.グループ別をクリック 2.0 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚‚Ì’·‚³ 2.▼をクリック 4.層別する変量候補が リストに表示される 第8章 散布図と相関係数 廣野元久 &高橋行雄 22/28 4.1 層別 (4) 2.OKをクリック 1.種類をクリック 3.メニューから Density Ellipses(確率楕円)をクリックし, .95(95%信頼区間)をクリック ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 4.0 ‚ª‚‚Ì• 3.5 3.0 2.5 2.0 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚‚Ì’·‚³ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa" “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor" “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica" 第8章 散布図と相関係数 廣野元久 &高橋行雄 23/28 4.1 層別 (5) ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 4.0 アヤメの品種で層別したら 相関が発見できた ‚ª‚‚Ì• 3.5 3.0 2.5 2.0 4.0 4.5 5.0 5.5 6.0 6.5 ‚ª‚‚Ì’·‚³ 練習問題 7.0 7.5 8.0 他の変量間にも, このような発見が Ží—Þ=="setosa" 可能であろうか Ží—Þ=="versicolor" “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica" 第8章 散布図と相関係数 廣野元久 &高橋行雄 24/28 4.1 層別 (6) 1.一変量の分布 をクリック 2.種類をクリック, 3.Y,列をクリック 4.OKをクリック ˆê •Ï —Ê‚Ì•ª•z Ž í—Þ v irginica v ers icolor 6.Setosaデータは 反転していることを 確認 s et os a 5.Setosaをクリック “x ” … € “x ” setosa 50 第8章 散布図と相関係数 versicolor 50 廣野元久 &高橋行雄 virginica 50 Š„ ‡ 0.33333 0.33333 0.33333 25/28 4.1 層別 (7) 1.抽出(サブセット)をクリック 2.Setosaだけのデータセットができる ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 4.0 4.0 ‚ª‚‚Ì• 3.5 ‚ª‚‚Ì• ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 3.0 2.5 3.5 3.0 2.5 2.0 4.5 5.5 6.0 ‚ª‚‚Ì’·‚³ 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚‚Ì’·‚³ 5.0 3.Setosaだけの 散布図が描画できる “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa" “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor" 第8章 “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica" 散布図と相関係数 廣野元久 &高橋行雄 26/28 4.2 相関を利用したグループの判定 ‚ª‚‚Ì’·‚³‚Æ ‚ª‚‚Ì• ‚ Ì“ñ•Ï—Ê‚ÌŠÖŒW 4.5 Setosa領域 4.0 ‚ª‚‚Ì• 3.5 新しいデータ1 Setosaの95%確率楕円内 Virginica,Versicolorの 95%確率楕円の外 3.0 2.5 2.0 それ以外 このデータは,Setosaと 考えるのが妥当であろう 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚‚Ì’·‚³ “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="setosa" Setosa以外だが,Virginicaか Virginicaの可能性が高い “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="versicolor" Versicolorかまでは分からない “ñ•Ï—Ê ³ ‹K‘ȉ~ P=0.950 Ží—Þ=="virginica" 第8章 散布図と相関係数 廣野元久 &高橋行雄 27/28 4.2 相関を利用したグループの判定 4.5 4.0 ‚ª‚ ‚Ì• 3.5 A 3.0 D 2.5 C B E 2.0 A,B,C,D,Eをどう判定する? 他の変量も利用せよ. 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 ‚ª‚‚Ì ’·‚³ 第8章 散布図と相関係数 廣野元久 &高橋行雄 28/28
© Copyright 2024 ExpyDoc