統計量だけではデータ特性を正しく把握することは出来ない

データの可視化
-統計量だけではデータ特性を正
しく把握することは出来ない-
第10回 日本ウーマンズヘルス学会 学術集会
オープンスクール統計講座
講師 後藤恭一(航空環境研究センター 調査研究部)
データの見える化
• 「よい看護というものは、あらゆる病気に共通
したこまごましたこと、および一人一人の病気
に固有のこまごましたことを観察すること。こ
の二つだけで成り立っているのである。」
• (ナイチンゲール 看護覚え書きより)
• あらゆる現象・症状に共通したこまごましたこ
と、および一人一人の現象・症状に固有のこ
まごましたことを観察の両立
• 統計手法のひとつである記述統計は、収集したデータの要約統計
量(平均、分散など)を計算して分布を明らかにする事により、デー
タの示す傾向や性質を知るものである。こうしたデータの特性を捉
える方法のひとつとしてグラフ化がある。統計データを「グラフ化」
することにより、人が得意とするパターン認識の能力を活かして”
データの特性を直感的につかむ”方法は古くから多用されている。
特に、昨今のPC(およびソフトウエア)の発展によって大量のデー
タを様々な形にしかも瞬時にグラフ化(あるいは『見える化』)する
ことが可能となった。しかし、測定(質問)方法によって得られる
データは異なる。他方、回答拒否や記入漏れなどのように”得られ
ないデータ”(欠損値)が,得られたデータや実状”と差異がないか
念頭に置く必要もあり、こうした「統計の困難さ」を踏まえた上で、
統計の視覚化とその解釈には特に注意を要することも忘れてはな
らない。そこで、本講座では、統計の視覚化とその解釈に関するリ
テラシ(識字)を踏まえて、実践的に使える統計手法について広く・
深く話を進めていきたい。
統計の困難さ
• 「大切なことは目には見えないんだ」(サン=
テグジュペリ『星の王子さま』より)
• 目に見えるものだけが真実とは限らない
• バイアス
• 見えている
• 第3の変数の検出
SPSSの操作の記載方法
• 例えば、偏相関係数を算出する
• 偏相関:「分析(A)」→「相関(C)」→【偏相関(R)】
グループ間差
• ある2地域における出生体重を比較した
• 以下の結果をどのように判断するか?
グループ別ヒストグラム
【ヒストグラム】 :「グラフ(G)」→「レガシーダイアログ(L)」→【ヒストグラム(I)】
箱ヒゲ図
【箱ヒゲ図】 :「グラフ(G)」→「レガシーダイアログ(L)」→ 【箱ヒゲ図(X)】
YuleとSimpsonのパラドックス
• 層別の重要性
– 異質な属性を併合することによって生じる弊害
– 層別化して解析することの重要性を指摘
男女を併合した集計
生存
死亡
処理 無
6
6
処理 有
20
20
男性
女性
処理の有効性は否定
生存
死亡
生存
死亡
処理 無
4
3
2
3
処理 有
8
5
12
15
処理の有効性が示唆
Simpson (1951)
ザイゼルのキャンデー
【クロス集計表】:「分析(A)」→「記述統計(E)」→【クロス集計表(C)】
• 層別の重要性
– 異質な属性を併合することによって生じる弊害
– 層別化して解析することの重要性を指摘
全体での集計
未婚
婚姻
よく食べる
751(75.2%)
1281(63.7%)
あまり食べない
248(24.8%)
729(36.3%)
未婚
婚姻
25歳未満
25歳以上
25歳未満
25歳以上
よく食べる
631(79.0%)
120(60.0%)
407(80.9%)
874(58.0%)
あまり食べない
168(21.0%)
80(40.0%)
96(19.1%)
633(42.0%)
婚姻と嗜好の関連性
嗜好への年齢関与
婚姻との関係は疑似
ザイゼルのキャンデー
キャンデー
あまり食べない
よく食べる
未婚
248(24.8%)
751(75.2%)
婚姻
729(36.3%)
1281(63.7%)
キャンデー
25歳未満
25歳以上
あまり食べない
よく食べる
未婚
168(21.0%)
631(79.0%)
婚姻
96(19.1%)
407(80.9%)
未婚
80(40.0%)
120(60.0%)
婚姻
633(42.0%)
874(58.0%)
【クロス集計表】:「分析(A)」→「記述統計(E)」→【クロス集計表(C)】
散布図
• 2変数の関連性の統計量:相関・回帰係数
相関:「分析(A)」→「相関(C)」→ 【2変量(B)】
• 前提条件:2つの変数間の直線的な関係
• 直線的な関係の『見える化』が散布図
「グラフ(G)」→「散布図/ドット(s)」→【単純な散布図】
併合データ
併合データ
併合データ
直線か?
局所的重み付き平滑回帰法
第三の変数の関与
重回帰分析
• (重)回帰:「分析(A)」→「回帰(R)」→ 【線形(L)】
重回帰分析(1)
従属変数を独立変数で予測する(式をつくる)ための分析
独立変数が1つなら回帰分析、2つ以上は重回帰分析
• (重)回帰:「分析(A)」→「回帰(R)」→ 【線形(L)】
式がどれくらい当てはまっているか?(従属変数の分散
のうち何%を独立変数が説明しているか?)
式が統計学的にみて有効か?
算出された B(回帰係数)により、予測式を立てることが出来る
LDL-コレステロールの予測式= -.803×身長 +.589×体重 +.561×年齢
重回帰分析(2)
従属変数への独立変数の影響力を検討するための(要因)分析
独立変数が1つなら回帰分析、2つ以上は重回帰分析
同じ年齢で同じ体重ならば、背が低いほど(太っているので)LDLコレステロールは高い
偏回帰係数の正しい解釈
• 「他の独立変数の効果を統制(パーシャルアウト)し
たときの独立変数の効果」
•
「他の独立変数の値を統制する」というのは,「独立変数1が動くことで,それにとも
なって他の独立変数も動くのだけれども,仮にそれがまったくないとする
単・重回帰分析における注意点
•
•
•
•
直線的な関係しか見ることができない
グループによる分割が結果を変えてしまう可能性をもっている
回帰分析は決して因果関係を表しているわけではない
独立変数間の多重共線性
– 独立変数同士が強い関連性を持っているため、重回帰分析の推定が
低くなる
*多重共線
特に、独立変数間の相関が非常に高い場合には、多重共線性の問題が生じる
多重共線性の評価量: VIF(分散拡大係数) >10
統計量(S) →【共線性の診断(L)】
重回帰
• 偏回帰係数は相関係数とセットで考える
相関係数
偏回帰係数
意味するところ
疑似相関
有意
0に近く有意性なし
従属変数に対して直接的な
影響はない
多重共線*
有意
有意(但し相関係数
とは意符号)
重回帰分析の推定が低くなる
抑制変数
0に近く有意性なし 有意
相関関係だけではわからない
関係がある
*多重共線
特に、独立変数間の相関が非上記高い場合には、多重共線性の問題が生じる
多重共線性の評価量: VIF(分散拡大係数) >10
統計量(S) →【共線性の診断(L)】
解析手法の『見える化』
• お約束毎
• 矢印は、単方向(→)と相互方向(←→)の2種類
• 単方向(→)を受けた変数には誤差が付く(からの矢印も受け
る) 1セットで考える
• 観測した変数は四角、観測していない変数は(楕)円
– 観測していない変数: 誤差 概念
変数
変数
変数
変数
誤差e
変数
変数
誤差e
相関と回帰
目的変数y
説明変数 x
子の身長
父の身長
目的変数y
説明変数 x
子の身長
父の身長
誤差e
相関:xとyの相互関係がどの程度直線的か?
回帰:xからyがどのように直線的に関係
づけられるか?
回帰と重回帰
説明変数 x1
父の身長
目的変数y
説明変数 x
子の身長
目的変数y
父の身長
子の身長
誤差e
誤差e
説明変数 x2
母の身長
説明変数 xn
回帰と重回帰
説明変数 x1
目的変数y
誤差e
説明変数 x2
説明変数 xn
回帰と重回帰
結婚 x1
カードのくた
びれ具合y
キャンデーy
誤差e
絵カード x1
年齢 x2
誤差e
数値カード x2
偏相関
変数 z
他の変数を説明変数とした(重)
回帰分析で、説明できない残差
間の相関係数
変数y
変数 x
誤差e
誤差e
= 他の変数の影響力を取り除
いた相関係数
偏相関係数
因子分析
説明変数 x1
因子1
誤差e
父の身長
説明変数 x2
誤差e
母の身長
因子m
説明変数 xn
誤差e
説明変数n=Wn1因子1+Wn2因子2+Wnm因子m +en (n=1,・・・,n)
因子の数を決めなくては、各因子の質問への影響力を計算することが出来ない。
AMOS
•
AMOSの利点
•
•
但し、背景となる知識や理論は必要
自由に構造を組み立てられることがAMOSの魅力だか(同じデータでも)構造決定には、それなりの根拠が必要となる
AMOS
• 指導前後の看護能力の向上!?
誤差e
誤差e
誤差e
誤差e
誤差e
誤差e
技術力
pre
判断力
pre
実践力
pre
技術力
post
判断力
post
実践力
post
能力
pre
能力
post
独立グラフ
説明変数 x1
説明変数 x2
説明変数 xn