情報科学の基礎 - ホーム

データの型

量的データ


数字で表現されるデータ
 身長、年収、得点
質的データ

カテゴリで表現されるデータ
 性別、職種、学歴
- 初めての統計処理 -
1
4つの尺度
質的データ
量的データ
名義尺度
 順序尺度
 間隔尺度
 比尺度

- 初めての統計処理 -
2
名義尺度

区別だけの情報



名前、 性別
出身県、 国籍
…
- 初めての統計処理 -
3
順序尺度

順序情報を含む


ABCD評価の成績
満足,好みの調査
満足 - 普通 - 不満

…
- 初めての統計処理 -
4
間隔尺度

順序に加え間隔が意味を持つ

通常の数字データ
- 初めての統計処理 -
5
比尺度
原点 (0) が意味を持つ
 何倍という概念が存在


物の長さ、重さ、…
- 初めての統計処理 -
6
多変量解析

複数の変数を同時に分析する手法の総称

目的変数がある場合の分析


回帰分析、判別分析、…
目的変数がある場合の分析


主成分分析、因子分析、対応分析、…
クラスター分析、多次元尺度構成法
- 初めての統計処理 -
7
目的変数のある分析

予測・分類

要因分析
- 初めての統計処理 -
8
目的変数

「予測」をしたい変数 「従属変数」ともいう

「結果」としてとらえる変数

要因から影響されている変数
「目的変数」に影響を与える変数を
「説明変数」とか「独立変数」とよぶ
- 初めての統計処理 -
9
回帰分析




目的変数と独立変数間の関係式を求める
目的変数の予測
独立変数の影響の大きさを評価
….
- 初めての統計処理 -
10
データ形式
Y
X1
...
Xp
1
y1
x11
xp1
2
y2
x21
xp2
yN
x2N
xpN
...
N
目的変数
説明変数
- 初めての統計処理 -
11
回帰モデル
yi  f ( x1i , x2i ,, x pi )  ei
線形回帰モデル
yi  0  1x1i  2 x2i    p x pi  ei
定
数
項
(偏)回帰係数
- 初めての統計処理 -
12
予測値
yˆi  ˆ0  ˆ1 x1i  ˆ2 x2i    ˆ p x pi
推定値
推定値は、予測値と観測値との
差ができるだけ小さくなるように
求める
- 初めての統計処理 -
13
最小2乗法

予測誤差の2乗和を最小にする

予測誤差とは、予測値と観測値の差
N
2
ˆ
Q   ( yi  yi )
i 1
N
2
ˆ
ˆ
ˆ
ˆ
  ( yi  (  0  1 x1i   2 x2i     p x pi ))
i 1
- 初めての統計処理 -
14
最小2乗法における計算


Qを回帰係数で偏微分してゼロとおく。
(p+1)個の方程式が得られ、
この連立方程式を解く。
- 初めての統計処理 -
15
誤差項と誤差分散
yi  0  1x1i  2 x2i    p x pi  ei
ei ~ N (0, )
2
誤差項の平均は0、分散は説明変数に
依存することなく一定
- 初めての統計処理 -
16
誤差分散の推定値
N
1
2
2
ˆ 
( yi  yˆ i )

N  p  1 i 1
誤差分散の大小でモデルで目的変数の
説明が十分行われているかを判断する
- 初めての統計処理 -
17
3つの平方和

総平方和

回帰による平方和
ST  ( yi  y)2
SR  ( yˆi  y)2

残差平方和
SE   ( yi  yˆi )2
- 初めての統計処理 -
18
3つの平方和
・・・ Yの変動(モデルなし)

総平方和

回帰による平方和

残差平方和
・・・ モデルをあてはめた
後の変動
- 初めての統計処理 -
19
3つの平方和の関係

総平方和 =
回帰による平方和 + 残差平方和
ST  SR  S E
説
明
部で
分き
た
- 初めての統計処理 -
説
明
部で
分き
な
い
20
決定係数・寄与率
R  S R / ST
2
 1  S E / ST
回帰モデルにより説明できた
Yの変動の割合
- 初めての統計処理 -
21
決定係数・寄与率
R  S R / ST
2
 1  S E / ST
値が大きいほど、回帰モデルがあてはまっており、
小さければあてはまりがよくないことになる
なお、値は0~1の範囲
- 初めての統計処理 -
22
重相関係数


事実上、観測値と予測値との相関係数の
こと
決定係数の平方根
- 初めての統計処理 -
23
あてはまりについての検定

分散分析表
要因
平方和
自由度
平均平方
F値
回帰
SR
p
VR=SR /p
F=VR/VE
残差
SE
N-p-1
VE=SE /(N-p-1)
全体
ST
N-1
F統計量はモデルが役に立っていないという仮説の下で、
自由度p, N-p-1のF分布に従う
- 初めての統計処理 -
24
回帰モデル
yi  f ( x1i , x2i ,, x pi )  ei
線形回帰モデル
yi  0  1x1i  2 x2i    p x pi  ei
定
数
項
(偏)回帰係数
- 初めての統計処理 -
25
回帰係数の検定

ある特定の説明変数の寄与に関する検定


その変数が役に立っているかどうか
回帰係数が0かどうかの検定
帰無仮説: j
0
(Xj は役に立たない)
対立仮説: j
0
(Xj は役に立つ)
- 初めての統計処理 -
26
回帰係数の検定
検定統計量 :
t  ˆ j / SE( ˆ j )
推定値をその 標準誤差で割る
帰無仮説の下で、自由度 N-p-1 の t 分布
- 初めての統計処理 -
27
Excelでの実行


[分析ツール]を使用
分析ツールの起動は、[ツール(T)]メ
ニューの[分析ツール(D)...]オプションを選
択
- 初めての統計処理 -
28
Excelでの実行
目的変数
A1セルからA100セルにデータが入っている場合は A1:A100と指定
説明変数
複数の説明変数を
指定するためには
B1:D100等とする。
これはB列からD列
まで、3つの変数が
ある場合
- 初めての統計処理 -
29
偏回帰係数の意味を知る実習

「ホテルの価格」の例題を使い、偏回帰係
数の意味を再確認しよう!

相関と偏相関の違いも

関連して、クロス表の分析も(「」)
- 初めての統計処理 -
30