Introduction to Big Data Science

Introduction to Big Data Science
07th Period
Statistical Analysis: Multivariate
Regression - Basics
Instructor: K. Ofuji
Big Data Science
1
Contents
 ①回帰分析でわかること
Use of regression
analysis
 ②データのグラフ化 Graphing and plotting
data
 ③線形回帰モデル(モデル化→推定→評価
→予測) Linear regression models (from
modeling to prediction)
Big Data Science
2
回帰分析:
原因と結果の結びつきの強さを推定
Regression analysis: estimates "strengths"
between cause and result
キップをきられる確率
probability to get tickets
for overspeeding
結果 result
100%
傾き=スピード10km
/h速く走ったとき,キッ
プをきられる確率がど
れだけ高まるか
slope: how much
probability increases,
by driving 10km/h
faster
0%
20km
40km
スピード speed
80km 100km
原因 cause
3
回帰分析の手順
General steps in regression analysis
(あ)データを確認
Checking data
・単位(※重要) ・units (important)
・最小や最大値 ・average, minimum and maximum
(い)必要があれば散布図をかく Do scatterplots
・変数同士の関係をイメージ
・first touch on relations between variables
(う)回帰推定,結果の解釈
Regression estimation
Interpret results
4
例題1:飛行機重量x→飛行機価格yの関係
Example 1: Relation between aircraft weight x and aircraft price y
提出演習課題 6
weight (in ton) price (in oku-yen)
x
y
重量(t) 価格(億円)
75
40
DC-8
195
62
L-1011トライスター
0.6
0.2
FA-200
1
1.2
富士LM
2.8
3.2
MU-2
3.1
2.9
キングエア
45
37
ボーイング727
15
19
YS-11
162
80
ボーイング747
121
68
DC-10
DC-8
L-1011Tri-star
Fuji LM
King Air
Boeing 727
Boeing 747
5
 ○ファイル
File :「1_Aircraft.xlsx」
 ○一次関数で回帰(直線回帰)
linear
regression with 1st-order polynomial

y = c + b1x + e
x: 説明変数(独立変数)
Independent variable
e: 誤差項
Error term
b1:回帰係数
Regression coefficient
c: 定数項
Regression constant
y: 従属変数(被説明変数)
Dependent variable
6
単回帰・重回帰 single / multiple regression

単回帰 single regression :説明変数1つ one
independent variable


重回帰 multiple regression :説明変数2つ以上
more than one independent variables


y = c + b1x + e
y = c + b1x1 + b2x2 + ・・・ + bNxN + e
現実の問題のほとんどは重回帰。でも、その基礎は
単回帰。most real-world problems are better handled
with multiple regression. However, simple regression
is the most basic concept of multiple regression.
Big data science
7
Excelでデータのプロット
Data plotting with Excel
1. データ範囲を選択
1. select data range
2. [挿入]-[散布図]-(左上の
グラフ)と選択
2. [insert]-[scatter plot]
8
Excelでデータのプロット(つづき)
Data plotting with Excel (cont'd)
Price y (oku-yen)
価格( 億円)
100
→散布図が描ける you obtain
a scatterplot
80
60
40
20
0
0
100
200
重量( t) weight x (t)
(【図】は不要な凡例「系列1」をクリック選択して
削除[DEL] した状態。)you may delete
series name legend like "series 1" by
selecting it and [Delete].
300
○軸名などの挿入:inserting
axis titles
・出来た散布図を選択し
[グラフ ツール]-[レイアウト][軸ラベル]-[主横軸ラベル]で横
軸ラベルを挿入select the
scatterplot, [Graph tool][Layout]-[Axis label]-[Main xaxis]
・ラベル「重量x(t)」などと入力
input axis title name "weight
x (t)"
・縦軸も同様に「価格(億円)」な
どと入力 In the same way,
label Y-axis as "price y(okuyen)"
9
データをどれか1つ
右クリック
Right-click on any
one of data
Add regression
lines...(R)
Linear (L)
Show equation(E)
Show R-squared(R)
10
回帰直線と解釈
interpretation
Price y (oku-yen)
価格( 億円)
100
y = 0.3891x + 7.2059
R² = 0.8717
80
60
○回帰線(近似曲線)が引
かれる。regression line is
estimated.
数式とR2値も表示される。
regression equation and
R-squared value (R2) are
shown too.
○回帰線を解釈:
interpretation
y = 0.3891x + 7.2059 ,
R2 = 0.8717の解釈:
40
20
a) 回帰係数の解釈
interpreting coefficient
0
0
100
200
重量( t)weight x (t)
300
重量(x)が_____だけ
増加すると, 平均的に,価
格(y)が______ だけ
増加する。
When weight x increases
by 1 unit (in ton), then
price y on average
increases by _________
units (in oku-yen).
11
回帰直線と解釈(つづき)
interpretation (cont'd)
b) 決定係数の解釈 interpreting R-squared
回帰線のあてはまりのよさがR2指標。
R-squared as the "goodness-of-fit" index
○R2の直感的な意味: yの分散(変動)を,xでどれだけ説明できたかの
割合。Intuitively, R-squared is the ratio of the y variance that is
explained by the x variance through the model.
𝑅2 =
𝑅2 =
𝑥で説明できた分散
𝑦の分散
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑦 𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑏𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑥
𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑦
・0≦ R2 ≦1。
・ R2が大きいほどモデルの説明力が高。
The higher R-sq. implies the better explanatory power of model.
12
たとえばこのデータを例にとる
sample data
100
説明できな
y = 0.3891x + 7.2059
かった分
R² = 0.8717
Price y (oku-yen)
価格( 億円)
R2の直感的な意味 R2: intuitively
80
Unexplained
variance
60
40
説明変数xで説明できた分
y
20
Explained variance by x
0
0
100
200
重量( t)
300
weight x (t)
13
Excelで回帰分析 Regression analysis on Excel
 データ範囲を選択し、リボン[データ]-[データ
分析]。出てきたウィンドウで[回帰分析]
[Data]-[Data Analysis]
[回帰分析]
[Regression analysis]
14
つづき cont'd
 入力Y範囲、入力X範囲には自動で入力され
ているので、そのまま[OK]
Big data science
15
結果で最初にみるべき3つ
three things to look at in the output
③さきほどの R2=0.8717 in prev. slide
②有意水準 p-value
※後述します
①さきほどの y=0.3891x+7.2059 in
previous slide
Big data science
16
各項目でチェックすべきこと things to
be checked in each of ①~③
①推定係数(Coefficient):
・符号(+,-)や大きさは納得性があるか? is the sign of the estimated
coefficient reasonable ?
②推定係数の有意水準(Probability value (or p-value),「p-値」とも):
・小さいほど良い。smaller, the better.
・慣習的に,0.1 (10%),0.05 (5%),0.01 (1%)より良いかどうか注目される。
from conventional reasons, whether smaller than either of 0.1(10%),
0.05(5%), and 0.01(1%) is examined.
③決定係数( R2 ):
・大きいほどよい。 ただ,「いくつ以上ならよい」 といった画一的基準はない。
larger, the better. however, there is hard-and-fast rule as to above which
level is acceptable. Depends on data and model.
Big data science
17
モデルのよしあしの評価は
①~③の総合判断
いいモデル
Good model
model is evaluated by the
overall performance of ① to ③
①推定係数の
解釈ができる
③決定係数
が低すぎない
①coefficient is
interepretable
③ R2 is not too low
②推定係数が
統計的に有意だ
②coefficient is
statistically significant
18
②の見方 how to interpret ②
~推定係数は確率分布~
定数項
(切片:
intercept)c
ここの面積 area here=Prob.値= 0.1810
7.205869
重量の係数 coefficient b1(X値1)
ここの面積 area
here =Prob.値
= 0.0001
○Prob値は,「係数の推定区間に
ゼロを含む確率」値 。p-value is the
probability where the estimated
range of coefficient includes zero
(and meaningless)
上の例だと, Interpretations:
・定数項Cは,「区間にゼロを含む
確率18.1%」 intercept c can
include zero in its estiamated
range at 18.1% probability
・重量の係数b1は,「 〃 0.01%」
b1 can include zero in its range
at 0.01% probability (=highly
reliable)
→ b1の推定値は信頼性が高い。
ただ、Cのほうは,信頼性に注意を
払うことになる。
0.389108
19
係数が確率分布って?
Why do the coefficients have probability
distributions?
Price y (oku-yen)
価格( 億円)
100
・データが有限個なので、回帰線の
引き方はいろいろありうる。(切片
と傾きはいろいろ変わりうる)there
are many possibilities of how to
draw the regression line (slope
and intercept can vary),
because the data points are
limited.
80
60
40
20
0
0
100
200
300
重量( t) weight x (t)
・でも、その中で「もっとも確からし
い引き方」というのはある。 But
there is one most credible way
of drawing it.
20
傾きや切片(確率分布)はこんな感じになる
illustration of slope and intercept (that are
probability distributions)
標準偏差*
standard
deviation
平均mean
*標準偏差:内側の面積が68.3%になるような位置
std. dev.=point where inner area is 68.3% of total
・確率分布(正規分布)は基
本的に「平均」「標準偏差」
の2つのパラメータで形が決
まる probability (normal)
distribution can be
determined with just TWO
parameters: mean and
standard deviation
・平均mean=「どこが」その
分布の中心か
・標準偏差standard
deviation=その分布はどれ
ほど広がっているか(つまり
「あいまい」か) how broad
(i.e. vague) is the
21
distribution
確率分布である傾きや切片の評価のしかた how to
evaluate "credibility" of slope and intercept
たとえば、「傾き0.389108」とは・・・
よい(確からしい)推定値
悪い(確からしくない)推定値
"credible" coefficient estimate
"incredible" coefficient estimate
あやしいエリア
(0を切っているエリア)
0
p-値 p-value
0.389108
0から離れているaway from zero
小さい small
0
0.389108
平均mean
0に近いnear zero
標準偏差
std. dev.
大きい large
平均と標準偏差を一緒に見られると便利ね nice if we can handle mean and std. dev. together 22
!
t値 t-value, p値 p-value
t値: 平均を標準偏差でわった値
p値: 確率分布中で0を含む面積
t-value: mean divided by std. dev.
平均𝑚𝑒𝑎𝑛
𝑡=
標準誤差𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑒𝑟𝑟𝑜𝑟
p-value: area (0~1) where the
distribution includes 0
よい(確からしい)推定値
悪い(確からしくない)推定値
"credible" coefficient estimate
"incredible" coefficient estimate
平均mean
0に近いnear zero
小さい small
標準偏差
std. dev.
大きい large
大きい large
t値
t-value
小さい small
小さい small
p値
p-value
大きい large
0から離れているaway from zero
23
もういちど係数、標準誤差、t値、p値
back to coefficient, std. error, t- and p-values
coefficient std. err.
定数項
(切片:
intercept)c
ここの面積 area here
=P-値= 0.1810
重量の係数
slope b1
(X値1)
mean=7.205869
ここの面積 area
here =P-値=
7.83E-05(≒0)
mean=0.389108
t-値 = 7.205869 ÷ 4.91821 = 1.465141
t-値 = 0.389108÷ 0.052788 = 7.371096
Big data science
24
で、結局どれを見るといいの?
so, what needs to be looked at?
平均、標準誤差→まとめたのがt-値、p-値であるか
ら、since mean and std. error are aggregated
into t- and p-values,
 t-値、p-値のどちらかをみていればOKなことが多い
sufficient to just look at either t- or p-value.
 p-値が便利 p-val. is convenient: 良い順に





p<=0.01 「1%水準で(危険率1%で)統計的有意」
statistically significant at 1% level
p<=0.05 「5%水準で〃」 s. s., at 5%
p<=0.10 「10%水準で〃」 s. s., at 10%
前ページの「定数項intercept」「傾きslope」のp-値
の評価は?
Big data science
25