Introduction to Big Data Science 07th Period Statistical Analysis: Multivariate Regression - Basics Instructor: K. Ofuji Big Data Science 1 Contents ①回帰分析でわかること Use of regression analysis ②データのグラフ化 Graphing and plotting data ③線形回帰モデル(モデル化→推定→評価 →予測) Linear regression models (from modeling to prediction) Big Data Science 2 回帰分析: 原因と結果の結びつきの強さを推定 Regression analysis: estimates "strengths" between cause and result キップをきられる確率 probability to get tickets for overspeeding 結果 result 100% 傾き=スピード10km /h速く走ったとき,キッ プをきられる確率がど れだけ高まるか slope: how much probability increases, by driving 10km/h faster 0% 20km 40km スピード speed 80km 100km 原因 cause 3 回帰分析の手順 General steps in regression analysis (あ)データを確認 Checking data ・単位(※重要) ・units (important) ・最小や最大値 ・average, minimum and maximum (い)必要があれば散布図をかく Do scatterplots ・変数同士の関係をイメージ ・first touch on relations between variables (う)回帰推定,結果の解釈 Regression estimation Interpret results 4 例題1:飛行機重量x→飛行機価格yの関係 Example 1: Relation between aircraft weight x and aircraft price y 提出演習課題 6 weight (in ton) price (in oku-yen) x y 重量(t) 価格(億円) 75 40 DC-8 195 62 L-1011トライスター 0.6 0.2 FA-200 1 1.2 富士LM 2.8 3.2 MU-2 3.1 2.9 キングエア 45 37 ボーイング727 15 19 YS-11 162 80 ボーイング747 121 68 DC-10 DC-8 L-1011Tri-star Fuji LM King Air Boeing 727 Boeing 747 5 ○ファイル File :「1_Aircraft.xlsx」 ○一次関数で回帰(直線回帰) linear regression with 1st-order polynomial y = c + b1x + e x: 説明変数(独立変数) Independent variable e: 誤差項 Error term b1:回帰係数 Regression coefficient c: 定数項 Regression constant y: 従属変数(被説明変数) Dependent variable 6 単回帰・重回帰 single / multiple regression 単回帰 single regression :説明変数1つ one independent variable 重回帰 multiple regression :説明変数2つ以上 more than one independent variables y = c + b1x + e y = c + b1x1 + b2x2 + ・・・ + bNxN + e 現実の問題のほとんどは重回帰。でも、その基礎は 単回帰。most real-world problems are better handled with multiple regression. However, simple regression is the most basic concept of multiple regression. Big data science 7 Excelでデータのプロット Data plotting with Excel 1. データ範囲を選択 1. select data range 2. [挿入]-[散布図]-(左上の グラフ)と選択 2. [insert]-[scatter plot] 8 Excelでデータのプロット(つづき) Data plotting with Excel (cont'd) Price y (oku-yen) 価格( 億円) 100 →散布図が描ける you obtain a scatterplot 80 60 40 20 0 0 100 200 重量( t) weight x (t) (【図】は不要な凡例「系列1」をクリック選択して 削除[DEL] した状態。)you may delete series name legend like "series 1" by selecting it and [Delete]. 300 ○軸名などの挿入:inserting axis titles ・出来た散布図を選択し [グラフ ツール]-[レイアウト][軸ラベル]-[主横軸ラベル]で横 軸ラベルを挿入select the scatterplot, [Graph tool][Layout]-[Axis label]-[Main xaxis] ・ラベル「重量x(t)」などと入力 input axis title name "weight x (t)" ・縦軸も同様に「価格(億円)」な どと入力 In the same way, label Y-axis as "price y(okuyen)" 9 データをどれか1つ 右クリック Right-click on any one of data Add regression lines...(R) Linear (L) Show equation(E) Show R-squared(R) 10 回帰直線と解釈 interpretation Price y (oku-yen) 価格( 億円) 100 y = 0.3891x + 7.2059 R² = 0.8717 80 60 ○回帰線(近似曲線)が引 かれる。regression line is estimated. 数式とR2値も表示される。 regression equation and R-squared value (R2) are shown too. ○回帰線を解釈: interpretation y = 0.3891x + 7.2059 , R2 = 0.8717の解釈: 40 20 a) 回帰係数の解釈 interpreting coefficient 0 0 100 200 重量( t)weight x (t) 300 重量(x)が_____だけ 増加すると, 平均的に,価 格(y)が______ だけ 増加する。 When weight x increases by 1 unit (in ton), then price y on average increases by _________ units (in oku-yen). 11 回帰直線と解釈(つづき) interpretation (cont'd) b) 決定係数の解釈 interpreting R-squared 回帰線のあてはまりのよさがR2指標。 R-squared as the "goodness-of-fit" index ○R2の直感的な意味: yの分散(変動)を,xでどれだけ説明できたかの 割合。Intuitively, R-squared is the ratio of the y variance that is explained by the x variance through the model. 𝑅2 = 𝑅2 = 𝑥で説明できた分散 𝑦の分散 𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑦 𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑏𝑦 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑥 𝑉𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑜𝑓 𝑦 ・0≦ R2 ≦1。 ・ R2が大きいほどモデルの説明力が高。 The higher R-sq. implies the better explanatory power of model. 12 たとえばこのデータを例にとる sample data 100 説明できな y = 0.3891x + 7.2059 かった分 R² = 0.8717 Price y (oku-yen) 価格( 億円) R2の直感的な意味 R2: intuitively 80 Unexplained variance 60 40 説明変数xで説明できた分 y 20 Explained variance by x 0 0 100 200 重量( t) 300 weight x (t) 13 Excelで回帰分析 Regression analysis on Excel データ範囲を選択し、リボン[データ]-[データ 分析]。出てきたウィンドウで[回帰分析] [Data]-[Data Analysis] [回帰分析] [Regression analysis] 14 つづき cont'd 入力Y範囲、入力X範囲には自動で入力され ているので、そのまま[OK] Big data science 15 結果で最初にみるべき3つ three things to look at in the output ③さきほどの R2=0.8717 in prev. slide ②有意水準 p-value ※後述します ①さきほどの y=0.3891x+7.2059 in previous slide Big data science 16 各項目でチェックすべきこと things to be checked in each of ①~③ ①推定係数(Coefficient): ・符号(+,-)や大きさは納得性があるか? is the sign of the estimated coefficient reasonable ? ②推定係数の有意水準(Probability value (or p-value),「p-値」とも): ・小さいほど良い。smaller, the better. ・慣習的に,0.1 (10%),0.05 (5%),0.01 (1%)より良いかどうか注目される。 from conventional reasons, whether smaller than either of 0.1(10%), 0.05(5%), and 0.01(1%) is examined. ③決定係数( R2 ): ・大きいほどよい。 ただ,「いくつ以上ならよい」 といった画一的基準はない。 larger, the better. however, there is hard-and-fast rule as to above which level is acceptable. Depends on data and model. Big data science 17 モデルのよしあしの評価は ①~③の総合判断 いいモデル Good model model is evaluated by the overall performance of ① to ③ ①推定係数の 解釈ができる ③決定係数 が低すぎない ①coefficient is interepretable ③ R2 is not too low ②推定係数が 統計的に有意だ ②coefficient is statistically significant 18 ②の見方 how to interpret ② ~推定係数は確率分布~ 定数項 (切片: intercept)c ここの面積 area here=Prob.値= 0.1810 7.205869 重量の係数 coefficient b1(X値1) ここの面積 area here =Prob.値 = 0.0001 ○Prob値は,「係数の推定区間に ゼロを含む確率」値 。p-value is the probability where the estimated range of coefficient includes zero (and meaningless) 上の例だと, Interpretations: ・定数項Cは,「区間にゼロを含む 確率18.1%」 intercept c can include zero in its estiamated range at 18.1% probability ・重量の係数b1は,「 〃 0.01%」 b1 can include zero in its range at 0.01% probability (=highly reliable) → b1の推定値は信頼性が高い。 ただ、Cのほうは,信頼性に注意を 払うことになる。 0.389108 19 係数が確率分布って? Why do the coefficients have probability distributions? Price y (oku-yen) 価格( 億円) 100 ・データが有限個なので、回帰線の 引き方はいろいろありうる。(切片 と傾きはいろいろ変わりうる)there are many possibilities of how to draw the regression line (slope and intercept can vary), because the data points are limited. 80 60 40 20 0 0 100 200 300 重量( t) weight x (t) ・でも、その中で「もっとも確からし い引き方」というのはある。 But there is one most credible way of drawing it. 20 傾きや切片(確率分布)はこんな感じになる illustration of slope and intercept (that are probability distributions) 標準偏差* standard deviation 平均mean *標準偏差:内側の面積が68.3%になるような位置 std. dev.=point where inner area is 68.3% of total ・確率分布(正規分布)は基 本的に「平均」「標準偏差」 の2つのパラメータで形が決 まる probability (normal) distribution can be determined with just TWO parameters: mean and standard deviation ・平均mean=「どこが」その 分布の中心か ・標準偏差standard deviation=その分布はどれ ほど広がっているか(つまり 「あいまい」か) how broad (i.e. vague) is the 21 distribution 確率分布である傾きや切片の評価のしかた how to evaluate "credibility" of slope and intercept たとえば、「傾き0.389108」とは・・・ よい(確からしい)推定値 悪い(確からしくない)推定値 "credible" coefficient estimate "incredible" coefficient estimate あやしいエリア (0を切っているエリア) 0 p-値 p-value 0.389108 0から離れているaway from zero 小さい small 0 0.389108 平均mean 0に近いnear zero 標準偏差 std. dev. 大きい large 平均と標準偏差を一緒に見られると便利ね nice if we can handle mean and std. dev. together 22 ! t値 t-value, p値 p-value t値: 平均を標準偏差でわった値 p値: 確率分布中で0を含む面積 t-value: mean divided by std. dev. 平均𝑚𝑒𝑎𝑛 𝑡= 標準誤差𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑒𝑟𝑟𝑜𝑟 p-value: area (0~1) where the distribution includes 0 よい(確からしい)推定値 悪い(確からしくない)推定値 "credible" coefficient estimate "incredible" coefficient estimate 平均mean 0に近いnear zero 小さい small 標準偏差 std. dev. 大きい large 大きい large t値 t-value 小さい small 小さい small p値 p-value 大きい large 0から離れているaway from zero 23 もういちど係数、標準誤差、t値、p値 back to coefficient, std. error, t- and p-values coefficient std. err. 定数項 (切片: intercept)c ここの面積 area here =P-値= 0.1810 重量の係数 slope b1 (X値1) mean=7.205869 ここの面積 area here =P-値= 7.83E-05(≒0) mean=0.389108 t-値 = 7.205869 ÷ 4.91821 = 1.465141 t-値 = 0.389108÷ 0.052788 = 7.371096 Big data science 24 で、結局どれを見るといいの? so, what needs to be looked at? 平均、標準誤差→まとめたのがt-値、p-値であるか ら、since mean and std. error are aggregated into t- and p-values, t-値、p-値のどちらかをみていればOKなことが多い sufficient to just look at either t- or p-value. p-値が便利 p-val. is convenient: 良い順に p<=0.01 「1%水準で(危険率1%で)統計的有意」 statistically significant at 1% level p<=0.05 「5%水準で〃」 s. s., at 5% p<=0.10 「10%水準で〃」 s. s., at 10% 前ページの「定数項intercept」「傾きslope」のp-値 の評価は? Big data science 25
© Copyright 2024 ExpyDoc