統計学の基礎 -何を学ぶか。 何ができるようになるか- データとは何か 母集団と標本(サンプル)、データの関係 統計的方法を用いることにより、統計量から母数について どれほどのことが言えるか、知ることができる。 2 #1 データの特徴をとらえるには さまざまなグラフを描く 棒グラフ(大小関係)、折れ線グラフ(時間的推移) ヒストグラム(1つの変数の分布) 散布図(2つの変数の対応関係) 代表値を計算する 中心はどこかを示す:(算術)平均、中央値、最頻値 ばらつきの大きさを示す:分散、標準偏差 2つの変数の直線的傾向の度合いを示す:相関係数 グラフや数値でデータの特徴を捉える ①分布 (全体の姿をとらえる) ②中心はどこにあるか ③散らばりの大きさはどうか ①ヒストグラム データの分布状況を示すグラフ ヒストグラムは何を表すグラフか (横軸、縦軸は何か。全体として何を表すか) ヒストグラムの描き方 (教科書の説明は経済データならではの部分あり) ヒストグラムの見方 一般形かどうか。 ←統計分析は、データが一般形である(正規分 布している)ことを想定しているから。 一般形でない場合は、何らかの対処が必要。 ②中心の概念 算術平均 mean 中央値 medhian 最頻値 mode それぞれの意味(定義) これらの関係 (参考)経済データでよく用いられるその他の中心概念 加重平均 ウェイトを付けて平均を求める 幾何平均 変化率(上昇率、成長率)の平均 移動平均 時系列データの不規則変動を除去 算術平均:51.5% 卒業生数をウェイトに用いた加重平均:54.0% 算術平均だと、それぞれ、8.74、7.84、9.74% ③ ばらつきの概念 (1) 最大値、最小値 範囲(レンジ) 四分位範囲 箱ひげ図 偏差 xi-Xbar ③ ばらつきの概念 (2) 分散 標準偏差 変動係数 p.46~65 偏差の2乗和を nで割るか、n-1で割るか (不偏分散) p.183~187 p.66~69 #2 統計学とは 情報を活用するための学問 数値に表される情報が主。 ただし 意志決定の材料であり、将来の経済活動の 予測情報を与える。 この際、不確実性の 取り扱いが重要となる。 ← 確率の考え方 「データ」とは何か なぜ、「データ」について調べるのか 「母集団」:私たちの興味の対象である(経済)現象 そのもの。直接観測することができないので その実態(具体的な内容)はわからない。 「標本」:母集団から、ランダムにサンプリングされた もの。実際に観測された結果を「データ」と呼ぶ。 値や具体的な内容がわかっている。 私たちは、データについて調べ、その結果から母集 団の性質を統計的に推測することで、現象の内容を 把握したり、予測したりすることができる。 なぜ、データ分析には 確率の考え方が必要か? データは確率変数だから。 いろいろな値をとるので、データは「変数」 常にある固定した値になるのではなく、その時々の偶然 性に左右され値が決まるので、データは「確率変数」 確率変数の性質は、その確率変数の 分布はどのような形か 平均の値はいくらか 分散/標準偏差の値はいくらか が分かれば、見えてくる。 なぜデータの特徴をとらえる必要があるのか 統計的推測とは? データは、それ自身が重要なのではなく、その背景 (母集団)の特徴をとらえるための道具。 推定:データについてわかったこと(統計量)をもとに 統計的な考え方により、母集団の特徴(母数)はこう でないかと推測すること。 検定:データについてわかったこと(統計量)をもとに 統計的な考え方により、母集団の特徴(母数)をこう でないかと考えることが妥当かどうか判断すること。 このような統計的推測を行うには確率の考え方が必要。 統計学の内容 多変量解析 ・回帰分析 ・時系列分析 など ・質的データの分析 記述統計 データを記述 ・表にまとめる ・グラフを描く ・統計量を計算する などにより、 データの特徴をとらえる 推測統計 データに基づき母集団を推測 ・確率の考え方 ・統計的推測の手法 (データに基づく 母数の検定・推定) 正規分布 〜もっとも代表的な確率分布(1) ランダムサンプリングを行った、それなりの大きさの 標本は、多くの場合、正規分布に従う。 くせのある分布の場合、データの変数変換を行ったり、 層別(グループ分け)したり、外れ値に対応したりしてから、 正規分布の想定を行う。 ある確率変数Xの分布が正規分布、平均μ、分散σ2 である時、「 Xは平均μ、分散σ2の正規分布に従う」と 表現し、X〜N( μ、 σ2 )と表記する。 左右対称の一山型の分布をしている。 正規分布 〜もっとも代表的な確率分布(2) ある確率変数Xの分布が正規分布、平均μ、分散σ2 である時、「 Xは平均μ、分散σ2の正規分布に従う」と 表現し、X〜N( μ、 σ2 )と表記する。 左右対称の一山型の分布をしている。 標準正規分布:平均0、分散1(標準偏差も1)の正規 分布、ある値より大きな値が全体の何%を占めるか を表す表が準備されている。 基準化:すべての正規分布に従う変数は、標準正規 分布に従うように変換することができる。 正規分布 〜もっとも代表的な確率分布(3) 平均μ、分散σ2の正規分布に従う確率変数X が あるとする。 X〜N( μ、 σ2 ) この時、Z=(X− μ)/ σ は、必ず、標準正規分布 N (0,1)に従う。 もし、あるできごと(から得られたデータ)が正規分 布していること・その平均の値・その分散の値がわ かっているなら、さまざまな状態が起こる確率 (パーセンテージ)を知ることができる。 練習1 正規分布表を読み取ろう Z〜N(0,1)のとき、次の値を求めよ 1) P(Z≧1.57) 2) P(Z<1.34) 3) P(ー0.37<Z≦1.6) 練習2 基準化後、正規分布表を読み取ろう X〜N(2,9)のとき、次の値を求めよ 1) P(X≧5.6) 2) P(X<10) 3) P(ー1.3<X≦1.19) これから学ぶこと 母数に関する推定・検定の考え方・しかた いろいろな母数について推定・検定を行うことができるが、 「標本平均から母平均」を統計的推測する場面を考える。 そのために必要な準備は? データは確率変数。確率変数は分布する。 5/12 よって、データから計算される標本平均も確率変数。 その性質は?(分布の形は、平均は、分散は) 5/19 推定の考え方 代表的な確率分布:正規分布 4/28 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 検定の考え方 5/19、6/2 6/9, 6/16 母平均について推定する さまざまな、標本(データ)に基づく情報を活用する方法が 考えられるが、もっとも自然な方法は 「標本平均を利用し て母平均を統計的に推測する」方法。 推定の考え方 点推定:母数について、ある値で推測 区間推定:母数のありそうな範囲について推測 ところで、データは確率変数。よって、データから計算される 標本平均も確率変数。まず、その性質を知っておこう。 標本平均の性質(その1) 以下、各データは、平均がμ、分散がσ2の母集団か らの、ランダムサンプリングの結果とする。 ※この条件が崩れると、以下の説明は成立しなくな るので、注意。 計算すると(つまり、その他の条件を必要とすることなく) 標本平均の平均は、母平均μ 標本平均の分散は、母分散 σ2/サンプル数 n 標本平均の分布は..... 標本平均の性質(その2) 標本平均の分布は 母集団が正規分布するなら、正規分布する。 母集団の分布がわからなくても、サンプル数が 大きいなら、近似的に、正規分布する。[中心極 限定理] 注意:母集団の分布が不明でサンプル数が小さい時に 「標本平均が正規分布する」と想定した分析は危険(誤 る可能性が大きい)。また、サンプル数はそこそこ必要 (できれば100程度以上) 母平均の点推定 「標本平均の平均は、母平均μ」である。 つまり、どのような標本が選ばれるかにより、標本平均の値 はばらつくが、もっとも可能性が高い値は、母平均の値であ る。(標本平均には不偏性がある。) よって、母平均の点推定値として、標本平均がよく利用 される。 母平均の区間推定 標本平均の分布が正規分布のケースでは 標本平均Xbar ~N(μ,σ2/n) となる。 もしσ2の値がわかっている(既知)なら μについて、さまざまな信頼率の信頼区間を 求めることができる。 では、 σ2の値がわからない(未知)のケース はどうしたらいいだろうか? 母分散σ2の値がわからない(未知)場合 の、母平均に関する推定 母平均に関する点推定 標本平均の値を利用する。 (母分散に関する知識は必要ないので) 母平均に関する区間推定 母分散σ2の値が分からないので、代わりに 標本分散s2の値を利用する。 ただし、この時、分布の形が変わるので注意。 S2を利用すると・・・ 標本平均Xbar は平均μ,分散σ2/nの正規分布に 従う。標準化すると、Z= Xbar−μ は標準正規分布 root(σ2/n ) N(0,1)に従う。→正規分布表を利用して、さまざまな確率 計算ができる。 σ2が未知でs2に置き換えたとき、t = Xbar−μ は root(s2/n) 情報が不確かな分、Zよりばらつきが大きくなる。こ のため、標準正規分布と平均は同じ(0)でよりばら つきの大きいt分布という分布に従う。教科書p.66 t分布の特徴 左右対称の一山型。平均は0。ばらつきは標準正規 分布N(0,1)より大きい。 データ数が増え、情報が確かになるほど、 N(0,1) に形が近づいていく。そのt分布がどれだけの情報 量に対応しているかを示す数字を「自由度」と言う。 t分布の場合、自由度は「データ数−1」となる。 t分布表の見方 信頼率95%の区間推定をしたい場合、両側に2.5%の領域 をとればよい。表の1列目で問題に即した自由度の行をみつ け、表の1行目で0.025という列を見つけ数字を読み取る。 (たとえば、自由度20の場合、2.086。よって、tの値の95%は、-2.086以 上2.086以下にあることがわかる。)
© Copyright 2024 ExpyDoc