こちらの資料をスクリーンに表示

統計学の基礎
-何を学ぶか。 何ができるようになるか-
データとは何か

母集団と標本(サンプル)、データの関係
統計的方法を用いることにより、統計量から母数について
どれほどのことが言えるか、知ることができる。
2
#1
データの特徴をとらえるには

さまざまなグラフを描く




棒グラフ(大小関係)、折れ線グラフ(時間的推移)
ヒストグラム(1つの変数の分布)
散布図(2つの変数の対応関係)
代表値を計算する



中心はどこかを示す:(算術)平均、中央値、最頻値
ばらつきの大きさを示す:分散、標準偏差
2つの変数の直線的傾向の度合いを示す:相関係数
グラフや数値でデータの特徴を捉える
①分布 (全体の姿をとらえる)
②中心はどこにあるか
③散らばりの大きさはどうか
①ヒストグラム

データの分布状況を示すグラフ

ヒストグラムは何を表すグラフか
(横軸、縦軸は何か。全体として何を表すか)

ヒストグラムの描き方
(教科書の説明は経済データならではの部分あり)

ヒストグラムの見方
一般形かどうか。
←統計分析は、データが一般形である(正規分
布している)ことを想定しているから。
一般形でない場合は、何らかの対処が必要。
②中心の概念
算術平均 mean
 中央値 medhian
 最頻値 mode

それぞれの意味(定義)
 これらの関係


(参考)経済データでよく用いられるその他の中心概念
 加重平均
ウェイトを付けて平均を求める
 幾何平均
変化率(上昇率、成長率)の平均
 移動平均
時系列データの不規則変動を除去
算術平均:51.5%
卒業生数をウェイトに用いた加重平均:54.0%
算術平均だと、それぞれ、8.74、7.84、9.74%
③ ばらつきの概念 (1)
最大値、最小値
 範囲(レンジ)

四分位範囲
 箱ひげ図


偏差
xi-Xbar
③ ばらつきの概念 (2)

分散

標準偏差

変動係数
p.46~65
 偏差の2乗和を nで割るか、n-1で割るか
(不偏分散)
p.183~187
p.66~69
#2
統計学とは
情報を活用するための学問
 数値に表される情報が主。 ただし
意志決定の材料であり、将来の経済活動の
予測情報を与える。 この際、不確実性の
取り扱いが重要となる。
← 確率の考え方

「データ」とは何か
なぜ、「データ」について調べるのか


「母集団」:私たちの興味の対象である(経済)現象
そのもの。直接観測することができないので
その実態(具体的な内容)はわからない。
「標本」:母集団から、ランダムにサンプリングされた
もの。実際に観測された結果を「データ」と呼ぶ。
値や具体的な内容がわかっている。
私たちは、データについて調べ、その結果から母集
団の性質を統計的に推測することで、現象の内容を
把握したり、予測したりすることができる。
なぜ、データ分析には
確率の考え方が必要か?

データは確率変数だから。



いろいろな値をとるので、データは「変数」
常にある固定した値になるのではなく、その時々の偶然
性に左右され値が決まるので、データは「確率変数」
確率変数の性質は、その確率変数の



分布はどのような形か
平均の値はいくらか
分散/標準偏差の値はいくらか
が分かれば、見えてくる。
なぜデータの特徴をとらえる必要があるのか
統計的推測とは?
データは、それ自身が重要なのではなく、その背景
(母集団)の特徴をとらえるための道具。


推定:データについてわかったこと(統計量)をもとに
統計的な考え方により、母集団の特徴(母数)はこう
でないかと推測すること。
検定:データについてわかったこと(統計量)をもとに
統計的な考え方により、母集団の特徴(母数)をこう
でないかと考えることが妥当かどうか判断すること。
このような統計的推測を行うには確率の考え方が必要。
統計学の内容
多変量解析
・回帰分析
・時系列分析 など
・質的データの分析
記述統計
データを記述
・表にまとめる
・グラフを描く
・統計量を計算する
などにより、
データの特徴をとらえる
推測統計
データに基づき母集団を推測
・確率の考え方
・統計的推測の手法
(データに基づく
母数の検定・推定)
正規分布 〜もっとも代表的な確率分布(1)

ランダムサンプリングを行った、それなりの大きさの
標本は、多くの場合、正規分布に従う。


くせのある分布の場合、データの変数変換を行ったり、
層別(グループ分け)したり、外れ値に対応したりしてから、
正規分布の想定を行う。
ある確率変数Xの分布が正規分布、平均μ、分散σ2
である時、「 Xは平均μ、分散σ2の正規分布に従う」と
表現し、X〜N( μ、 σ2 )と表記する。
左右対称の一山型の分布をしている。
正規分布 〜もっとも代表的な確率分布(2)



ある確率変数Xの分布が正規分布、平均μ、分散σ2
である時、「 Xは平均μ、分散σ2の正規分布に従う」と
表現し、X〜N( μ、 σ2 )と表記する。
左右対称の一山型の分布をしている。
標準正規分布:平均0、分散1(標準偏差も1)の正規
分布、ある値より大きな値が全体の何%を占めるか
を表す表が準備されている。
基準化:すべての正規分布に従う変数は、標準正規
分布に従うように変換することができる。
正規分布 〜もっとも代表的な確率分布(3)

平均μ、分散σ2の正規分布に従う確率変数X が
あるとする。 X〜N( μ、 σ2 )
この時、Z=(X− μ)/ σ は、必ず、標準正規分布 N
(0,1)に従う。

もし、あるできごと(から得られたデータ)が正規分
布していること・その平均の値・その分散の値がわ
かっているなら、さまざまな状態が起こる確率
(パーセンテージ)を知ることができる。
練習1 正規分布表を読み取ろう

Z〜N(0,1)のとき、次の値を求めよ
1) P(Z≧1.57)
2) P(Z<1.34)
3) P(ー0.37<Z≦1.6)
練習2 基準化後、正規分布表を読み取ろう

X〜N(2,9)のとき、次の値を求めよ
1) P(X≧5.6)
2) P(X<10)
3) P(ー1.3<X≦1.19)
これから学ぶこと
母数に関する推定・検定の考え方・しかた

いろいろな母数について推定・検定を行うことができるが、
「標本平均から母平均」を統計的推測する場面を考える。
そのために必要な準備は?
 データは確率変数。確率変数は分布する。



5/12
よって、データから計算される標本平均も確率変数。
その性質は?(分布の形は、平均は、分散は) 5/19
推定の考え方



代表的な確率分布:正規分布
4/28
点推定:母数について、ある値で推測
区間推定:母数のありそうな範囲について推測
検定の考え方
5/19、6/2
6/9, 6/16
母平均について推定する

さまざまな、標本(データ)に基づく情報を活用する方法が
考えられるが、もっとも自然な方法は 「標本平均を利用し
て母平均を統計的に推測する」方法。

推定の考え方



点推定:母数について、ある値で推測
区間推定:母数のありそうな範囲について推測
ところで、データは確率変数。よって、データから計算される
標本平均も確率変数。まず、その性質を知っておこう。
標本平均の性質(その1)

以下、各データは、平均がμ、分散がσ2の母集団か
らの、ランダムサンプリングの結果とする。
※この条件が崩れると、以下の説明は成立しなくな
るので、注意。

計算すると(つまり、その他の条件を必要とすることなく)



標本平均の平均は、母平均μ
標本平均の分散は、母分散 σ2/サンプル数 n
標本平均の分布は.....
標本平均の性質(その2)

標本平均の分布は
母集団が正規分布するなら、正規分布する。
 母集団の分布がわからなくても、サンプル数が
大きいなら、近似的に、正規分布する。[中心極
限定理]


注意:母集団の分布が不明でサンプル数が小さい時に
「標本平均が正規分布する」と想定した分析は危険(誤
る可能性が大きい)。また、サンプル数はそこそこ必要
(できれば100程度以上)
母平均の点推定

「標本平均の平均は、母平均μ」である。
つまり、どのような標本が選ばれるかにより、標本平均の値
はばらつくが、もっとも可能性が高い値は、母平均の値であ
る。(標本平均には不偏性がある。)
よって、母平均の点推定値として、標本平均がよく利用
される。
母平均の区間推定
標本平均の分布が正規分布のケースでは
標本平均Xbar ~N(μ,σ2/n)
となる。
もしσ2の値がわかっている(既知)なら
μについて、さまざまな信頼率の信頼区間を
求めることができる。
 では、 σ2の値がわからない(未知)のケース
はどうしたらいいだろうか?

母分散σ2の値がわからない(未知)場合
の、母平均に関する推定

母平均に関する点推定
標本平均の値を利用する。
(母分散に関する知識は必要ないので)

母平均に関する区間推定
母分散σ2の値が分からないので、代わりに
標本分散s2の値を利用する。
ただし、この時、分布の形が変わるので注意。
S2を利用すると・・・

標本平均Xbar は平均μ,分散σ2/nの正規分布に
従う。標準化すると、Z= Xbar−μ は標準正規分布
root(σ2/n )
N(0,1)に従う。→正規分布表を利用して、さまざまな確率
計算ができる。

σ2が未知でs2に置き換えたとき、t = Xbar−μ は
root(s2/n)
情報が不確かな分、Zよりばらつきが大きくなる。こ
のため、標準正規分布と平均は同じ(0)でよりばら
つきの大きいt分布という分布に従う。教科書p.66
t分布の特徴
左右対称の一山型。平均は0。ばらつきは標準正規
分布N(0,1)より大きい。
 データ数が増え、情報が確かになるほど、 N(0,1)
に形が近づいていく。そのt分布がどれだけの情報
量に対応しているかを示す数字を「自由度」と言う。
t分布の場合、自由度は「データ数−1」となる。
 t分布表の見方

信頼率95%の区間推定をしたい場合、両側に2.5%の領域
をとればよい。表の1列目で問題に即した自由度の行をみつ
け、表の1行目で0.025という列を見つけ数字を読み取る。
(たとえば、自由度20の場合、2.086。よって、tの値の95%は、-2.086以
上2.086以下にあることがわかる。)