こちらの資料をスクリーンに表示

統計学の基礎
－何を学ぶか。何ができるようになるか－
データとは何か

母集団と標本（サンプル）、データの関係
統計的方法を用いることにより、統計量から母数について
どれほどのことが言えるか、知ることができる。
2
＃1
データの特徴をとらえるには

さまざまなグラフを描く




棒グラフ（大小関係）、折れ線グラフ（時間的推移）
ヒストグラム（１つの変数の分布）
散布図（２つの変数の対応関係）
代表値を計算する



中心はどこかを示す：（算術）平均、中央値、最頻値
ばらつきの大きさを示す：分散、標準偏差
２つの変数の直線的傾向の度合いを示す：相関係数
グラフや数値でデータの特徴を捉える
①分布（全体の姿をとらえる）
②中心はどこにあるか
③散らばりの大きさはどうか
①ヒストグラム

データの分布状況を示すグラフ

ヒストグラムは何を表すグラフか
（横軸、縦軸は何か。全体として何を表すか）

ヒストグラムの描き方
（教科書の説明は経済データならではの部分あり）

ヒストグラムの見方
一般形かどうか。
←統計分析は、データが一般形である（正規分
布している）ことを想定しているから。
一般形でない場合は、何らかの対処が必要。
②中心の概念
算術平均 mean
 中央値 medhian
 最頻値 mode

それぞれの意味（定義）
 これらの関係


(参考）経済データでよく用いられるその他の中心概念
 加重平均
ウェイトを付けて平均を求める
 幾何平均
変化率（上昇率、成長率）の平均
 移動平均
時系列データの不規則変動を除去
算術平均：51.5%
卒業生数をウェイトに用いた加重平均：54.0%
算術平均だと、それぞれ、8.74、7.84、9.74%
③ ばらつきの概念（1）
最大値、最小値
 範囲（レンジ）

四分位範囲
 箱ひげ図


偏差
xi－Xbar
③ ばらつきの概念（2）

分散

標準偏差

変動係数
p.46～65
 偏差の2乗和を nで割るか、n-1で割るか
(不偏分散)
p.183～187
p.66～69
＃2
統計学とは
情報を活用するための学問
 数値に表される情報が主。ただし
意志決定の材料であり、将来の経済活動の
予測情報を与える。この際、不確実性の
取り扱いが重要となる。
← 確率の考え方

「データ」とは何か
なぜ、「データ」について調べるのか


「母集団」：私たちの興味の対象である（経済）現象
そのもの。直接観測することができないので
その実態（具体的な内容）はわからない。
「標本」：母集団から、ランダムにサンプリングされた
もの。実際に観測された結果を「データ」と呼ぶ。
値や具体的な内容がわかっている。
私たちは、データについて調べ、その結果から母集
団の性質を統計的に推測することで、現象の内容を
把握したり、予測したりすることができる。
なぜ、データ分析には
確率の考え方が必要か？

データは確率変数だから。



いろいろな値をとるので、データは「変数」
常にある固定した値になるのではなく、その時々の偶然
性に左右され値が決まるので、データは「確率変数」
確率変数の性質は、その確率変数の



分布はどのような形か
平均の値はいくらか
分散/標準偏差の値はいくらか
が分かれば、見えてくる。
なぜデータの特徴をとらえる必要があるのか
統計的推測とは？
データは、それ自身が重要なのではなく、その背景
（母集団）の特徴をとらえるための道具。


推定：データについてわかったこと（統計量）をもとに
統計的な考え方により、母集団の特徴（母数）はこう
でないかと推測すること。
検定：データについてわかったこと（統計量）をもとに
統計的な考え方により、母集団の特徴（母数）をこう
でないかと考えることが妥当かどうか判断すること。
このような統計的推測を行うには確率の考え方が必要。
統計学の内容
多変量解析
・回帰分析
･時系列分析　など
・質的データの分析
記述統計
データを記述
・表にまとめる
･グラフを描く
・統計量を計算する
などにより、
データの特徴をとらえる
推測統計
データに基づき母集団を推測
・確率の考え方
･統計的推測の手法
（データに基づく
母数の検定･推定）
正規分布〜もっとも代表的な確率分布（1）

ランダムサンプリングを行った、それなりの大きさの
標本は、多くの場合、正規分布に従う。


くせのある分布の場合、データの変数変換を行ったり、
層別（グループ分け）したり、外れ値に対応したりしてから、
正規分布の想定を行う。
ある確率変数Xの分布が正規分布、平均μ、分散σ2
である時、「 Xは平均μ、分散σ2の正規分布に従う」と
表現し、X〜N（ μ、 σ2 ）と表記する。
左右対称の一山型の分布をしている。
正規分布〜もっとも代表的な確率分布（2）



ある確率変数Xの分布が正規分布、平均μ、分散σ2
である時、「 Xは平均μ、分散σ2の正規分布に従う」と
表現し、X〜N（ μ、 σ2 ）と表記する。
左右対称の一山型の分布をしている。
標準正規分布：平均0、分散1（標準偏差も1）の正規
分布、ある値より大きな値が全体の何％を占めるか
を表す表が準備されている。
基準化：すべての正規分布に従う変数は、標準正規
分布に従うように変換することができる。
正規分布〜もっとも代表的な確率分布（3）

平均μ、分散σ2の正規分布に従う確率変数X が
あるとする。 X〜N（ μ、 σ2 ）
この時、Z=（X− μ）/ σ は、必ず、標準正規分布 N
（0,1）に従う。

もし、あるできごと（から得られたデータ）が正規分
布していること・その平均の値・その分散の値がわ
かっているなら、さまざまな状態が起こる確率
（パーセンテージ）を知ることができる。
練習１正規分布表を読み取ろう

Z〜N（0,1）のとき、次の値を求めよ
１） P（Z≧１．５７）
２） P（Z＜１．34）
３） P（ー０．３７＜Z≦１．６）
練習２基準化後、正規分布表を読み取ろう

X〜N（２,９）のとき、次の値を求めよ
１） P（X≧５．６）
２） P（X＜１０）
３） P（ー１．３＜X≦１．１９）
これから学ぶこと
母数に関する推定・検定の考え方・しかた

いろいろな母数について推定・検定を行うことができるが、
「標本平均から母平均」を統計的推測する場面を考える。
そのために必要な準備は？
 データは確率変数。確率変数は分布する。



5/12
よって、データから計算される標本平均も確率変数。
その性質は？（分布の形は、平均は、分散は） 5/19
推定の考え方



代表的な確率分布：正規分布
4/28
点推定：母数について、ある値で推測
区間推定：母数のありそうな範囲について推測
検定の考え方
5/19、6/2
6/9, 6/16
母平均について推定する

さまざまな、標本（データ）に基づく情報を活用する方法が
考えられるが、もっとも自然な方法は「標本平均を利用し
て母平均を統計的に推測する」方法。

推定の考え方



点推定：母数について、ある値で推測
区間推定：母数のありそうな範囲について推測
ところで、データは確率変数。よって、データから計算される
標本平均も確率変数。まず、その性質を知っておこう。
標本平均の性質（その1）

以下、各データは、平均がμ、分散がσ2の母集団か
らの、ランダムサンプリングの結果とする。
※この条件が崩れると、以下の説明は成立しなくな
るので、注意。

計算すると（つまり、その他の条件を必要とすることなく）



標本平均の平均は、母平均μ
標本平均の分散は、母分散 σ2／サンプル数 n
標本平均の分布は．．．．．
標本平均の性質（その2）

標本平均の分布は
母集団が正規分布するなら、正規分布する。
 母集団の分布がわからなくても、サンプル数が
大きいなら、近似的に、正規分布する。［中心極
限定理］


注意：母集団の分布が不明でサンプル数が小さい時に
「標本平均が正規分布する」と想定した分析は危険（誤
る可能性が大きい）。また、サンプル数はそこそこ必要
（できれば100程度以上）
母平均の点推定

「標本平均の平均は、母平均μ」である。
つまり、どのような標本が選ばれるかにより、標本平均の値
はばらつくが、もっとも可能性が高い値は、母平均の値であ
る。（標本平均には不偏性がある。）
よって、母平均の点推定値として、標本平均がよく利用
される。
母平均の区間推定
標本平均の分布が正規分布のケースでは
標本平均Xbar ～N（μ，σ2/n）
となる。
もしσ2の値がわかっている（既知）なら
μについて、さまざまな信頼率の信頼区間を
求めることができる。
 では、 σ2の値がわからない（未知）のケース
はどうしたらいいだろうか？

母分散σ2の値がわからない（未知）場合
の、母平均に関する推定

母平均に関する点推定
標本平均の値を利用する。
（母分散に関する知識は必要ないので）

母平均に関する区間推定
母分散σ2の値が分からないので、代わりに
標本分散s2の値を利用する。
ただし、この時、分布の形が変わるので注意。
S2を利用すると・・・

標本平均Xbar は平均μ，分散σ2/nの正規分布に
従う。標準化すると、Z= Xbar−μ は標準正規分布
root（σ2/n ）
N（0,1）に従う。→正規分布表を利用して、さまざまな確率
計算ができる。

σ2が未知でs2に置き換えたとき、t ＝ Xbar−μ は
root（s2/n）
情報が不確かな分、Zよりばらつきが大きくなる。こ
のため、標準正規分布と平均は同じ（0）でよりばら
つきの大きいｔ分布という分布に従う。教科書p.66
ｔ分布の特徴
左右対称の一山型。平均は0。ばらつきは標準正規
分布N（0,1）より大きい。
 データ数が増え、情報が確かになるほど、 N（0,1）
に形が近づいていく。そのｔ分布がどれだけの情報
量に対応しているかを示す数字を「自由度」と言う。
t分布の場合、自由度は「データ数−1」となる。
 ｔ分布表の見方

信頼率95％の区間推定をしたい場合、両側に2.5％の領域
をとればよい。表の1列目で問題に即した自由度の行をみつ
け、表の1行目で0.025という列を見つけ数字を読み取る。
（たとえば、自由度20の場合、2.086。よって、tの値の95％は、-2.086以
上2.086以下にあることがわかる。）

Download Report