第一回サブゼミ.

2013年4月16日
女子大生の身長はみんな同じではない。
 様々な数値をとる。

・・・・・といったところでしょうか。
※様々な数値をとるということを専門用語で
分布する といいます。
数値を見ているだけじゃわからない!!!
統計だ!!!!!
この数値の羅列、つまり生データから
何かその分布の特徴や癖を引き出すための
手段。
わかりやすくするためにグラフを作ります。
そのグラフで、もっともポピュラーなものを
ヒストグラム といいます。
STEP1
最大値と最小値を見つける!
 STEP2
およそ範囲が最大値から最小値になるように
区切りがよい範囲を作り、
その範囲を5~8程度の小範囲に区切る。

⇒これを
階級 とよぶ。

STEP3
各階級を代表する数値を決める。
一般的には真ん中の値。
⇒これを 階級値 とよぶ。
 STEP4
各階級に入るデータ数をカウントする。
⇒これを
度数 とよぶ。

STEP5
各階級の度数の、
全体の中に占める割合を計算する。
⇒これを 相対度数 とよぶ。
 STEP6
その階級「まで」の度数を合計したものを
計算する。
⇒これを
類型度数 とよぶ。
最大値
最小値
身長は均等に分布しているのではなく、
ある場所にデータが集中している。
 ある場所を軸にして
左右の対称性がある(?)

さっき完成した表のことを
度数分布表 とよびます。
さあ、この度数分布表を
棒グラフにしましょう!
横軸に階級値を等間隔に置く
 縦軸は度数

度数分布表を棒グラフにしたもの、
これが
ヒストグラム です。
データを縮約する方法として
度数分布表・ヒストグラム 以外方法がある。
それが
統計量を求める ことである。

簡単にいうと、統計量とは
データの特徴を代表している数字
のこと。
⇒データのどのような特徴を要約したいのかに
よって、さまざまな統計量が存在する。
・平均値
・分散
・標準偏差

データの合計をデータ数で割ること
【例題】
月曜日2こ、火曜日5こ、水曜日6こ、木曜日0こ
金曜日4こ、土曜日1こ、日曜日3このチョコパイを
食べました。一日平均何こ食べてるでしょう?
【答え】
2+5+6+0+4+1+3=21こ
21こ÷7日=3こ
階級値×相対度数の合計=平均値
この三角形の位置を支点と
すると、ヒストグラムはやじろべえの
ようにバランスがとれて、
右にも左にも倒れないってこと。




データは数値的に広がって存在しているが、その広
がりの中から1点を『全データを代表する数値』とし
て選び出したもの。
データは平均値の周辺に分布している。
多く出てくるデータは平均値に与える影響力が大き
い。
ヒストグラムが左右対称のとき、平均値は対称軸の
位置になる。
バスの運行情報の場合
【例】
時刻表の到着時刻に等確率で
・10分遅れたり10分早く来たりする ⇒バスA
・2分遅れたり2分早く来たりする
⇒バスB

これって平均したら確かに同じだけど
バスA乗りたくないよね?
バスの到着時刻はまちまち
⇒この『まちまちさ』を測りたい

標準偏差(S.D.)とは
ばらつき具合、不確実性を測るもの。

まず偏差を二乗してから平均をとります。
この段階で出てきた統計量のことを
分散
とよびます。

出てきた分散をルートにしましょう
これが
標準偏差 です。
バスは平均的には1分遅れで到着するが、
到着時刻にはばらつきがあり、
実際の到着時刻はその時刻(7時31分)の
前後2.6分ほど散らばっている。
【考えてみてください】
あなたは今日サーフィンをしにいきます。
最も気になることは何ですか?
波の激しさ ですよね?
海の水位も大事だけど、大きい波のときにサー
フィンしたいですよね?
この波の激しさが標準偏差なんです!
バスの場合
S.D.が小さいバスのほうが好まれる
 波の場合
S.D.が大きい波のほうが好まれる

【考えてみてください】
あなたが返されたテストは75点でした。
平均点は60点。
どの程度よろこんでよいでしょうか?
ここで使える指標が
標準偏差 です。

データの偏差が、
S.D.±2個分の外側であれば
特殊なデータ であるといえる。

データの偏差が、
S.D.±1個分前後であれば
月並みなデータ であるといえる。
月並み
特殊