2013年4月16日 女子大生の身長はみんな同じではない。 様々な数値をとる。 ・・・・・といったところでしょうか。 ※様々な数値をとるということを専門用語で 分布する といいます。 数値を見ているだけじゃわからない!!! 統計だ!!!!! この数値の羅列、つまり生データから 何かその分布の特徴や癖を引き出すための 手段。 わかりやすくするためにグラフを作ります。 そのグラフで、もっともポピュラーなものを ヒストグラム といいます。 STEP1 最大値と最小値を見つける! STEP2 およそ範囲が最大値から最小値になるように 区切りがよい範囲を作り、 その範囲を5~8程度の小範囲に区切る。 ⇒これを 階級 とよぶ。 STEP3 各階級を代表する数値を決める。 一般的には真ん中の値。 ⇒これを 階級値 とよぶ。 STEP4 各階級に入るデータ数をカウントする。 ⇒これを 度数 とよぶ。 STEP5 各階級の度数の、 全体の中に占める割合を計算する。 ⇒これを 相対度数 とよぶ。 STEP6 その階級「まで」の度数を合計したものを 計算する。 ⇒これを 類型度数 とよぶ。 最大値 最小値 身長は均等に分布しているのではなく、 ある場所にデータが集中している。 ある場所を軸にして 左右の対称性がある(?) さっき完成した表のことを 度数分布表 とよびます。 さあ、この度数分布表を 棒グラフにしましょう! 横軸に階級値を等間隔に置く 縦軸は度数 度数分布表を棒グラフにしたもの、 これが ヒストグラム です。 データを縮約する方法として 度数分布表・ヒストグラム 以外方法がある。 それが 統計量を求める ことである。 簡単にいうと、統計量とは データの特徴を代表している数字 のこと。 ⇒データのどのような特徴を要約したいのかに よって、さまざまな統計量が存在する。 ・平均値 ・分散 ・標準偏差 データの合計をデータ数で割ること 【例題】 月曜日2こ、火曜日5こ、水曜日6こ、木曜日0こ 金曜日4こ、土曜日1こ、日曜日3このチョコパイを 食べました。一日平均何こ食べてるでしょう? 【答え】 2+5+6+0+4+1+3=21こ 21こ÷7日=3こ 階級値×相対度数の合計=平均値 この三角形の位置を支点と すると、ヒストグラムはやじろべえの ようにバランスがとれて、 右にも左にも倒れないってこと。 データは数値的に広がって存在しているが、その広 がりの中から1点を『全データを代表する数値』とし て選び出したもの。 データは平均値の周辺に分布している。 多く出てくるデータは平均値に与える影響力が大き い。 ヒストグラムが左右対称のとき、平均値は対称軸の 位置になる。 バスの運行情報の場合 【例】 時刻表の到着時刻に等確率で ・10分遅れたり10分早く来たりする ⇒バスA ・2分遅れたり2分早く来たりする ⇒バスB これって平均したら確かに同じだけど バスA乗りたくないよね? バスの到着時刻はまちまち ⇒この『まちまちさ』を測りたい 標準偏差(S.D.)とは ばらつき具合、不確実性を測るもの。 まず偏差を二乗してから平均をとります。 この段階で出てきた統計量のことを 分散 とよびます。 出てきた分散をルートにしましょう これが 標準偏差 です。 バスは平均的には1分遅れで到着するが、 到着時刻にはばらつきがあり、 実際の到着時刻はその時刻(7時31分)の 前後2.6分ほど散らばっている。 【考えてみてください】 あなたは今日サーフィンをしにいきます。 最も気になることは何ですか? 波の激しさ ですよね? 海の水位も大事だけど、大きい波のときにサー フィンしたいですよね? この波の激しさが標準偏差なんです! バスの場合 S.D.が小さいバスのほうが好まれる 波の場合 S.D.が大きい波のほうが好まれる 【考えてみてください】 あなたが返されたテストは75点でした。 平均点は60点。 どの程度よろこんでよいでしょうか? ここで使える指標が 標準偏差 です。 データの偏差が、 S.D.±2個分の外側であれば 特殊なデータ であるといえる。 データの偏差が、 S.D.±1個分前後であれば 月並みなデータ であるといえる。 月並み 特殊
© Copyright 2025 ExpyDoc