www3.u-toyama.ac.jp

富山大学知能情報工学科
「統計学」第2回
第2章 標本データの記述(1)
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
1.序説
• 母集団(population):興味のある対象全体
結論を一般化したい範囲 (例:「大学生は・・・」なら
現在およびその近傍の大学生全体)
• 統計的方法:母集団に関する結論を標本から引き出す
方法(テキストp.3)
– 記述統計(descriptive statistics):データの収集・
要約
– 推測統計(statistical inference):母集団に関して
結論を引き出すこと (スープの味見と同じ)
• 統計学における標本は,典型的には人間の
集団である.ただし,それに限定されるもので
はない.
• 標本や母集団を調べるとき,われわれの関
心は,母集団の構成要素についての,特定
の属性(attribute, property)にある.
– 人間の体重
– 隕石の鉄の含有量
標本をどのように選ぶか
• 標本(sample):母集団に関する推測を行うため
の,母集団の一部(味見をするために取り出した,
鍋の中の一部)
• 標本抽出(sampling):母集団から標本を取り出
すこと
• 無作為抽出(random sampling):母集団を構成
するどの個体も,標本に選ばれる確率が同じに
なる標本抽出法
どの個体が標本に選ばれるかどうか(どのような測
定値が出現するか)は,純粋に運のみで決まる
→ 確率的な議論が可能になる
• 標本抽出の方法はたくさんある.
– 無作為抽出(詳しくは第6章)
– 有意抽出法
•
•
•
•
一定の法則に従って,調査対象を抽出する方法
2段抽出(例:学校を選んで,そこから生徒を選ぶ)
http://www.stat.go.jp/teacher/c2hyohon.htm
http://rplus.wbnahce.info/statsemi_basic/musakuityusyututoyuityusyutu.ht
ml
• 標本抽出の詳細は,この講義では扱わない.
– 推薦図書:豊田秀樹『調査法講義』
(朝倉書店)
連続型変数と離散型変数
• 連続型変数(continuous variable):潜在的に,
ある範囲の実数すべてをとりうる.
– 測定限界のため,整数値しか現れないこともある.
(例:学力テストの得点)
• 離散型変数(discrete variable):整数値のみ
をとる.
– 多くの場合に,計数によって得られた値(例:各世
帯における子どもの数).
質的変数と量的変数
• 質的変数(qualitative variable)
– 測定対象を,それらが持つ特性の種類(質)によっ
て分類するときの,特性ラベルのこと
• 例) 性別で分類するとき ラベル ・・・ 男・女
– 数値を割り当てることもある
• 例)男が0,女が1
• 量的変数(quantitative variable)
– 測定対象が持つ特性の大きさ(量)を測定した数値
質的変数と量的変数の特徴
1.質的変数は特定のカテゴリに属する測定対
象がいくつあるかを数える
⇒概念的に離散変数と似ている
2.質的変数はカテゴリを表したもの
≠ 特定のカテゴリに属する測定対象の数
離散変数は,特定の測定対象に対して,ひとつの数値 (た
とえば,子どもの数) が与えられる.
3.離散変数と連続変数という分類は,基本的
に量的変数についてなされる.
2.データの分類
• 推測統計を行う前に,データをよく見ることが
重要.
– 不適切な測定の発見(例:満点続出のテストは,
学生間の能力の違いをとらえていない)
– 異常値や入力ミスの発見
– 推測統計が要求している前提条件の,直観的な
チェック(これは,この授業でいずれ学ぶ)
データの整理
• データ(測定値x)の集まりを分類する主な理由は、
データの分布の特徴に関する情報を得るため
• データは度数分布表に整理するとよい.
– 連続型のデータに対しては,階級を設定して,測定値
を分類する.
階級(class):測定値の存在する実数範囲を,連続するいくつか
の範囲に分割したもの.(テキストp.13の表2参照)
– 離散型の変数(例:子どもの数)では,数値がカテゴリ
を表すと考えられるから,各カテゴリに属する測定対象
の数をカウントすることになる.
度数分布表の例
階級境界値
階 級
109.5 ~ 119.5
119.5 ~ 129.5
129.5 ~ 139.5
139.5 ~ 149.5
149.5 ~ 159.5
159.5 ~ 169.5
169.5 ~ 179.5
179.5 ~ 189.5
189.5 ~ 199.5
199.5 ~ 209.5
209.5 ~ 219.5
度数
1
4
17
28
25
18
13
6
5
2
1
階級境界値を設定する
際の工夫:
• 測定単位よりもひとつ下の桁で境界値を設定するのは、ちょうど境界値をとった
データをどちらの階級に入れるか迷わないようにするための工夫である。
• 測定単位の桁で境界値を設定してもよい。
– 階級値(class mark):階級の中央の値.
データを分類した後では,特定の階級に属する
測定値を,この階級値におきかえることがある.
• たとえば,身長のデータを度数分布表に整理したとき,
160cm以上170cm未満という階級に属する人の身長は,
すべて165cmであるとみなす.
例:
109.5 110.5 111.5 112.5 113.5 114.5
115.5 116.5 117.5 118.5 119.5
階 級
109.5 ~ 119.5
119.5 ~ 129.5
階 級 値
114.5
124.5
129.5 ~ 139.5
139.5 ~ 149.5
149.5 ~ 159.5
134.5
144.5
154.5
階級の
中央の値
3.グラフによる表示
• ヒストグラム(histogram):測定値の分布を視
覚的に表現して,分布の特徴を把握する
– 連続型変数に関して構成する.柱を隙間なく並べ
る.(テキスト図2および図3)
– 離散型変数の場合には棒グラフ.柱の間隔をあ
ける. (図4は,本来は棒グラフで書くべき)
ヒストグラムの例: 120人の学生の体重の分布 (教科書の図2)
30
28
25
人数(人)
25
20
17
15
18
13
柱
10
6
4
5
5
2
1
0
体重(ポンド)
1
28 25
横軸の値を
階級境界値から
階級値に変換できる
13
6
4
5
2
1
体重
30
28
25
25
20
18
17
15
13
5
1
2
1
214.5
5
6
4
204.5
10
体重
194.5
184.5
174.5
164.5
154.5
144.5
134.5
0
124.5
1
18
114.5
17
人数
人数
30
25
20
15
10
5
0
ヒストグラム観察のポイント
① 分布の概形は一つの山のある形(単峰型)だと
うか? あるいは,別の形だろうか?
② 左右対称だろうか?
③ 他と極端に異なる値(はずれ値)はないだろう
か?
④ 平均(変動の中心)はどこだろうか?
⑤ 平均からの変動(分布の横幅)はどれぐらいだ
ろうか?
また、左(右)すその長い分布を「左(右)にひずん
でいる(be left-skewed; be skewed to the left)」と言
う(この表現は直観と逆かもしれない).テキストの
図2~図4参照.
階級幅の違いによる「見え」の違い
60
50
60
右のヒストグラムの方が
ひずみが強調される
50
40
度
数
(
人
)
40
度
数
(
人
)
30
20
30
20
10
10
0
0
40
賃金
45
50
賃金
55
60
階級の数および階級幅の決定
• 適切な階級の数および階級の幅を決める,
「正しい」方法はない.
– 階級の数は10個から20個ぐらい
– 境界値は最小測定単位から 1/2 単位ずらすこと
が多い(テキスト図2参照).
• 試行錯誤しながら,分布の特徴がうまくとらえ
られるように描く.
4.算術的記述
• 「中心の位置」と「広がり(変動)」を示す
• 代表値(average)=位置(location)の測度
– 平均値(mean)
– 中央値(median)
– 最頻値(mode)
• 散布度(dispersion)=変動(variation)の測度
– 分散(variance),標準偏差(standard deviation)
– 範囲(range)
– 四分位範囲(interquartile range)
平均値
1 n
X   Xi
n i 1
1
 ( X1  X 2    X n )
n
すべての測定値を加算した値を,測定値の数で割る.
シグマ記号で混乱したら,要素を具体的に書き並べてみること!
ただの足し算なので,たいしたことはない.
 度数分布表から平均を計算する方法
1
X '
n
n
 xi f i 
i 1
1
( x1 f1  x2 f 2    xn f n )
n
f
f
f
 x1 1  x2 2    xn n 
n
n
n
n
 xi
i 1
xi
*fi
階 級
階級値 (xi)
度数(fi)
109.5 ~ 119.5
114.5
1
114.5
119.5 ~ 129.5
124.5
4
498.0
129.5 ~ 139.5
134.5
17
2286.5
139.5 ~ 149.5
144.5
28
4046.0
149.5 ~ 159.5
154.5
25
3862.5
159.5 ~ 169.5
164.5
18
2961.0
169.5 ~ 179.5
174.5
13
2268.5
179.5 ~ 189.5
184.5
6
1107.0
189.5 ~ 199.5
194.5
5
972.5
199.5 ~ 209.5
204.5
2
209.5 ~ 219.5
214.5
1
計
120
fi
n
:相対度数
409.0
X '  18740
.0 / 120  156.2
214.5
18740.0
度数分布表から平均を計算する方法に関する注意点
• 各標本測定値をそれに対する階級値に置き換えて求めた平均(
一般的に元の測定値の平均とは多少異なる。
X ' )は、
先の例では、度数分布表からの計算による誤差:
生データから計算した平均 156
度数分布表から計算した平均 156.2
• それゆえ、
X'
は正しい平均値
X
の近似値にすぎない。
• しかし、分類が正しく行われている限り、その差はたいてい小さく、大部分の
統計的問題ではこれを無視して差し支えない。
• 度数分布表では,集団の特徴を見やすくするため,「各階級の中の個別
データの数字は捨象した」
⇒たとえば,第2 階級については,「120, 123, 127, 129」を「124.5ポンド が4 人」
とし,細かい情報を切り捨てた.
⇒度数分布表から平均を計算する場合には,この切捨てによる誤差が出る.しか
し,それは小さい.
60
50
40
度
数 30
(
人
) 20
10
0
1
2
3
4
5
6
7
賃金
平均50.0
8
9 10 11 12
ここにナイフの刃を
下からあてると,
ちょうど釣り合う.
平均の値は、分布のヒストグラムと同じ形をした金属板をナイフエッジの刃
の上に乗せたとき、それがちょうど均衡を保つような横軸上の点を表してい
る。
更に、証明できる!!
証明:
支点=階級値x×階級xの相対度数+階級値y ×階級yの相対度数
これは,先説明した「度数分布表から平均を計算する際の公式」と同じ!
中央値
• 測定値を大きさの順に並べたとき,中央に位
置する値
– 測定値の数が偶数のときには,中央をはさむ2つ
の値の中点
– データをヒストグラムに分類した後では,ヒストグ
ラムの全面積を左右に2分割する点(例題1,例
題2)
• 分布にひずみがある時には,中央値は,代
表値として平均値よりも望ましい(テキスト
p.25).
– たとえば,大部分の人の賃金がかなり低く,非常
に高い賃金の人が少数だけいる場合.ほとんど
の人は平均以下になる.
– 賃金の中央値を用いれば,全雇用者の半数は少
なくともそれ以上の賃金を受け,残り半数はそれ
以下である.
最頻値
• 最大の度数を持つ測定値
• データをヒストグラムに分類した後では,所属
する測定値の最も多い階級の階級値
– 柱の高さが最も高い階級
散布度については次回の講義で詳しく説明…
平均値(算術平均)・中央値・最頻値の特徴について
1. 平均では全体の分布がどうなっているのかが分かりにくい点に注意してください。
2. 中央値は算術平均よりも実情をよく表している数値だと言えるでしょう。
3. 最頻値はより大多数の実感に近い数値だと言えるでしょう。
(単位:一万円)
平均値:450万円
中央値:450万円
最頻値:400万円
平均値:450万円
中央値:200万円
最頻値:200万円
Excel 2013 のピボットテーブルを用いた
度数分布表とヒストグラムの作成
高 尚策 (コウ ショウサク) 准教授
Email: [email protected]
• まず、操作の流れを一緒に見てみましょう!
• 時間があれば、詳しく説明…
1.準備
• 「第2章例題2データ」(example2_2.xlsx)
– 外国人労働者100人の,週あたり賃金のデータ
• データファイルを開く.
2.度数分布表の作成
1.A列あるいはB列のセルが
選択されていることを確認
2.[挿入] タブから
[ピボットテーブル] を選択
ピボットテーブルを作成するデータ範囲
($A$1:$B$101)が正しいことを確認
新規のワークシートでも既存のワークシートでもよい.
上図では「既存のワークシート」を選択.
データが記載されているシートでどこかのセル(上図ではD5)を
マウスで選択すると,そこがピボットテーブルの左上になる.
下のような,未完成のピボットテーブルが表示される.
[ピボットテーブルのフィールドリス
ト] で,「賃金」の上にマウスをあ
わせると,オレンジ色の帯が現れ
る.帯の上でマウスの左ボタンを
押し(押したままにする),そのま
ま [行ラベル] のボックスへとド
ラッグする.これで,賃金に関して
集計を行った表(ピボットテーブ
ル)を作成することになる.
ピボットテーブルが下図のようになる.
同様に,「番号」をマウスで選択し,
そのまま [値] のボックスへとドラッ
グする.
ここは「番号」である必要はなく,
「賃金」の列と同じ範囲(1行から
101行)に,カウントできるものが入
力されていればよい.
ピボットテーブルは上図のようになる.合計/番号 と表示さ
れた列の数値は,賃金が特定の値である人の番号を合計
した値である.たとえば,賃金が44である人は2人おり,その
番号は44と79(合計すると123)である.
特定の賃金である「番号」の数値を
合計するのではなく,単にカウント
すれば,特定の賃金の人が何人い
たかを示す表ができる.このように
表を作りかえる.
[値] ボックス「合計 / 番号」という表示の
▼をマウスでクリックし,
表示されるメニューから
「値フィールドの設定」を選択する.
[集計方法] タブで,計算の種類を「データの個数」に変更して,
[OK] ボタンを押す.
これにより,行ラベルに指定された賃金の値ごとに,
その値を持つ人の数がカウントされることになる.
左のようなピボットテーブルが
できる.上の行から順に,
賃金が39というデータポイントが
ひとつ,
40というデータポイントがひとつ,
43というデータポイントがひとつ,
44というデータポイントがふたつ
(以下同じ),
という集計の結果がわかる.
階級を作成して測定値を分類する.
1.「行ラベル」とい
う列にあるセルを
ひとつ選択する.
2.[ピボットテーブルツール] の [オプション] タブから,
「グループ」→「グループの選択」を選択する.
「グループ化」と
いう小さなウィン
ドウが現れる.
「先頭の値」を38.5,「末尾の値」を62.5,
「単位」を2にして [OK] ボタンを押す.
「先頭の値」は最初の階級の左境界値,
「末尾の値」は最後の階級の右境界値,
「単位」は階級の幅である.
測定単位よりもひとつ下の桁で境界値を設定するのは,ちょう
ど境界値をとったデータをどちらの階級に入れるか迷わない
ようにするための工夫である.測定単位の桁で境界値を設定
してもよい.
次のようなピボットテーブルができる.(未完成)
40.5以上42.5未満という測定値が存在しないため,
ピボットテーブルにはこの階級が表示されていない.
この階級を表示する.
[ピボットテーブルツール] の [オプション] タブから,
「アクティブなフィールド」の「フィールドの設定」を選択.
「フィールドの設定」というウィンドウが
現れる.
[レイアウトと印刷] タブで,
「データのないアイテムを表示する」
にチェックを入れて [OK] ボタンを押す.
構成した階級の上下
に,それぞれ階級が
追加される(左図での
<38.5 および >62.5).
途中に度数が0の階
級があれば,表示さ
れる.このデータでは,
40.5—42.5という階級
が新たに表示された.
度数が0の階級では,度数の欄が空白になっている.こ
こに「0」を表示させる.
[ピボットテーブル] の [オプション] タブにある,「ピボット
テーブルオプション」をマウスで左クリックする.
「ピボットテーブルオプションという」ウィンドウが現れる.
「空白セルに表示する値」を0にする.
[OK] ボタンを押す.
度数が0の階級に「0」が表示された.
これで度数分布表が完成した.
3.ヒストグラムの作成
1.ピボットテーブル内
のセルを選択する.
2.[ピボットテーブルツー
ル] の [オプション] タブか
ら,「ピボットグラフ」を左ク
リックする.
「グラフの挿入」というウィンドウが現れる.縦棒グラフのカテ
ゴリにある集合縦棒グラフを選択し,[OK] ボタンを押す.
下のようなグラフが現れる.
このままでは不完全なので,グラフを調整する.
まずは不要な要素を消去する.
データは1種類なので,凡例は不要である.[ピボットグラ
フツール](グラフを選択すると現れる)の [レイアウト] タブ
で,[凡例] のアイコンをクリックする.表示されるメニュー
から [なし] を選択する.
グラフタイトルも不要である. [ピボットグラフツール] の
[レイアウト] タブで,[グラフタイトル] のアイコンをクリック
する.表示されるメニューから [なし] を選択する.
論文やレポートでは,図(グラフ)の番号とタイトルを図の下
に入れる.これらは文書作成ソフトで入力すればよい.
[データの個数/番号] といったボタンは不要なので非表
示にする.いずれかのボタンの上で右クリックし,現れる
メニューから「グラフのすべてのフィールドボタンを非表示
にする」をマウスで左クリックする.
不要な要素が消え,グラフは下のようになる.
次に,必要な要素を加える.
横軸のラベルを入れる.[ピボットグラフツール] の [レイア
ウト] タブで,[軸ラベル] のアイコンをクリックする.[主横
軸ラベル] から [軸ラベルを軸の下に配置] を選択する.
「軸ラベル」というラベルが挿入される.これを書きかえ
る.「賃金」「週あたり賃金」など,適切なラベルをつける.
「賃金(ドル)」のように,測定単位を括弧の中に示すとよ
いが,このデータでは単位が不明なので省略する.
横軸ラベルと同様に,縦軸ラベルを配置する. [ピボット
グラフツール] の [レイアウト] タブで,[軸ラベル] のアイコ
ンをクリックする.[主縦軸ラベル] から [軸ラベルを垂直
に配置] を選択する.
「軸ラベル」というラベルが挿入される.これを書きかえ
る.「度数」など,適切なラベルをつける.測定単位(人)
を示してもよい.
連続変量のヒストグラムでは,離散変量の棒グラフと異な
り,柱(度数を表す縦棒)の間隔をあけないようにする.
いずれかの柱の上でマウスを左クリックする.すると,すべ
ての柱が選択された状態になる.
[ピボットグラフツール] の [レイアウト] タブ,あるいは [書式]
タブで,「選択対象の書式設定」をマウスで左クリックする.
「データ系列の書式設定」というウィンドウが現れ
る.
「要素の間隔」の
スライダーをマウ
スで左端まで動か
し,0% にする.
これにより,ヒスト
グラムの柱が隙
間なく並ぶように
なる.
ヒストグラムの柱
が隙間なく並ぶと,
柱の境界が不明
確になる.そこで,
柱に枠線をつける.
「データ系列の書
式設定」のウィンド
ウ左側に並ぶメ
ニューから,「枠線
の色」を選択する.
1.「線(単色)」の
ボタンを選択す
る.
2.色のアイコン
右側の下向き矢
印( ▼ )をマウス
で左クリックす
る.
3.青い柱の枠線
として適切な色
(たとえば,黒)を
選択する.
4.[閉じる] ボタン
を押す.
ヒストグラムが完成した.
ヒストグラム観察のポイント
• 分布の概形は一つの山のある形(単峰型)だ
とうか? あるいは,別の形だろうか?
• 左右対称だろうか?
• 他と極端に異なる値(はずれ値)はないだろう
か?
• 平均(変動の中心)はどこだろうか?
• 平均からの変動(分布の横幅)はどれぐらい
だろうか?
演習課題
左右対称でない歪んだ分布では,平均値,中
央値,最頻値は一般に異なる.このような分布
を示すヒストグラムをウェブで探してみよう.
テキストでの歪んだ分布の例(図4,図5)はヒントにな
る.図書館で統計学のテキストを調べると,他の例が
見つかるだろう.データを探して,そのヒストグラムを
自分で作成してもよい.3つの代表値の違いが分かり
やすい例を探そう.
データアーカイブ
• 総務省統計局 e-stat
http://www.stat.go.jp/
• 厚生労働省 各種統計調査
http://www.mhlw.go.jp/toukei_hakusho/toukei/
• 東京大学社会科学研究所 付属社会調査・
データアーカイブ研究センター
http://csrda.iss.u-tokyo.ac.jp/
レポート内容:
• 平均値,中央値,最頻値の違いを説明する
• 見つけた(orデータから作成した)ヒストグラムを張りつける
• 3つの代表値(平均値,中央値,最頻値)の位置を示す
• データの出典を示す
• 名前と学籍番号をご記入のうえ、解答用紙(A4)を提出す
る。
提出先:
工学部電子情報実験研究棟5階
NO.5506室のドアのポストに入れてください
締切:
来週月曜日(4月27日) 午後5時まで