データ分析入門(3)

データ分析入門(3)
第3章 データの収集と編成
廣野元久
1
本章の概要
データの性質と測定の尺度
量的なデータ
質的なデータ
データの探し方
政府官庁データ,民間のシンクタンクなど
データの編成と入力準備
データ表
第3章 データの収集と編成
廣野元久 &高橋行雄
2/39
1.データの性質と測定尺度
1.1量的データ
間隔尺度,比例尺度
1.2質的データ
名義尺度,順序尺度
1.3測定の尺度
第3章 データの収集と編成
廣野元久 &高橋行雄
3/39
1.1 量的データ
量的データ:Quantitative Data
連続的に変化するもの :体重,身長,気温
連続変量:Continuous Variate:計量データ
整数値しかとらないもの:結婚件数,勝敗
離散変量:Discrete Variate :計数データ
変量:与えられた確率で,色々な値を取る
もの
第3章 データの収集と編成
廣野元久 &高橋行雄
4/39
1.1 変量:サイコロを例にとると
いかさまのないサイコロの目の出方は,
平等であるから,1/6の確率で出現する
確率
1/6
1
2
3
第3章 データの収集と編成
廣野元久 &高橋行雄
4
5
6
5/39
1.2質的データ
質的データ :Qualitative Data
状態や評価を表す,直接量れないデータ
例)
材料メーカーの評価の違い
A社のパスタソース,B社のパスタソース
質的データを計るには
状態を評価する評価用語の利用
(評価の)分類に用いた区分をカテゴリ
(Category,Class)
第3章 データの収集と編成
廣野元久 &高橋行雄
6/39
1.2 評価や状態の区分例(1)
あなたは,A社のデジカメの写りについてど
のくらい満足していますか
1.大変満足している
3.普通である
4.やや不満である
2.まあ満足している
5.大変不満である
評価に順序がつく回答肢に得点をつけるこ
ともできる
1. 5点
4. 2点
2. 4点 3. 3点
5. 1点
第3章 データの収集と編成
廣野元久 &高橋行雄
など
7/39
1.2 評価や状態の区分例(2)
あなたは,A社のデジカメの写りの色合い
についてどうお思われますか
1.緑みが強い
3.黄みが強い
2.赤みが強い
4.青みが強い
評価に順序がつかないので回答肢に得点
をつけることは無意味
第3章 データの収集と編成
廣野元久 &高橋行雄
8/39
1.3測定の尺度(1)
比例尺度(Ratio Scale)
原点(0)に意味がある.
0~∞(とっても大きい値)をとる
間隔や比率に意味がある
データの加減乗除ができる.
物理量(絶対温度,抵抗値),工場の不良率など
地震のマグニチュードなど
第3章 データの収集と編成
廣野元久 &高橋行雄
9/39
1.3測定の尺度(2)
間隔尺度(interval Scale)
原点(0)に意味がない(移動可能)
摂氏や華氏は間隔尺度
摂氏は,水が氷になる温度を便宜的に0℃
-∞から∞までの値をとる
SFCのΩ館を基点(0)にして東を+,西を-にして
距離をmで測る
間隔には意味がる
データの足し算,引き算ができる
第3章 データの収集と編成
廣野元久 &高橋行雄
10/39
1.3測定の尺度(3)
連続尺度(Continuous Scale)
比例尺度と間隔尺度をまとめる
実際のデータ分析では,両者は同じように取
り扱う
JMPでも両者を区別しない
皆さんも,いまは神経質になる必要はない
第3章 データの収集と編成
廣野元久 &高橋行雄
11/39
1.3測定の尺度(4)
順序尺度(Ordinal Scale)
カテゴリの順序はつくが,間隔や比が不明
先の満足度の設問について,各カテゴリにどのよう
な配点をするのか厳密には難しい
加減乗除には意味がない
名義尺度(Nominal Scale)
カテゴリの順序さえつかない
(評価に方向がない)
JMPでも順序尺度と名義尺度は区別
第3章 データの収集と編成
廣野元久 &高橋行雄
12/39
1.3測定の尺度(4)
まとめ
第3章 データの収集と編成
廣野元久 &高橋行雄
13/39
2 データの収集
2.1 データの種類
2.2 データの調査・作成主体
2.2.1 政府機関のデータ
2.2.2 企業や民間の諸機関
2.3 データの利用
2.3.1 データ利用の社会的ルール
2.3.2 統計データの探索
2.3.3 社会調査データの探索
第3章 データの収集と編成
廣野元久 &高橋行雄
14/39
2.1 データの種類
集計データ(Aggregate Data)
個別調査の結果を調査票から集計してあるデータ
全体の傾向や集計単位ごとの比較など
情報公開度は高い
個票データ(Individual data)
集計前の原データ
集計データよりも細かい情報を必要とする場合
情報公開度は日本では僅か,ルールなど未整備
第3章 データの収集と編成
廣野元久 &高橋行雄
15/39
データの作成:簡単なアンケート
Excel の使用経験、データの編成は?
受講番号:
名前:
Exc e l の使用経験
1
2
なし
あり
実力の自己評価
1
2
3
初級
中級
上級
ルート、対数の計算
1
2
経験な し
で きる
フィル ハンドルを使い
1 ,2 ,...,1 0 0 の作成
1
2
経験な し
で きる
複数セルの合計
関数による計算
1
2
経験な し
で きる
Exc e l の使用経験「 あり」 の人
第3章 データの収集と編成
廣野元久 &高橋行雄
16/39
集計データの例
Exc e l の使用経験、2 0 0 3 年臨床系新人 2 0 0 3 年1 2 月1 7 日
データの個数 : 受講番号
回答
質問番号 質問
0
1
2
総計
Q1
Exc e l の使用経験
1
17
18
Q1 .1
実力の自己評価
1
14
3
18
Q1 .2
ルート、対数の計算
1
9
8
18
Q1 .3
フィルハンドル
1
10
7
18
Q1 .4
関数による計算
1
3
14
18
Q1 .5
一様乱数、RND
1
17
18
Q1 .6
分析ツール
1
13
4
18
Q1 .7
フィルター
1
13
4
18
Q1 .8
ピボットテーブル
1
13
4
18
Q2
MS Ac c e ss の使用経験
16
2
18
総計
8
109
63
180
第3章 データの収集と編成
廣野元久 &高橋行雄
17/39
個票の例
受講番号
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
名前 質問番号
Q1
Q1 .1
Q1 .2
Q1 .3
Q1 .4
Q1 .5
Q1 .6
Q1 .7
Q1 .8
Q2
Q1
Q1 .1
Q1 .2
Q1 .3
Q1 .4
Q1 .5
Q1 .6
Q1 .7
Q1 .8
Q2
質問
Exc e l の使用経験
実力の自己評価
ルート、対数の計算
フィルハンドル
関数による計算
一様乱数、RND
分析ツール
フィルター
ピボットテーブル
MS Ac c e ss の使用経験
Exc e l の使用経験
実力の自己評価
ルート、対数の計算
フィルハンドル
関数による計算
一様乱数、RND
分析ツール
フィルター
ピボットテーブル
MS Ac c e ss の使用経験
第3章 データの収集と編成
廣野元久 &高橋行雄
回答
2
1
1
1
2
1
1
1
2
1
2
1
1
1
1
1
1
1
1
1
チェック
2
1
1
1
2
1
1
1
2
1
2
1
1
1
1
1
1
1
1
1
差
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
18/39
2.2.1 政府機関のデータ(1)
(1)政府統計
大規模,継続性,信頼性,優れている
日本
第一義統計(調査統計)
国勢調査,事業所統計調査,工業統計調査 など
第二義統計(業務統計)
通関統計,犯罪統計,司法統計 など
加工統計
経済統計,鉱工業生産指数
第3章 データの収集と編成
廣野元久 &高橋行雄
19/39
2.2.1 政府機関のデータ(2)
(2)行政情報
白書,インターネット情報
テーマ,話題別の情報(非長期,非継続的)
非公開なものもある
第3章 データの収集と編成
廣野元久 &高橋行雄
20/39
感染症のデータ(例)
http://idsc.nih.go.jp/kanja/monthlydata/data99-3s.html
第3章 データの収集と編成
廣野元久 &高橋行雄
21/39
データの取り込み(例)
第3章 データの収集と編成
廣野元久 &高橋行雄
22/39
2.2.2企業や民間の諸機関
企業内情報(非公開)
財務指標,満足度,市場動向,技術動向
業界団体情報
場合によっては公開
消費者センター(製品情報など公開)
調査機関
販売,コンサルタント,モニターの貸出し
報道機関:新聞紙面など
学術研究機関:刊行物の発行
第3章 データの収集と編成
廣野元久 &高橋行雄
23/39
2.3 データの利用
2.3.1 データ利用の社会的ルール
2.3.2 統計データの探索
(1)統計情報の索引
(2)総合統計書,年鑑類
(3)統計データベースとインターネット
2.3.3 社会調査データの探索
(1)世論調査の索引
(2)データアーカイブ
第3章 データの収集と編成
廣野元久 &高橋行雄
24/39
2.3.1 データ利用の社会的ルール
データにも著作権,DBや書籍にも著作権
日本は著作権に対してルーズな国と思われて
いる
淑女紳士的態度で利用しよう
利用データの出典を明らかにする
著者,書籍,DB,発行年など
DBなどは,利用ルールを厳守する
個票データにはプライバシーの保護を!!!
情報公開とプライバシー保護の問題は難しい
第3章 データの収集と編成
廣野元久 &高橋行雄
25/39
2.3.2 統計データの探索
統計情報の索引から統計調査項目を利用
年鑑類から数字を見ながら探す
データの出典なども利用
(1)統計情報の索引
統計情報インデックス,統計調査総覧
データ出典などにより直接,役所へ問い合わせる
(2)総合統計書,年鑑類
日本統計年鑑,朝日年鑑,読売年鑑,
国連世界統計年鑑,理科年表
統計データベース(CD ROM)とインターネット
検索エンジンの利用
日経NEEDS など
第3章 データの収集と編成
廣野元久 &高橋行雄
26/39
2.3.3 社会調査データの探索
(1)世論調査の索引
世論調査年鑑
(2)データアーカイブ
統計データの保存,蓄積,利用 機関
米国は先進国(情報化大国IT戦略)
世論調査:ローパーセンター
社会科学:コンソーシアム
第3章 データの収集と編成
廣野元久 &高橋行雄
27/39
3.データの編成
生の食材は扱いにくい
野菜は,丁度良い大きさに切り揃える
魚は,焼く場合も,皮がパリと焼けるよう包丁を
いれる
データも分析しやすいように表にまとめる
データを取ってから編成を考えてはダメ
データ分析のストーリに沿って収集&編成
第3章 データの収集と編成
廣野元久 &高橋行雄
28/39
3.1 データの編成
分析の目的に応じて,
データを並べる順序を示す編成を変える
時間の推移による状況を把握するには,データは時間順序に
時系列データ;Time Series Data
株価や為替の分析
寿命の分析(Survival Data)
同じ時点について,異なる対象を観測して,その特徴を調べる
クロスセクションデータ;Cross-Section Data
工程データは,変数の取られる工程順に
特徴が近いと思われる項目を近くに配置する
データ分析後に並べ替えられることもある
複数時点での異なる対象を観測(3元データ);Panel Data
第3章 データの収集と編成
廣野元久 &高橋行雄
29/39
データの編成(時系列データ)
シャトーXXX(ボルドー赤ワイン)
の初出荷時の価格
項目 i
時点
価格
出来
1985
12500
19
1986
12800
19
1987
8600
12
1988
11400
18
1989
21000
19
1990
22500
18
1991
10500
14
1992
9800
12
1993
8800
12
1994
10500
16
1995
21400
17
時間 t
第3章 データの収集と編成
廣野元久 &高橋行雄
30/39
データの編成(クロスセクションデータ)
レーザープリンタの画質評価
項目 i
機種
画像濃度
階調性
解像度
ハーフトーン
A114X
1.34
8.33
5.65
0.04
A112Y
1.29
10.67
7.19
0.06
B3540
1.3
10
7.25
0.03
B1854
1.34
10
6.65
0.04
C1923
1.36
10.33
6.58
0.07
C1105
1.40
10
7.07
0.04
D5040
1.28
9
8.22
0.05
E50SS
1.15
9
7.14
0.11
F3000
1.05
9.67
8.55
0.11
地域,種類,個体,刺激など j
第3章 データの収集と編成
廣野元久 &高橋行雄
31/39
データの編成(パネルデータ)
時間 t 個体 k(官能評価など)
項目 i
企業
環境経営
顧客満足
従業員満足
独創性
企業
顧客満足
従業員満足
独創性
ホンダ 環境経営
企業
環
境
経
営
顧
客
満
足
従
業
員
満
足
独
創
性
ホンダ本IBM
企ホ
業ンダ 日環
境経営
顧客満足
従業員満足
独創性
日本IBM
ソ
ニ
ー
ホン
日ダ
本IBM
ソニ
ー
松
下電器
日本
IBM
ソニ
ー
松下電器
ソ松
ニ下
ー電器 東芝
東芝
日本電気
松下電
器
東芝
日本
ア電
サ気
ヒビール
東
芝
日
本
電
気
アサヒビー
花ル
王
日
本
電
気
アサヒビー
ル
花王
アサヒビ
ー
ル
花
王
花王
地域,種類,個体,刺激など j
第3章 データの収集と編成
廣野元久 &高橋行雄
32/39
3.2 データ入力のための準備
氏名
性別
金メダル
銀メダル
銅メダル
質問1
質問2
船木和喜
男
2
1
0
1
3
原田雅彦
男
1
0
1
3
1
清水宏保
男
1
0
1
2
1
岡部孝信
男
1
0
0
2
2
斎藤浩哉
男
1
0
0
1
5
里谷多英
西谷岳文
岡崎朋美
植松仁
女
男
女
男
1
1
0
0
0
0
0
0
0
0
1
1
5
3
4
3
4
4
3
1
このデータを実際にJMPに取り込んでみよう
第3章 データの収集と編成
廣野元久 &高橋行雄
33/39
3.2 データ入力のための準備
列情報
で指定
変量名
Sex
GOLD
Silver
Bronze
Q1
Q2
文字属性
文字
数字
数字
数字
数字
数字
尺度
名義
連続
連続
連続
連続
連続
1
M
2
1
0
1
3
2
M
1
0
1
3
1
3
M
1
0
1
2
1
4
5
6
7
8
9
M
M
F
M
F
M
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
1
2
1
5
3
4
3
2
5
4
4
3
1
データは番号など
第3章 データの収集と編成
廣野元久 &高橋行雄
34/39
関連Webリンク集を選ぶ
第3章 データの収集と編成
廣野元久 &高橋行雄
35/39
学協会・各種団体・…を選ぶ
第3章 データの収集と編成
廣野元久 &高橋行雄
36/39
円グラフの例
http://www.jiko.nite.go.jp/
第3章 データの収集と編成
廣野元久 &高橋行雄
37/39
円グラフの例
http://www.jiko.nite.go.jp/
第3章 データの収集と編成
廣野元久 &高橋行雄
38/39
帯グラフの例
http://www.jiko.nite.go.jp/
第3章 データの収集と編成
廣野元久 &高橋行雄
39/39