データ分析入門(3) - ODN:各種サービスのご

データ分析入門(4)
第4章 グラフ表現とわかりやすさの工夫
廣野元久
1
本章の概要
データから情報を読み取るためにはグラフで
表現するのが分かりやすい
グラフは直感的で分かりやすい
難しい理屈はいらない
グラフ化のポイント
何を強調するのかを決め
どんなグラフを利用するのかを決めよう
目的別に様々なグラフの紹介
グラフ化のポイント
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
2/33
1.いろいろなグラフと
グラフの構成要素
1.1棒グラフ
例)頻度の違いを名義尺度のカテゴリーで分類
1.2折れ線グラフ
例)量的データを時点による変化の動きを確認
1.3円グラフ
例)頻度データの割合を名義尺度のカテゴリーで分類
1.4帯グラフ
例)頻度データの割合を順序尺度のカテゴリーで分類
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
3/33
1.いろいろなグラフと
グラフの構成要素
グラフ
データから直感的に情報を読み取る
情報伝達の有効な手段(視覚から入る)
グラフの持つべき要件
見ただけでデータの持っている内容が分かる
誤解を生じないように表されている
誰がやっても,見ても間違いが少ない
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
4/33
1.いろいろなグラフと
グラフの構成要素
グラフの使いこなし
表現したい内容に応じたグラフを選ぶ(基礎)
グラフで強調する部分をきちんと表現(応用)
グラフの目的
状況把握のため
比較のため
推移変化を把握するため
関連を調べるため
など
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
5/33
演習問題(p42)
VTR普及期に行った調査
消費者がどのような時期に1台目のVTRを購
入したか
購入時期
人数
1.1984年3月以前(イノベータ-)
51
2.1984年4月~1986年3月(初期採用者)
156
3.1986年4月~1897年3月(多数採用者)
300
4.1987年4月~1988年3月(採用遅滞者)
75
何を表現し,どんなグラフを作るか
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
6/33
1.0 データの集計表,数値データ
細部にわたって詳細に記述してあっても訴える力
が弱く,注意しないと重要な情報を見逃してしまう
購入時期
1.1984年3月以前(イノベータ-)
人数
51
2.1984年4月~1986年3月(初期採用者)
156
3.1986年4月~1897年3月(多数採用者)
300
4.1987年4月~1988年3月(採用遅滞者)
75
グラフ化して焦点を絞ろう
料理で言うと,---どんなパスタを作ろうか
トマトソース,バジルペースト,生うに,鳥モモ肉のミンチ,
ピーマン,パプリカ,トマト,バジル,にんにく,玉葱
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
7/33
1.1棒グラフ
(人)
350
採用者数
300
250
200
150
100
50
0
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
図4.1:棒グラフ
横軸に採用時期
棒の長さが採用
者数に対応
忘れずに
(テキスト参照)
軸の説明
目盛や単位
分かりやすい凡例
タイトルと図番号
基線はゼロが基本
カテゴリーの順番に意味を持たせる場合にはその順番に,そうでなけ
れば,頻度の多い順に並べ換えると見良い
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
8/33
1.2 折れ線グラフ
(人)
350
採用者数
300
250
横軸に採用時期
ポイントが採用
者数に対応
ポイントとポイント
の間を線で結ぶ
200
150
100
時点間の比較
人数の推移を強調
50
0
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
図4.2:折れ線グラフ
カテゴリーの順番に意味(多くの場合は時点)がある場合に,その推移
変化を把握するために有効なグラフ
横軸がカテゴリーの場合は破線,数値の場合は実線が基本
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
9/33
1.3 円グラフ
1.イノベータ
9%
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
4.採用遅滞者
13%
2.初期採用者
27%
扇形の面積が採
用者数に対応
全体を1(100%)
としたときの割合
が一目でわかる
3.多数採用者
51%
図4.3:円グラフ
基線は12時の位置に置くと見やすい
カテゴリーの順番に意味がない場合は頻度(割合)の多いものから並
べ換えると見やすい
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
10/33
1.4帯グラフ
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
採用者数
0
100
200
300
400
500
長方形の面積が採
用者数に対応
全体を1(100%)とし
たときの割合を表
す場合と,
頻度で表す場合が
ある
600 (人)
図4.4:帯グラフ
カテゴリーの順番に意味がない場合は頻度(割合)の多いものから並
べ換えると見やすい
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
11/33
2 やや複雑なデータの表現
項目が複数ある場合のグラフによる表現
をしてみよう
表4.2:購入時期ごとの価格感評価
カテゴリー
高い
やや高い
妥当
安い
イノベータ-
28
10
12
1
初期採用者
42
45
54
15
多数採用者
51
48
156
45
採用遅滞者
9
11
36
19
何を表現し,どんなグラフを作るか
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
12/33
2.0クロス表(分割表)
表4.2:購入時期ごとの価格感評価
カテゴリー
高い
やや高い
妥当
安い
イノベータ-
28
10
12
1
初期採用者
42
45
54
15
多数採用者
51
48
156
45
採用遅滞者
9
11
36
19
購入時期と価格感という2つの変量のカテゴリーをクロス
(分割)して,組合せた,頻度の表をクロス表と呼ぶ
クロス表の目的は1つの変量で分類して,残りの変量の分布
を比較する
購入時期により分類して,価格感の違いを調べる
価格感のいだき方により分類して,購入時期の違いを調べる
上と下では,目的が異なるからグラフの表現が変わるかも知れな
い?
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
13/33
2.1 グラフの並置(購入時期で分類)
まず,単純にグループごとにグラフを作り,並べてみる
1.イノベータ
2.初期採用者
160
140
120
100
80
60
40
20
0
160
140
120
100
80
60
40
20
0
高い
やや高い
妥当
安い
高い
3.多数採用者
やや高い
妥当
安い
4.採用遅滞者
160
140
120
100
80
60
40
20
0
160
140
120
100
80
60
40
20
0
高い
やや高い
妥当
安い
高い
やや高い
妥当
安い
図4.6:4つの折れ線グラフによる表現
頻度の違いに着目している場合には,縦軸のスケールは統一する
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
14/33
2.1 グラフの並置(購入時期で分類)
まず,単純にグループごとにグラフを作り,並べてみる
高い
160
140
120
100
80
60
40
20
0
やや高い
160
140
120
100
80
60
40
20
0
1.イノベータ
2.初期採用者 3.多数採用者 4.採用遅滞者
1.イノベータ
妥当
160
140
120
100
80
60
40
20
0
2.初期採用者 3.多数採用者 4.採用遅滞者
やや高い
160
140
120
100
80
60
40
20
0
1.イノベータ
2.初期採用者 3.多数採用者 4.採用遅滞者
1.イノベータ
2.初期採用者 3.多数採用者 4.採用遅滞者
図4.5‘:4つの棒グラフによる表現
頻度の違いに着目している場合には,縦軸のスケールは統一する
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
15/33
2.1 グラフの並置(割合を比較する)
まず,単純にグループごとにグラフを作り,並べてみる
1.イノベータ
3.多数採用者
安い
安い
高い
妥当
やや高い
高い
やや高い
妥当
4.採用遅滞者
2.初期採用者
安い
分類する
カテゴリー数が
多いと
みずらい
高い
高い
安い
やや高い
妥当
やや高い
妥当
図4.7:4つの円グラフによる表現
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
16/33
2.2 一覧性を備えたグラフ(1)
比較のために複数のグラフに目を走らせる
代わりに1つの複合グラフにまとめよう
(人)
160
高い
やや高い
妥当
安い
140
120
100
80
60
40
20
0
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
図4.8:一覧性を備えたグラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
17/33
2.2 一覧性を備えたグラフ(2)
複数の折れ線を1つのグラフにまとめると,一覧性
が高く,分布を比較しやすい
(人)
160
高い
やや高い
妥当
安い
140
120
100
80
60
40
20
0
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
図4.9:まとめたグラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
18/33
2.2 一覧性を備えたグラフ(3)
ドーナッツグラフは一覧性は確保できるが
内側と外側では外側が強調されやすい
高い
やや高い
妥当
安い
図4.10:ドーナッツグラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
19/33
2.2 一覧性を備えたグラフ(4)
割合だけを比較したいなら,帯グラフの並置が分
かりやすい
高い
やや高い
妥当
安い
4.採用遅滞者
3.多数採用者
2.初期採用者
1.イノベータ
0%
20%
40%
60%
80%
100%
図4.11:帯グラフの並置
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
20/33
2.2 一覧性を備えたグラフ(4)
160
140
120
100
80
60
1.イノベータ
2.初期採用者
3.多数採用者
4.採用遅滞者
40
3.多数採用者
2.初期採用者
1.イノベータ
安い
妥当
やや高い
高い
0
4.採用遅滞者
20
3D棒グラフは,情報
の損失が少ないが,
かえって分かりずらく
なることもある
生ウニは高級な食材であ
るが,パスタに用いるには
注意が必要で,誤ると,とっ
ても下品な味になる
図4.12:立体(3D)棒グラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
21/33
ExcelとJMPで追試をしてみよう
カテゴリー
イノベーター
初期採用者
多数採用者
採用遅延者
計
高い やや高い 妥当
28
10
12
42
45
54
51
48
156
9
36
11
130
114
258
安い
1
15
45
19
80
計
51
156
300
75
582
このデータを Excel に取り込んで追試をしてみよう。
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
22/33
JMPのテーブル機能で
積み重ねられたデータ
JMPのテーブルメ
ニューを使うと列の
積み重ねなどテー
ブル操作が可能
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
23/33
2.3 カテゴリーどうしの結びつきを
強調したグラフ(対応分析)
第2軸
対応分析は
多変量解析の
手法である
2
イノベータ1.5
1
高い
0.5
採用遅滞者
妥当
多数採用者
採用時期
価格感
0
安い
-0.5
-1
初期採用者
-1.5
やや高い
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
第1軸
図4.13:双対尺度法によるグラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
24/33
3. 分かりやすさの工夫
かくし味を有効に使おう
タラコパスタにかくし味として,コブ茶を少々加え
るとタラコパスタにパンチが効いて美味しい
グラフもただ通り一辺倒に作るのではなく,
分析者がちょっとした工夫を付け加えるこ
とで,分析者の主張が相手に伝わりやすい
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
25/33
演習問題(p52)
伊藤,松本,吉岡さんの車の好みを比較しよう
表4.3:いろいろな車種についての好み
車種
伊藤さん
松本さん
吉岡さん
MR2
6.2
8.9
2.1
カローラ
7.3
8.4
3.4
クラウン
8.5
7.4
4.4
コロナ
7.5
8.6
3.5
サーフ
9.3
6.2
5.4
セリカ
セルシオ
プラド
6.4
8.6
9.1
9.5
7.3
6.5
2.3
4.5
5.2
今度の変量は
多い
分析の目的は
(1)回答者の好みのパターンは?
(2)車種のそれぞれはどのように好まれているか?
などなど・・・
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
26/33
3.1並べかえによる分かりやすさの向上
MR2
MR2
プラド
10
10
8
8
コロナ
カローラ
セリカ
6
6
ファミリー
4
4
2
2
セルシオ
スポーツカー
クラウン
0
カローラ
サーフ
0
RV
セリカ
コロナ
サーフ
伊藤さん
松本さん
吉岡さん
図4.14:レーダーチャート
クラウン
高級
プラド
セルシオ
伊藤さん
松本さん
吉岡さん
図4.15:並べかえた
レーダーチャート
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
27/33
3.2 データの質的情報と量的情報
(伊藤,吉岡)と松本の車の好みが違いそう
---->質的な結論(反応のパターン)
配点の付け方も(伊藤,松本)と吉岡では違う
--->量的な結論(回答者の評価の厳しさ)
アンケート調査では,回答者のパターンと回答者の
評点のつけ方の違いに要注意!!!
目的によってはデータ分析において,回答者の評価の厳
しさを揃えることがある(表の行方向の標準化)
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
28/33
サイエンス領域のグラフ
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
29/33
4 まとめ
グラフは,相手に自分の主張を伝える強力な道具
道具をうまく使いこなす(包丁を食材別に使いこなすよ
うに)
自分になじんだ道具にしよう(ちょっとした工夫が説得
力を増す)
手を加えすぎて, かえって難解にならないように注意
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
30/33
2
1.5
1
スコアの平均
3
2.5
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2
デザインA
デザインB
差
0.5
0
-0.5
-1
-1.5
-2
平均の差
おまけカメラデザインの評価
厚く見える
力強い
高価な
飽きのこない
アダルト向きな
洗練された
使いにくそうな
華やかな
ありふれた
古風な
よそよそしい
カジュアルな
嫌いな
華奢な
リズミカルな
小さく見える
形容詞
廣野(1998);MA研の実習から
カメラデザインの評価:品質管理誌11月号
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
31/33
宿題のデータ:水質調査
北海道
東北
関東
中部
近畿
中国
四国
九州
計
水質AA
14
56
30
75
46
42
15
75
353
水質A
4
33
49
108
58
24
21
41
338
水質B
11
25
47
19
12
7
3
21
145
水質C
0
0
2
0
0
0
1
0
3
Excel または JMP に カット & ペーストしなさい
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
32/33
宿題のデータ:Jリーグ
A 記者(読売新聞・大阪)
B 記者(毎日新聞・東京)
C 記者(報知新聞・東京)
D 記者(スポーツニッポン・大阪)
E 記薯(毎日新聞・大阪)
F 記者(スポーツニッポン・東京)
G 記者(報知新聞・大阪)
H 記者(読売新聞・東京)
ジュビロ
ヴュルディ
磐田
川崎
1位
5位
1位
12 位
3位
6位
3位
6位
4位
9位
2位
9位
2位
12 位
2位
5位
ガンバ
コンサドーレ
大阪
札幌
10 位
17 位
10 位
16 位
13 位
14 位
2位
17 位
5位
18 位
15 位
17 位
8位
17 位
13 位
16 位
Excel または JMP に カット & ペーストしなさい
第4章 グラフ表現とわかりやすさの工夫
廣野元久 &高橋行雄
33/33