演習Ⅱ

演習Ⅱ
テキストマイニング
Excelで学ぶ
テキストマイニング入門
第1章 テキストマイニングの基礎
テキストマイニングとは・・・
第2章 自由文の手作業によるテキストマイニング
ここでは,ワインについての簡単なアンケート結果をテキス
トマイニングする事例を紹介しながら,Excelを使って実践的
なテキストマイニングの学習を行う.
ワインの良し悪し.xls
東京在住のワインを購入
して飲んでいる人50人に
アンケート(自由記入で
回答)
2.1 作業の方針と手順
これらのテキストデータを分析し,アンケート対象者が「どの
ようなワインを良いワインとイメージするのか」という役に立
つ知識・情報を取り出す作業を行う.
テキストデータを分析する手順は以下の通りである.
キーワードの付与(手作業)
キーワードの整形
キーワードの出現頻度をヒストグラム化
分析
2.2 テキストのキーワード化
まず,アンケートの各回答に含まれている単語の中から,
「良いワインのイメージ」に関連する情報を取り出すための
キーワードを取り出す.
「ワインの良し悪し.xls」を利用して各自でキーワードに分解
2.3 キーワードの整形
各キーワードの出現頻度を調べるために,ヒストグラム(頻
度表)を作成する.
新しいワークシートの挿入
このボタンをクリック
2.3 キーワードの整形
新しいワークシートのA1セルに
「キーワード」と入力.その下に,先
ほど分解したキーワードの各列を
貼り付ける.
キーワード1
C列
キーワード2
D列
・・・・・
・・
「キーワード1」 の
C列を貼り付け
2.3 キーワードの整形
次に,各キーワードを並び替え,それをチェックします.
2.3 キーワードの整形
次に,各キーワードを並び替え,
それをチェックします.
キーワードをチェックし
て,表記を統一する
例)「甘い」,「甘口」
②
①
2.4 ヒストグラム化
まずは,各キーワードの出現度数を集計する.
セルB1に「度数」と入力し,
B列に「1」を入力
2.4 ヒストグラム化
列A,Bを選択して,ハイライト表示にする
挿入→ピボットテーブル→ピボットテーブル
2.4 ヒストグラム化
ドラッグする
2.4 ヒストグラム化
集計結果は得られたが,表を作成するためにデータを
加工することができないので,データだけをコピーする.
データを
選択して
2.4 ヒストグラム化
2.4 ヒストグラム化
貼り付けした
2列を選択
2.4 ヒストグラム化
2回以上出現したキーワードを
棒グラフに表す.
2.4 ヒストグラム化
2.4 ヒストグラム化
出現頻度が高いキーワードは,香り,産地,価格,味,
好み,年代,飲みやすい,口当たり,である.
→ワインの良し悪しを決める情報が得られた