感性データにおける順序関係を 考慮したルール抽出

感性データにおける順序関係を
考慮したルール抽出
奥原浩之, 松原行宏, 杉原一臣, 石井博昭,
感性評価のための属性の序数性を考慮したラフ集合によるルール抽出,
電子情報通信学会論文誌, Vol. J87-A, No. 7, pp. 1045-1053 (2004).
はじめに
感性工学の現状
„
家電電器関係では,シャープのVTRカメラが感性工学の手法で開発さ
れ,マーケットシェアが3%から27%へと急速に増大した.
„
自動車・建設機械分野では,マツダがUnos Roadster開発で感性工学
を導入し,現在はさらに広い思想で研究開発に結びついている.コマツ
はユーザ志向の設計として感性工学をインテリアおよびエクステリアの
形とカラーに応用し,建設機械分野の新しいトレンドを創設した.
„
衣装分野では,ワコールが肌着のデザインに感性工学を導入し,従来
の販売実績の十倍をこえていまだにヒットをつづけている.
キーワード
„
„
„
„
„
感性デザイン(Industrial Engineering)
SD法からの区間選好関係
ラフ集合による近似
縮約による情報の取捨選択
確実ルールの抽出
従来法の問題点と適用する手法の利点
従来法の問題点
識別行列によるラフ集合の場合
決定表が矛盾している場合には,
現実には理解しがたいルールが得
られる可能性がある.
順序関係によるラフ集合
近似の質ごとにルールjを得ること
ができるが,質的データを扱うこと
ができない.
適用する手法の利点
質的データ
区間回帰分析を適用
順序関係の導出
近似の質ごとにルール
感性実験により収集されたデータ
(自動車のフロント部分の形状がユーザーの心理に及ぼす影響)
被験者 (成人男性)
33人
・アメリカ人 20人
・イギリス人 10人
・日本人
SD尺度法による評価
実験方法はあらかじめ準備
された評価項目にSD尺度法
により評価してもらう
条件属性から決定属性への決定表
These data were provided by Prof. Y. Matsubara,Hiroshima City University.
ラフ集合によるルール抽出
1 2 3 Decision
属性の序数性を考慮したラフ集合
番目の決定属性を 個のクラスに分類する
少なくともクラス
たかだかクラス
に属している集合 上側累積集合
に属している集合 下側累積集合
において
において
全ての基準の集合を
が
において
とするとき
を支配する
1 A D G
Yes
2 B D H
No
3 C F H
No
4 C E I
Yes
を支配する の要素の集合
に支配される の要素の集合
上側累積集合
下近似集合と上近似集合
下側累積集合
下近似集合と上近似集合
に属している を支配している
データ
は必ずクラス 以上に属している
に属している を支配している
データ
は必ずクラス 以上に属している
上側累積集合の境界と
下側累積集合の境界
上側累積集合の近似の精度と
下側累積集合の近似の精度
分割
ミカンの品質に関する決定表
属性間の序数性を考慮しないラフ集合によるルール
の近似の質
属性間の序数性を考慮したラフ集合によるルール
が成立する
極小集合
を縮約と呼ぶ
属性が質的データの場合の取り扱い
質的データの区間回帰モデル
区間演算による区間出力
区間線形モデルのための線形計画問題
は属性
区間効用値ベクトル
中心ベクトル
幅ベクトル
に関する
確実ルールの抽出
属性のカテゴリ間の順序付け
区間値
で
が
において
を支配する
確実ルールの抽出
ミカンの品質に関する決定表におけるアイテム
のカテゴリ順序関係
分析結果ならびに考察
サンプルのアイテム・カテゴリ分類における結果を0-1の質的データに変換する。
カテゴリ分類における結果
カテゴリ分類の質的データへの変換
決定属性の平均値(日本人)
評価項目の左端から右端に
かけて1~5に割り振り被験
者の平均を算出した
区間回帰分析を適用した結果
高級感を感じる要素(各国共通)
•条件属性I1ボディ本体の形状が中央凸型のカテゴリ
•条件属性I1ボディ本体の形状が四角形,中央凸型以外のカテゴリ
•条件属性I3ライトの間のデザインが縦模様や横模様以外のカテゴリ
高級感を感じない要素(各国共通)
•条件属性I6のエンブレムの有無
高級感を感じるかどうかにばらつきが見受けられる(イギリスとアメリカ
•イギリス人の条件属性I3のライトの間のデザインが縦模様や横模様以外のカテゴリ
•アメリカ人の条件属性I3のライトの間のデザインが横模様のカテゴリ
•アメリカ人の条件属性I5の指示器の位置が下のカテゴリ
縮約の結果
行列の要素は複数の縮約において考慮される条件属性の出現回数を表し,右端は近似の質を表す.
日本人の近似の質が最大となる縮約
アメリカ人の近似の質が最大となる縮約
イギリス人の近似の質が最大となる縮約
各国共通して,決定属性D1(高級感)にはI1(ボディ本体の形状),D2(スポーティ感)にはI3(ライトの
間のデザイン),D5(クラッシク感)にはI4(ライトの間の形状),D7(フロントマスクの空力性能の良し悪
し)にはI8(ライトの厚み)があまり影響していないといえる.
近似の質の相関ならびに分布
アメリカ人が自動車のフロント部分の形
状から受ける印象はイギリス人の印象
とはあまり相関がなくむしろ日本人の印
象に近いとみられる.
近似の質の分布
○日本人
△アメリカ人
□イギリス人
決定属性D3(かわいさ)における近似の質の分布
決定属性D12(安全性の良し悪し)における近似の質の分布
日本人は、アメリカ人やイギリス人と比較して自動車のフロント部分の形状からかわいさについては
ある程度のイメージができるが,安全性の良し悪しをイメージすることは難しいことがわかる
おわりに
„
質的データとなる感性データを分析するために区間回帰分析に
より順序関係を導出できるラフ集合モデルを適用した.
„
数値実験では,自動車のフロント部分の形状がユーザの心理に
及ぼす影響の違いを分析した.
„
抽出されたルールにもとづいてデザイン設計を支援するシステ
ムの可能性が示された.
その他の適用例: 医療診断システム,リスク・マネージメント
非線形最適化によるテキストデータか
らの知識発見
K. Okuhara, Y. Matsubara, N. Ueno, H. Ishii and J. R. Wilson,
Rule Extraction for Kansei Experimental Data with Rare Samples
and Contradictory Samples,
Applied Ergonomics, in submitting.
はじめに
計画案
IT技術によるアンケート
調査
合意形成
出力
認識
価値観
評価
データマイニング
アンケート結果収集
入力
商品開発
z アンケート分析 (マーケティング調査)
自社商品+他社商品
2次元コード
携帯電話
魅力ある商品の開発
消費者の嗜好動向
自社商品の特長
他社商品の長所
販売促進(直販・通販)
商品活用の紹介
自由記入欄も備えておく
パブリック・インボルブメント(PI)
行政が事業実施段階で情報公開し,
地域の住民と対話を重ねながら,そ
の結果を計画づくりに反映しようとす
る住民参加手法.
特徴
¾公開性(透明性の確保,情報公開など)
¾双方向性(双方向コミュニケーションなど)
¾継続性(情報提供の継続など)
情報の公開・共有
意見の把握・公表
合意形成
行政
ワークショップ
ヒアリング
アンケート
パンフレット 等
住民
一般的なテキストマイニングについて
テキストマイニングの適用対象
z 営業日報
(各種日報分析)
z アンケート分析
(マーケティング調査)
z ネットコミュニティ
(掲示板サイト分析)
z コールセンター
(お客様相談窓口)
形態素解析システム
茶筅
http://chasen.naist.jp/hiki/ChaSen
全文検索システム
Namazu
http://www.namazu.org/index.html.ja
キーワード抽出可視化
KeyGraph
http://www2.kke.co.jp/keygraph/index.html
具体的なテキストマイニング活用プラン
z 営業日報 (各種日報分析)
全文検索システム
形態素解析
Namazu-2.0.12
ChaSen
DB・WEBコンテンツ
3D表示(回転,ズーム機能)
水圧
洗浄
キーワード
„
情報の活用
(非線形数量化Ⅱ類)
„
稀なデータ
疑わしいデータ
(出現確率の推定)
(エントロピー)
矛盾
統一的な基準
(序数性を考慮したラフ集合)
(ガウス混合モデル)
„
„
„
提案するテキストデータからの情報抽出の流れ
一般的に,テキストデータには曖昧さが存
在する.
前処理をせずに得られた縮約は必ずしも
信頼できるものではない.
かぎられたアンケート
データからできるだけ
多くの情報を抽出する.
非線形数量化Ⅱ類
稀なデータや疑わし
いデータに対して意
思決定を保留する.
尤度とエントロピー
ガウス混合モデル
順序関係にもとづいて
矛盾のあるルールを
削除する
序数性を考慮した
ラフ集合分析
非線形解析のためのガウス混合モデル
構造
Output of hidden unit yk
→ Min
Decision
attributes
Condition
attributes
第k 番目のユニットの出力
y
x
ここで,
Normalizing unit
システム全体の出力
第k 番目のユニットのパラメータ
平均ベクトル
ここで,
分散行列
ガウス混合モデルの確率的な枠組み
第k 番目のユニットの出力
システム全体の出力
ここで,
ここで,
ガウス混合モデルのパラメータ推定
不完全データに対する尤度関数
→ Max
パラメータの更新規則
ここで,
E (Expectation) step
M (Maximization) step
ここで,
非線形数量化Ⅱ類(情報の活用)
条件属性
ガウス混合モデル
を説明変数とする.
条件属性の写像
を被説明変数とする.
→ Min
推定される最適な写像
ここで,
ただし,
ここで,
Uは
カテゴリごとの区間の抽出
序数性を考慮したラフ集合分析
y
1
中心ベクトル (平均)
0.5
0
幅ベクトル (標準偏差)
0
100
200
300
400
x
出現確率に基づく稀なデータに対する
意思決定の保留
閾値
エントロピーにもとづいた疑わしいデータの判定
→ Max
sub. to
ここで,
自由エネルギー
は
疑わしいデータの判定
のためのメルティング
エントロピー最大化 ≡ 自由エネルギー最小化
と等価である.
序数性を考慮したラフ集合分析の概要
complex
decision
condition
attribute
attributes
nominal scale
・ 稀なデータへの意思決定保留
・ 疑わしいデータの判定
・ 矛盾するルールの排除
・ 条件属性から決定属性への写像
決定表と抽出されるルールの例
矛盾するルール
矛盾するルール
C1: deluxe, C2: safety, D1: impression, and 1: low, 2: high
The data C1 and C2 are high is better than they are low for D1.
序数性を考慮したラフ集合分析を適用したときの結果
序数性を考慮したラフ集合分析の手順
第 番目の決定属性を
クラスに分類する.
個の
1
2
3
4
¾上側累積集合
少なくともクラス
1
2 Decision
bad good
No
good bad
Yes
Yes
bad bad
good good
Yes
に属する集合
を全ての評価基準の集合とする.
¾下側累積集合
たかだかクラス
集合
(
支配する
に属する集合
)において
の集合
を
集合
支配する
を部分集合 において
の集合とする
を
上側累積集合に対する
下側近似集合と上側近似集合
確実に
において を支配するデータ
は
より上側のクラスに属すことから
集合
を部分集合 において
支配される の集合とする
に
下側累積集合に対する
下側近似集合と上側近似集合
確実に
において を支配するデータ
は
より下側のクラスに属すことから
‹ 上側累積集合と下側累積集合に対する境界
‹ 分類
の近似の質
が満たされるときの要素が最小の部分集合
‹ 上側と下側の特性から得られる確実なルール
のことを縮約という.
決定表において条件属性が名目尺度で与えられている場合や,条件属性から決定属性への
写像が複雑である場合
条件属性の区間
部分集合 において
導出された区間
区間 (or ファジィ) 回帰分析
への写像
を支配する
を用いて*
を
ガウス混合モデル
*K. Sugihara, et al, “New Approach to Conjoint Analysis Based on Rough Sets “,
Journal of Japan Society for Fuzzy Theory and Intelligent Informatics, Vol. 15, No. 4, pp. 59-65, 2003.
提案するデータマイニング手法によるアンケートの解析
決定表
D1
Class 3
Class 2
Class 1
yˆ = φ ( x )
ガウス混合モデルによる
被線形数量化Ⅱ類
稀なデータと疑わしいデータ
yˆ = φ ( x )
順序関係にもとづいたラフ集合分析の適用
エントロピーによる疑わしいデータの判定
まとめ
„
曖昧さを含むアンケートデータから,信頼性の高い有用な情報を抽
出するための情報処理の枠組みを提案した.
„
稀なデータや疑わしいデータの判定による意思決定保留のために,
非線形数量化Ⅱ類へガウス混合モデルを適用することを提案した.
„
稀なデータや疑わしいデータに対応した上で,序数性を考慮したラフ
集合分析を適用し,矛盾のあるルールを排除することを考えた.
その他の適用例: ネットコミュニティ分析,特許分析
データマイニングの課題
どのようにデータをとるか?
(分析目的に適したデータ採取の方法)
どのようにデータの信頼性を高めるか?
(稀なデータ,疑わしいデータ,矛盾のあるデータの排除)
どのようにデータを分析するか?
(限られたデータから最大の情報を抽出する方法)
どのように分析結果を表示するか?
(最終的に判断する人間のための表示方法の工夫)