表情と音声の情動知覚における視聴覚相互作用: 情動

2014年度日本認知科学会第31回大会
O5-1
表情と音声の情動知覚における視聴覚相互作用:
情動判断と反応時間の分析
Audio-visual Interaction in the Emotion Perception of Face and
Voice: Analyses of Emotion Judgment and Reaction Time
正田 悠 †‡ ,新田 晴 § ,鈴木紀子 ¶ ,岸本和香 † ,阪田真己子 †
Haruka Shoda, Haru Nitta, Noriko Suzuki, Waka Kishimoto, Mamiko Sakata
†
同 志 社 大 学 文 化 情 報 学 部 ,‡ 日 本 学 術 振 興 会 特 別 研 究 員
§
同 志 社 大 学 大 学 院 文 化 情 報 学 研 究 科 ,¶ 帝 塚 山 大 学 経 営 学 部
Faculty of Culture and Information Science, Doshisha University
[email protected]
Abstract
We communicate emotions via facial and vocal expressions, which are generally congruentwith each
other, e.g., smiling with high-tone voice in case of
happiness. On the other hand, these expressions are
sometimes conflicting, e.g., smiling with intimidating voice. In the present study, we investigated how
people perceive such emotionally congruent and conflicting expressions to understand the mechanism of
cross-modal perception. As experimental stimuli, a
male actor expressed four emotions (i.e., happy, angry, sad, relaxed), which were selected from Russell
(1980)’s circumplex model (positive/negative, highactivity/low-activity), for a meaningless word, “nirenako.” In the experiment, 36 students were exposed
to a total of 16 combined face-and-voice movies, each
of which was rated on a visual analogue scale in
terms of either valence (positive/negative) or activity
(high/low). For each stimulus, they also chose from
four emotions (i.e., happiness, anger, sadness, relaxation) what emotion the actor expressed. Results
showed that observers judged the valence generally
in accordance with the facial expression, so that the
negative “face” leaded faster response to observers.
Any perceptual bias between face and voice was not
shown in the activity ratings, whereas people perceiving higher activity generated faster responses regardless of the combination of face and voice. The dimensional approach in the present study suggests that the
visual dominance for multi-modal stimuli can only be
applicable to the “valence” dimension but not to the
“activity” dimension. Replicability by using other expressive media (e.g., music performance) and/or other
actors awaits future study.
Keywords — Emotion, Audio-visual Interaction, Face, Voice, Circumplex Model, Reaction
Time
1.
はじめに
日 常 の 対 話 場 面 に お い て 、我 々 は 自 身 が 持 つ 文
化 的 背 景 の も と 、複 数 の モ ダ リ テ ィ か ら 統 合 的 に
感情を判断することで円滑にコミュニケーション
を 行 っ て い る( 田 中, 2011)。そ の 中 で も 、視 覚 情
報(e.g., 目や口の動き)と聴覚情報(e.g., 声の高さ
や 大 き さ 、抑 揚 )は 話 し 手 と 受 け 手 を 媒 介 す る 情
報 と し て 重 要 な 役 割 を 果 た し て い る( 大 坊, 1998;
Mehrabian,1972)。本 研 究 で は 、顔 と 声 に よ っ て 表
現 さ れ る 情 動 が 一 致 し て い る と き と(e.g., 笑 顔 で
大 き く ハ キ ハ キ し た 声 で 話 す )、両 者 が 表 現 す る
情 動 が 異 な る と き で(e.g., 笑 顔 で 威 圧 的 な 声 を 出
す )、受 け 手 が 知 覚 す る 情 動 が い か に 異 な る の か
を調べた。
視 聴 覚 の 情 報 が 統 合 さ れ る こ と で 、表 現 の 主 体
から受け手への情動のコミュニケーションにいか
なる影響があるのかが調べられてきた(e.g., 荒井・
井 上・小 野・板 倉・北 崎, 2011; Ohgushi & Hattori,
1996; 田中, 2011; Tanaka, Koizumi, Imai, Hiramatsu,
Hiramoto, & de Gelder, 2010; 渡辺・望月, 2004)。話
し 手 が 顔 と 音 声 で 異 な る 情 動 を 表 出 し た と き 、付
加した情報に影響されて情動が知覚されるとい
う 知 見 が あ る 一 方 で( 荒 井 ら, 2011; Tanaka et al.,
2010)、主 と し て「 表 情 」で 表 さ れ た 情 動 が 知 覚 さ
れ る と い う 視 覚 優 位 性 に 関 す る 報 告 も あ る(e.g.,
「悲しみ」の表情に「喜び」の声が付随するとき、受
け 手 は「悲 し み 」の情 動 を 知 覚 す る )
(渡 辺・望 月,
2004)。また、特定の言語的意味を持たないヴォカ
リ ー ズ 1 の 演 奏 に お い て も 、声 楽 家 が 意 図 し た 情
動(e.g., 喜 び 、悲 し み 、怒 り 、怖 れ 、無 表 情 )が 顔
表情と音声が合わされたときに聴き手によく伝わ
ることが示されている(Ohgushi & Hattori, 1996)。
以上の先行研究では、エクマンの基本情動説(Ekman & Friesen, 1975)に代表されるように、情動を
「喜び」、
「悲しみ」といった個々の具体的な情動と
1歌 詞 の な い 声 楽 曲 の こ と
159
2014年度日本認知科学会第31回大会
O5-1
し て “カ テ ゴ リ ー 的” に 扱 っ て い る 。一 方 で 、個 々
の情動を離散的なものとして捉えるのではなく、
情 動 を 2 次 元 あ る い は 3 次 元 上 に 集 約 し 、各 次 元
において連続的に変化するものとして扱うことも
で き る(e.g., Russell, 1980, “情 動 次 元 説”)。Russell
(1980)は 、一 般 に ヒ ト が 表 出・知 覚 す る 情 動 は 二
次 元( 以 下 、
「 快・不 快 」
「 活 動 性 」)で 表 す こ と が
で き 、こ の 二 次 元 は 独 立 な も の で あ る こ と を 示 し
て い る(Russell, 1980, 図 1)。本 研 究 で は 、異 な る
情 動 を 表 現 し た 顔 表 情 と 音 声 を 視 聴 し た 際 に 、観
察 者 が ど の よ う な 情 動 を 受 け 取 る の か を 、カ テ ゴ
リー判断と情動次元説に基づいて調べることで、
顔と声のクロスモーダル知覚のメカニズムを明ら
か に す る こ と を 試 み た 。こ れ に よ り 、こ れ ま で 示
さ れ て き た 視 聴 覚 統 合 の 知 見(e.g., Tanaka et al.,
2010; 渡 辺・望 月, 2004)が「 快・不 快 」、「 活 動 性 」
の 両 方 に つ い て 適 用 可 能 な も の な の か 、あ る い は
どちらか一方の影響を受けたものであったのかを
明らかにする。
こうした顔と声の視聴覚統合のメカニズムを
明らかにするためのもう一つのアプローチとし
て 、刺 激 が 呈 示 さ れ て か ら 視 聴 者 が 情 動 を 判 断 す
るまでの反応時間を測定することも有効である。
渡 辺・望 月(2004)は 、表 情 と 音 声 で 表 さ れ る 情 動
が 不 一 致 の 場 合 、両 者 が 一 致 し て い る 場 合 よ り も
情動判断に至るまでに時間がかかることを示して
い る 。本 研 究 は こ れ を 次 元 的 に 調 べ 、
「 快・不 快 」
お よ び「 活 動 性 」の 情 動 判 断 の 過 程 に 顔 と 声 の 情
動の組み合わせが及ぼす影響を明らかにする。
本 研 究 で は 、情 動 を「 快・不 快 」な ら び に「 活 動
図 1 . Russell(1980)の 感 情 表 現 語 の 二 次 元 モ デ
ル 。日 本 語 訳 は 大 串(2008)に よ る 。
性」からなる 2 次元上で変化するものと捉え、各次
元での情動判断とその反応時間に顔と声の情動の
組み合わせが及ぼす影響を調べた。音声より も 表
情 の 方 が「 快・不 快 」情 報 を 判 断 し や す く( 高 木・
平 松・田 中, 2011)、ヒ ト は ネ ガ テ ィ ブ な 情 報 に 対
し て 敏 感( 渡 辺・望 月, 2004)な 傾 向 が あ る こ と か
ら 、不 快 表 情 に お け る 音 声 の 影 響 は 弱 い と 予 測 さ
れ 、ま た 、不 快 情 動 に 対 す る 反 応 時 間 が 早 い と 予
測される。
2. 方法
2.1 刺激の作成とその妥当性の確認
2.1.1
顔表情および音声の収録
演 劇 経 験 8 年 の 男 性 1 人 に 、無 意 味 音 節「 に れ な
こ」2 を二次元情動モデル(図 1)上の各象限を代表
する 4 つの情動カテゴリー(喜び、怒り、悲しみ、リ
ラックス)を表現するように話し分けてもらった。
そ の 際 、Ekman and Friesen(1975)の ア ク シ ョ ン・
ユニットに基づいて表情を作ってもらった。表 情
はデジタルビデオカメラ(HDR-XR550, Sony)で収
録し、音声はワイヤレスマイク(ECM-AW3, Sony)
を介してオーディオレコーダー(R-44, Roland)に
録音した。
2.1.2
刺 激 の 妥 当 性 の 確 認( 妥 当 性 確 認 実 験 )
刺 激 の 妥 当 性 を 確 か め る た め に 、収 録 さ れ た 顔
および音声から演者の意図した通りの情動が受
け 取 ら れ る の か を 調 べ る 実 験 を 行 っ た 。18∼34 歳
(M = 21.58,SD = 3.23)の 大 学 生 、大 学 院 生 お よ
び 大 学 教 員 24 人( 男 性 10 人 、女 性 14 人 )が 実 験 に
参 加した。参加者に映像および音声をそれぞ れ呈
示し、演者が表現した「快・不快」および「活動性」
の 程度を評定してもらった。モダリティ(i.e., 顔,
声 )お よ び 尺 度(i.e., 快・不 快 ,活 動 性 )の 順 序 は
カ ウ ン タ ー バ ラ ン ス し 、各 試 行 内 の 4 刺 激(i.e., 喜
び 、怒 り 、悲 し み 、リ ラ ッ ク ス )は ラ ン ダ ム に 呈
示 し た 。刺 激 呈 示 お よ び 回 答 収 集 は SuperLab 4.5
(Cedrus)を用いて行い、刺激呈示後ただちに 表示
さ れ る 視 覚 的 ア ナ ロ グ ス ケ ー ル 上 で 、演 者 が 表 現
した「不快(–100)—快(100)」ならびに「活動性低
(–100)—活動性高(100)」の程度を直線上をクリッ
クすることで回答してもらった(“評定尺度”)。評
定 尺 度 課 題 の 後 、も う 一 度 映 像 と 音 声 を そ れ ぞ れ
呈 示 し 、そ れ ぞ れ の 顔 あ る い は 声 が「 喜 び 」、
「怒
り 」、
「 悲 し み 」、
「 リ ラ ッ ク ス 」の う ち ど れ を 表 現
し た も の で あ っ た の か を 選 択 す る よ う 求 め た(“
2 高 木 ら(2011)が 用 い た 有 意 味 音 節「 こ れ な に 」の ア ナ グ
ラムである。
160
2014年度日本認知科学会第31回大会
O5-1
情 動 カ テ ゴ リ ー 判 断”)。
評定尺度課題における「不快—快」(x 軸)、
「低活
動—高 活 動 」(y 軸) の 各 平 均 値 を 2 次 元 平 面 上 に プ
ロ ッ ト し た( 図 2a)。顔 、声 と も に 、喜 び が 第 1 象
限 、怒 り が 第 2 象 限 、悲 し み が 第 3 象 限 、リ ラ ッ ク
ス が 第 4 象 限 に 分 類 さ れ 、演 者 が 意 図 し た 通 り に
参 加 者 が情 動を受け取ったことがわかった。同 様
に 情 動 カ テ ゴ リー 判断(図 2b)につい ても、怒り 、
悲 し み 、リ ラ ッ ク ス に つ い て は 100%の 選 択 率 、喜
び に つ い て も 顔 と 声 の そ れ ぞ れ で「 リ ラ ッ ク ス 」
と 誤 っ た 参 加 者 が 1 人 い た の み で あ っ た 。以 上 か
ら 、95%以 上 の 選 択 率 で 演 者 が 意 図 し た 通 り の 情
動カテゴリーが受け取られることが確認された。
2.2
尺度評定および情動カテゴリー判断のいず れに
おいても演者の意図した通りに情動が判断された
こ と を 確 認 し た た め 、収 録 さ れ た 動 画 と 音 声 の 各
4 素 材 を 、口 の 動 き と 音 声 が 同 期 す る よ う に 総 当
た り で 合 成 し(Premiere Pro CS6, Adobe に よ る )、
顔 表 情 と 音 声 が 一 致 、不 一 致 な 刺 激 を 計 16 サ ン プ
ル(4 表情 × 4 音声)作成 した。これらの 刺激を 用
い て 、同 種 あ る い は 異 種 の 情 動 を 表 現 し た 顔 と 声
を 組 み 合 わ せ た と き に 、観 察 者 が い か な る 情 動 を
知覚するかを調べた。
2.2.1
←低活動 高活動→
100
怒り顔
50
本実験
実験参加者
36 人 の 大 学 生( 男 性 18 人, 女 性 18 人, 21∼25 歳,
M = 22.08, SD = 0.89)が実験に参加した。いずれ
の参加者も刺激の妥当性確認実験には参加してい
なかった。
喜び顔
喜び声
怒り声
2.2.2
0
手続き
イ ン フ ォ ー ム ド・コ ン セ ン ト と し て 実 験 前 に 実
験 参 加 の 同 意 を 得 た 後 、練 習 試 行 を 行 っ た 。実 験
リラックス顔
-50
は ブ ロ ッ ク デ ザ イ ン で 行 い 、音 声 は ヘ ッ ド フ ォ ン
悲しみ声
(MM-HSUSB7BK, サンワサプライ)から呈示した。
リラックス声
第 1 ブ ロ ッ ク で は 、(1)パ ソ コ ン の デ ィ ス プ レ イ
-100
上(VPCL23AJ, Sony)に 5 秒 間 表 示 さ れ る 注 視 点
-100
-50
0
50
100
(「 + 」)の 中 心 に カ ー ソ ル を 持 っ て く る こ と 、
(2)
←不快 快→
注 視 点 の 後 、同 一 の 刺 激 が 連 続 で 3 回 呈 示 さ れ て
(a)次元評定
いる間は、刺激を注視しマウスは動かさないこと、
(3)刺 激 終 了 後 た だ ち に 表 示 さ れ る 視 覚 的 ア ナ ロ
喜び
怒り
悲しみ
リラックス
グスケール(「不快—快」の「活動性低—活動性高」
喜び顔のみ
ど ち ら か 一 方 )上 で 、演 者 が 表 現 し て い る 情 動 の
喜び声のみ
程度 をマウスで左クリックすることを求めた 。こ
怒り顔のみ
れを 16 の刺激それぞれについて繰り返した。16 の
怒り声のみ
刺激はランダムに呈示した。第
2 ブロックでは、第
悲しみ顔のみ
1 ブロックと同様の手続きで、第 1 ブロックでは 尋
悲しみ声のみ
ね な か っ た 方 の 尺 度 に つ い て 回 答 を 求 め た 。第 1
リラックス顔のみ
リラックス声のみ
ブロックと第2ブロックの順序はカウンターバラ
ンスした。なお、
「快・不快」および「活動性」の意
0%
25%
50%
75% 100%
味
は
、該
当
す
る
ブ
ロックの前に口頭で説明した。
選択率(%)
第 3 ブ ロ ッ ク で は 、第 1 ブ ロ ッ ク に お け る 手 順(1)
(b)情動カテゴリー判断
と手順(2)を行った後、右上方に「喜び」、左上方に
図 2 . 顔 の み 、映 像 の み を 呈 示 さ れ た と き の(a)
「 怒 り 」、左 下 方 に「 悲 し み 」、右 下 方 に「 リ ラ ッ ク
次元評定の平均値ならびに(b)各情動カテゴリー
ス 」と 書 い た 画 像 を 呈 示 し 、演 者 が 表 現 し た と 思
の選択率。
う情 動をクリックして選択するよう求めた。以 上
の 刺 激 呈 示 と 回 答 の 収 集 は SuperLab 4.5(Cedrus)
を用いて行った。
悲しみ顔
161
2014年度日本認知科学会第31回大会
2.2.3
O5-1
反応時間の補正
評定尺度課題において、
「刺激呈示終了後、視覚
的アナログスケール上でマウスをクリックするま
で に か か る 時 間 」は 、「 刺 激 を 視 聴 し て 脳 が 情 動
を 判 断 す る ま で の 時 間 」と「 情 動 を 判 断 し て か ら
マ ウ ス を 動 か し ク リ ッ ク す る ま で の 時 間 」の 総 計
で あ る と 考 え ら れ る 。こ こ で の 興 味 は 、同 種 あ る
いは異種の情動の視聴覚刺激を組み合わせること
に よ っ て 、観 察 者 が 情 動 を 判 断 す る ま で に か か る
時間がいかに異なるかを明らかにすることである
た め 、マ ウ ス の 動 き に よ る 時 間 ラ グ を 差 し 引 い た
反応時間を算出する必要がある。
マ ウ ス の 動 き に か か る 時 間 を 測 定 す る た め 、各
参 加 者 に 、デ ィ ス プ レ イ の 中 央 に 表 示 し た 注 視 点
上 に マ ウ ス を 置 い た ま ま 待 機 し て も ら い 、そ の 後
視覚的アナログスケールが表れた時点ですばや
く 実 験 者 か ら 指 示 さ れ た 点( ス ケ ー ル 上 の「–100
( 左 端 )」、
「0( 中 点 )」、
「100( 右 端 )」の 各 点 )を
ク リ ッ ク す る よ う に 求 め た(“キ ャ リ ブ レ ー シ ョ
ン 課 題”)。こ の 作 業 を 2 回 繰 り 返 し 、
「中点からマ
ウ ス を 動 か し て ク リ ッ ク す る ま で の 時 間 」を 計 6
点 に つ い て 得 た 。作 業 へ の 慣 れ を 考 慮 し 、2 回 目
の 作 業 に つ い て 、ス ケ ー ル の 端(–100, 100)を ク
リ ッ ク す る ま で の 時 間 の 平 均 値 ttip と 中 点(0)を
ク リ ッ ク す る ま で の 時 間 t0 を 算 出 し た 。
ある地点から距離Dの地点にある対象にまでか
かる運動の時間 T は数式 1 によって表される(Fitts
& Peterson,1964)。こ れ を フ ィ ッ ツ の 法 則 と い う 。
T = a + b log2 (1 + D)
(1)
こ こ で 、各 参 加 者 に つ い て 、先 ほ ど 算 出 し た t0 と
ttip から、係数 a(数式 2)と係数 b(数式 3)を求める。
a = t0
b=
ttip − t0
log2 101
(2)
(3)
以 上 の 係 数 a、係 数 b お よ び 評 定 値 の 絶 対 値 を 数 式
1 の a、b、D に そ れ ぞ れ 代 入 し 、
「マウスを動かし直
線上 を ク リ ッ ク す るま での 時 間 T(理 論 値)」を算
出 し た 。こ の T 値 を SuperLab で 測 定 し た 反 応 時 間
か ら 引 く こ と で 、「 刺 激 を 見 て 脳 が 情 動 を 判 断 す
るまでの時間」
( 以 下 ,単 に「 反 応 時 間 」と 呼 ぶ )
を算出した。
3. 結果
3.1 カテゴリー判断
顔と声の組み合わせ 16 刺激に対するカテゴリー
判 断 に つ い て 、各 情 動 カ テ ゴ リ ー の 選 択 率 を 求 め
図 3 . カテゴリー判断における各情動カテゴリー
の選択率。
た( 図 3)。図 3 か ら 、
「 喜 び 顔 」に 対 し て は い ず れ
の 声 を 付 加 し て も 70%以 上 の 参 加 者 が「 喜 び 」と
判 断 し た の に 対 し 、「 怒 り 顔 + 悲 し み 声 」、
「悲し
み 顔 + 怒 り 声 」、
「 リ ラ ッ ク ス 顔 + 怒 り 声 」、あ る
い は「 リ ラ ッ ク ス 顔 + 悲 し み 声 」と い っ た 組 み 合
わ せ で は 、必 ず し も 顔 で 表 現 さ れ て い る 情 動 が 判
断されたわけではないようである。
こ れ ら の 16 種 類 の 刺 激 に 、刺 激 の 妥 当 性 確 認 実
験における顔のみ 4 刺激、声のみ 4 刺激を加えた 24
種 類 の 刺 激 に 対 し て 、い か な る 情 動 が 選 択 さ れ た
のかを明らかにするために単純コレスポンデンス
分 析 を 行 っ た 。単 純 コ レ ス ポ ン デ ン ス 分 析 は 、二
次元のクロス集計表を複数次元上の得点へと変換
し 、変 数 間 あ る い は 変 数 内 の 相 違 や 類 似 性 を 視 覚
的 に 表 現 す る 手 法 で あ る(Greenacre, 1993)。あ る
特 定 の 次 元 α に お け る 情 報 量( 全 体 に 対 し て 次 元
α が 寄 与 す る 程 度 )は 、次 元 α に 分 解 さ れ た χ2 値
の 割 合( 次 元 α に 対 す る イ ナ ー シ ャ λ2α を 全 体 に 対
す る イ ナ ー シ ャ λ2T で 割 っ た 値 )に よ っ て 示 さ れ
る 。全 体 に 対 す る イ ナ ー シ ャ λ2T は ピ ア ソ ン の 適
合 度 χ2 値 を デ ー タ の 観 測 数(N = 768)で 割 っ た
値 に等 し い ため 、ピア ソン の χ2 値から 変 数 間の 分
布に偏りがあるかどうかを検定することができる
(Greenacre, 1993)。
24 の 刺 激 と 選 択 さ れ た 情 動 の 対 応 関 係 に
つ い て 2 次 元 解 を 求 め( 図 4, χ2 (69, N
=
768) = 1537.22, p < .001)、こ の 2 次 元 に よ
っ て デ ー タ の 70.40%が 説 明 さ れ た こ と が わ か っ
λ2
λ2
た(次 元 1: 21 = .38, 次 元 2: 22 = .32)。図 4 にお い
λT
λT
162
2014年度日本認知科学会第31回大会
O5-1
図 4 . 刺 激( 顔 の み 4 刺 激, 声 の み 4 刺 激, そ の 組 み 合 わ せ 16 刺 激 の 総 計 24 刺 激 。○ で 示 す 。)と 実 験 参 加
者 が 選 択 し た 情 動( 喜 び, 怒 り, 悲 し み, 怒 り の カ テ ゴ リ ー 判 断 。+ で 示 す 。)の 対 応 関 係 。各 プ ロ ッ ト は
単 純 コ レ ス ポ ン デ ン ス 分 析 に よ っ て 算 出 さ れ た 次 元 得 点 を 示 す 。組 み 合 わ せ 16 刺 激 の 色 分 け は 顔 表 情
に 基 づ い て お り 、例 え ば 青 色 の ○ に「 + 喜 び 声 」と 記 さ れ て い る 場 合 は 、悲 し み の 顔 表 情 に 喜 び の 声 が
付加された刺激を示す。
て、
「 + 」で 示 さ れ た 参 加 者 の 判 断 分 布 か ら 、
「喜
び 」が 第 1 象 限 、
「 怒 り 」が 第 2 象 限 、
「 悲 し み 」が
第 3 象 限 、「 リ ラ ッ ク ス 」が 第 4 象 限 に 分 類 さ れ 、
Russell(1980)の 2 次 元 円 環 モ デ ル と 同 様 に 、次 元
1 が「 快・不 快 」、次 元 2 が「 活 動 性 」と な る よ う な
布置が得られた。
図 4 上に、個々の情動カテゴリーについて、参加
者の選択に近い刺激を楕円で示した。図 2b および
図 3 の通 り 、顔のみ、声のみ、あるいは顔と 声で 情
動 が 一 致 し て い る 刺 激 に つ い て は 、参 加 者 が 選 択
し た 情 動(「 + 」)と 刺 激( ○ )の 位 置 が い ず れ も
近いことが確認できる。
顔 と 声 で 情 動 が 異 な る 刺 激 に つ い て は 、全 体 的
に 、顔 で 表 さ れ る 情 動 が 選 択 さ れ る 傾 向 が 示 さ れ
た 。「 喜 び 顔 」の 場 合 は 、い か な る 情 動 の 声 が 付
加されても、
「 喜 び 」と 選 択 さ れ る 傾 向 が あ っ た 。
「 怒 り 顔 」、
「 悲 し み 顔 」に つ い て も こ の 傾 向 が 示
されたが、
「活動性」軸上で対となる情動の声が組
み 合 わ さ れ た と き(i.e., 怒 り 顔 + 悲 し み 声 ,悲 し
み 顔 + 怒 り 声 )に は 声 の 表 す 情 動 を 回 答 す る 参 加
者 が 増 え る こ と が わ か っ た 。こ の 場 合 に も 、「 怒
り 顔 + 悲 し み 声 」は 第 2 象 限 上 に 、
「悲しみ顔+怒
り声」は第 3 象限上に布置されているため、声より
163
も顔で示された情動が選択されることが多い傾向
に あ っ た 。こ の よ う な 視 覚 優 位 の 傾 向 は「 リ ラ ッ
クス顔」には認められず、リラックス顔に「快—不
快」軸上で異種の性質を持つ声(i.e., 怒り声, 悲しみ
声 )が 付 加 さ れ た 場 合 に は 、声 が 表 す 情 動 を 選 択
を す る 参 加 者 が 多 か っ た 。リ ラ ッ ク ス 顔 に「 快—
不 快 」軸 上 で 同 様 の 性 質 を 持 つ「 喜 び 声 」が 付 加
さ れ た 場 合 に は「 リ ラ ッ ク ス 」と 判 断 さ れ た こ と
がわかった。
以 上 の 結 果 を ま と め る と 、演 者 が 表 現 し た 情 動
によって視聴覚相互作用の傾向が異なることが示
さ れ た 。喜 び 、怒 り 、悲 し み に つ い て は 視 覚 優 位
性 が 示 さ れ 、い ず れ も 顔 で 表 さ れ た 情 動 を 観 察 者
が判 断する傾向があることがわかった。リラ ッ ク
ス に つ い て は 、不 快 な 声 が 付 加 さ れ た と き に 、声
が表す情動を判断する傾向が示された。
3.2
3.2.1
次元評定
評定値
事前のデータの目視から、快刺激(喜び、リラッ
ク ス )、不 快 刺 激( 怒 り 、悲 し み )の そ れ ぞ れ が 同
2014年度日本認知科学会第31回大会
O5-1
図 5 . 各 刺 激 に 対 す る(a)
「 快・不 快 」お よ び(b)
「 活 動 性 」の 平 均 評 定 値 。図 中 の 各 プ ロ ッ ト は 刺 激 の
妥 当 性 確 認 実 験 に お け る 顔 の み( ○ )お よ び 声 の み( □ )に 対 す る 各 評 定 の 平 均 値 を 示 す 。エ ラ ー バ ー
は標準誤差を示す。
様の傾向を示したため、
「 快・不 快 」評 定 値 に つ い
て 、快 刺 激 と 不 快 刺 激 の そ れ ぞ れ の 平 均 値 を 算 出
した。同様に、高活動性刺激(喜び、怒り)と低活
動性刺激(リラックス、悲しみ)のそれぞれも同様
の傾向を示したため、
「活動性」評定値について高
活動性刺激と低活動性刺激のそれぞれの平均値を
算 出 し た( 図 5b)。以下、それ ぞれを 快顔(快声 )、
不 快 顔( 不 快 声 )、高 活 動 顔( 高 活 動 声 )、低 活 動
顔( 低 活 動 声 )と 呼 ぶ 。各 条 件 に お い て M ± 2SD
から逸脱した評定があった場合にはその参加者を
外 れ 値 と し て 分 析 か ら は 取 り 除 き 、以 下 で は 、28
人 分 の デ ー タ を 分 析 し た( 図 5)。各 図 中 の プ ロ ッ
トは、刺激の妥当性確認実験で得られた、顔のみ、
声のみの平均評定値である。
「快・不快」次元(図 5a)について、同種の情動が
組み合わされたときには(i.e., 不快顔+不快声、快
顔 + 快 声 )、そ れ ぞ れ 演 者 が 意 図 し た 通 り の 情 動
が 評 定 さ れ た が 、異 種 の 情 動 が 組 み 合 わ さ れ た と
き に は 、そ れ に 比 べ て 評 定 の 絶 対 値 が 小 さ く な っ
た よ う で あ る 。ま た 、不 快 顔 に 快 声 が 付 加 さ れ た
と き に は「 不 快 」の 方 向 に 評 定 さ れ て い る の に 対
し 、快 顔 に 不 快 音 声 が 付 加 さ れ た と き に は「 ゼ ロ
付 近 」に 評 定 さ れ て お り 、モ ダ リ テ ィ に よ る 非 対
称性が認められる。
こ れ に つ い て 確 認 す る た め 、顔 と 声 を 参 加 者 内
要因とする 2 要因分散分析を行ったところ、顔、声
の主効果および二要因の交互作用がすべて有意で
あった(顔:F (1, 27) = 71.97, p < .001, ηp2 = .73;声:
F (1, 27) = 67.61, p < .001, ηp2 = .72;顔× 声:F (1, 27
)= 9.39, p = .005, ηp2 = .26)。Bonferroni の修正法を
用 い た 多 重 比 較 の 結 果 、不 快 顔 お よ び 快 顔 に お け
164
る声の効果はいずれも有意であったが(ps < .001)、
前 者 の 効 果 量(d = 0.92, 95%CI [0.90, 0.94])の 方 が
後 者 の 効 果 量(d = 1.26, 95%CI [1.24, 1.28])よ り も
小 さ か っ た こ と か ら 、快 顔 よ り も 不 快 顔 の 方 が 付
加す る声の影響が小さいことがわかった。す なわ
ち、不快な表情に快の音声を付け加えた場合には、
その逆(快顔+不快声)に比べ、より「顔表情」で表
出された情動の方向に判断されることがわかった。
「活動性」次元(図 5b)については、同種の情動が
組み合わされたときには(i.e., 低活動顔+低活動声,
高 活 動 顔 + 高 活 動 声 )、演 者 が 意 図 し た 通 り の 方
向 に 評 定 さ れ 、異 種 の 情 動 が 組 み 合 わ さ れ た と き
には(i.e., 低活動顔+高活動声, 高活動顔+低 活動
声)、中立(ゼロ)付近表情に評定されており、モダ
リティによる非対称性は認められなかった。「快・
不快」情動と同様に、顔と声を参加者内要因とする
2 要因分散分析を行ったところ、顔および声の主効
果 は そ れ ぞ れ 有 意 で あ っ た が 、交 互 作 用 は 有 意 で
なかった(顔:F (1, 27)= 203.40, p < .001, ηp2 = .88;
声:F (1, 27)= 230.68, p < .001, ηp2 = .90;顔 × 声:
F (1, 27)= 0.01, p = .94, ηp2 < .001)。各 々 の 主 効 果
の 効 果 量 が ほ ぼ 同 じ で あ っ た こ と か ら 、受 け 手 の
情 動 評 定 に「 表 情 」と「 音 声 」が 及 ぼ す 影 響 が 同
程度であったことがわかった。
3.2.2
反応時間
フ ィ ッ ツ の 法 則(Fitts & Peterson, 1964, 第 2.2.3
項 を 参 照 。)に よ り 補 正 し た 反 応 時 間 3 に つ い て 、
3こ の 補 正 の 際 に 行 っ た キ ャ リ ブ レ ー シ ョ ン よ り も 情 動 評
定 の 方 が 判 断 が 早 か っ た 場 合 が あ る た め 、こ の 反 応 時 間 は 負
の値を取りうる。
2014年度日本認知科学会第31回大会
O5-1
図 6 . 各 刺 激 に 対 す る(a)快・不 快 お よ び(b)活 動 性 の 平 均 反 応 時 間 。エ ラ ー バ ー は 標 準 誤 差 を 示 す 。
各条件について M ± 2SD から逸脱した反応がなさ
れ た 場 合 に は 、そ の 参 加 者 を 外 れ 値 と し て 分 析 か
ら除外した。各条件について分析対象とした 27 人
分の反応時間の平均値を図6に示す。
図 6a よ り 、不 快 顔 は 快 顔 よ り も 反 応 が 早 か っ た
が 、声 の 情 動 に よ っ て 反 応 時 間 に 大 き な 違 い は
な か っ た よ う で あ る 。「 快・不 快 」次 元 の 評 定 に
か か る 反 応 時 間 に つ い て 、2( 顔 )× 2( 声 )の 2
要 因 参 加 者 内 分 散 分 析 を 行 っ た と こ ろ 、顔 の 主
効 果 の み が 有 意 で あ り 、声 の 主 効 果 な ら び に 交 互
作 用 は 有 意 で な か っ た( 顔:F (1, 26) = 5.67, p =
.03, ηp2 = .18;声:F (1, 26) = 0.64, p = .43, ηp2 = .02;
顔 × 声:F (1, 26) = 2.00, p = .17, ηp2 = .07)。図 6a か
ら 、快顔(M = 261.46, SD = 341.89)よりも不 快顔
(M = 160.29, SD = 345.65)の 方 が 素 早 く 反 応 さ れ
たことがわかった。
活 動 性( 図 6b)に つ い て は 、高 活 動 顔 に 高 活 動
声が付加されたときに低活動声を付加されたとき
よ り も 反 応 が 早 か っ た が 、そ う し た 声 の 効 果 は 低
活 動 顔 では 小さかったようである。活動性評 定に
か か る 反 応 時 間 に つ い て 、2( 顔 )× 2( 声 )の 2
要 因 参 加 者 内 分 散 分 析 を 行 っ た と こ ろ 、い ず れ の
主 効 果 も 有 意 で は な か っ た が 、交 互 作 用 は 有 意 で
あ っ た( 顔:F (1, 26) = 0.02, p = .89, ηp2 = .001;声:
F (1, 26) = 0.58, p = .46, ηp2 = .02;顔×声:F (1, 26) =
5.79, p = .02, ηp2 = .18)。Bonferroni の 修 正 法 を 用 い
た 多 重 比 較 に よ り 、低 活 動 顔 に お け る 声 の 効 果 は
有意ではなかったが(p = .38)、高活動顔における
声の効果は有意であった(p = .03)。図 6b より、高
活 動 顔 に つ い て 、低 活 動 声 よ り も 高 活 動 声 の 評 定
にかかる反応時間の方が短いことがわかった。
3.2.3
評定値と反応時間の関係
各 次元における参加者の情動の評定値と反応 時
間 の 関 係 を 散 布 図 と し て 図 7 に 示 し た 。反 応 時 間
が M ± 2SD を 逸 脱 し た 参 加 者 は 除 外 し た 。
刺 激 の 種 類(「 不 快 と 快 」と「 顔 と 声 」の 組 み
合 わ せ 4 種 類 な ら び に「 低 活 動 と 高 活 動 」と「 顔
と 声 」の 組 み 合 わ せ 4 種 類 )に よ っ て 評 定 値 と 反
応時間の関係が異なるのかをマルチレベル分析
( 階 層 線 形 モ デ ル と 同 義 。小 野 寺・岩 田・菱 村・長
谷 川・村 山, 2006)に よ っ て 調 べ た 。具 体 的 に は 、
(1)刺 激 の 種 類 に よ っ て 、評 定 値 か ら 反 応 時 間 を
説明する回帰直線の切片および回帰係数が異なる
ラ ン ダ ム 切 片・ラ ン ダ ム 係 数 モ デ ル 、(2)刺 激 の
種類によって回帰直線の切片が異なるランダム切
片モデル、
(3)刺 激 の 種 類 に よ る 特 定 の 関 係 が な
いというモデル(ヌルモデル)の 3 者のモデル比較
を 尺 度 ご と(i.e., 「 快・不 快 」、
「 活 動 性 」)に 行 っ
た 。そ の 結 果 、
「 快・不 快 」に つ い て は 、ヌ ル・モ
デ ル のデ ー タ の あ ては ま り が 最も よ か っ た(AICs
= 1600.10( ラ ン ダ ム 切 片・ラ ン ダ ム 係 数 モ デ ル ),
1596.10(ランダム切片モデル), 1594.70(ヌルモデ
ル ))が 、回 帰 係 数( 標 準 化 な し )は 有 意 で な か っ
た(B = −0.80, p = .47)。
「活動性」についてはラン
ダム切片モデルが採択された(AICs = 1610.50(ラ
ンダム切片・ランダム係数モデル), 1607.00(ラン
ダ ム 切 片 モ デ ル ), 1608.20( ヌ ル モ デ ル ))。回 帰
係 数 を 算 出 し た と こ ろ B = −3.22(p = .03)と 、活
動 性 が 高 け れ ば 高 い ほ ど 、よ り 早 く 反 応 す る と い
う関係性が認められた。
165
2014年度日本認知科学会第31回大会
O5-1
図 7 . 各 刺 激 に 対 す る 評 定 値 と 反 応 時 間 の 散 布 図((a)快・不 快 お よ び(b)活 動 性 の 平 均 反 応 時 間 )。図
中 の 直 線 は 回 帰 直 線 を 示 す 。(b)活 動 性 で は ラ ン ダ ム 切 片 モ デ ル が 採 択 さ れ た た め( マ ル チ レ ベ ル 分
析 に よ る )、刺 激 の 種 類 ご と に 回 帰 直 線 を 引 い て い る 。
4.
考察
顔表 情 と 音 声で異なる情動を知覚した際の視聴
覚相互作用について調べた。渡辺・望月(2004)は、
情 動 判 断 に お け る 視 覚 優 位 性 を 示 し て い る が 、本
研究はこれを概ね支持し、
「リラックス」以外の情
動 に つ い て は 、視 覚 優 位 な 傾 向 が 認 め ら れ た( 情
動 カ テ ゴ リ ー 判 断 に よ る )。
「 リ ラ ッ ク ス 」と い う
情動がエクマンの基本情動には含められていない
よ う に(e.g., Ekman & Friesen, 1975)、リ ラ ッ ク ス
という顔表情が持つ情動の強度が十分でなかった
可能性がある。また、不快表情である「怒り顔」と
「 悲 し み 顔 」に つ い て は 、活 動 性 次 元 上 で 対 と な
る「 悲 し み 声 」と「 怒 り 声 」が そ れ ぞ れ 付 加 さ れ
た と き に 、判 断 さ れ る 情 動 が 混 同 さ れ や す い こ と
が 示 さ れ た 。ヒ ト が 表 情 を 知 覚 す る 際 に は「 快・
不 快 」を 判 断 し や す い と い う 知 見 に 基 づ け ば( 高
木 ら, 2011)、副 次 的 な 情 動 で あ る「 活 動 性 」に つ
いては声の情動の影響を受けやすかったのだと考
え ら れ る 。こうした影響が不快情動にのみ生じた
の は 、快 表 情 の 持 つ「 活 動 性 」が 情 動 カ テ ゴ リ ー
判 断 で は 十 分 に 区 別 さ れ な か っ た こ と に よ る( 図
4)と 考 え ら れ る 。
尺度評定では、こうした視覚優位の傾向が「快・
不 快 」次 元 に は 認 め ら れ た が「 活 動 性 」次 元 に は
認 め ら れ な かった。さらに不快表情の方が快表情
よ り も 声 の 影響が小さいことを示した。ヒトは不
快な刺激に対してより素早く鋭敏に反応できるよ
う プ ロ グ ラ ム さ れ て お り(e.g., 戸 田, 1987)、さ ら
に視覚の方が聴覚よりも多くの情報を同時に処理
で き る た め 、不 快 表 情 の 影 響 力 が 大 き か っ た の だ
と考 えられる。こうした鋭敏な反応を要求さ れ な
い「 活 動 性 」に つ い て は 、表 情 と 音 声 が 伝 え る 情
動情報が同程度であったのだと考えられる。
反 応 時 間 に つ い て は 、表 情 と 音 声 で 異 な る 情 動
を組み合せたときにも、
「 快・不 快 」で は 交 互 作 用
が認 められず 、
「活動性 」において も「低活動 顔+
低 活 動 声 」で の 反 応 時 間 が 短 く な っ た わ け で は な
い た め 、同 種 の 刺 激 を 組 み 合 わ せ た 方 が よ り 早 く
反 応 さ れ る と い う 渡 辺・望 月(2004)の 知 見 は 支
持されなかった。「快・不快」については視覚的な
不快刺激により素早く反応するという傾向が認め
られ、
「活動性 」に関して も、視聴覚 の組み合 わ せ
は 観 察 者 の 反 応 の 早 さ に は 影 響 せ ず 、む し ろ「 観
察 者 が 刺 激 を ど の 程 度 活 動 的 だ と 思 っ た か 」と い
うことが反応時間を決定していることがわかった
( 図 7b)。ヒ ト が 情 動 を 処 理 す る 際 に は 、ま ず 刺 激
を 感 覚 と し て 知 覚 し 、そ の 後 、情 動 内 容 の 総 合 的
な 判 断 を 行 う 、と い う 2 つ の 過 程 が 仮 定 さ れ て い
る( 伊 藤・梅 本・山 鳥・小 野・往 住・池 田, 1994;渡
辺・望 月, 2004)。不 快 表 情 は 、前 者 の「 感 覚 刺 激
と し て 知 覚 す る 段 階 」で 処 理 さ れ る が( 吉 川・森
崎, 1999)、そ の 一 方 で 、副 次 的 な 情 動 で あ る「 活
166
2014年度日本認知科学会第31回大会
O5-1
動 性 」は そ の 後 の “判 断” の 段 階 で 処 理 さ れ る と 考
え ら れ る 。そ の た め 、
「 快・不 快 」刺 激 に 対 し て は
観察者の “判断” と反応時間との間に明確な関係が
認 め ら れ な か っ た の に 対 し( 図 7a)、
「 活 動 性 」刺
激 で は 認め られたのだと考えられる。これらの結
果は、
「 快・不 快 」と「 活 動 性 」と い う 情 報 が そ れ
ぞれ独立に処理されていると考えた Russell(1980)
の知見を支持している。
今 後 、他 の 話 し 手( 女 性 の 話 し 手 や 演 劇 経 験 の
な い 一 般 の 話 し 手 )や 話 の 内 容 に よ っ て も 同 様 の
結 果 が 再現 されるのかを確認する必要がある。ま
た 、我 々 が 現 実 場 面 で 経 験 す る「 明 る い 声 だ が 目
が 笑 っ て い な い 」と い う よ う な 話 し 手 の 表 現 の 特
徴 を 探 索 す る こ と で 、よ り 生 態 学 的 に 妥 当 な 状 況
における話し手から受け手のコミュニケーション
の 全 貌 を 明 ら か に す る こ と が で き る 。さ ら に は 、
音 楽 演 奏 の よ う な 、特 定 の 論 理 的・言 語 的 意 味 を
持 た な い 素 材 を 対 象 と す る こ と で 、ヒ ト の 情 動 情
報処理における視覚情報と聴覚情報の役割をそれ
ぞれ明らかにすることができるであろう。
謝辞
刺激 作 成 に ご協力いただいた演者に感謝い たし
ま す 。ま た本 研究に対して貴重なご助言をいただ
いた田部井賢一氏(三重大学)に感謝いたします。
本研究は第4著者が同志社大学文化情報学部に
提出した卒業論文(「感情認知におけるクロスモー
ダ ル 性 に 関 す る 検 討 」)に 基 づ き 、追 加 実 験 と 再
分析を行ったものである。
参考文献
[1] 荒 井 宏 太・井 上 康 之・小 野 和 也・板 倉 昭 二・北 崎 充
晃 (2011). 表 情 と 無 意 味 語 音 声 の ク ロ ス モ ー ダ ル 情
動 認 知:モ ダ リ テ ィ 情 報 の 強 度 と 信 頼 性 の 効 果 の 検
討. 認 知 科 学, 18(3), 428–440.
[2] 大坊郁夫 (1998). し ぐ さ の コ ミ ュ ニ ケ ー シ ョ ン:人 は
親 し み を ど う 伝 え あ う か. サ イ エ ン ス 社.
[3] Ekman, P., & Friesen, W. V. (1975). Unmasking the
face: A guide to recognizing emotions from facial expressions. Englewood Cliffs, NJ: Prentice Hall.
[4] Fitts, P. M., & Peterson, J. R. (1964). Information capacity of discrete motor responses. Journal
of Experimental Psychology, 67(2), 103–112. doi:
10.1037/h0045689.
[5] Greenacre, M. J. (1993). Correspondence analysis in
practice. London: Academic Press.
[6] Mehrabian, A. (1972). Nonverbal communication.
Chicago, IL, Aldine-Atherton.
[7] Ohgushi, K., & Hattori, M. (1996). Emotional communication in performance of vocal music. In B. Pennycook, & E. Costa-Giomi (Eds.), Proceedings of the
Fourth International Conference on Music Perception
and Cognition (pp. 269–274). Montreal: McGill University.
[8] 小 野 寺 孝 義・岩 田 昇・菱 村 豊・長 谷 川 孝 治・村 山 航
(2006). 基 礎 か ら 学 ぶ マ ル チ レ ベ ル モ デ ル. ナカニシ
ヤ 出 版.
167
[9] Russell, J. A. (1980). A circumplex model of affect.
Journal of Personality & Social Psychology, 39(6),
1161–1178. doi: 10.1037/h0077714.
[10] 田中章浩 (2011). 顔と声による情動の多感覚コミュ
ニ ケ ー シ ョ ン. 認 知 科 学, 18(3), 416-427.
[11] Tanaka, A., Koizumi, A., Imai, H., Hiramatsu, S.,
Hiramoto, E., & de Gelder, B. (2010). I feel your voice.
Cultural differences in the multisensory perception of
emotion. Psychological Science, 1259–1262.
[12] 高木幸子・平松沙織・田中章浩 (2011). 日本人の顔と
声 に よ る 感 情 表 現 の 収 録 と そ の 評 価. 電 子 情 報 通 信
学 会 技 術 研 究 報 告, 111(283), 51-56.
[13] 戸 田 正 直 (1987). 心 を も っ た 機 械: ソ フ ト ウ ェ ア と
し て の「 感 情 」シ ス テ ム. ダ イ ヤ モ ン ド 社.
[14] 渡辺桃子・望月登志子 (2004). 表情認知における視聴
覚 情 報 の 相 互 規 定 性. 感 情 心 理 学 研 究, 11(2), 53–64.
[15] 吉 川 左 紀 子・森 崎 礼 子 (1999). 表 情 に よ る 感 情 メ
ッ セ ー ジ の 伝 達. 電 子 情 報 通 信 学 会 技 術 研 究 報 告,
98(503), 31–38.