スライド 1

SalienceGraph: 顕現性の定量化に基づく話題遷移図の可視化
京都大学 情報学研究科
日本学術振興会 特別研究員 (PD)
白松 俊
[email protected]
http://winnie.kuis.kyoto-u.ac.jp/~siramatu/
背景
 行政への住民参画 (Public Involvement) のための公的討議 (住民公聴会等)
 問題点: 数百文から成る議事録 ⇒ 意見集約のためには多大な労力
 要求: 議事録全体の議題の「流れ」を一目で把握して,閲覧の労力を削減したい
目的
議事録などの長い談話の話題の遷移を可視化し,全体の「流れ」の把握を容易に
提案手法:SalienceGraph
従来
ある行政の下部組織の議事録
PDFで公開
3次元
ベクトル表示
(スライドバーの
位置の議題)
重要語
(変更可)
議事録
(スライドバーの
位置と連動)
全87ページ!
ある自治体の議事録閲覧
Webインタフェース
単語の
顕現性
(salience)
解決策
話題遷移図
Visual Information Seeking Mantra [Shneiderman 98]:
“Overview first, zoom and filter, then details on demand” を満たす
議事録全体の「流れ」の把握が困難
⇒ 閲覧・分析に多大な労力
課題
スライドバー
発話ごとに動的に変化する単語の顕現性 (salience) をどう定量化すればよいか?
仮定: 「目立っている実体は,
次の発話Ui+1でも継続的に参照されやすい」
発展: トピック抽出 PLSAで3次元に圧縮
1
GDAタグ(CaboChaの係り受け解析結果)付きテキスト
参照確率p(w|pre(Ui))]
U432 三田村委員: よろしゅうございますか。
U433 三田村委員: それで、もしその手続等にご意見ございま
したら、後でまたお伺いしたいと思います。
U434 三田村委員: 時間の都合もございますので。
U435 三田村委員: 今の件で、ございますか。
U436 村上委員: 基本的には、ダムをつくるかどうかという話
よりも治水をどうするのか、あるいは利水をどうするのか、環
境問題をどう判断するのかと、そういったことで総合的に考え
ましょう。
U437 村上委員: それで、恐らく皆さん方の不満は、この3つ
の問題を解決するのにダムが絶対必然だと自分たちは考えて
いるのに、その意見が一切反映されず、それでそれが取り上
げられていない。
U438 村上委員: だから、そういう意味では、この流域委員会
は役目を果たしておらんというふうなところへ来ていると思うん
です。
0
発話系列
が高い単語群
次の発話U437で
「環境」が参照される確率
コーパスから
ロジスティック回帰で計算
z1: 琵琶湖 ダム 水 丹生ダム 丹生 魚 活性 活性化 近畿 地方 資
源 建設 地方整備局 近畿地方整備局 水位 近畿地方 …
地域活性化など
z2: 高時川 治水 自分 川 河道 堤防 河 道 ダム 昭和 先生 姉川 洪
水 地域 子供 水害 水 問題 環境 改修 利水 滋賀県 …
水害・治水など
z3: 意見 委員 委員会 流域委員会 流域委員 住民 流域 お願い 交
換会 意見交換会 交換 管理者 河川 意見交換 …
司会・議事進行など
更なる応用例
関連情報・関連議事録の自動提示
まずは書き起こしに対して動くように
dist(w,U 2731 )  10
avgP r(係助詞「は」 )  0.037
U264 A: 京都は
地域
環境
治水
意見
dist(w,Ui+1)
新近性効果による
素性の重み付け
(実際にはPLSA等で
次元圧縮した空間上で)
進行中の会議の流れ
avgP r(固有名詞 地域)  0.055
U265 A: どうですか
最近の素性ほど重視
U266 B: 京都はね
U267 B: 二年間(φデ)勤めました
窓関数 W(dist(w,Ui+1))
U268 A: そうなんですか
クエリー
顕現性
素性抽出
顕現性
(発話Ui時点における単語wの顕現性)
=参照確率Pr(Ui+1でw が参照される | Uiまでの先行文脈)
検索対象
U269 B: 超大手の建築会社に勤めてる時に
U270 A: それが京都
dist (w,U
273 1
U271 B: 二年間だけ京都の営業所に配属されたんですよ
U272 B: ちょっと(φガ)(φト)違いますね
U273 A: そうなんですか
)3
avgP r(格助詞「の」 )  0.005
shift
avgP r(固有名詞 地域)  0.055
shift
移転
環境
治水
水不足
素性の重みW
過去の議事録
相関
計算手法mによる
顕現性推定値
話し言葉CSJ 矩形窓かけTF: 0.1048 → 本手法: 0.3652
毎日新聞 矩形窓かけTF: 0.3013 → 本手法: 0.3680
参照の有無の正解(0 or 1)
話し言葉に適した手法
顕現性
評価
現時点
注意状態を反映した
クエリーの自動生成
議事録中の
ある時点