ことばとコンピュータ

ことばとコンピュータ
2007年度1学期 第13回
本日の内容
• コンピュータで何ができるかを知る
– 機械翻訳
– 人の意見を調査する
• ブログを使ったマーケティング支援
– 物語をあじわう試み
2
機械翻訳とは?(1)
• Aという言語からBという言語への
「等価」な置き換え
3
機械翻訳とは?(2)
• Aという言語からBという言語への
「等価」な置き換え
等価とは?
4
機械翻訳とは?(3)
• Aという言語からBという言語への
「等価」な置き換え
等価性 3タイプ
(1) 単語と構造の等価性 ...逐語訳的
(2) 意味内容の等価性 ...意訳
(3) 効果の等価性 ...
高度な意訳や創造的な訳(文学)
5
機械翻訳とは?(4)
• Aという言語からBという言語への
「等価」な置き換え
等価性 3タイプ
表層,形式的
(1) 単語と構造の等価性 ...逐語訳的
(2) 意味内容の等価性 ...意訳
(3) 効果の等価性 ...
高度な意訳や創造的な訳(文学)
言葉の対応以上のものが必要
6
機械翻訳とは?(5)
(1) 単語と構造の等価性 ...逐語訳的
(2) 意味内容の等価性 ...意訳
(3) 効果の等価性 ...
高度な意訳や創造的な訳(文学)
• 現在の機械翻訳は
→(1)が基本.(2)へは挑戦.(3)はまだ無理.
7
機械翻訳とは?(6)
(1)でも結構役立つ...対象を限定すれば.
技術系の文章,科学論文,マニュアル等
がよく対象として選ばれる
(1)のレベルでも比較的理解できそうな対象といえる
処理ドメイン(分野)が限られており,語義
の曖昧性も比較的少ない.
8
どうやる機械翻訳(1)
• 現在の商用システムのほとんどは
構文トランスファー方式
○文を単語に切って品詞を決める
○文の構造を決める
△文中の単語の意味を決める
×照応詞が何を指しているかを推測する
×文章のトピックを推測する
9
どうやる機械翻訳(2)
10
どうやる機械翻訳(3)
①文を単語に切って品詞を決める(形態素解析)
機械が文書を翻訳する.
機械(名詞)/が(助詞)/文書(名詞)/を(助詞)
/翻訳する(翻訳する:動詞・基本形)/.(句点)
活用変化があればその情報も解析する
例:「翻訳した」→ 「翻訳し(翻訳する:動詞・連用
形」+「た(た:助動詞・終止形)」
11
どうやる機械翻訳(4)
②文の構造を決める:
規則1 文=主部+述部
• 構文構造を解析
規則2 主部=名詞句+助詞
– 文法規則に基づき,
文の構造を解析
– 実際のシステムは,
数千から数万の規則
– 文の構造と,各単語
の品詞が決定する
規則3 述部=動詞句
規則4 名詞句=名詞
規則5 動詞句=動詞
規則6 動詞句=名詞句+動
詞句
12
どうやる機械翻訳(5)
②構文解析処理:
文
主部
述部
動詞句
名詞句
名詞句
名詞 助詞 名詞
機械 が 文書
助詞
を
動詞句
動詞
翻訳する
13
どうやる機械翻訳(6)
③単語の意味を決める(意味解析処理)
– 語の意味を決める(辞書から選ぶ)
– 文内の語の意味的関係を決める
翻訳する
動作主
対象物
機械
文書
14
どうやる機械翻訳(7)
③意味解析処理(その他)
– 語の意味を決める
(辞書から選ぶ)
例:I translate Japanese into English.
translate
結局~になる
自動詞
翻訳する 他動詞
移動させる 他動詞
– translateの意味は?
...
– translateに格フレーム
を用意して,対応する格の意味を定義する
格の形から自動詞,他動詞
– 名詞から意味を推測
15
どうやる機械翻訳(8)
④構文(構造)変換処理:構文transfer
– 元言語の構文構造をターゲット言語の構造
に構文変換
翻訳する
動作主
対象
機械
文書
translate
subject
object
computer
document
16
どうやる機械翻訳(9)
⑤構文生成処理
解析例: (ここでは単語は基本形)
機械 が 文書 を 翻訳する
名詞 助詞 名詞 助詞 動詞
a computer
冠詞 名詞
単数
translate a document
動詞
冠詞 名詞
現在
単数
17
どうやる機械翻訳(10)
⑥単語の生成(形態素生成処理)
⑤の結果
a computer translate a document
前後のつながり,時制,数などにより単語を変
化させて,訳文を生成する
A computer translates a document
18
どうやる機械翻訳(11)補足
④のその他:構文(構造)変換処理
– 自然な訳文生成のために,主語や目的語を変換
例:The news made me
disappointed.
主語
目的語 (無生物主語)
「そのニュースが私をがっかりさせた」
このままだと日本語にはなじまない
→人間(me)が主語になるように構文を変換する
「私はそのニュースでがっかりした」
19
どうやる機械翻訳(12)補足
⑤のその他:構文生成処理
– 変換した構造から語順を決定する
例:修飾語句は日本語では修飾語・非修飾語だが,英語で
は語によって語順が変わる
• 高価な本→ an expensive book
• 歴史の本→ a book on history
• 私が買った本→ the book which I bought
– (必要ならば)冗長な語を削除する
• I have a book in my hand.
• 私は私の手に本を持っている.(このままでは冗長)
→例:「主語と共通の代名詞を削除する」などする
20
どうやる機械翻訳(13)補足
⑥のその他:形態素生成処理
– 前後のつながり,時制,数などにより単語を変化
させて,訳文を生成する
日本語:前後のつながりで単語を変化させる
私 が 買う た 本 → 私が買った本
英語:名詞の複数変化,動詞の時制変化,形容詞の
比較級などの処理をする
the book
which
I
buy
冠詞 名詞 関係代名詞 代名詞 動詞
単数
目的格
主格 過去
→ the book which I bought
21
人の意見を調査する
• Webの記述に注目
– 特に最近はblogを情報源とした研究が増加
• 人の意見とは?
– 多くの人が,何にどんな感想を持っているか?
(製品や出来事の評価など)
– 多くの人がどんな体験をしているか(体験談)
22
blogとは?
• Weblog 略して blog (ブログ)
• アメリカ:
– 他サイトをリンク,コメントをつけて紹介
– 1999年blogger
– blogコミュニティが拡大
• 日本:
– Web日記は昔からある(1995頃にはリンク)
– blogとしては2000,2001年あたり
– 普及は2003年以降
23
blogの特徴
• 更新頻度が高い
– Webページよりも更新される頻度が高い
• 個人の意見が多い
– 日記的な記述には,物事に対する意見が表出
• 大量にある
– ちりも積もれば山となる
– 1人1人の意見の集約が興味深いデータになる
24
blogを対象とした研究(サービス)
• blogの検索サービス
– 国内外を問わず大量に存在
– 中身はそれほど違わない
• 検索サービスに付加価値をつけて提供
• 分析つき
25
blogを対象とした研究(サービス)(2)
• 多くの人が,何にどんな感想を持っているか?
– (製品や出来事の評価など)
• 分析(例:blogWatcher)
–
–
–
–
–
–
話題の盛り上がり具合
評判情報(ポジティブ,ネガティブ)
性別
比較の対象(バーサス)
行動分析
関連記事
26
例:評判情報
• キーワードがblog中でどのように評価されて
いるか
– ネガティブかポジティブか?
– 対象物,属性,評価語(表現)の3つ組み
Q:「大きい」は 評価語.では,ネガティブかポジティ
ブか?
27
例:評判情報(2)
• キーワードがblog中でどのように評価されて
いるか
– ネガティブかポジティブか?
– 対象物,属性,評価語(表現)の3つ組み
Q:「大きい」は 評価語.では,ネガティブかポジティ
ブか?
A: それだけでは,決められない
28
例:評判情報(3)
• 対象物,属性,評価語(表現)の3つ組み
Q:「大きい」は 評価語.では,ネガティブかポジティ
ブか?
A: それだけでは,決められない
このノートパソコンの画面が大きい
→ O
このノートパソコンのファンの音が大きい → ×
これが考え方の基本
29
例:評判情報(4)
• 程度表現を加えることもある
「すごく」「とても」「少し」「やや」「かなり」など
このノートパソコンの画面が大きい
→ O
このノートパソコンのファンの音が大きい → ×
30
例:評判情報(5)
• 評判情報を例に考えても,実際の文では
– 照応,省略が頻繁に起きる
– 1つの文でまとまっているとは限らない.
例:ノートパソコンA
この間,ヨドバシカメラで見かけたので触ってみた.
思っていたよりも画面が大きかった.値段もそん
なに高くないし,見た目もスマート.ただ,ファンの
音が気になった.前の機種に比べると大きいと思
う.
31
例:評判情報(6)
• 評判情報を例に考えても,実際の文では
– 照応,省略が頻繁に起きる
– 1つの文でまとまっているとは限らない.
例:ノートパソコンA 対象物はタイトルにだけ出現
この間,ヨドバシカメラで見かけたので触ってみた.
思っていたよりも画面が大きかった.値段もそん
なに高くないし,見た目もスマート. ただ,ファン
の音はねぇ.前の機種に比べると大きいと思う.
複数文に分かれて表現されている
32
例:評判情報(7)
例:ノートパソコンA
この間,ヨドバシカメラで(ノートパソコンAを)見か
けたので触ってみた.思っていたよりも(ノートパ
ソコンAの)画面が大きかった. (ノートパソコンA
の)値段もそんなに高くないし, (ノートパソコンA
の)見た目もスマート. ただ, (ノートパソコンA
の)ファンの音はねぇ.前の機種に比べると(ノー
トパソコンAの)(ファンの音は)大きいと思う.
照応や省略の先行詞を決める技術が必要
33
例:評判情報(8)
• タイトル内の名詞に対象が含まれている(可
能性がある)
• 3つ組みでいうと,対象の属性は~だ.の形
が想定できるので,そのような形にしてもおか
しくない組み合わせを作成する.
• 対象の属性は~だ.
– 個別の組み合わせについて,ポジティブかネガ
ティブかを記した評価辞書を用意する
34
その他:話題の盛り上がり具合
• ブログでの出現頻度から推測
– 話題になっていれば,その物事に対する記述が
増えるはず
– 時系列で考えていくことで,頻度の推移から盛り
上がりが推測可能
例:イナバウワー
35
その他:男女推定
• ブログの書き手が男性か女性か?
– 文体から推定(役割語,文末の形とか)
– 単語から推定
• 何の意味がある?
– あるモノに対する女性による評価
– あるモノに対する男性による評価
• マーケティングなどで利用可能
36
その他:行動分析
• ブログの著者がどんな行動パターンを持つか
– 日記的文章であるということは...
• いつ,どこで,何をした などという記述が多い
→時系列に並べれば,行動パターンもわかる.
• 何のために?
– データマイニング(相関ルール)への応用
• 元祖:紙おむつとビールの売れ行き(バスケットアナリ
シス)
• 興味を持つ話題と行動の相関
37
物語を味わう試み
• コンピュータに物語を味わわせてみたい
• 人は,小説などを読むと,ハラハラどきどき,
悲しくなったり,楽しくなったり
– なぜ?どこに反応?
– 記述内容から場面を思い浮かべたり,感情に反
応したりするから
• ここを視覚的に表現する試み
38