ことばとコンピュータ 2007年度1学期 第13回 本日の内容 • コンピュータで何ができるかを知る – 機械翻訳 – 人の意見を調査する • ブログを使ったマーケティング支援 – 物語をあじわう試み 2 機械翻訳とは?(1) • Aという言語からBという言語への 「等価」な置き換え 3 機械翻訳とは?(2) • Aという言語からBという言語への 「等価」な置き換え 等価とは? 4 機械翻訳とは?(3) • Aという言語からBという言語への 「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 5 機械翻訳とは?(4) • Aという言語からBという言語への 「等価」な置き換え 等価性 3タイプ 表層,形式的 (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 言葉の対応以上のものが必要 6 機械翻訳とは?(5) (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) • 現在の機械翻訳は →(1)が基本.(2)へは挑戦.(3)はまだ無理. 7 機械翻訳とは?(6) (1)でも結構役立つ...対象を限定すれば. 技術系の文章,科学論文,マニュアル等 がよく対象として選ばれる (1)のレベルでも比較的理解できそうな対象といえる 処理ドメイン(分野)が限られており,語義 の曖昧性も比較的少ない. 8 どうやる機械翻訳(1) • 現在の商用システムのほとんどは 構文トランスファー方式 ○文を単語に切って品詞を決める ○文の構造を決める △文中の単語の意味を決める ×照応詞が何を指しているかを推測する ×文章のトピックを推測する 9 どうやる機械翻訳(2) 10 どうやる機械翻訳(3) ①文を単語に切って品詞を決める(形態素解析) 機械が文書を翻訳する. 機械(名詞)/が(助詞)/文書(名詞)/を(助詞) /翻訳する(翻訳する:動詞・基本形)/.(句点) 活用変化があればその情報も解析する 例:「翻訳した」→ 「翻訳し(翻訳する:動詞・連用 形」+「た(た:助動詞・終止形)」 11 どうやる機械翻訳(4) ②文の構造を決める: 規則1 文=主部+述部 • 構文構造を解析 規則2 主部=名詞句+助詞 – 文法規則に基づき, 文の構造を解析 – 実際のシステムは, 数千から数万の規則 – 文の構造と,各単語 の品詞が決定する 規則3 述部=動詞句 規則4 名詞句=名詞 規則5 動詞句=動詞 規則6 動詞句=名詞句+動 詞句 12 どうやる機械翻訳(5) ②構文解析処理: 文 主部 述部 動詞句 名詞句 名詞句 名詞 助詞 名詞 機械 が 文書 助詞 を 動詞句 動詞 翻訳する 13 どうやる機械翻訳(6) ③単語の意味を決める(意味解析処理) – 語の意味を決める(辞書から選ぶ) – 文内の語の意味的関係を決める 翻訳する 動作主 対象物 機械 文書 14 どうやる機械翻訳(7) ③意味解析処理(その他) – 語の意味を決める (辞書から選ぶ) 例:I translate Japanese into English. translate 結局~になる 自動詞 翻訳する 他動詞 移動させる 他動詞 – translateの意味は? ... – translateに格フレーム を用意して,対応する格の意味を定義する 格の形から自動詞,他動詞 – 名詞から意味を推測 15 どうやる機械翻訳(8) ④構文(構造)変換処理:構文transfer – 元言語の構文構造をターゲット言語の構造 に構文変換 翻訳する 動作主 対象 機械 文書 translate subject object computer document 16 どうやる機械翻訳(9) ⑤構文生成処理 解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞 a computer 冠詞 名詞 単数 translate a document 動詞 冠詞 名詞 現在 単数 17 どうやる機械翻訳(10) ⑥単語の生成(形態素生成処理) ⑤の結果 a computer translate a document 前後のつながり,時制,数などにより単語を変 化させて,訳文を生成する A computer translates a document 18 どうやる機械翻訳(11)補足 ④のその他:構文(構造)変換処理 – 自然な訳文生成のために,主語や目的語を変換 例:The news made me disappointed. 主語 目的語 (無生物主語) 「そのニュースが私をがっかりさせた」 このままだと日本語にはなじまない →人間(me)が主語になるように構文を変換する 「私はそのニュースでがっかりした」 19 どうやる機械翻訳(12)補足 ⑤のその他:構文生成処理 – 変換した構造から語順を決定する 例:修飾語句は日本語では修飾語・非修飾語だが,英語で は語によって語順が変わる • 高価な本→ an expensive book • 歴史の本→ a book on history • 私が買った本→ the book which I bought – (必要ならば)冗長な語を削除する • I have a book in my hand. • 私は私の手に本を持っている.(このままでは冗長) →例:「主語と共通の代名詞を削除する」などする 20 どうやる機械翻訳(13)補足 ⑥のその他:形態素生成処理 – 前後のつながり,時制,数などにより単語を変化 させて,訳文を生成する 日本語:前後のつながりで単語を変化させる 私 が 買う た 本 → 私が買った本 英語:名詞の複数変化,動詞の時制変化,形容詞の 比較級などの処理をする the book which I buy 冠詞 名詞 関係代名詞 代名詞 動詞 単数 目的格 主格 過去 → the book which I bought 21 人の意見を調査する • Webの記述に注目 – 特に最近はblogを情報源とした研究が増加 • 人の意見とは? – 多くの人が,何にどんな感想を持っているか? (製品や出来事の評価など) – 多くの人がどんな体験をしているか(体験談) 22 blogとは? • Weblog 略して blog (ブログ) • アメリカ: – 他サイトをリンク,コメントをつけて紹介 – 1999年blogger – blogコミュニティが拡大 • 日本: – Web日記は昔からある(1995頃にはリンク) – blogとしては2000,2001年あたり – 普及は2003年以降 23 blogの特徴 • 更新頻度が高い – Webページよりも更新される頻度が高い • 個人の意見が多い – 日記的な記述には,物事に対する意見が表出 • 大量にある – ちりも積もれば山となる – 1人1人の意見の集約が興味深いデータになる 24 blogを対象とした研究(サービス) • blogの検索サービス – 国内外を問わず大量に存在 – 中身はそれほど違わない • 検索サービスに付加価値をつけて提供 • 分析つき 25 blogを対象とした研究(サービス)(2) • 多くの人が,何にどんな感想を持っているか? – (製品や出来事の評価など) • 分析(例:blogWatcher) – – – – – – 話題の盛り上がり具合 評判情報(ポジティブ,ネガティブ) 性別 比較の対象(バーサス) 行動分析 関連記事 26 例:評判情報 • キーワードがblog中でどのように評価されて いるか – ネガティブかポジティブか? – 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティ ブか? 27 例:評判情報(2) • キーワードがblog中でどのように評価されて いるか – ネガティブかポジティブか? – 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティ ブか? A: それだけでは,決められない 28 例:評判情報(3) • 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティ ブか? A: それだけでは,決められない このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → × これが考え方の基本 29 例:評判情報(4) • 程度表現を加えることもある 「すごく」「とても」「少し」「やや」「かなり」など このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → × 30 例:評判情報(5) • 評判情報を例に考えても,実際の文では – 照応,省略が頻繁に起きる – 1つの文でまとまっているとは限らない. 例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた. 思っていたよりも画面が大きかった.値段もそん なに高くないし,見た目もスマート.ただ,ファンの 音が気になった.前の機種に比べると大きいと思 う. 31 例:評判情報(6) • 評判情報を例に考えても,実際の文では – 照応,省略が頻繁に起きる – 1つの文でまとまっているとは限らない. 例:ノートパソコンA 対象物はタイトルにだけ出現 この間,ヨドバシカメラで見かけたので触ってみた. 思っていたよりも画面が大きかった.値段もそん なに高くないし,見た目もスマート. ただ,ファン の音はねぇ.前の機種に比べると大きいと思う. 複数文に分かれて表現されている 32 例:評判情報(7) 例:ノートパソコンA この間,ヨドバシカメラで(ノートパソコンAを)見か けたので触ってみた.思っていたよりも(ノートパ ソコンAの)画面が大きかった. (ノートパソコンA の)値段もそんなに高くないし, (ノートパソコンA の)見た目もスマート. ただ, (ノートパソコンA の)ファンの音はねぇ.前の機種に比べると(ノー トパソコンAの)(ファンの音は)大きいと思う. 照応や省略の先行詞を決める技術が必要 33 例:評判情報(8) • タイトル内の名詞に対象が含まれている(可 能性がある) • 3つ組みでいうと,対象の属性は~だ.の形 が想定できるので,そのような形にしてもおか しくない組み合わせを作成する. • 対象の属性は~だ. – 個別の組み合わせについて,ポジティブかネガ ティブかを記した評価辞書を用意する 34 その他:話題の盛り上がり具合 • ブログでの出現頻度から推測 – 話題になっていれば,その物事に対する記述が 増えるはず – 時系列で考えていくことで,頻度の推移から盛り 上がりが推測可能 例:イナバウワー 35 その他:男女推定 • ブログの書き手が男性か女性か? – 文体から推定(役割語,文末の形とか) – 単語から推定 • 何の意味がある? – あるモノに対する女性による評価 – あるモノに対する男性による評価 • マーケティングなどで利用可能 36 その他:行動分析 • ブログの著者がどんな行動パターンを持つか – 日記的文章であるということは... • いつ,どこで,何をした などという記述が多い →時系列に並べれば,行動パターンもわかる. • 何のために? – データマイニング(相関ルール)への応用 • 元祖:紙おむつとビールの売れ行き(バスケットアナリ シス) • 興味を持つ話題と行動の相関 37 物語を味わう試み • コンピュータに物語を味わわせてみたい • 人は,小説などを読むと,ハラハラどきどき, 悲しくなったり,楽しくなったり – なぜ?どこに反応? – 記述内容から場面を思い浮かべたり,感情に反 応したりするから • ここを視覚的に表現する試み 38
© Copyright 2024 ExpyDoc