1月26日 コーパスベースの技術 知識の獲得 コーパスの利用 アナウンス 先週NSWの説明資料「IT系ビジネス 実際の現 場から」を全部見せられなかったので,時間があ れば途中から最後まで見せます. 知識の獲得 テキストコーパス 既存の言語知識 新たな言語知識 •文字のn-gram統計を用いた単語・定型表現の抽出 •共起知識の抽出 •動詞の格フレームの獲得 •単語の意味分類の抽出 •翻訳知識の獲得 共起知識の抽出 相互情報量を用いた単語間の共起の 度合いの測定 相互情報量: 事象x及びyの生起確率がそれぞれ P(x),P(y)であり,x,yの共起確率がP(x,y) であるときに,xとyの相互情報量I(x,y)は P( x, y ) I ( x, y ) log2 P( x ) P( y ) f ( x) f ( y) f ( x, y ) P( x ) , P( y ) , P( x, y ) N N N f () : 頻度, N :コーパスの総単語数 単語の意味分類の抽出 Hindleの手法 f ( v, n ) N Cobj (v, n ) log2 f (v ) f (n) N N SIMobj (vi , n j , nk ) min(Cobj (vi , n j ), Cobj (vi , nk )) Cobj (vi , n j ) 0かつ Cobj (vi , nk ) 0の場合 max(Cobj (vi , n j ), Cobj (vi , nk )) Cobj (vi , n j ) 0かつ Cobj (vi , nk ) 0の場合 0 それ以外の場合 N SIM(n1, n2) {SIMsubj (vi , n1 , n2 ) SIMobj (vi , n1 , n2 )} i 0 対訳コーパスからの翻訳知識獲 得の過程 日英対訳テキスト 日本語テキスト 統語的推定 英語テキスト 対訳辞書, 統計的手法 文対応推定 日本語文 構文解析 単語・句対応の 統計的推定 構文解析 日本語統語構造 英語文 文法,辞書 英語統語構造 構造照合 翻訳規則 単語類似度 •対訳辞書,シソーラ ス •統計的手法 コーパスの利用 品詞タグ付け 前置詞句の修飾先の曖昧性解消 単語の意味的曖昧性の解消 品詞タグ付け (He can table the motion.) He can table the motion NNP 固有名詞 PRP 人称代名詞 MD 法助動詞 NN 単数名詞 VB 動詞原形 NN 単数名詞 VB 動詞原形 VBP DT 限定詞 NN 単数名詞 VB 動詞原形 VBP VBP 動詞現在形非 三人称単数 動詞現在形非 三人称単数 動詞現在形非 三人称単数 ベイズの定理の適用 P(品詞タグ列 | 単語列)は直接計算できないので, P(品詞タグ列 | 単語列) P(品詞タグ列) P(単語列 | 品詞タグ列 ) P(単語列) を計算する 前置詞句の修飾先の曖昧性解消 I ate a fish with a fork. 動詞を修飾 I ate a fish with bones. 名詞句を修飾 前置詞句の修飾先の決定に影響を及ぼすもの 動詞(v),名詞句(目的語)中の主要名詞(n1),前置詞 (p),前置詞句中の主要名詞(n2)とする. 前置詞句の修飾先(m) 前置詞句が動詞を修飾する場 合:0,名詞句を修飾する場合:1とする. (v,n1,p,n2,m)のデータを集める. 例:(eat, fish, with, fork, 0), (eat, fish, with, bones, 1) ぴったりの例が無い場合はワイルドカードを利用してス ムージングする 単語の意味的曖昧性の解消 plantの意味:植物,工場 yarowskyの手法の特徴 多義語の意味は同一テキスト内では一定の意味に 固定されやすいという性質を利用 コーパス中の多義語への意味付与の補正を行いな がら,共起表現に基づくコーパス中の多義語への意 味付与と,コーパスからの多義語の各意味の共起表 現抽出を繰り返す. 第7回 レポート 締め切り 2月2日10:30 指定されたコーパスを使って「首相」の類義語を 調べよ レポートの項目 手法の説明(工夫した点を含む) 結果 考察 プログラム レポート用コーパス 毎日新聞(94年 1年分) Webに掲載する期間 plain text (EUC) 1月26日~1月28日 大学内で行うこと(契約の関係で) タグの説明 <DOC> <DOCNO>940101001</DOCNO> <SECTION>1面</SECTION> <AE>無</AE> <HEADLINE>[余禄]変化</HEADLINE> <WORDS>6410</WORDS> <TEXT> フランスのルイ十六世はずぼら だったが、 日記だけはきちんとつけた。 本文の終わり </TEXT> 文書の終わり </DOC> 文書の始まり 文書番号 掲載面 写真・図の有無 ヘッドライン 単語数 本文の始まり 掲載面の種類 1面 社説 総合 科学 2面 国際 家庭 芸能 3面 経済 文化 スポーツ 解説 特集 読書 社会
© Copyright 2024 ExpyDoc