自然言語対話特論 後期 水曜日 2時限 後半

1月19日
辞書



自然言語処理における辞書の役割
機械辞書設計の要点
辞書の種類と用途
アナウンス


NTTの人の講演はキャンセルになりました
NSWの説明資料「IT系ビジネス 実際の現場か
ら」があります
自然言語処理における辞書の
役割

人間用の辞書との違い

語義の定義方法の違い

人間用


語義文が中心
計算機用

結合価,上位概念,下位概念
計算機用辞書(日本)

IPAL


http://www.ipa.go.jp/STC/NIHONGO/IPAL/i
pal.html
EDR

http://www2.nict.go.jp/kk/e416/EDR/J_ind
ex.html
英語の辞書
WordNet

http://www.cogsci.princeton.edu/~wn/
EDR電子化辞書の構造
http://www2.nict.go.jp/kk/e416/EDR/J_index.html
機械辞書設計の要点

見出し語登録基準の問題

単語収録の範囲




単語収録の単位


漢字,平仮名,片仮名
活用語の扱い


短単位,長単位
見出し語の表記の問題


一般語:国語辞典の見出しなど
固有名詞:人名,地名,企業名など
専門用語:分野毎に用意される.複合語も登録が必要
規則的な活用→不変部分を辞書に登録
その他の辞書登録語選択の問題

同形異義語,数詞,用言性名詞,副詞の派生形
見出し語の表記の問題
長単位語として登録すべき語
タイプ 説明
タイプ1 短単位語に分割できない
語,部分から全体の意味
や読みを合成できない語
タイプ2 文の解析や生成で重要な
役割を果たす付属語的な
連語
タイプ3 縮退語及び語基の並列語
例
「走り書き」,「生年月
日」,「株式会社」(連
濁)
格助詞相当語(~に
よって),文法情報を示
す連語(はずがない)
「冷暖房(冷房・暖房)」,
「松竹梅」など
一般名詞の意味属性体系の例
一般名詞
具体
主体
人
組織
場
自然
施設
地域
生物
具体物
抽象
抽象物
事
抽象的
関係
無生物
文化
制度・習俗
人間活動
事象
自然現象
存在
類・系
関連
性質
状態
形状
数量
場所
時間
人間
神仏など
役・職
地勢
宇宙
動物
植物
自然物
精神
行為
非生命
生命
辞書の種類と用途
言語解析用の辞書



形態素解析用の辞書
構文解析用の辞書
意味解析用の辞書
辞書の種類と用途
応用システムの辞書




機械翻訳用の辞書
日本文校正用の辞書
音声合成用の辞書
キーワード自動抽出用の辞書
日本文校正用の辞書
日本文中の誤りの種類と検出の方法
分類
誤りの例
構成 形態素
辞書 解析
当て字,送り仮名,片 ボディー→ボデー
仮名表記の誤り
◎
宅急便→宅配便
俗語,禁止語,誤用
語,常用漢字外表記,
常用音訓外表記
◎
構文
解析
意味
解析
○
数表現の誤り
一億4,000万→一億四千万
類型語誤り
人問性→人間性
助詞・助動詞誤り
犯罪を犯す→罪を犯す
同音語誤り
処理公立→処理効率
◎
実在しない固有名詞
墨田川→隅田川,隅田区→墨田区
◎
文意の矛盾
定率法と低額法→定額法
◎
◎
◎
日本語文音声変換処理
処理
処理の内容
日本語解析
通常は形態素解析が中心,意味による音声の強弱,発生速度制御を行うとき
は,構文解析,意味解析も必要となる
音韻処理
1.
2.
3.
4.
韻律処理
1.
2.
3.
4.
5.
漢字仮名変換(漢字の読みを辞書の読みから決める)
同形異義語読み分け(平野→ヘイヤ/ヒラノ)
未知語読み(浩一郎→コーイチロー,IBM→アイビーエム)
数詞読み(一人→ヒトリ,101本→ヒャクイッポン)
連濁処理(大/会社→ダイガイシャ)
アクセント句抽出処理(畜産/物//価格/安定/法)
アクセント合成(ジョーホー/ケンサク→ジョーホーケンサク)
ポーズ付与(象は鼻が長い→ゾーワPハナガ*ナガイ)
イントネーション付与(コッキョウノ*ナガイ//トンネルヲ*ヌケルト)
/:単語境界,//:アクセント境界(強結合),*:アクセント句境界(弱結合),Pポーズ
日本語文音声変換システムの
辞書情報の例
情報の分類
登録される情報
見出し語情報
漢字,平仮名,片仮名,英数字で表記
単語解析 単語情報
情報
係り受け情報
品詞,意味属性,単語接続属性
固有名詞などとの係り受け情報
同形異義語情報 同形異義語選択処理順位など
音韻情報 読み情報
単語の読み,モーラ数など
音韻変化情報
数詞,助数詞の音韻変化情報
韻律情報 アクセント情報
ポーズ属性
アクセント属性
標準のアクセントの型
ポーズ長設定パラメータ
補助用言情報,アクセント句情報
キーワード自動抽出システムの
辞書の例
辞書種類
説明
ストップワード辞書
キーワードになり得ないと見られる
一般語などを収録
シソーラス辞書
キーワードとなりやすい語の意味的
な関係を木構造で表示
重要語辞書
キーワードとなりやすい語を列挙