自然言語処理:第1回 1.講義の進め方 2.自然言語処理とは 1.講義の進め方 講義スライドはあらかじめホームページに アップロードされる(.pptと.pdf) http://www.info.kindai.ac.jp/NLP 全部で7回のレポートがある それぞれ、100文字以上200字程度までで、 メールで提出 提出期限は、2週間後の10:30まで [email protected] 1.講義の進め方 レポート50点 7回各7点(最終回のみ8点) • 減点1:今までの講義から、 誤りと解るものを一部含む • 減点2:今までの講義から、誤りと解る内容のもの :提出期限遅れ • 減点3:出題意図と異なる解答 • 減点7:Webページ等の丸コピー • 減点10:他人のコピーをした(させた) 1.講義の進め方 レポートの書き方 • とにかく、自分で考えてみる • その結果、間違っていても、減点はない 1.講義の進め方 レポートの解答例 課題 カレーに醤油はありか?理由とともに答えよ 1.講義の進め方 良い解答例(字数は無視) あり。 醤油は万能調味料である。 合わない料理は存在しない。 1.講義の進め方 悪い解答例(字数は無視) なし。 カレーに醤油とかキモすぎる 理由になっていない あり。 コクが出ているうえ、辛味が抑え られてマイルドな味わいに よさそうに思えるが、Webのコピー 1.講義の進め方 試験50点 ノートPCを含め、持ち込みあり • 正誤問題 30点 10問中、1問間違えるごとに3点減点 ただし減点は最大15点まで • 記述問題 10点2問 レポートおよびその解説に関連する所から出題 2.自然言語処理とは 自然言語とは 人工言語 人と人とのコミュニケーションを取る為に作られた言語 - 国際補助語、架空言語、空想言語など コンピュータで用いるコンピュータ言語 自然言語 人間どうしのコミュニケーションのために、自然発生 的にできあがった言語 2.自然言語処理とは 自然言語処理とは 自然言語をコンピュータ処理するための技術 自然言語処理 = 計算言語学 言語学 ≠ 計算言語学 自然言語を対象にする点が同じだが -ヒトの言語を客観的に記述すること 文科系 2.自然言語処理とは なぜ、自然言語処理が必要なのか? ・webは現状では最大の情報源(の一つ) ・ただし、web中のほとんどの情報は言葉で書かれ ている。 ・言葉の中から必要な情報が取り出せなければ webの情報のほとんどが使えない。 2.自然言語処理とは 自然言語処理をコンピュータ処理するためには 単語(形態素) ∈ 文 ∈ 文章(ドキュメント) 文や文章をまるごと一つの単位として取り扱うのは 無理(種類が多すぎる、長すぎる) もっと小さな単位に区切る 単語の並びが文、文のならびが文章 2.自然言語処理とは 単語? 目的:文をもっと細かい単位に区切る どんな区切り方でもよいのか? 今 / 日は / 良い天 / 気だ 今日 / は / 良い / 天気 / だ でたらめに区切ると 種類が多くなる 単語と意味、使い方の関連がなくなる 2.自然言語処理とは 形態素? 英語における単語 I go to ……. I’m going …… 「go」の原形 「go」 + 「ing」 (進行形) What time …. 2 times 3 …… 時間と意味の名詞 掛けるという意味の動詞 「time」の三人称単数現在 2.自然言語処理とは 形態素とは 単語の原形(辞書の見出し語)に 変化形(活用形等)と 品詞の情報を加えたもの 茶筅 最も一般的に用いられている形態素解析 (文を形態素の列に分解する)のツールの一つ 2.自然言語処理とは 構文解析 形態素解析 文を形態素の列に変換 形態素と形態素の間の関係は? 文脈自由文法 形態素の列を文法解析する 正規文法 この(連体詞) 名詞句 名詞句 本(名詞) 文 を(助詞) 読む(動詞原形) 2.自然言語処理とは 係り受け解析 日本語では、構文解析の代わりに使われる ことが多い 構文解析 形態素が単位 係り受け解析 文節が単位 文節 一つの内容語+機能語の列 各文節が後ろのどの文節に関係しているか 2.自然言語処理とは 係り受け解析 日本語 / では / 、 / 構文解析 / の / 代わり / に / 使わ / れる / こと / が / 多い 構文解析 形態素が単位 係り受け解析 文節が単位 文節 一つの内容語+機能語の列 各文節が後ろのどの文節に関係しているか 2.自然言語処理とは 係り受け解析 日本語では、 構文解析の 代わりに 使わ れる ことが 多い 構文解析 形態素が単位 係り受け解析 文節が単位 文節 一つの内容語+機能語の列 各文節が後ろのどの文節に関係しているか 2.自然言語処理とは 意味解析 構文解析、係り受け解析 形態素(文節)間の関係の有無を調べる どんな意味関係(主語と述語等)にあるかは 見ていない ねこ と 飛ぶ 鳥 (ねこ) と (飛ぶ 鳥) (ねこ と 飛ぶ) 鳥 × 2.自然言語処理とは 文脈解析 構文解析、係り受け解析 一つの文の中の構造 文章全体で何が書かれているか 前後関係がわからないとできないもの 代名詞が何を指しているか 非常に難しい問題 対話制御もここに属する 2.自然言語処理とは コーパス 構文解析 文法が必要 意味解析 それぞれの単語の細かい意味が必要 「鳥」は飛ぶが「ねこ」は飛ばない等 全部人手で作るのか? コンピュータで自動的に作れないか コーパス⇔そのためにコンピュータに与える知識 構文解析や意味解析 を行った例のかたまり 2.自然言語処理とは コーパスと統計処理 コーパス⇔そのためにコンピュータに与える知識 コーパスを統計量というコンピュータ処理向きの 形に変換 代表 N-gram 言語モデル 前の単語から次に出てきやすい単語を予測 構文解析 形態素と形態素の間の関係を文法で調べる N-gram 形態素間の関係は場所の近さだけで良い 2.自然言語処理とは 自然言語処理システム 自然言語処理の技術を使った役に立つシステム 仮名漢字変換 自動要約 音声認識 OCR テキストマイニング 機械翻訳 2.自然言語処理とは 1回「自然言語処理の概要」 2回「自然言語処理システム、単語と形態素、文節と係り受け」 3回「構文解析、格文法」 4回「オントロジー、言語コーパス」 5回「統計的言語モデル」 6回「平滑化」 7回「クラスモデルとクラスタリング」 8回「言語モデル適応」 9回「文法と有限状態オートマトン」 10回「音声認識概論」 11回「機械翻訳概論」 12回「自動要約」 13回「テキストマイニング」 14回「自然言語処理のまとめと復習1」 15回「自然言語処理のまとめと復習2」 質問 [email protected] http://www.info.kindai.ac.jp/NLP
© Copyright 2025 ExpyDoc