ことばとコンピュータ

ことばとコンピュータ
2007年度1学期
第1回
ことばとコンピュータ
•
•
•
•
•
•
授業科目名:言語情報処理論
授業題目名:ことばとコンピュータ
履修コード:5067
教室:323
一学期開講
授業の進め方
– 基本的に講義中心ですすめ,時々コンピュータを
使う.
2
評価方法
• 最終回にテストを実施
• テスト:
– A4の紙を手書きに限り1枚持ち込み可
• 授業のフォローは,Web上で行う
大学のトップページ→外国語学部案内→
学内ポータル→言語・情報コース→望月のページ
→講義関連のことばとコンピュータへ
3
授業計画
4/12
4/19, 26
5/10, 17
5/24, 31
6/7
6/14
6/21, 28
7/5
7/12
7/19
コンピュータにとってことばとは?
文を単語に区切って品詞を決める
文がどんな構造をしているか決める
単語の意味を決める
文の意味を決める
番外編:関連ツール(実習)
照応詞が何をさしているかを決める
文章のトピックは何かを決める
コンピュータで何ができるかを知る
テスト
4
概説
• コンピュータにとって,ことばとは何か?
• その前に,人間にとって,ことばとは何か?
– 人間のことばのことを「自然言語」
• Natural Language という
5
自然言語とは?
• 人間が話す,使う「ことば」
⇔人工言語(計算機言語,プログラミング言語)
• 自然言語は人間の社会生活の中で発展
– 人間社会でのコミュニケーション手段
– 活動やさまざまな情報の記録手段
– 外界と心の中をつなぐ思考の表現手段
6
自然言語とは?
• 人間社会でのコミュニケーション手段
7
自然言語とは?
• さまざまな情報,知識,活動などの記録手段
8
自然言語とは?
• 外界と心の中をつなぐ思考の表現手段
9
コンピュータにとって自然言語とは?
• 文字,テキスト
– コンピュータの内部的には記号の羅列でしかない
どんな感じかというと...
10
コンピュータにとっての文字
• 例えば
546f6b796f2056e6976657273697479206f
6620466f726569676e2053747564696573
2e
こんな感じ
11
コンピュータにとっての文字
• 例えば
546f6b796f2056e6976657273697479206f
6620466f726569676e2053747564696573
2e
こんな感じ
Tokyo University of Foreign Studies
12
コンピュータにとって文字とは
• ASCIIコード表
A
コンピュータにとって
41
というコードにしておこう
13
文字
• 升目を書いて
点で埋めてみる.
14
文字
• 例えば,コードはASCIIコードの41とすると,
それは「A」である.
Aでも,AAAA などいろいろ→これはフォント
Aでも,AAAAAA
AAA
などいろいろ
→これはポイント
Aがちゃんと表示されるようにうまいこと対応
をつけているので,ちゃんと見える.
15
コンピュータにとっての文字
• 要するに,文字は,コンピュータの内部では
何がしかの「コード」(数字の並び)である.
と,理解できれば,とりあえずよし.
• 細かくなりすぎるので,「文字」というものを区
別できているということで話を進める.
コンピュータは,「文字」は区別できている.
16
コンピュータにとって文章は?
• 文章,テキストは何であるか?
→ 文字の羅列 である.
(内部的にはコードの羅列)
17
コンピュータにとって文章は?
• 「す今で日よは気い天」
は,人間にとって何?
• 「今日はよい天気です」
は?
18
コンピュータにとって文章は?
• 「す今で日よは気い天」
• 「今日はよい天気です」
上はよくわからない文字の羅列
下は日本語の文.
違いは? 我々が日本語を知っていて,そ
の知識に照らすと,下の文からは,いろいろ
なことが意味のあるものとして認識できる.
19
コンピュータにとって文章は?
• 「す今で日よは気い天」
• 「今日はよい天気です」
上は文字の羅列
下も文字の羅列
コンピュータは文字を認識するところまでは
知識を与えられている(コード)が,それ以上
のことは特に知らないので,区別できない.
20
ことばをコンピュータで扱うには?
• 文字の羅列から,意味のある文字列として認
識するには,何が必要かを考える
→人間は意識せずともやっているので
なかなかつかみにくい
• 文が文かどうかを知るためには
– 単語 が わからないとならない
– 構文 を 考えてつじつまがあるかを考える
21
ことばをコンピュータで扱うには
• 文と文でないものの区別がついたとして,
– 同じ単語でもいろんな意味がある.
• 酒のさかな
• 海のさかな
– おなじ構文でもいろいろ解釈がある.
• 黒い瞳の大きな女の子
• Time flies like an arrow.
22
ことばをコンピュータで扱うには
• 文と文でないものの区別がついたとして,
自然言語は
– 同じ単語でもいろんな意味がある.
• 酒のさかな
• 海のさかな
かなり,曖昧
– おなじ構文でもいろいろ解釈がある.
• 黒い瞳の大きな女の子
• Time flies like an arrow.
23
ことばをコンピュータで扱うには
• 曖昧な部分を解く鍵の1つは
– 意味を知ること
単語の意味
文の意味
24
自然言語の見え方は時系列,線形
• 発話やテキストは1次元の文字の連続
だけど,
前に述べたことや,これから述べることを関連
づけて,立体的?,構造的に表現しようと工
夫している.
→文脈
この文脈もわからないと,ことばはわからない
25
コンピュータは実用品
• ことばとコンピュータの関わりには,
– 工学的な実用面が深く関係する
つまり,何の役にたっているのか?
実は,いろいろある
「かな漢字変換」「機械翻訳」「情報検索」
「音声認識」などなど
26
まとめ
• この授業では
ことばをコンピュータで扱うために,
ことばをどのように捉え,
どのように理解,処理されているか
どのような役に立っているのか
を学ぶ
27