コーパス言語学実践

コーパス言語学実践
2006年度2学期
第2回
本日の内容
• 前半の作業について
– 語彙調査の演習
– 用語の説明
• 語彙,単位語,延べ語,異なり語,見出し語
• 作成作業 その1
– データ収集開始
2
前半の作業について
• コーパス言語学や計量言語学では...
– 言葉に関するデータを何らかの形で数値化(数量化)
– 一番の基本は,単語として語の数を数える
– ある言語データに存在する語彙を調査
→語彙調査
語彙調査の実践を行う
3
語彙調査
• どんな調査がありうるか
– 語類構成比率
• 品詞の構成比率
• 語種(和語,漢語,カタカナ語...)の構成比率
– 使用率分布
• 語の使用率
• 使用率の順位 (ジップ則)
– 同一見出し語の出現間隔
• 同一語の繰り返しの分布
4
語彙調査
• どんな調査がありうるか
– 一語の長さ
• 分野やジャンルの違いと1語の長さの関係
• 語の使用率と語の長さの関係
– 使用率と多義性の関係
• 使用率が高い語ほど,意味が多い(多義性が高い?)
– 延べ語数と異なり語数の関係
• 文章の展開が進むにつれ,異なり語数がどのように変
化していくか.話題の展開の様子
5
語彙調査
• どんな調査がありうるか
– 一語の長さ
• 分野やジャンルの違いと1語の長さの関係
• 語の使用率と語の長さの関係
– 使用率と多義性の関係
• 使用率が高い語ほど,意味が多い(多義性が高い?)
– 延べ語数と異なり語数の関係
こういったことも,語彙を取り出
• 文章の展開が進むにつれ,異なり語数がどのように変
化していくか.話題の展開の様子
すことによって調査可能に
6
語彙調査
• 調査の流れ
– 調査対象の決定
• どんなテキストを収集するか
• どのくらいの量を収集するか など
– 素材テキストの収集
• 実際に収集
• 手直しや,加工
– 単位など調査規則の設定
– 語彙の分析
7
語彙調査
• 調査の流れ
– 調査対象の決定
– 素材テキストの収集
– 単位など調査規則の設定
• 単位の認定規則設定(長い単位,短い単位など)
• 見出し語/単位語の基準設定
– 語彙の分析
• 語彙表の作成
• 分析対象とする語の決定 など
8
用語の説明
• 語彙
– 語の集まり
• 延べ語数
– 同じ語でも,1つ2つと数える,数え方
• 異なり語数
– 同じ語は1つと数える,数え方
例:
パンダの親指は解剖学的には親指ではない.親指
だとすると指が6本ということになる.あれはパンダ
の手首の骨が変形してできたものだそうだ.
9
用語の説明
• 語彙
– 語の集まり
名詞を対象
とすると12語
– 同じ語でも,1つ2つと数える,数え方
• 延べ語数
• 異なり語数
– 同じ語は1つと数える,数え方
例:
パンダの親指は解剖学的には親指ではない.親指
だとすると指が6本ということになる.あれはパンダ
の手首の骨が変形してできたものだそうだ.
10
用語の説明
• 語彙
– 語の集まり
• 延べ語数
– 同じ語でも,1つ2つと数える,数え方
• 異なり語数
名詞を対象
– 同じ語は1つと数える,数え方
とすると9語
例:
パンダの親指は解剖学的には親指ではない.親指
だとすると指が6本ということになる.あれはパンダ
の手首の骨が変形してできたものだそうだ.
11
用語の説明
• 単位語
– 延べ語数に数えられた1語として数えられる単語
• 見出し語
– 異なり語数で数えられる単語のこと
• 延べ語と異なり語
– 計量言語学では呼ばない
– 計算言語学では呼ぶ
12
実習:語彙調査
• 調査対象の決定
– 対象テキスト:近代小説の文章
– 収集量:眺めの作品を4作品
• 素材テキストの収集
– 手作業で入力→素材テキストは青空文庫から
– 加工,修正は手作業を中心に行う.
• 単位など調査規則の設定
• 語彙の分析
13
調査対象の決定
• 都合により...
– 宮沢賢治
– 芥川龍之介
– 夏目漱石
– 森鴎外
『銀河鉄道の夜』
『蜘蛛の糸』
『吾輩は猫である』
『最後の一句』
14
収集方針
• 手入力ではなく→公開素材を用いる
• パソコンでの作業を楽にするための加工,修
正は手作業で行う.
• タグ付けも手作業で行う.
• 素材テキストができた後の処理では自動化も
視野に入れる
15
素材の収集
• 作業1:
– 青空文庫から,素材テキストを入手
– 青空文庫にアクセス
– 作品の ルビ付き zip ファイルをダウンロード
その前に...
16
素材の収集(0)
• これからの準備
• 作業場所
– Y: ドライブ (ネットワークドライブ)
– Y:\corpus というフォルダを作成
今後はここを作業場所に使用
フォルダ作成方法1:マイコンピュータから
フォルダ作成方法2:コマンドプロンプトから
17
素材の収集
• 青空文庫 www.aozora.gr.jp
青空文庫は、利用に対価を求めない、インターネット電子図
書館です。
著作権の消滅した作品と、「自由に読んでもらってかまわな
い」とされたものを、テキストと XHTML(一部は HTML)形式
でそろえています。
(青空文庫のサイト上,青空文庫早分かりより抜粋)
18
素材の収集
• 続きは,授業中に
19