コーパス言語学実践 2006年度2学期 第2回 本日の内容 • 前半の作業について – 語彙調査の演習 – 用語の説明 • 語彙,単位語,延べ語,異なり語,見出し語 • 作成作業 その1 – データ収集開始 2 前半の作業について • コーパス言語学や計量言語学では... – 言葉に関するデータを何らかの形で数値化(数量化) – 一番の基本は,単語として語の数を数える – ある言語データに存在する語彙を調査 →語彙調査 語彙調査の実践を行う 3 語彙調査 • どんな調査がありうるか – 語類構成比率 • 品詞の構成比率 • 語種(和語,漢語,カタカナ語...)の構成比率 – 使用率分布 • 語の使用率 • 使用率の順位 (ジップ則) – 同一見出し語の出現間隔 • 同一語の繰り返しの分布 4 語彙調査 • どんな調査がありうるか – 一語の長さ • 分野やジャンルの違いと1語の長さの関係 • 語の使用率と語の長さの関係 – 使用率と多義性の関係 • 使用率が高い語ほど,意味が多い(多義性が高い?) – 延べ語数と異なり語数の関係 • 文章の展開が進むにつれ,異なり語数がどのように変 化していくか.話題の展開の様子 5 語彙調査 • どんな調査がありうるか – 一語の長さ • 分野やジャンルの違いと1語の長さの関係 • 語の使用率と語の長さの関係 – 使用率と多義性の関係 • 使用率が高い語ほど,意味が多い(多義性が高い?) – 延べ語数と異なり語数の関係 こういったことも,語彙を取り出 • 文章の展開が進むにつれ,異なり語数がどのように変 化していくか.話題の展開の様子 すことによって調査可能に 6 語彙調査 • 調査の流れ – 調査対象の決定 • どんなテキストを収集するか • どのくらいの量を収集するか など – 素材テキストの収集 • 実際に収集 • 手直しや,加工 – 単位など調査規則の設定 – 語彙の分析 7 語彙調査 • 調査の流れ – 調査対象の決定 – 素材テキストの収集 – 単位など調査規則の設定 • 単位の認定規則設定(長い単位,短い単位など) • 見出し語/単位語の基準設定 – 語彙の分析 • 語彙表の作成 • 分析対象とする語の決定 など 8 用語の説明 • 語彙 – 語の集まり • 延べ語数 – 同じ語でも,1つ2つと数える,数え方 • 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親指 だとすると指が6本ということになる.あれはパンダ の手首の骨が変形してできたものだそうだ. 9 用語の説明 • 語彙 – 語の集まり 名詞を対象 とすると12語 – 同じ語でも,1つ2つと数える,数え方 • 延べ語数 • 異なり語数 – 同じ語は1つと数える,数え方 例: パンダの親指は解剖学的には親指ではない.親指 だとすると指が6本ということになる.あれはパンダ の手首の骨が変形してできたものだそうだ. 10 用語の説明 • 語彙 – 語の集まり • 延べ語数 – 同じ語でも,1つ2つと数える,数え方 • 異なり語数 名詞を対象 – 同じ語は1つと数える,数え方 とすると9語 例: パンダの親指は解剖学的には親指ではない.親指 だとすると指が6本ということになる.あれはパンダ の手首の骨が変形してできたものだそうだ. 11 用語の説明 • 単位語 – 延べ語数に数えられた1語として数えられる単語 • 見出し語 – 異なり語数で数えられる単語のこと • 延べ語と異なり語 – 計量言語学では呼ばない – 計算言語学では呼ぶ 12 実習:語彙調査 • 調査対象の決定 – 対象テキスト:近代小説の文章 – 収集量:眺めの作品を4作品 • 素材テキストの収集 – 手作業で入力→素材テキストは青空文庫から – 加工,修正は手作業を中心に行う. • 単位など調査規則の設定 • 語彙の分析 13 調査対象の決定 • 都合により... – 宮沢賢治 – 芥川龍之介 – 夏目漱石 – 森鴎外 『銀河鉄道の夜』 『蜘蛛の糸』 『吾輩は猫である』 『最後の一句』 14 収集方針 • 手入力ではなく→公開素材を用いる • パソコンでの作業を楽にするための加工,修 正は手作業で行う. • タグ付けも手作業で行う. • 素材テキストができた後の処理では自動化も 視野に入れる 15 素材の収集 • 作業1: – 青空文庫から,素材テキストを入手 – 青空文庫にアクセス – 作品の ルビ付き zip ファイルをダウンロード その前に... 16 素材の収集(0) • これからの準備 • 作業場所 – Y: ドライブ (ネットワークドライブ) – Y:\corpus というフォルダを作成 今後はここを作業場所に使用 フォルダ作成方法1:マイコンピュータから フォルダ作成方法2:コマンドプロンプトから 17 素材の収集 • 青空文庫 www.aozora.gr.jp 青空文庫は、利用に対価を求めない、インターネット電子図 書館です。 著作権の消滅した作品と、「自由に読んでもらってかまわな い」とされたものを、テキストと XHTML(一部は HTML)形式 でそろえています。 (青空文庫のサイト上,青空文庫早分かりより抜粋) 18 素材の収集 • 続きは,授業中に 19
© Copyright 2024 ExpyDoc