コーパス言語学 第1回 コーパス言語学とは Corpus(-based) linguistics コーパス(corpus, corpora)を使った言語研究 言語教育、言語変異(変化)などに関する実証的研 究 言語使用における変異 • 言語内的要因 言語式、語彙特性、構文、前後文脈など • 言語外的要因 時代(年齢)、性別、地域、使用域(レジスタ、ジャン ル)など 調査対象 • 英語における二重目的語構文と前置詞与格構文の 使い分けに関わる要因 a. John gave a book to Mary. (Double Object Construction, DOC) b. John gave Mary a book. (Prepositional Dative Construction, PDC) 調査対象コーパス 60年代 90年代 アメリカ英語 Brown Frown イギリス英語 LOB FLOB 書き言葉、15ジャンル 500テキスト×2,000語=100万語 コーパス検索:正規表現 • 正規表現(regular expression): 文字列のパタンを表記する方法(テキストの検索、加 工などに使用する) /正規表現/ 両側をスラッシュで囲む コーパス検索:正規表現 • • • • • • リテラル エスケープ エスケープシーケンス \b 選択 (|) 文字クラス [ ] 反復 ?, +, *, { } コーパス検索:正規表現 • 2重目的語と前置詞与格構文をとる動詞 award, cost, deny, give, grant, lend, offer, pay, promise, sell, send コーパス検索:正規表現 • give(活用形を含む)が使われている文を検索する には? • award (活用形を含む)が使われている文を検索す るには? テキスト処理 • Kwicker で検索 (必要に応じて、sort – Left1 並べ換え) Ctrl-A 、Ctrl-C • Microsoft Wordに貼り付け(Ctrl-V) Ctrl-A 、Ctrl-C Microsoft Excelに貼り付け(Ctrl-V) (不要行を削除など) テキスト処理 • Microsoft Excelにて、 A列:用例 B列:ジャンル C列:動詞(原形) D列:Recipientの形(NP or PP) E列:Recipientの有生性(animate or inanimate) F列:Themeの有生性(animate or inanimate) G列:Themeの長さ(語数) H列:Passiveかどうか(Pのときだけ記入)
© Copyright 2024 ExpyDoc