コーパス言語学

コーパス言語学
第1回
コーパス言語学とは
Corpus(-based) linguistics
コーパス(corpus, corpora)を使った言語研究
言語教育、言語変異(変化)などに関する実証的研
究
言語使用における変異
• 言語内的要因
言語式、語彙特性、構文、前後文脈など
• 言語外的要因
時代(年齢)、性別、地域、使用域(レジスタ、ジャン
ル)など
調査対象
• 英語における二重目的語構文と前置詞与格構文の
使い分けに関わる要因
a. John gave a book to Mary.
(Double Object Construction, DOC)
b. John gave Mary a book.
(Prepositional Dative Construction, PDC)
調査対象コーパス
60年代
90年代
アメリカ英語
Brown
Frown
イギリス英語
LOB
FLOB
書き言葉、15ジャンル
500テキスト×2,000語=100万語
コーパス検索:正規表現
• 正規表現(regular expression):
文字列のパタンを表記する方法(テキストの検索、加
工などに使用する)
/正規表現/ 両側をスラッシュで囲む
コーパス検索:正規表現
•
•
•
•
•
•
リテラル
エスケープ
エスケープシーケンス \b
選択 (|)
文字クラス [ ]
反復 ?, +, *, { }
コーパス検索:正規表現
• 2重目的語と前置詞与格構文をとる動詞
award, cost, deny, give, grant, lend,
offer, pay, promise, sell, send
コーパス検索:正規表現
• give(活用形を含む)が使われている文を検索する
には?
• award (活用形を含む)が使われている文を検索す
るには?
テキスト処理
• Kwicker で検索
(必要に応じて、sort – Left1 並べ換え)
Ctrl-A 、Ctrl-C
• Microsoft Wordに貼り付け(Ctrl-V)
Ctrl-A 、Ctrl-C
Microsoft Excelに貼り付け(Ctrl-V)
(不要行を削除など)
テキスト処理
• Microsoft Excelにて、
A列:用例
B列:ジャンル
C列:動詞(原形)
D列:Recipientの形(NP or PP)
E列:Recipientの有生性(animate or inanimate)
F列:Themeの有生性(animate or inanimate)
G列:Themeの長さ(語数)
H列:Passiveかどうか(Pのときだけ記入)