コーパスによる比較文体学 Corpus-based Comparative

コーパスによる比較文体学
Corpus-based Comparative Stylistics
コーパス言語学2013
1
1．文体比較の方法
1．準備
a. 文体比較の尺度
b. 対象テキストの選定
２．データ処理
a. 前処理（品詞タグづけ）
b. データ収集（AWKプログラム実行）
c. データ解析（Rによる統計処理）
３．結果と考察
2
２．準備
• 文体比較のための尺度
（対象テキストに対する調査項目）
①文長（平均、分布）
②語長（平均、分布）Mendenhall, Branigan
③語彙の豊富さ
Yule’s K(1944)
Gillard’s C
Herdan’s D
④ type-token ratio（平均異なり語率）
3
２．準備
• 文体比較のための尺度（調査項目）
⑤名詞率
⑥動詞率
⑦形容詞（＋副詞）率
⑧接続詞率（順接・逆接）
⑨数詞率
⑩記号率
⑤～⑩の調査には、品詞タグづけ処理が必要
4
２．準備
• 対象テキスト（作品）の選定
Project Gutenberg
(http://www.gutenberg.org/)
に公開されている、著作権の消滅した現代英
語で書かれた文学作品(fiction)。
（上記サイトからダウンロードしたファイルから、
テキスト本体以外の部分を手作業で除去）
5
２．準備
調査対象の作家と作品数 (\work\texts\*.txt)
Carrol, Lewis
5
James, Henry
10
Christie, Agatha
2
Joyce, James
4
Conrad, Joseph
12 Melville, Herman
10
Dickens, Charles
10 Twain, Mark
12
Doyle, Conan
12 Wodehouse, P.J.
13
Hardy, Thomas
12 合計
102
6
3.1．前処理
品詞タグづけ処理
・Helmut Schmid氏が開発したTreeTaggerのPCLinux版をダウンロードして使用
（http://www.cis.unimuenchen.de/~schmid/
tools/TreeTagger/）
・PennTreebank Project方式のタグづけ
http://www.comp.leeds.ac.uk/ccalas/tagsets/upenn
.html
http://www.americannationalcorpus.org/OANC/pen
n.html
7
3.1．前処理
TreeTaggerの使用法
（コマンドライン上から）
E:
（ＵＳＢのドライブ名）
cd TreeTagger
（タガーのフォルダに移動）
bin\tag-english.bat <入力ファイル名>
出力例
word
pos
lemma
The
DT
the
TreeTagger NP
TreeTagger
is
VBZ
be
easy
JJ
easy
to
TO
to
use
VB
use
.
SENT .
8
3.1．前処理
・事前に入力形式の修正が必要（pretag.awkを準備）
・行末のハイフン処理
・ハイフン２個（ダッシュ）の前後分割
・AWKプログラムの使い方
awk -f <awkスクリプト名> <input_file>
・処理結果が画面（標準出力）に表示される
・ファイルに出力するには、リダイレクション＋出力ファイル名
・ある処理の出力結果をその次の入力とするには、パイプ
・２つ以上のコマンドをまとめて、一括で処理するには、バッチ
ファイル作成
（バッチファイルから別のバッチ処理を呼び出すことも可能）
⇒textsフォルダの全テキストに品詞タグづけをして、結果ファイ
ルをtagフォルダに収納しておく
9
3．2 データ収集
• AWKスクリプトを作成、実行する
①文長(sen_length.awk)
SENTからSENTまでの間の語数をカウントし、平均と分布と出力する
②語長(word_length.awk)
語の文字数を取得し、平均と分布を出力する
③Yule’s K特性値（yule_K.awk）
公式に基づいてＫ特性値を計算する
④異なり語率(type_token.awk)
テキスト先頭部分（一定語数）に関し、延べ語数と異なり語数をカウントし、
異なり語の割合を計算する
10
3．2 データ収集
• AWKスクリプトを作成、実行する
⑤～⑩特定品詞率
タグづけ出力ファイルに対し、名詞、動詞等、特定品詞の語数をカウントし、
割合を算出する。
※使用語彙（好んで使用される動詞意味クラスの割合）
cf. Levin(1993) English Verb Classes
※使用語彙の難易度を判定
cf. ALC12000語リスト、北大語彙表などのリスト
※文体特徴（好んで使用される構文）
cf. 受動構文、疑問文・感嘆文、強調構文、関係節、…
11
3．2．データ収集
• 行にテキスト名、列に調査項目を取り、対応するセル
に数値を入力する。
• 統計解析環境Ｒを準備し、表形式のデータファイルを
読み込む。
Rの使い方：基礎文献
「統計解析ソフトRの備忘録：R tips」（PDF）
（http://www.is.titech.ac.jp/~shimo/class/doc/r-tips.pdf）
「Rによるデータ解析」（熊澤吉起）
（http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/R/c2.pdf）
12
3.3．データ解析
• 全体の平均、標準偏差を算出し、各テキスト
の偏差値（Ｚ得点）を算出する。
• 調査項目ペアの散布図行列により、作家ごと
の特徴が観察されるか。
• 各テキストと他のテキストの「一致度」（一致
係数、相関係数など）を計算する。
13
参考になる文献
• 金明哲(2003-2009) 「フリーソフトによる
データ解析・マイニング」、Estrela誌連載記事
• （『Rによるデータサイエンス』『テキストデータ
の統計科学入門』として後に出版される）
• 村上征勝（2004）『シェイクスピアは誰です
か』（文芸春秋新書）
• 「文体診断ロゴーン」(http://logoon.org/)
• 前川守(1995)『1000万人のコンピュータ科
学（3）文章を科学する』、岩波書店。
14

Download Report