対訳コーパスによる研究例

多言語研究と教育のための
多言語コーパス開発と利用
―中日対訳コーパスの事例から―
曹大峰
北京日本学研究センター・国立国語研究所
1.多言語研究と教育の課題
2.多言語コーパスの種類と特徴
多言語コーパスの特性分析
対訳コーパスの特徴と利用モデル
3.多言語コーパスの利用例
中日対訳コーパスの事例を中心に
1.多言語研究と教育の課題
●多言語社会と多言語学習への対応
●多言語を対照的統合的に教育・研究
言語
言語
言語
●通用的枠組みの導入・再建・応用
●多言語情報処理環境と手法の整備
事象
●多言語のメリットとデメリットの活用
言語
言語
言語
●新しい言語研究と教育の基盤創成
2.多言語コーパスの種類と特徴
○多言語コーパスは多種多様に開発が進んできたが、これまでの分類(並列コー
パスと類似コーパス)では収まらず、その特徴分析と使い分けが必要となってきた。
関係特性
種類
対応
意味
○
○ △
「西京雑記」
対訳コーパス
○
○
全国方言談話DB
△
地域
習得
△
△
○
○
△ ○
○ ○
○
言語
1
○
○
言語
2
○
○
対
訳
対
訳
○
○ ○
△ △ ○
言語
1
○ ○
△ △ △ ○
○
中国語共時
コーパス
対
訳
双方向的関係
多方向的関係
△ ○ ○ ○
○
IECコーパス
単方向的関係
○ △
△ ○ ○
BTS多言語
話し言葉コーパス
中国語換言
コーパス
時代
並 包 同 類 同 類 同 異 内 外 前 内
列 括 一 似 属 縁 代 代 圏 圏 後 外
中日対訳コーパス
日本語学習者
作文対訳DB
語族
対
訳
対
訳
対
訳
対
訳
対
訳
言語
1
言語
2
言語
3
言語
4
対
訳
対
訳
対
訳
対
訳
対
訳
○対訳コーパスの特徴と利用モデル(中日対訳コーパスの事例)
多言語(中日対訳)
特定言語(中&日)
全文型
サンプル型
書き言葉
話し言葉
創作文
情報文
現代語
近代語
古語
汎用型
特殊型
タグ有り
タグなし
北京日本学研究センター共同事業
中日共同研究と資金助成の成果
中日両言語並列型の対訳コーパス
単言語利用や多言語拡張も可能
中日英WINDOWSで利用可能
2000/ME/XP以上必要
世界初の2000万字規模
多ジャンルで原文と対訳で157件
多分野研究と教育の利用可能
言語・翻訳・文学・文化など
多様な機能を持つ検索ツール付
現代
中
小説
近代
日
中
日
(%)
597.7 305.5 95.8 131.4
(58)
詩歌/散文
11.2
21.4
(2)
伝記
256.6
61.4
(17)
政論/白書 329.2 119.4
(22.9)
法律/条約
0.55
1.85
(0.1)
(%)
(62)
(26)
(5)
(7)
(100)
ダブルキーワード、定形表現、正規表現など
基本的な情報付与
対応/品詞/係受け、並列抽出表示可
ユニーコードと純正コード処理
検索結果のコピーや再利用が簡単
データ種類の指定と選択可能
ジャンル・語種・原文・訳文など
研究利用に内部公開
多くの研究者や機関に広く利用中
モデル1
モデル2
モデル3
モデル4
モデル5
モデル6
モデル7
モデル8
らしい
好像
らしい
好像
好像
らしい
らしい
らしい
好像
好像
好像
らしい
らしい
らしい
好像
らしい
らしい
らしい
原文
原文と原文の中日対等的研究
原文と訳文の日中照応的研究
原文と訳文の中日照応的研究
原例と訳例の日中参照的研究
原例と訳例の中日参照的研究
好像
らしい 照応型中日対等的研究
参照型中日対等的研究
好像
好像
訳文
好像
全方位的対照研究
好像
らしい
好像
好像
らしい
対等的(語レベル)
照応的(文・文章レベル)
参照的(語レベル)
3.多言語コーパスの利用例
モデル1 原文と原文の対等的研究
ー感動詞の日中対照ー
○複数言語の原文を対象に研究する
アプローチ○研究対象の原文と原文
の間、話題
は同じでも内容的に必ずしも対応し
ない
○異なる言語の言語表現や言語習慣
の違いを知るばかりではなく、発話者
の視点や認知スキーマなど知的文化
的背景を探索するのにも有効
●曹・森山1999では中日両言語の感
動詞を原文コーパスから抽出して音
声特徴から感情・認知・行動を表現す
る機能の面で両言語の異同を考察し
た
功能特征
情绪表达
认知特性
事实
性
语音特征 自 触 强 弱 平 激 一 不 认 疑
发 发
静 动 致 同 同 惑
◎ ◎
◎ ● ◎ ◎
单 ◎ ◎
音
纯
素
◎
◎
◎
复
音
杂
位
◎
◎ ◎
◎ ● ◎ ◎
单
音
个
节
◎
◎
◎
复 ◎
数
◎
上
词
升
调
◎
平
降
◎
◎
音 音 重
调 重
◎ ◎
◎
轻
起因 强度 表情 核对
行为特性
价值
性
一 重
般 大
◎ ○
◎
◎ ●
反应 传递 动作
压 开 对 对 无 关
抑 放 自 他 关 联
◎ ◎ ◎
◎
●
◎
◎ ◎
◎ ◎ ●
◎
◎
◎
◎
◎
◎
◎
◎
◎
◎
◎
缓 ◎
音
长
长
◎
◎
◎
◎
急
促
◎中日共通的特性 ○中文独自的特性 ●日文独自的特性
◎
モデル2と3 原文と訳文の照応的研究 -「だろう」と「吧」ー
○訳文との照応で、原文を研究するアプローチ
○原文は研究対象、訳文は照応対象
○訳文との照応で原文に関する探索を深めるのが主目的
○原文と訳文の照応は文や文章レベルまであり、構文だけでなく場面
や文脈情報による対照研究が期待できる
考察結果
a.「だろう」は表4のように「吧」の対訳率が36%弱しかなく、また、「吧」は表5
のように用法分布が広く「だろう」の対訳率が6%に過ぎず、特に意志文、行
為文と軽い問い掛けの文では対訳が見られない。
b.推測・確認要求・認識要求などの「吧」の文において「だろう」の対訳が36%
弱だが、事態内容に未確定な部分があるという前提未確定の「だろう」文に
おいては、「吧」の対訳は見られない。
c. 「だろう」と「吧」の非対訳は「未確定」と「対立事態配慮」という異なる基本義
に起因し、談話においてその用法の展開線が交差し両者の接点が対訳の
形でみられるようになる。
「だろう」の各用法の対訳率
用法
1
(94)
2
(382)
3
(54)
4
(96)
5
(1)
6
(44)
吧(163)
2
35
30
8
30
10
吧?(83)
1
5
50
20
0
41
呢(61)
50
2
0
0
0
14
吗(54)
1
0.8
13
40
30
10
啊/呀(20)
9
1.6
2
2
0
9
その他(15)
6
2
2
1
0
0
φ(142)
20
24
0
24
30
16
大概(25)
可能(12)
会(22)
也许(22)
恐怕(12)
0
0
3
0
0
7
3
4
6
3
0
0
2
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
说不定(5)
0
1
0
0
0
0
一定(3)
难道(2)
是否(3)
0
2
1
0.8
0.3
0.3
0
0
2
0
0
0
0
0
0
0
0
0
その他(24)
4
4
0
4
10
0
訳語
注:「か、な、ね、よ」等の助詞が付かない「だろう」の各用法の対訳率。
用法類型:1、焦点推測、2、非焦点推測、3、確認要求、4、事実認識
要求、5、眼前認識要求、6、中間用法。( )内は実例件数。
(1)あいつ、今ごろ、何をしているだろ
う?/家里的“那一位”,现在正干什
么呢?(砂の女1133)
(2)女は答えない。答える必要がないほ
ど、分りきったことだったのだろう。
逃げられなかったから、逃げなかった
……おそらく、それだけのことなのだ。
/女人没有回答。也许她觉得这是个无
需回答的问题吧。因为逃不了,所以没
有逃走。……恐怕就这么简单。(砂の
女688)
(3)「これだろう、お兄ちゃん」/“是这
个吧?哥哥。”(黒雨279)
(4)「だって君の家、病人があるんだろ
う。」/“可是,你家里不是有病人吗?”
(雪国351)
(5)「ほら、あすこにあの、ピンク色の
洋服を着たお嬢さんと一緒に踊ってい
るでしょう、あれがまアちゃんよ」
/“你看,那边有个人在和一位穿粉红色
洋装的小姐跳舞(吧/φ)。他就是阿熊
啊。”(痴人の愛716)
「吧」の用法分布と対訳率
判
定
21%
意
志
24%
働
掛
け
47%
複
文
7%
用法
原例
だろう
対訳率
推測
73(17)
23
確認要求
31(14)
認識要求
17(12)
45
71
軽い問掛
24
0
意志
65
同意
29
0
0
許容
27
0
提案
41
0
誘い
81
0
勧め
32
0
頼み
46
0
命令
144
0
呪詛
12
祈願
5
0
0
仮定
18
0
前提
27
0
例/提示
2/4
0
計
678(43)
6
(6)“唉,还是睡吧,”鸣凤叹了一口气,没精打采地
说,一面解棉袄的钮扣。/「やっぱり眠ってしまお
う」彼女は力なくそうつぶやくと、綿入れの上衣の
ホックをはずす。(jia165)
(7)巡警走近我说,“你自己雇车罢,他不能拉你
了。”/巡査は私に近寄ってきて、いった。「ご自分で
車を見つけてください。あの車夫は引けなくなりまし
たから」(nahan325)
(8)一直到十点钟,才剩下我们俩。他这才望了我一眼
说:“怎么样,家里还好吧?”/十時になってやっと
我々二人だげになれた。彼は私をみて「どうだ、家
の方は?」(*どうだ、家 のほうはいいだろう。)
(tyshcq558)
(9)一体、あの女は、どうやってこの新聞を手に入れ
たのだろう?……/究竟那女人是怎么弄到这份报纸的
呢?……(砂女494)
(10) 「…私の生れは港なの。ここは温泉場でしょ
う。」/“…我出生在港市,可这里是温泉浴场。”(雪
国 134)
(11) 你应该搬到研究所去住。这样,你就有时间了。
/あなたは研究所へ引っ越すべきだと思うわ。そうす
れば時間ができるでしょう。(rdzn668)
モデル4と5 原例と訳例の参照的研究 -訳文の研究ー
○原文と訳文の用例を参照して訳文を研究するアプローチ
○訳文は原文の対訳として原語の語調風格を残している
○訳文は訳者の作物としてその理解や格調を示している
「だろう」の対訳
吧1
吧2
呢
吗
啊/呀
その他
φ
大概
可能
会
也许
恐怕
说不定
一定
难道
是否
その他
計
J(原文)
P(訳文)
186
115
86
103
24
16
168
69(25)
20(12)
57(22)
55(22)
31(12)
7(5)
8(3)
33(2)
8(3)
57(31)
906
22
25
57
47
9
9
418
23
0
46
16
14
1
15
8
7
69
794
「吧」の用法
推測
確認要求
認識要求
問掛け
意志
同意
許容
提案
誘い
勧め
頼み
命令
呪詛
祈願
仮定
前提
例示/提示
計
P(原文)
J 訳文
74
41
9
25
65
29
27
41
81
32
46
144
12
5
18
27
2/4
682
407
404
40
64
4
41
55
7
98
164
5
4
4
6
1066
訳文に見えるもの、隠れるもの
○原語で表面化しない含意や機能を訳語に顕在化(explicitness 顕化)
○原文のさまざまな類義的用法を訳語に内包化(implicitness 隠化)
○最近、比較文化や翻訳の研究では、訳語や訳文の研究価値が認めら
れ、「interlanguage」(語際語、中間言語)という術語も定着
○多言語コーパスはそのような中間言語の資源を原語付で提供可能
日中同形異義語「人間」の訳語から
○日本語対訳は17種も多い
○58%は世間系、25%は人間界系
とその含意が顕在化
○18%の略訳は内包化
●因果関係の中→日顕在化や日→
中内包化
●人称代名詞の日→中顕在化や中
→日内包化
モデル6と7と8 複合型対照研究 ー中日同形同義語「基本」ー
○モデルを複合的に利用して研究を広げたり深めるためのアプローチ
○6=1+(2と3)、7=1+(4+5)、8=1+(2+3)+(4+5)
○単一モデルで特定された研究側面を、全体的に総合的に捉える
○もっと複雑な言語現象と文化現象を全方位的に考察するのに効果ある
○複数言語の原文を研究の対象に、訳文照応と訳例参照の多方向から
その異同を探索するとともに、その訳文に関する研究も期待できる
小説
「
の中
文日
体同
的形
特語
徴基
本
論説文
」
作品数
字数
件数
頻度
中
21
250万
24
0.001
日
22
235万
0
0.000
中
1
13万
25
0.019
日
2
21万
20
0.010
中日同形語「基本」の全方位的対照
中国語(基本)
原例(小説(論説))
日本語(基本)
訳例 (小説)
原例(小説(論説))
訳例 (小説)
訳文
件数
源語
件数
訳文
件数
源語
件数
基本/基礎
4+1 (12)
基礎
1
基本
0(11)
基本
4
最低の
1
基本的
2
根本
0(3)
总
2
基本的
(7)
大体の/一通りの
1+1
基礎
0(1)
本位
1
根本的
1
ほとんど
2
核心
0(1)
基本的な
3 (4)
大体
5
基本的に
2
大抵
3
2+1
一応
2
(略訳、意訳)
0(4)
(縮訳)
2
計
0(20)
計
9
ほぼ/ほとん
ど
大体/すっか
り
ともかく/一
応
(略訳、意
訳)
計
+1
+2
2+4 (1+ 1)
24(25)
計
17
考察結果
○主として中国語と日本語の論説文
に使われ、日本語では小説の原例
にほとんど見られないほど文体的
性格が濃い
○表と例12の対訳状況に見られるよう
に、日本語では名詞用法しかないが、
中国語では副詞用法にも機能拡張
(訳文には顕在化)
○「基本的に、ほぼ、ほとんど、大体、
すっかり、ともかく、一応」などとい
う多数の対訳から見ても、「基本的
に」という日本語の副詞的派生形
より中国語の副詞用法に意味用法
が広い
○訳例における中国語「基本」の副
詞用法は7割も高く、原例の3.3割
を大きく超え、日本語の副詞用法
を内包化する現象の表れで、中国
語の原語の特徴ではない
(12)ここに日本人の仕事に対する
考え方の基本がよくあらわれている。
/于此,清楚地反映了日本人对于工作
的基本想法。(kiki437)
(13)那天晚上,佳佳的病基本好了,
园园的功课也作完了,兄妹俩相继睡
去。/その日の夜、佳佳の病気はほと
んどよくなり、園園の勉強も終わって
、兄妹は前後して寝床についていた。
(hdbrx639)
(14)原来拟定三天的日程,两天一
晚上就基本完成了。/三日の予定が二
日一晩で一応終わった。(hdbrx1884)
言語教育への利用法
○対訳コーパスに基づく中日対訳情報辞典の開発
実例による新しい中日日中辞典の編纂
言語研究と教育に役立つ辞書の誕生
○コーパスによる外国語学習法の開発と促進
文脈・コロケーション・対訳付きの言語学習資料の提供と利用
→観察学習の楽しみ・深みと効果の獲得
『投野由紀夫のコーパス超入門:コーパスでわかる英語学習の
コツ』(小学館)
『英会話コーパスドリル 』(アルク)
『コーパス練習帳』(NHK出版)
『コーパスで一目瞭然―品詞別 本物の英語はこう使う! 』
(小学館)
○研究成果の教育応用領域の開拓
○多文化共生のための言語教育を視野にいれた多言語研究
ご清聴ありがとうございました
謝謝!