文章のにむけて 一文章末の語彙調査~

文章の理解にむけて
-文章末の語彙調査-
中村隆志
1.はじめに
理解の成立とは,特定の論理回路の形成・習得という面と,複数主体間の特定
の関係の成立という面の2つの側面があると思われる。両者が混然とした使われ
方もあり,この2つの解釈の境界は判然としない。後者の場合は当事者の利害や
心情が関係成立の要となる。さらに,理解という言葉には,そもそも第3着が必
要であり,第3着の登場と「理解の成立」の承認は新しい関係の成立を引き起こ
す因となる。この意味で,理解という言葉自体に動的で連鎖的な要素を兄いださ
ざるを得ない。しかし,本稿では,主体間の関係成立や第3着の存在はひとまず
置いておきたい。静的な前者の「特定の論理回路の形成・習得」という面に絞り,
かつその理解をもたらす構造の解明に向けた筆者の研究の概略を紹介する。
筆者は談話構造・文章理解に対して新しい分析法を模索している。着目するの
は文章末である。文章の終わり方,文章末の表現については,文章における重要
な箇所である,という指摘に留まる論考が多い。重要であるという指摘を地える
ものとして,例えば市川11,2]や進藤川では,文章の結尾の型を, 「叙述内容の集約
としての結尾」, 「主内容に対するつけたりとしての結尾」, 「主内容を構成する一
部としての結尾」の3つのタイプに大別し,各表現を内容の展開に即して分析し
ている。永野川では,主語の連鎖という観点から文を「現象文」 「判断文」 「述語
文」 「準判断文」の4つに分類し,これら4タイプの文が最終文となる場合を取り
上げ,その形式的文法構造と先行する叙述内容との関係を分析している。両者に
共通するのは,分類や分析を行う際に文車全体の叙述内容やその展開を確定する
必要がある点である。
先行研究[5-71を含め,筆者らは異なる観点から文章末に注目している。それは,
-
1
-
文章末の文だけが持つ特異 な性質に由来 している 文章中の文では,例 え暖味 な
。
表現 に出会 った として も,後続す る文 によって意味の補填が なされる可能性が常
にある。 書 き手の立場か らすれば,暖味な表現 を用いなが ら文章作成 を進めてい
くことがで きる。 しか し,文章末の文には後続す る文が ない。後続する文が ない
以上,文章末を作成す る書 き手は後続表現 による意味の補填が必要 な表現 を可能
な限 り排除せねばな らない。その一方で,先行す る文が唆昧性 を持つ場合 は大い
にある。 従 って,文章末の文では,必要 に応 じて先行す る文の暖昧性 を補填 しな
が ら, 自身には補填 される必要が小 さい表現が使 われやすい と考 え られる。
言葉の意味が一般 に多様であることか ら,言葉が多 くなればなるほ ど,換言す
れば,文章の長 さが長 くなればなるほ ど,その文章の もつ唆昧性 は大 きくな りや
すい。従って,短い文章 と長い文章 を比較すれば,先行する文の暖昧性 を補填 し
つつ 自身に暖昧性の少 ない表現が文章末で使 われ る頻度 は,相対的に高 くなると
考 えられる。 さらに,文章の もつ唆昧性 は単語の意味や文意 に留 まらず,文脈や
大意 に及ぶ。 よって,先行す る文脈や大意の唆昧性 を解消 しつつ, 自身に暖 昧性
の少ない表現が文章末で使 われる頻度は,長い文章の方が相対的に高い と考 え ら
れる。
野本 ・松本 [8]
は新開記事 における主題の推定 について,テキス ト構造 を利用す
ることで,推定の精度が向上す ることを兄いだ している。 論考の中で,本文の冒
頭か ら特定の単語数か らなるブロ ックを切 り出 して推 定 に用 いる方法 (
FLM方
式)の有効性 を示す とともに,推定精度その ものは本文の長 さに応 じて下が るこ
とが付せて述べ られている。 このことは,文章の長 さが構成,文脈,内容の展 開
に少 なか らず影響 していることを示唆す る。 野本 ・松本の考 え方 を援用 し,本研
究では文章の長 さに対 して文章末での使用頻度に正の相関を持つ単語 を抽 出す る
方法 を採 り,得 られた単語の頻度 と意味属性 を分析す る。
先行研究 [5-7] の結果 をふ まえて,分節 された大河 イメージに即 した集計
と分析 を行 った。本稿 では,大河 タームを大 きく 3つ に分類 し,その出現頻度に
ROM の97,
ついて 3年度間の比較 を報告す る。資料 は先 回 と同 じく,日経新 聞 CD-
9
8
,9
9
年度版[
91
1
]
の 3年分 を用いた。
- 2-
2.大河タームの抽出 と分類
大河 タームの定義 と抽 出法 を概掲す るO
A :資料 :日経新 聞 CDROM の97,
9
8,
9
9年度 に含 まれ る記事 。 但 し,文章の形
7
年度 1
0
2
61
0
態でない記事 を除いたため,使用 した記事数 は重複 を除けば,9
個,9
8年度1
0
4
4
5
4個 ,9
9年度 1
01
45
0
個である。
B:定義 :y年度の新 聞記事 デー タベースか ら,テーマ Aの文章 を免めた もの を,
「.
V年度 におけるテーマ Aの文番 グループ」と呼ぶ。 各テーマの文酋 グループ
再 三度 における第 iテーマの文音
に順序 をつ けて, 第 i番 目の グループを 「
グループ」と呼ぶ。大河 タームは以下のアルゴリズムに よってグループ毎 に
抽 出 される。
C:
大河 ターム摘 出プログラム v
e
r
s
i
o
n4
1.新 聞記事 CDROM 内の記事 の内,以下の条件 を滴 たす ものは文章の体裁
を とっていない もの として除外す る。
1…1 :文の数が 3以下
1-2 :文字数が20
0以下
1-3 :箇条書 き
1-4 :図表
1-5:スポーツの結果,書籍な どの売 り上げ ラ ンキ ング, イベ ン ト告知
1-6 :円相場,先物取 引の相場 , 日銀概況
1-7 :賞与,会社 人事 ,死亡記事,家屋移転
1-8 :インタビュー記事,首相の所信表明演説 な ど口述録音 の書 きおこ し
2.キーワー ド検索 を用いて, 同一テーマの記事 を集め,それ らを一つの文書
グループ とす る。 以下の条件 を満 たす文書 グループだけを抽出に用いる。
2
0
0 = < 記事数 < 2
0
0
0
3.得 られた文書 グループ内の全ての記事 を文字数順 に並べ る.
4.記事数が同数 になる ようにxl
国のブロ ックに分割す る。平均文字数餐/
J
、
の
- 3-
ブロックを第 0ブロ ックとし,昇順 に順序付 けを行 う。
5.文書群 の全 ての文書 の末尾 kセ ンテ ンス を取 り出 して,形態素解析 を行
ヽ
■
つ o
【
1
2]
6.各単語毎 にブロック別の集計 を行 う。
7.第 j文書 グルー プにおける第 xブロ ック内の全 ての文書の末尾 kセ ンテ ン
スにおける単語 nの出現 回数 を F (
j,n,x) とし,出現 回数最大の ブロ ッ
max (j,n)とす る。 この とき単語 n は
クの出現回数 を F
Fmax(
j,n)≧ A(
j)/
X/
P
を満たさねばな らない. (
A(
j) は第 j文書 グループの記事数 ,pは定数)
8.頻度分布
(x,
F(n,x)) に対 して,単純回帰分析 を行 い,回帰係数の推定
値が tよ り大で,かつ,回帰係数の検定 において,回帰係数の値が 0である
05で棄却で きる単語 のみ を抽 出す る。
帰無仮説 を有意水準0.
9.上の手続 きで抽 出される単語の各 を「
y年度の第 j文書 グループの大河 ター
ム」 と呼ぶ。
D.
'比較指標 FW[x]:
各文書 グループか ら得 られる上位 x位 までの頻出名詞の集
合である。 大河 タームのグループ別平均抽 出個数が 7であるため,全 グル←
プについて一律 FW[7] を用いる。
先行研究 において大河 タームは頻出名詞 との比較の上で理念的に 3つ に分類 さ
れることを示 した。
1 :ある文書 グループにおいて大河 ターム として抽 出 され るが,同時 にその当該
グループの頻 出名詞であるもの。文書 グループのテーマに依存 して頻 出する
非常 に重要な名詞である。
2 :ある文書 グループにおいて大河 ターム として抽出 され,かつ当該 グループの
頻 出名詞ではないが,同一年度の他の文書 グループ頻出名詞である もの。他
の文書 グループで頻 出 してお り,他の文書 グループの内容や関係 を間接的に
含 む と考 え られる。
- 4-
3.ある文書 グループにおいて大河 ターム として抽出 され,かつ同一年度の全 て
の文書 グループにおいて頻出名詞 とな らない もの 。 使用 されるテーマに依存
せず,他のグループでの使用状況 にも依存せずに長い文章の文尊家 に使用 さ
れやすい名詞である。
これ ら 3パ ター ンの頻度 を集計 し, 3年度問の共通 した傾 向を兄いだすために
以下の定義 を行 う。 先行研究では比較の指標 として FC[7] を併用 したが,本職
では FW[7]のみで行 う。各大河 タームは年度ご とに集計 される。
*
IFW 大河 ターム :同一年度の大河 タームの内,抽 出 された当該 グループの FW
[7]の要素である もの。
*o FW 大河 ターム :同一年度の大河 タームの内,抽 出 された当該 グループ と別の
文番 グループの FW[7]の要素である もの。
*
NFW 大河 夕-ム :同一年度 の大河 タームの内,その年度の全 文番 グループの
FW[7] の要素 にならない ものO
同 じ名詞が別々の文書 グループか ら大河 ターム として塵複抽出されることは頻
繁 に起 こる。重複の頻度は大河 タームによって異 なる。 よって,大河 タームは塞
複す るグループ数によって,頻度 を比較可能である。以下 に用語 と集合 を定義 し
て,上記 3分類の大河 タームの出現頻度を比較す る指標,及 び全体 との比較のた
めの指標 を導入す る。
*長 原 I
FW7
7[x] :
重複 回数の多い もの上位 x位 までの I
FW 大河 タームの集合。
7
7[x]:
重 複 回数 の多 い もの上位 x位 までの OFW 大河 タームの集
*最頻 oFW合
。
*最強 NFWJ
T
T[x]:
重複 回数 の多 い もの上位 x位 までの NFW 大河 タームの集
合
*最頻
T
Tl
x]
。
:
同一年 度 の大河 タームの内,重複 回数上位 x位 までの大 河
タームの集合。
- 5-
この定義か ら,各 グループか ら抽 出 される全 ての大河 タームは I
FW 大河 ターム,
oFW 大河 ターム,NFW 大河 タームのいずれか となる。
oFW,NFW 大河 タームについて具体例 を挙 げ よう。「
影響 」「
業界」「
資金 」「
通
9年度の文書 グループ 「
2000年問題」 の大河 タームである。
信 」の 4つの名詞 は9
これ らは9
9年度の文書 グループ 「
2000年 問題」 にお け る FW [7] の要素 ではな
FW 大河 タームではない。 これ ら 4つの名詞が99年度の全文書 グルー
く,従 って I
Wl7]の要素 と,どれ ぐらい重複す るグルー
プか ら抽 出 される大河 ターム,及び F
プを持つかを表 1に示す。各 の数億 は重複す るグループ数 を示す。
4つの大河 ターム とも,複数の文書 グループの大河 ターム として重複 して抽 出
されるo lつ 目の 「
影響」 と残 りの 3つ 「
業界」「
資金」「
通信 」は性質が異 なる
ことがわか る。 「
影響 」は9
9年度の全文書 グルー プか ら抽 出 される F
Wl7]の要
資金 」「
通信 」は99年度の 「
2000年問題」以
素 になることが ない。一方,「
業界 」「
外 の多 くの文書 グループの F
W[
7]の要素 となる。 つ ま り,99年度 におけるテー
マ「
2000年問題」 につ いては 「
影響」が NFW 大河 ターム 「
業界」 「
資金」 「
通信」
が oFW 大河 ターム となる。
但 し,99年度で抽 出 され る全 ての 「
業界」「
資金」「
通信 」が oFW 大河 ターム
とは限 らない。別の グループで これ らが大河 ターム として抽 出 された場合,その
W[7]の要素であることは起 こ り得 る。 つ ま り,別 々のグループ
グループでの F
FW 大河
で重複 して抽 出 された,同 じ名詞 の大河 ターム は,あ るグループで は I
ターム として,別の グループでは oFW 大河 ター ム として分類 され ることが起 こ
り得 る。一方,NFW 大河 ターム となる名詞 は,定義上,同一年度の全 ての文書
グループの F
W[7]の要素 にな らないことか ら,他文書 グループの I
FW 大河 ター
ム,OFW 大河 タームのいずれに もなることはない。
表 1 :大河タームの重複例
影 響
業 界
資 金
通 信
大河タームの重複回数
4
30
3
2
6
FW[
7]との重複回数
0
2
2
3
8
- 6-
3.名詞別集計結果
各年度の全 ての大河 ターム,及 び Ⅰ
FW 大河 ターム,OFW 大河 ターム,NFW 大
河 タームについて,その総数 を求めた。年度別の数億 を表 2に示す 。
TTは大河 ター
ム全体 の総数,I
FWJTT は I
FW 大河 タームの総数 を示 す (
OFWTT,NFWTTも
同様)0I
FW 大河 ターム,OFW 大河 ターム,NFW 大河 タームの総数のそれぞれ
に付 く括弧内の数値 は当該年度の大河 タームの総数 との割合 である。
表 2において,大河 タームの総数,及び各 I
FW,OFW,NFW 大河 タームにお
いて使用頻度の割合が 3年度間でほぼ一定の傾 向にあることが見て取れる。各年
度 においでは,話題 として取 り上 げ られる トピックは年 々変化 してお り (
住民投
000年問題 など),大河 ター
慕,沖縄基地問題,統 一地方選挙,轟物 カ レー事件,2
ム も入れ替 わる一方で,年度単位 でマ クロ的に見てやれば,文車の末尾 に使用 さ
れやすい名詞 は一定の割合で存在 していることが示 され る。
Tl
1
5
]を衷 3に,敦頻 J
ダW7
7[
1
0
]を表 4に,最頻 oFW7
7[
1
0]
各年度の最頻 T
を表 5に,最頻 NFWTT[
1
0] を表 6に示す。
表 3の結果か ら,上位 の塵複数の大 きな大河 タームの出現頻度は, 3年 間で近
い傾 向にあることが見て取れ る。 出現頻度の傾 向の近 さを測 るため,以下の指標
Z値 を定義す る。
Z
(
i)- i- 1最頻 7
7[i,
9
7]∩最頻 T
T[i,
9
8]
∩最頻 7
7[i,
9
9
]巨
上式の最頻 T
T[i,
9
7],最頻 7
7[i,
9
8],最頻 TT[i,
9
9
]は,それぞれ9
7
年度,9
8
年度,9
9年度の最頻 TT[i] を示す。 h
I
は集合 xの要素の数 を表す。各項の最
7 を入れ替 えて最頻 I
FW7
7[
1
0
],最頻 oFW7
7[
1
0],最頻 NFW7
7[
1
0
]につ
頻7
いて も同様の計量 を行 う。 表 3を例 に取 る と, i-1の時,つ ま り各年度の 1位
の大河 タームについて,それぞれ 「
の」「こと」「企業 」となるため,積集合 は空
集合 とな り, Z(
1)-1。i=2の時,つ ま り各年度の 2位 までの大河 タームに
ついては,9
7年度 2位,9
8年度 1位,9
9年度 2位 の 「こと」が共通 なので,積集
合の要素の数 は 1とな り, Z(1)-10 ∫-3の時 は 「
の」「こと」が共通 なので
Z(3)- 1。つ ま り, 値 は 3年 間の共通分か らの各年度の誤差 を示すo i-12の
時,積集合 の要素数が 1
1で あ り, I(
1
2)=1であ るが, i-1
3の時, Z(
1
3)- 2
- 7-
とな り, Z(
1
4)-3となる。 i>1
2以降,Z億が大 きく上昇 してい くことか ら,本
i)
< 2を満た している順位 内では 3年度間の出現頻度 に近い傾 向があ
稿では Z(
るもの とする。
同様 に最頻 I
FW」
7
7[
1
0],最頻 oFWT
Tl
1
0],最頻 NFWT
T[
1
0] につ いて も同
様の Z億の計量 を行 った結果 (
表 4,表 5,表 6の最右列),肝W 大河 タームに
ついては第 6位 まで,OFW 大河 タームについては第 8位 まで,NFW 大河 ターム
については第 3位 までが Z
<2を満 た しているこ とか ら, 3年度間で同様の傾 向
を示 していることが見 て取れる0時 に NFW 大河 タームについては,先行研究で
今
も指摘 した とお り,「
今後」 と 「
可能性」が突出 して重複 グループ数が多い。「
」
後 「
可能性」以外の単語 に関 しては重複数 も小 さ く,重複数の比較だけか ら年度
間の傾向を兄いだす ことは難 しい。
表 2 :年度別,各大河タームの総数
9
7
年度
9
8
年度
9
9
年度
TT
7
8
4
3
8
2
31
6
4
4
5
Ⅰ
FWTT
1
56
2(
1
9.
9
%)
1
5
9
7(
1
9.
4
%)
1
21
8(
1
8.
9
%)
OFWTT
5
0
0
7(
6
3.
8
%)
5
3
6
3(
6
5.
2%)
40
9
0(
6
3.
5
%)
NFWTT
1
27
4(
1
6.
2
%)
1
2
71(
1
5.
4
%)
1
1
3
7(
1
7.
6
%)
- 8-
表 3 :年度 別最頻 7
7日5]
Or
9
7年度
TT
No
1
5
0
2
の
9
8年度
TT
No
と
こ
99年度
TT
No
Z
47
8
企
業
3
29
1
446
こ
と
3
26
1
2
こ
と
47
6
3
日 本
3
2
9
企
業
37
2
の
3
23
4
企
業
3
21
日 本
3
49
日 本
1
97
5
市
場
2
37
市
場
2
0
8
今
後
1
82
1
0
1
6
今
後
2
2
0
経
済
1
86
市
場
1
72
1
7
た
め
1
6
0
今
後
1
83
た
め
1
56
1
8
経
済
1
1
2
た
め
1
75
事
業
1
1
3
1
9
事
業
1
0
3
事
業
1
21
可 能性
1
06
1
1
0
2
金
融
1
20
経
1
00
1
.
80
1
莱
10
l
l
改
革
1
00
1
2
経
営
1
0
0
1
3
競
争
1
4
会
1
5
問
の
1
1
8
莱
済
莱
常
1
07
経
常
7
8
1
9
0
可能性
1
01
地 域
60
2
社
86
競
争
98
問
題
5
8
3
題
86
銀
行
88
会
社
5
6
4
経
FW-TT[
1
0】
表 4 :年 度別 最頻 I
Or
1
97年 度
I
FWTT
No
と
こ
2
30
5
9
8年度
I
FW TT
と
こ
1
87
の
3
企
業
1
0
0
4
日 本
5
莱
の
No
の
9
8
82
日 本
4
4
63
莱
4
3
1
こ
と
2
25
45
企
業
1
26
1
10
9
91
日 本
5
4
経
6
市
場
40
7
事
業
32
銀
8
会
社
23
9
銀
行
22
1
0
開
発
1
8
済
Z
0
0
0
311
業
企
99年 度
Ⅰ
FWTT No
1
59
市
場
3
4
1
行
40
銀
行
2
7
2
市
場
36
経
済
2
2
2
事
業
35
事
業
1
8
1
25
会
社
1
6
2
莱
市
- 9-
表 5 :年度別最頻 oFWTTl1
0]
97年度
9
8年度
99年度
Or OF TT No OF
WTT No OF TT No
Z
1
の
31
5
の
30
2
2
日 本
23
8
日 本
267
企
業
20
3
3
企
業
221
企
業
26
3
日 本
1
5
3
0
0
4
市
場
1
9
7
市
痩
1
7
2
た
め
1
45
1
5
こ
と
1
71
こ
と
1
67
市
場
1
3
8
1
6
た
め
1
5
0
た
め
1
57
こ
と
1
01 0
7
経
済
9
9
経
済
1
23
事
業
95
1
8
改
革
・
9
2- 競
争
98
経
済
7
8
1
9
競
争
融
97
経
営
6
3
2
W
W
9
0
金
225
の
1
表 6 :年度別最頻 NFWTTl1
0]
97年 度
9
8年度
99年度
Or NF
WTT No NFWTT No NFWTT No
1
今
後
22
0
2
可能性
3
P
虫]
0
後
1
83
今
8
2
可能庭
1
01
可能性
2
0
回
復
30
見
方
1
8
国
内
1
7 2
今
後
1
8
2
Z
1
0
6 0
1
4
導
入
1
9
収
益
24
5
検
討
1
8
特
捜
20
6
見
方
1
8
見
方
1
7
考
え
1
6. 3
7
特
捜
1
8
1
6
期
待
1
3
3
8
考
え
1
5
期
待
1
5 リス トラ
1
3
3
9
予
想
1
5
地
元
1
5
1
2 4
1
0
銘
柄
1
3
分
野
1
5
戸
虫
- 1
0-
1
6 3
戸
虫
指
摘
国
1
2
5
4.意味属性 による集計結果
表 3を見る限 り,出現頻度の高い大河 タームの使用状況 は 3年度間で一定の傾
向 を持つ と考 え られ るo 表 3か ら得 られるのは大河 ター ムが抽 出 され る重複 グ
ループ数であ り,これは名詞の使用頻度 を反映 しているものの,文章末において,
どんな概念が使われやすいか, どの意味属性 を持つ ものが使 われやすいかまで を
推定す ることはで きない。 よって,全ての大河 タームについて,意味属性億の分
布 を集計 した。意味属性 を与 える指標 として,先行研 究 と同様 に 日本語譜衆大
系 [
1
3
]
の中の単語意味辞番 と単語意味属性体系 を使用 した。単語意味辞番か ら各大
河 タームの意味属性億 を得 た後,単語意味属性体系の各 ノー ド上での個数分布 を
2
段,約27
0
0の ノー ドの うち, 5段 目までの
集計 した。単語意味属性体系の最深 1
ノー ドを用いて,大局的に分類す る0 5段 目以下の ノー ドの意味属性 を持つ単語
については,その 5段 目の親 ノー ドが意味を代表す るもの として頻度 を集計 した。
大河 タームについての名詞単位の重複 グループ数を示すが,
表 3か ら衷 6までは,
0では,意味属性 ノー ド単位 の塵複 グループ数 を示 しているQ
以下の表 7か ら表1
表 7か ら表1
0まで,上位 の意味属性の出現傾向は共通分が大 きい。前車の E値
を表 7の意味属性の順位 に転用す るため に以下の定義 を行 う。
*最頻 s
FTT[
x,y]:第 y年度の大河 タームについて意味属性 ノー ド単位で重複 回
数の上位 x位 までの意味属性 の集合。前章同様,
Z(i)-i- I最頻 s
F7
7[i,
97]∩最頻 s
F7
7[i,
98]
∩最頻 s
nT[i,
9
9]
巨
に従 って Z値 を求める。I
FW 大河 ターム,OFW 大河 ターム,NFW 大河 タームの
場合 も同様 に行 う。 i(i)< 2を満 たす最大の順位 は表 7で第 8位,表 8で第 9
位,表 9で第 5位,表1
0で第 8位 となる 各大河 タームの 億の単語単位の集計 と
。
意味属性 ノー ド単位の集計の違いを表 11に示す。
1において,意味属性 ノー ド単位の集計 を単語単位の集計 と比べ ると,大河
表1
FW
ターム全体 ,oFW 大河 タームでは,共通す る順位 を下げている。 その一方で,I
大河 ターム,NFW 大河 タームは共通 と見なせ る順位 を上 げている (
太字)0 NFW
大河 タームについて,表 6では上位 2位 までを除いては顕著 な共通性 は兄いだせ
- l
l-
なかったが,表10の集計結果 を見れば,上位 8位程度 までほほほ共通 した傾向を
兄いだすことがで きる。NF
W 大河 ターム 「
今後 」「
可能性」をそれぞれ含 む 「
非
暦 日」「
様相」 が上位 であるのは表 6か らの帰結 といえるが, 「精 神 」「行 為 」「
変
動」「
知的生産物 (
思考 ・学習)
」「制度」「人工物」が上位 に共通す ることは注 目
に億する。
表 7 :年度別大河ターム全体 についての意味属性値の集計結果
9
7年度
意味属性(
5段目以上) 計
1 行為
9
8年度
意味属性(
5段目以上) 計
1
0
31 行為
99年度
意味属性(
5
段目以上) 計
9
85 行為
91
8
Z
0
0
0
2 団体 .党派
65
0 制度
7
92 団体 .党派
580 1
3 制度
6
37 団体 .党派
6
83 制度
551
4 類
51
4 事
479 類
329 1
5 翠
476 類
456 事
326
6 精神
365 非暦 日
328 精神
288 1
2
89 非暦 日
285 1
7 知的生産物(
思考.
学習) 31
9 精神
8 非暦 日
31
2 人工物
285 変動
260 1
9 罪
3
0
8 罪
255 人工物
24
4 2
表 8 :年度別 I
FW 大河タームについての意味属性値の集計結果
9
7年度
意味属性(
5段目血上) 計
9
8年度
意味属性(
5段目以上) 計
9
9年度
意味属性(
5
段目以上) 計
Z
0
1
1 辛
3
05 事
311 事
225
2 類
1
87 団体 .党派
1
96 団体 .党派
1
89
3 団体 .党派
1
79 制度
1
53 行為
1
55 1
4 行為
1
48 行為
1
49 類
98 1
5 人工物
1
05 類
1
45 制度
87
1
0
0
1
6 制度
7
3 人工物
92 人工物
7
5
7 人(
職業.
地位.
役割)
42 人(
職業.
地位.
役割)
47 人(
職業.
地位.
役割)
38
8 罪
40 行政 区画
38 罪
34
9 知的生産物(
思考.
学習)
32 罪
37 変動
23 1
- 1
2-
轟 9 :年度別 OFW 大河 タームについての意味属性健の集計結果
97年度
意味属性(
5
段目以上) 計
9
8年度
意味属性(
5
段目以上) 節
9
9年度
意味属性(
5段目以上) 計
Z
1 行為
7
83 行為
7
36 行為
6
86 0
2 制度
532 制度
5
9
4 制度
4
3
0 0
3 団体 .党派
459 団体 .党派
47
2 団体 .党派
3
7
6 0
4 類
31
8 類
30
4 戟
2
26
5 罪
266 罪
21
8 変動
1
9
3 1
思考.
学習) 251 翠
6 知的生産物(
0
1
67 知的生産物(
思考.
学習) 1
7
5 2
7 精神
1
77 理由 .目的等
1
6
0 罪
1
7
0 2
8 翠
1
71 人工物
1
57 人工物
1
5
0 3
9 人工物
1
69 知的生産物(
思考.
学習) 1
5
4 精神
1
5
0 2
義1
0 :年度別 NFW 大河タームについての意味属性値の集計結果
97年度
意味属性(
5
段目以上) 計
9
8年度
意味属性(
5
段目以上) 計
9
9年度
意味属性(
5
段目以上) 計
Z
0
0
0
1 非暦 日
264 非暦 日
2
49 非暦 日
2
2
3
2 精神
1
56 様相
1
3
4 様相
1
1
8 1
3 様相
11
0 精神
1
1
8 精神
1
1
7
4 行為
1
00 行為
99 行為
77
5 変動
80 変動
7
3 変動
44 0
6 知的生産物(
思考.
学習)
36 制度
44 制度
34 1
7 制度
32 人工物
36 人(
職業.
地位.
役割)
30 1
8 人工物
30 知的生産物(
思考.
学習)
30 知的生産物(
思考.
学習)
2
8 1
9 言語
21 人(
職業.
地位.
役割)
1
6 因果
27 2
表 11:各大河タームの集計単位 と出現傾 向が近 いと見なせる順位
単語単位
TT
Ⅰ
FW
OFW
NFW
1
2
6
8
3
- 1
3-
5.考 察
表 7か ら表 1
1の要点 を述べ る。
1 :意味属性 ノー ド単位 で大河 タームの重複 グルー プ数 を集計 した結果, この場
合 も出現頻度 の年 度 間の共通性 が確 認 され た。
2 :単語単位 の場合 と同様 ,重複 グルー プ数 の大 きい意味属 性 の中 には,肝W 大
W 大 河 ター ム で の 頻 度 が 高 い ものが あ
河 ター ムで の頻 度 が 高 い もの と oF
る。
3:単語 単位 の重 複 グルー プ数 で は一定 の傾 向が兄 い だ しに くか った I
FW 大河
ター ム,
NF
W 大 河 ターム につ いて,意味属性 ノー ド単位 の集計 にす る こ とで,
それぞれ上位 9位程 度, 8位 程度 までで共通 の出現傾 向が見 られた。
FW 大 河 ター ムの,表 1
0にお け る NFW 大河 タームの意味属性 で
表 8にお ける I
の重複 グルー プ数 の集計結果 は, 出現頻度 の低 い名詞 を集 め た こ とが原 因で年度
0
間での共通性 を得 る こ とが で きた ことを示 してい る。最 も顕著 な例 として,表 1
で 3年度 とも出現頻 度 が 5位 になった意味属性 「
変動 」 を取 り上 げ る。意 味属性
ノー ド 「
変動」 あ るい はそ の下位 範噂 の ノー ドに属 す る NFW 大河 ター ムの各年
度で頻度 の高 い もの を以下 に挙 げ る。
97年度 :「
導入個」 「
再編 (
8
)
」「
破 たん(
8
)
」 「調整 (
7
)
」「
抜本 (
5
)
」他 1
5
個。
9
8年度 :「回復(
3
0
)
」 「介入(
5
)
」「
破 たん(
5
)
」「
控 除(
3
)
」 「連合 (
3
)
」他 1
9
個。
年 度 :「
導入(
8
)
」 「普 及(
8
)
」 「再 開(
4
)
」「
安定(
3
)
」 「追及(
3
)
」他 1
9個。
99
括 弧 内 は大河 ター ム と しての重複 グルー プ数 で あ る。上位
5つ の NFW 大 河 ター
ムを見 る限 り, 3年 度 間で共通す る傾 向 を兄 い だ しに くく, また,各 の大 河 ター
ムの重複 グルー プ数 も小 さい。 これ ら出現 頻 度 の小 さな大河 タームの重複 グルー
プ数 を意味属性単位 で集計 した結 果 ,共通 した傾 向 を兄 いだす こ とが で きた。
6.理解 の成 立 に向 けて
「
理解 の成立」 を考 察 す るため,特 定の論理 回路 の形成 ・
習得 とい う面 に限定 し
て, さ らに文章理解 の一つ の手 かか りとして文章 末 に注 目 した。文章 の終 わ りを
認識す るこ とは,多様 な意味の連 関が収束す る こ とを認識す る こ とで もあ る
。
- 1
4-
こ
の意味で,文章末に注 目す ることは,文章理解 あるいは談話理論[
たとえば・l・
'
1
1
とされ る
推論,照応,連接構造,の どれ とも違 う観点であ りなが ら,互いに必要 とし合 う
ことになるだろう (
ここでい う推論 とは論理学でい うところのそれ と違い,文 と
文,節 と節 をつ な ぐ論理のこ とであ り,スキーマ理論,スクリプ ト理論などがあ
る)。 この ことはデジ タル シーケ ンスか らなる正規言語の受理装置の理論であ る
オー トマ 1
、ン理論,あるいは句構造言語の受理装置であるチュー リングマ シンに
e
x
tmo
v
ef
u
nc
t
i
onとは独立に叡終状態の定義が必要であ り,お互いが完
おいて,n
備 されることで初めて受理が成立す ることに愉えることがで きる
O
自然言語の文章の最終文 は,見かけ上,他の文 との差 はない。 しか し,多 くの
文章において,途中の文での中断は,ひとつの まとま りとしての整合性 に欠ける
。
理解」には至 らない。 この ことは,叡終文あるいはそれにつなが
印象 を与 える 「
る複数の文 と,他の部分の文 との問に違いがあることを推測 させ る。 特定の文字
は もちろん,特定の単語,特 定の意味が文車 を終 わ らせて,整合性 を持たせ る機
能 を持つ ことは考えられないが,一方で全ての単語が平滑 して同等 に使われてい
]にも示 したが,新聞記事の全文車 を
る とも考 え られない。先行研 究 [
例 えば 4
用いた調査で,文車全体の最頻名詞 と蔵終 2文だけを取 り出 した敢頻名詞 を比較
した ところ,顕著な差 は兄いだ し得 なかった。本報告では大河 タームに焦点 をあ
てているが, これ らは最終 2文での使用頻度か ら計量 されるものではない。 これ
らは文章の長 さとの相関か ら導 き出される。大河 タームの存在が意味するところ
は,文章末その ものには特定の単語,特定の意味属性が偏重 して使用 されること
はないが,文章の長 さが長い場合,換言すれば,中断す ることで まとま りが欠け
て文章の 「
理解」に至 らない点が増 える場合 には,特定の単語,特定の意味属性
終わ
の使用頻度が大 きくなることであるo 大河 タームその ものが文章の流れに 「
り」 を与 える機能 を持 っている, と主張す るわけではない。む しろ,大河 ターム
が使用 される前の段階でなされる推論や照応,あるいは使用 される連接構造が問
題 になるだろう。 筆者 はこの観点か ら最終文内に大河 タームを導 く文章の流れを
意味属性 の シーケ ンス解析 とい う形で研究中である (
準備中)0
調査 内容 をまとめる。 大河 タームの出現頻度について,重複 して現れるグルー
2位程度 まで同様の傾向を得た。大
プ数 を用いて 3年度間で比較 した結果,上位 1
FW 大河 ターム,OFW 大河 ターム,NFW 大河 タームに分類 した。 こ
河 タームを I
- 1
5-
れ らの重複 グループ数 を 3年度間で比較 した結果,I
FW 大河 ターム と oFW 大河
タームでそれぞれ上位 6位 と 8位程度 までで同様 の傾 向を得 た。NFW 大河 ター
」
今後 「
可能性」に顕著な結果が出たが,下位の名詞では共通
ムでは上位 2位の 「
した傾向を兄いだせ なかった。 さらに大河 タームを, 日本語語桑大系の意味属性
体系 を用いて意味属性 ノー ド単位で重複 グループ数 を集計 した結果,単語単位で
の比較結果 と同様,上位の意味属性 の出現頻度に共通 した傾向を兄いだす ことが
FW 大河 ターム と NFW 大河 タームでは,単語単位で兄いだせ なかった
で きた。I
3年間での共通性が,それぞれ高い順位 にまで兄いだされた。
今回の意味属性の集計 は単語意味属性体系 シソーラスの 5段 目を使 って行 った
が,これを 2段 目, 3段 目まで上げて観 るとさらに特徴が現れる。 2段 目まで上
具体
げると分類は 2項 目しかな く,「
」「抽象」のみである。相対的な分類ではあ
るが,前者が具体名詞,後者が抽象名詞 を指す と見な して良いだろう。 前者 には
」「界」「人工物」「人
「
団体 ・党派
(
職業 ・地位 ・役割)
」などが当たるが これ らは
団体 ・党派」が入 り,他の属
表 7か ら表 9においては各年度に上位 3位 までに 「
団体 ・
党派」 は現れな くな り,
性 も上位 に散見 される。 しか し,表 10においては 「
3年度 とも上位 6位 まで全て 「
抽象」で占め られる。 このことは大河 ターム自体
NFW 大河 タームのほ とん どが抽象名詞
が抽象名詞の割合が高い ことだけでな く,
であることを示 している。
抽象」か ら 3つの子 ノー ド
またシソーラスの 3段 目に注 目す ると, 2段 目の 「
事」「
抽象的関係」の 3者の意味属性が
が リンクしてお り,それぞれ 「
抽象物」「
抽象物」 と 「
事
ある。 上記 と同様,相対的ではあるが 「
」「抽象的関係」の意味属
抽象的関係」に属す る物の方が抽象度は高い
性 を持つ名詞を比べた場合,「
事」「
といえる。 この うち,表 10の NFW 大河 タームの 3年度間の上位 5位の意味属性
精神 」「
様相」「
行為」「
変動」 は全てこの 2者 「
事 」「
抽象的関係 」の
「
非暦 日」「
今後
下位 ノー ドであ る。 さ らに NFW 大河 タームの 2つ の特徴 的名詞であ る 「
(5段 目の意味属性 は非暦 日)」「可能性 (5段 目の意味属性 は様相)」 とも 「
抽象
的関係」の下位 ノー ドに属す る。
NFW 大河 タームは,定義か ら,長い文章の文章末で使 われやす く,一般的な
テーマの文章を集めて も頻出単語 になることもない。NFW 大河 タームが抽象的
関係 を述べ る名詞に当てはま りやすい事 は,これ らが使 われている文章の文章末
- 1
6-
に於いて前段 の内容のある種 のモデル化,あるいはモデル化 を前提 に して導かれ
今後」「
可能性 」とい う 2つの単語 は,
る言明が表現 されている と推測 される。 「
これ らが使 われる文章 に於いて,文章の終 わ りを導 くター ミナル としての役割 を
持つ と考 え られる。 これ らが ター ミナルとす るな らば,それにつなが る推論や照
応 の分類が続 く調査 となるだろう。
以上が理解 の成立 に向けての本研究の取 り組みである。ここで得 られた知見が,
文章の終 わ りを認識 し,文革 を一つの まとま りとして捉 えること,ひいては特定
の論理 回路 を形成 ・習得す ること,理解が成立す るこ とに一定の寄与があるこ と
が期待 される。
eclos
lng S
e
n
t
e
Th
=
コ聖 聖
Th
e。
r
d
e
ro
ft
h
el
c
n
g
l
ho
fwr
i
t
l
n
g
S
Sh
o
r
t
Se
nt
e
nc
e
i
Thec
l
os
l
ngSe
nt
e
nc
e
n
s
Lo
/
/
図 1 :最終文の他の文 とのつなが り
E
A
n ces
\
霊 LI
'
iL
b
S・
!
豊 斡
l
i
mi
n
at
i
on
mbi
gu
o
usss
Cl
o
s
i
n
g
S
e
n
t
e
n
c
e
of
/
/
/
/
/ /
/,
/
/ ′/
/
/
/ /′
/∫
ne
LH l
B:i
:::I
ll:王
国
全圭 L
i
」
昌
日
昌
日
日
TheEme
r
ge
nc
ePr
o
ba
bi
l
i
t
y
ofEa
c
hWor
ds
図 3 :文書グル ープのブ ロック
分 けと最終文の取 り出 し
_⊥
iji
LJ
=
「
側聞圏
i
iiiL⊥ L
圏
Cl
o
s
i
n
g
S
e
n
t
e
n
c
e
∩‖
=
†
⊥ 】
図 4 :ブ ロ ック別使用頻度の例
図 2 :文章の長 さと哩昧性の増大
- 1
7-
図 5 :文書グル ープ 内で抽 出 に用 いる範 臥
左が大河ターム,右がFW
参考文献
[1] 市川孝 :『国語教育のための文章論概説』,教育出版,1
9
7
8
0
[2] 市川孝 :『
改訂文章表現法』,明治書院。
[3] 進藤咲子 :書 き終わ りの タイプ,『
国文学 :解釈 と鑑賞』臨時増刊号,1
97
4-60
[4] 永野賢 :『
文章論総説』,朝倉書店,1
9
8
6
0
[5] 中村隆志,小泉明 日美,本 間愛 :日本語新聞記事 の文章末における特異的名詞,情
9
9
9
.
報処理学会報告,I
CS11
6
-4,1
[6] Ta
ka
s
h
iNa
ka
mu
r
a
,Ta
t
s
uoHe
mmi&A
s umiKo
i
z
umi
:Se
ma
nt
i
cFe
a
t
u
r
e
so
fs
pe
c
i
f
i
cwo
r
ds
i
nt
hec
l
os
i
ngs
e
nt
e
nc
e
so
fne
ws
pa
era
p
rt
i
c
l
e
s
,
Pr
o
c
e
e
di
ngso
fThes
e
c
o
ndAn
nu
a
lCo
nf
e
r
e
nc
eof
Th
eJ
a
pa
n
e
s
eSoc
i
e
t
yo
fLa
ng
ua
g
eSc
i
e
nc
e
s
,200
0.
[7] 中村隆志,唐木真理 多国語新 聞記事の大河 ターム分析 (
その 1),情報処理学会報
-50
&,cH48
[8] 野本忠司,絵本裕治 :テキス ト構造 を利用 した主題の推定について,情報処理学会
1
9
9
6
0
報告,NLl1
4
-8,
[9] 日本経済新 聞社, 日本経済新聞97年 CDROM 版, 日本経済新 聞社,1
9
9
8
0
[
1
0
] 日本経済新 聞社, 日本経済新聞98年 CDROM 版, 日本経済新 聞社,1
9
9
9
0
[
11
] 日本経済新 聞社, 日本経済新聞99年 CDROM 版, 日本経済新聞社,200
00
[
1
2] 松本裕治,北内啓,山下達雄,平野喜隆,今一修,今村友明 :日本語形態素解析 シ
ステ ム 『
茶 釜』v
e
r
s
i
o
n1.
0使 用 説 明書,I
nf
o
ma
r
t
i
o
nSc
i
e
nc
eTe
c
hni
c
a
lRe
po
r
t
,NAI
STI
S∼
9
9
7
0
TR97
0
07,奈良先端科学技術大学,1
[
1
3] 池原悟,他編 :日本語語嚢大系,岩波書店,1
9
9
7
。
[
1
4] 阿部純一他 :『
人間の言語情報処理』,サイエ ンス社,1
9
9
4
.
- 1
8-