ROSEリポジトリいばらき (茨城大学学術情報リポジトリ)

ROSEリポジトリいばらき (茨城大学学術情報リポジトリ)
Title
Author(s)
Citation
Issue Date
URL
『殷墟卜辭綜類』における文字域排列方式の分析
鈴木, 敦; 鈴木, 俊哉
茨城大学人文学部紀要. 人文コミュニケーション学科論集
, 19: 89-109
2015.9
http://hdl.handle.net/10109/12706
Rights
このリポジトリに収録されているコンテンツの著作権は、それぞれの著作権者に帰属
します。引用、転載、複製等される場合は、著作権法を遵守してください。
お問合せ先
茨城大学学術企画部学術情報課(図書館) 情報支援係
http://www.lib.ibaraki.ac.jp/toiawase/toiawase.html
『殷墟卜辭綜類』における文字域排列方式の分析
鈴木 敦
鈴木 俊哉
From 2003 to 2012, Old Hanzi Expert Group under ISO/IEC JTC1/SC2/WG2/IRG was
working to make a draft character set for Old Hanzi to be proposed in ISO/IEC 10646. The project
could not finish successfully. The remarkable difficulty that the ordering of Oracle Bone character
to Seal script in “Shuowen Jiezi” had many ambiguities, it caused repeated correction of the order
of the characters (the appropriate Shuowen radical must be determined by the semantics of the
character, but current study of Oracle Bone script is not so matured to give the stable conclusion).
Also the long list of the sampled glyphs made it difficult to overview of the character set for the
project members; it caused much duplication in the draft character set. Japanese experts proposed
to use the collation methods in “Inkyo Bokuji Sourui” (Kunio Shima, 1969) or “Yinxu Jiagu Keci
Leizuan” (Yao Xiao Sui, 1989) dealing with Oracle Bone glyph shape directly. The authors are
now making a mapping table between the indexing glyphs of these 2 collections to discuss the
stability of the character identity. However, the intra-radical ordering of these books is supposed
to be still hard for the non-expert to overview, because there is no description. In this report, we
analyze the structure.
1. はじめに
2003年 か ら2012年 に か け て、国 際 標 準 文 字 符 号 で あ るISO/IEC 10646(ISO/IEC 10646
2012)に古漢字(甲骨文・金文・小篆)を追加するため、ISO/IEC JTC1/SC2/WG2/IRGの
下部組織たる古漢字アドホックグループは甲骨文字の整理作業を行った。しかし、甲骨文字
を『説文解字』(以下『説文』)の小篆字形に対応づけて排列するという方針で作業したため
に、甲骨文字をどの小篆字形に対応づけるか、また、データベースをどのように通覧して当
該文字の採録の有無を判断するかといった方法論が確立せず、小篆字形との対応関係の修正、
および重複データの修正に多大な作業時間を費やすこととなった。その結果、約10年間に
亘って作業したにも拘わらず、草案としての文字集合を整理することができないままに、ア
ドホックグループを解散することとなってしまった(Li Guoying
(李國英),Tom Bishop 2003 、
ISO/IEC JTC1/SC2/WG2/IRG 2012 、鈴木敦・鈴木俊哉2012)。
『人文コミュニケーション学科論集』19, pp. 89-109.
© 2015 茨城大学人文学部(人文学部紀要)
90
鈴木 敦/鈴木 俊哉
日本側は、当初から『殷墟卜辭綜類』(島邦男 1971・以下『綜類』)並びに『殷墟甲骨刻
辭類纂』(姚孝遂 1989・以下『類纂』)に見られる手法、即ち甲骨文字を小篆字形に対応づ
けず、甲骨文字そのものの字形に基づいて直接排列する手法によって整理するべきである
と の 提 案 を 行 っ て き た(ISO/IEC JTC1/SC2/WG2/IRG 2008 、2011 、鈴 木 敦2007 、2008a 、
2008b 、2009a 、2009b 、2010a 、2010b 、2010c 、2011)。加えて、『綜類』および『類纂』の
見出し字の対応づけ作業であれば、古漢字アドホックグループが行っていた、拓本の模写か
ら開始するような手法に比べて作業量も少なく、かつ高度な専門性を持たない作業者であっ
ても6-7割程度の対応づけが可能とみられることを、予備調査で示した(鈴木敦・鈴木俊哉
2013)。
1.1 検字表の分類方式とその偏り
『綜類』および『類纂』の見出し字の対応づけ作業の期間中、非専門家にとって『綜類』
および『類纂』の検字表は必ずしも一覧性が高いものではなく、それに起因する作業ミス(対
応づけ可能な文字があるにも拘わらず見落としが発生する事例や、より適切な文字を対応さ
せずに別の文字を対応させてしまう等) も見受けられた。当初、筆者らはこれを作業担当
者に甲骨文字研究の経験がないためと推測していた。しかし、甲骨文の研究者からも『類纂』
の文字表が必ずしも検索性が高いとは感じないといったコメントも寄せられるに及んで、両
書の検索性に関しては検討の余地があると考えるに至った。そこで最初の作業として、習熟
度などを捨象した検討方法として、情報工学における木構造データベース(注1)との対応
関係をもとに検討してみたい。
情報工学的な見地での「検索性の高い木構造」とは図1
(a)
に示すように、枝の長さが揃っ
ていることを指す。枝の長さが揃っていれば、あるデータを探し出すのに何回判断すればよ
いかというコストが一定であると言える。これとは逆に、図1
(b)
のように特定の枝だけが極
端に長く、多くの枝はそれよりずっと短いという構造は、検索コストがばらつき、またこれ
を保持するための記憶容量も見積もり難いという問題点がある。この枝の長さを均一にする
手法として、情報工学においては、格納するデータ内容からハッシュ関数(注2)を用いて
一種の乱数生成のような処理を行い、格納位置が均一に分散する手法がとられる(R. Bayer
and E. McCreight. 1972 、奥村晴彦 1991)。
ハッシュ関数を用いる場合、格納するデータの内容に類似性があっても、どのデータがど
の枝に排されるかには類似性はないのが普通である。これは一見不便な手法に思われるが、
「データ自体に類似性がある場合に、近い枝に排されるようにする」という手法をとった場合、
自然界のデータの多くが、単純な指標で整理した場合には特定の指標値に偏りを生じてしま
うため(いわゆるZipf則・George K. Zipf 1935)(注3)、意図的に乱数的な傾向を組み込まな
いと枝の長さが均一にならないという経験を踏まえたものである。
人間が字書をひく際にはハッシュ関数のような考え方をとることはできない。しかし、枝
『殷墟卜辭綜類』における文字域排列方式の分析
91
図1:木構造データベースと検索コストの関係
の長さに偏りがあることが障害となることは、集中力の持続時間に限界のある人間にもある
程度共通した問題だと言えよう。一個の文字を検索するに当たり、どの程度の手間がかかる
か(何回ページをめくり、何個の文字を注視しなければならないか)ということが推定でき
れば、例えば集中力持続時間の上限から「結果を信頼してよい作業量」を予測できるからで
ある。しかし、ひるがえって未解読文字や文字同定基準が明らかでない文字をグループ化す
る作業を考えた場合、グループのサイズが「検索性の高い木構造」に適した均等な分布にな
るとは考えにくく、むしろ単語出現頻度にZipf則が現れるような現象が起きる可能性のほう
が高い。このため、字書の排列においては「判断基準が記憶・推測し易いもの」「複数の判
断基準を組み合わせる場合、それらに相関がないもの」を考案することが大きな改善の要点
であった。
例えば、最初期の部首分類の字書である漢代の『説文』では、部首数は540個であり、こ
れだけが唯一の明文化された排列規則である。その後、
『玉篇』『類篇』などが部首内排列の
改善に取り組んだものの、広く受容される方式とはならなかった(注4)。このため、『説文』
から『類篇』に至る字書においては、部首だけで選択された最大約500個の候補を注視して
目的の文字を探さなければならない。この難点の解決策として、金代に『五音篇海』が部首
内画数による排列を導入すると、字書の排列規則は急激にこの手法に収斂した。
現在ISO/IEC 10646の統合漢字は7万個以上であり、『説文』の7倍以上の規模である。図2
(a)に示すように、これを『康煕字典』の214部首だけで分類しようとすれば、一部首に最
大3,000個以上もの文字が配当されてしまう。しかし、これに部首内画数分類を組み合わせ
ることで、同一の部首・画数に配当される文字を300字程度までに抑えることに成功してい
る。また、本稿では詳細を論じないが、
『康煕字典』においては部首を除いた第一画の形状
92
鈴木 敦/鈴木 俊哉
により、同一部首・同一画数の中でさらに細かな分類がなされている。注意すべきは、康煕
排列においても、全体としては依然としてZipf則に従う傾向があるものの、部首分類と画数
分類というあまり相関性がない分類を組み合わせることで、最末端の枝に配当される文字数
を減らしていることである。相関性がある指標を組み合わせた場合、文字数の配当にはこれ
よりも強い偏りを発生させるに違いない。
さて、甲骨文字においては画数や第一画形状のような安定した指標がないため、
『綜類』
『類
纂』共に「部首の排列方法」並びに「同一部首内における文字域の排列方法」を明示してい
ない。部首だけで排列した場合の一部首当たりの収載文字域数の分布を図3に示す。収載さ
れている文字域数が少ない部首に関してはZipf則的な傾向が見られるものの、収載文字域数
が多い部首においてはZipf則よりもさらに強い偏りを生じる恐れがある。また、『綜類』よ
りも20年以上遅れて編纂された『類纂』においても同様の偏りが見られるだけでなく、さら
図2:『説文解字』(部首を多くとった分類方法)と『康煕字典』(部首を削減し画数
分類と組み合わせた分類方法)での分類項目あたりの配当漢字数の比較
『殷墟卜辭綜類』における文字域排列方式の分析
93
図3:『綜類』『類纂』の部首あたり配当漢字数の比較
に偏りの傾向が強くなっていることがうかがわれる。ただし、『綜類』の部首数は158個・『類
纂』の部首数は149個と、
『説文』の部首数(540個)の1/3以下しか無いにも拘わらず、その
偏差は『綜類』
『類纂』共に『説文』における偏差(図2
(b))ほどには強くない。従って、
『綜
類』『類纂』が採用している甲骨文字字形を直接扱う排列手法は、部首の建て方においても
説文部首体系より甲骨文字の整理に適していると言えよう。
同様の整理手法をとった網羅的な研究書は、
『類纂』以降出版されていない。また、『新編
甲骨文字形表』
(沈建華・曹錦炎 2001)
『甲骨文字編』
(李宗焜 2012)のように、
『類纂』に
無い見出し字を追加して新規性を主張する方向性が目立つ現状においては、この偏りを解決
する方向での分類方法の見直しが行われることは期待しがたい。加えて、仮にそのような分
類方法が提案されたとしても、それに基づいた網羅的な整理を行うに十分な専門家を揃えて
これを実現することは、現状では極めて困難であると言わざるを得ない。従って、
『綜類』
『類
纂』という既存の網羅的な研究業績に見られる排列手法を解析・周知し、
『康煕字典』にお
ける部首内画数排列のような機能を付与することが、現実的な解決方法であろう。
1.2 本稿の問題意識
前節で整理したように、『綜類』『類纂』の利用に習熟した研究者は見出し字の排列を言語
化しないまでも「どの部分からどの部分までには出現を期待できないか」「現れるとすれば
どの部分が候補となるか」を無意識的に推定でき、同一部首内の全ての文字域に対して集中
力を維持して走査する必要は無い。一方で非専門家にはそのような推定は不可能であり、一
部首における収載文字域数の多さが、そのまま検索の困難さにつながってしまう。
同様の問題は『説文』の部首内排列にも存在するが、『説文』の利用者は古漢字研究者か
ら篆刻家・書道家まで広い範囲に及ぶため、「
『説文』の部首内排列に見える編者の考え方」
の研究や、あるいは排列法が分からないまでもこれを暗記しようという動機づけには十分に
94
鈴木 敦/鈴木 俊哉
有効である。前述の通り、かつてISOでの甲骨文字標準化作業において、日本側のメンバー
は、
『説文』への対応づけを通じた間接的な整理ではなく甲骨文字を直接取り扱った文字同
定および排列処理を主張した。しかし、『説文』への対応づけによって作業計画に大幅な遅
延が引き起こされていたにも拘わらず、
「個々の文字体系に適した同定・排列方法を取るべ
きだ」という主張は、遂に合意を形成することができなかった。この原因の一つは、現状で
は『綜類』『類纂』の排列方法が十分に理解されておらず、非専門家を含む(寧ろ非専門家
の方が多い)符号化甲骨文字の利用者が等しく対応可能なものとしては、説文排列に勝るも
のは無いという認識にあったものと思われる。
この反省を踏まえれば、非専門家にとっては必ずしも自明でない『綜類』『類纂』の排列
方法の構造を明らかにすることは「専門家と非専門家が妥協できる甲骨文字の標準符号」を
開発する準備として重要であろう。本稿ではこのような問題意識に基づき、『綜類』の「肆」
部の構造について分析を行うこととする。
2. 資料と分析手法
以下に、本稿で分析した資料とその特性について整理する。既に述べたように、『類纂』
は『綜類』以降の研究であり、また中国や台湾において多数の派生研究を産んでいる。しか
し、こと「分類の偏り」について言えば、その分類手法は必ずしも『綜類』より改善されて
いるとは言えない(注5)。そこで、本稿ではより見通しがよいと思われる『綜類』について
分析を行うこととする。
2.1 『綜類』目次と検字索引及び綜類番号
『綜類』には、見出し字を本文掲出順に単純に表示した「目次」と、想起し得る全ての部
首に対してクロス・レファレンス表示を行った「検字索引」がある。このため、特に非専門
家の検索負荷を評価するには、
「目次」よりも「検字索引」について検討するべきであるが、
この「検字索引」には恐らく事後的に整理されたことに起因する、以下のような問題点があ
ることが分かっている。
①本文の見出し字(各文字域における代表的な字形として、「目次」に掲載されているもの)
は編者がある程度抽象化した字形であるのに対し、「検字索引」に掲載されているものは
より現物に近い字形のまま模写したと思われる。両者の分類粒度が異なるため、単純に「検
字索引」の字形を整理しても、本文の見出し数と合致しない。
②クロス・レファレンス表示をすべき所で、模写ミスによって異なる字形で掲出されている
場合がある。例えば図4
(a)
では、「肆」部と「耐」部に同一字形を掲出すべき所で若干の
『殷墟卜辭綜類』における文字域排列方式の分析
95
字形差が出てしまっている。「肆」部に図4
(b)
(c)のような別字が掲出されていることに鑑
み、編者はこの字形差を区別していたと考えられるが、同(d)
(e)のように同じ字形を掲
出すべきところに字形差が出ており、ここでは区別が曖昧であったと言える。同(f)
(g)で
は区別していたものが同(h)
(i)
のように曖昧になっている例も同様である。
図4:『綜類』検字総表に見える掲出字形の揺れ
⑤本文に掲出されていな字形が、検字索引に現れる例がある。
⑥本文見出し字に通し番号が振られておらず、ページ単位での指定にならざるを得ないため、
同一頁が指定されている似寄りの文字を編者が同一視していたか否かの判断がつかない。
⑦本文ページ番号に印刷時の欠けがあり、検字索引だけで検索すると幽霊文字が発生する恐
れがある。
これらの問題点を十分に修正したものが未だ無いため、本稿では、現在、研究者の間で「綜
類番号」により指定される字形について調査した。綜類番号とは『甲骨文字字釋綜覽』(松
丸道雄・高島謙一 1993)の付録に整理された『綜類』の見出し項目のリストである。部首
番号3桁-部首内番号3桁の計6桁の数字で示される。図5
(a)
に示すように、『綜類』の本文
(a)『綜類』が複数の例示字形を1つの
グループにまとめて掲出する例
(b)『綜覧』における文字域代表字の示し方の例
(-063, -064を(a)と比較されたい)
図5:『綜類』本文の見出し字と『綜覧』の綜類番号リストの関係
96
鈴木 敦/鈴木 俊哉
には文字域ごとに見出し字が掲出されるが、文字域によっては複数の見出し字を掲出してい
る。
『綜類』の「目次」はこれらを区切り無く列挙するが、この方式では本文中で編者が文
字域をいくつ設定したのか判りにくい。そこで図5
(b)に示すように『甲骨文字字釋綜覽』の
綜類番号は文字域ごとに部首内番号をふり、『綜類』が一文字域に複数の見出し字を掲出し
ている場合には、その最初の見出し字のみを掲出している。
2.2 分析手法
本稿では、『綜類』が設定している部首の中では最多の163文字域が収載されている「肆」
部に対して、非専門家が機械的に判断可能な判断基準を複数とり、この組み合わせにより各
文字域が掲げている見出し字がどのようなブロックに分かれているかを検討した。判断基準
は以下の通りである。
①図形要素の追加がなく、部首図形の単なる変形であるか否か。
②追加された図形要素に単体で意味をもつものが含まれるか否か(例えば「肆」と「肭」の
ように点の有無・個数の違いを有意とみなして見出し字を分けてある場合は是となるが、
「鍬」のように点の有無・個数が有意の差異を有さないと判断されている場合では否とな
る)。
③追加された図形要素には、単体で意味を持たないものが含まれるか否か(例えば「肆」に
対する「冐」のように複数の図形要素が追加されている場合、②と③は独立な評価である)。
④部首部分に密着した図形要素があるか否か。
⑤部首部分に(密着していない)偏旁として付加された図形要素があるか否か。
⑥『綜類』が掲出する類例が10例以上あるか否か。
⑦『甲骨文編』(中国社会科学院考古研究所 1965・以下『文編』)が例示しているか否か
(⑧・⑨の論理和である)。
⑧『文編』本文・合文で例示しているか否か。
⑨『文編』附録で例示しているか否か。
3. 分析結果
個々の文字域に関する分析結果を表1に示す。
3.1 部首内の大まかな排列構造
まず、部首内の大まかな排列構造として
A)部首字、及び部首字を構成する筆画を変形したもの
B)部首字に図形要素が付加されているもの
『殷墟卜辭綜類』における文字域排列方式の分析
97
表1:分析結果一覧
凡例
(1)追加された図形要素の種別について
追加された図形要素は、単体で文字をなすもの(口、手、足など)である場合もあれば、そうで
ないものもある(点、線など)。前者を「文字の追加要素あり」、後者を「非文字の追加要素あり」
とする。象形の意図が推測できるが、単体では文字を為さないもの(たとえば033・041・042にお
ける「杖をついている様子」など) も「単体」でこれに含め、「非文字の追加要素」と扱う。複数
の追加要素がある場合、両方とも○が示される場合がある。
(2)追加された図形要素の距離について
本表では、「一体化した追加の図形要素があるか」「偏旁として付加された図形要素があるか」の
判断をしている。「文字の追加要素」「非文字の追加要素」と同様、複数の追加要素がある場合、
両方とも○が示される場合がある。
(3)『文編』の収録状況について
『文編』は、説文部首が特定できなかったものを附録に収録するという方針を取っているが、附録
に収録された甲骨文字は全体の実に15%を占めており、また、説文部首との対応づけに成功し本
文に収録した文字との間に常々決定的な字形差がある訳ではない。そのため、『綜類』が一つのサ
ブグループにまとめた文字が、
『文編』の本文と附録の両方に掲出されている場合がある。『綜類』
見出し字と『文編』の掲出字に字形差があるが、『綜類』の掲出例数が少ないため『文編』が掲出
する字形が同じ文字域に入るかどうかの判断が難しい場合は△とした。
(4)グループ関係の表記について
①「+」と「&」について
追加された図形要素が部首部分と一体化している場合は「+」、偏旁として付加されている場合
は「&」と表記している。
②「α」について
「+」
「&」で追加されている要素群に、グループとしての総称を付与できる場合にはその名称(例
えば「頭部」など)を、付与できない場合には「α」を記している。
③境界線について
レベル1に基づく境界は二重線・レベル2は実線・レベル3は破線で示している。なお020と079
は備考に記す特殊事情によるが、便宜的に破線で区切っている。さらに、
「099~101」「102~105」
のようにレベル4と言うべきグループが見られるケースもあるが、本表では省略した。
多数
○
○
多数
○
○
2
004
○
005
○
006
○
○
○
○
○
親字&点
+文字
○
レベル
多数
親字&点
○
3
親字
+α
003
レベル
○
親字+/&α
多数
2
親字の同一
筆画内変形
○
1
親字
002
綜類の分類・配列
レベル
○
なし
多数
付録
甲骨文編
本編&合文
001
資料数
分離/偏旁付加
一体/筆画付加
単体で文字
単体では非文字
変形
見出し字形
部首内番号
綜類
備考
鈴木 敦/鈴木 俊哉
98
007
○
○
2
○
008
○
○
6
009
○
○
8
010
○
○
多数
○
○
011
○
○
6
△
○
012
○
○
2
△
○
○
○
○
多数
○
△
014
○
○
多数
○
△
015
○
多数
○
○
017
○
○
○
018
○
○
○
019
○
○
○
020
*
*
*
021
○
○
022
多数
○△
○
2
○
○
2
○
1
*
○
○
3
○
多数
○
○
多数
○
△
023
○
○
6
○
024
○
○
6
△
025
○
○
9
026
○
○
1
○
027
○
○
2
○
○
○
○
1
029
○
○
1
○
○
字義優先でここに配列
025
+α
親字&α
028
016
&α
親字+α
○
親字+/&α
016
親字+文字
013
○
親字&点
○△
『殷墟卜辭綜類』における文字域排列方式の分析
030
○
○
多数
○
031
○
○
9
○
032
○
○
8
△
033
○
○
8
034
○
○
多数
035
○
036
○
037
○
○
○
038
○
○
○
039
○
○
2
040
○
○
7
041
○
○
5
042
○
○
○
○
1
○
043
○
○
○
○
多数
○
044
○
045
○
○
○
○
○
○
○
047
○
○
○
○
○
○
9
○
○
3
○
○△
○
○
○
2
○
○
多数
○
2
○
8
○
048
○
049
○
○
4
○
050
○
○
2
○
051
○
○
1
○
052
○
1
○
○
○
○
030~043は
036
上記020と共に
&α 綜類の分類・配列が
字形によるものと
字義
(長/老/考)に
032
よるものとの
&α①
組合せであることを
示す好例
○
○
○
034
&α
親字+頭部
046
032
+α
親字+/&α
○
○
○
○
多数
030
+α
○
多数
○
○
2
99
041
&α
032
&α②
044
&α
鈴木 敦/鈴木 俊哉
100
053
○
054
○
○
○
1
○
7
○
○
055
○
○
2
○
056
○
○
2
○
2
○
2
○
△
△
○
058
○
059
○
○
3
○
060
○
○
2
○
061
○
○
1
○
062
○
○
多数
○
063
○
○
○
3
064
○
○
多数
○
065
○
○
多数
○
066
○
5
○
067
○
○
4
○
068
○
○
7
○
069
○
○
2
○
070
○
○
多数
○
071
○
○
9
072
○
○
2
○
073
○
○
多数
○
○
○
○
親字+担戈
○
○
065+
頭部
○
○
多数
○
075
○
○
○
7
○
親字+羊
○
△
親字&手
△
○
074
親字+/&α
○
○
親字&囲み
057
065
+α
『殷墟卜辭綜類』における文字域排列方式の分析
○
○
○
多数
○
077
○
○
○
4
○
078
△
△
1
○
079
○
○
○
○
1
080
○
○
多数
081
○
○
3
○
○
4
○
083
○
○
○
○
多数
○
○
多数
○
△
○
○
○
多数
086
○
○
○
○
多数
087
○
○
多数
088
○
○
4
089
○
○
○
090
○
○
○
○
△
○
○
○
2
○
○
2
○
○
多数
○
○
多数
○
091
○
092
○
093
○
○
8
○
094
○
○
多数
○
095
○
○
2
○
○
1
△
○
多数
○
○
多数
○
096
△
○
097
○
○
098
○
○
○
080
(追従)
+/&
α①
親字+/&α
○
~078と080~の
中間的位置づけ
○
○
085
羊?
○
○
○
065
+α
○
082
084
親字+羊
076
101
親
字
×
084
2 (背反)
+/&
天地背反
α
天地背反
080
(追従)
+/&
α②
親
字
×
3
032
×2
親字& 親字&
文字 背後
鈴木 敦/鈴木 俊哉
102
○
○
9
○
△
100
○
○
多数
○
△
101
○
○
多数
○
102
○
○
多数
○
103
○
○
5
○
104
○
○
5
○
105
○
6
○
106
○
○
6
○
107
○
○
多数
親字&文字
0560△
0740○
○
1
○
109
○
○
○
1
○
110
○
○
○
1
○
111
○
○
○
1
△
○
○
5
○
113
○
○
○
多数
○
114
○
○
多数
多数
○
5
○
2
○
1
○
112
△
116
○
○
117
○
○
○
118
○
○
○
119
○
○
120
○
○
○
1
○
○
6
121
○
○
○
0223△
0619○
変異形
○
5534△
虎頭
○
3618○
親字+虎頭/変異形
115
親字&正対
○
親字+/&α
○
108
○
○
親字&背後
099
○
1
○
○
虎頭
×2
『殷墟卜辭綜類』における文字域排列方式の分析
122
○
123
○
○
0650△
○
6
○
4
○
○
2
○
○
4
1015○
○
124
○
125
○
○
○
126
○
○
○
4
0860△
127
○
○
○
2
○
128
○
○
○
1
○
129
○
○
○
○
1
○
130
○
○
○
○
1
○
131
○
○
○
1
○
○
1
○
133
○
○
1
○
△
○
1
○
○
3
○
135
136
○
○
2
137
○
○
4
138
○
△
○
139
○
○
○
○
○
△
4727△
5599○
△
○
1
○
1
△
○
1
△
3
○
○
140
1
5575△
○
141
○
142
○
○
○
143
○
○
○
○
2
○
144
○
○
○
○
2
○
孤例列挙
○
4404○
親字+/&α
132
134
103
003のグループか?
鈴木 敦/鈴木 俊哉
104
145
○
○
○
○
2
146
○
○
○
○
1
○
○
1
○
○
1
○
○
1
○
○
1
○
○
6
○
○
149
150
151
○
○
○
○
孤例列挙
148
△
親字+/&α
147
△
○
図6:出現頻度から推定される『綜類』掲出字の排列構造
の2グループからなることが見て取れる。さらに、B)はある程度のサブグループに分かれ
ており、資料数が多いものを筆頭として何らかの類似性を見出したものをグループ化してい
ることが伺える。概念としては、図6のように解釈できると思われる。
サブグループの排列順序に関しては、付加されている図形要素の性質(単体で意味をなす
要素を組み合わせるか、そうでないか)
、要素が密着しているか、あるいは、『文編』本文に
収録されるなどして広く知られているか等を検討したが、明確な法則性を見出すことはでき
なかった。
『殷墟卜辭綜類』における文字域排列方式の分析
105
3.2 字形類似性によると思われるサブグループ
非専門家であっても容易に見分けることができるのは、図7に示した、以下のようなサブ
グループであろう(数字は部首内番号)。
①点または短い線が付加されている字形群(005 ~ 012)
②人型の腹部が膨らんでいる表現をとる字形群(016 ~ 020)
③人型に対し矩形または菱形を付加した字形群(027 ~ 029)
④人型を囲む構造を持つ字形群(062 ~ 064)
⑤人型が何かを肩に担ぐ字形群(065 ~ 069)
⑥人型と手を組み合わせた字形群(070 ~ 072)
⑦人型に羊の頭部が置かれる字形群(073 ~ 079)
図7:『綜類』項目見出し字にみえる共通した特徴を持つ字形群の例
鈴木 敦/鈴木 俊哉
106
⑧人型を二つ含む字形群(080 ~ 093)
⑨人型を三つ含む字形群(094 ~ 096)
⑩人型に虎ないし虎に類似する頭部が置かれる字形群(114 ~ 121)
これらの、比較的共通性が明らかなグループが終わった122以降は、126~129のように断
片的に何らかの共通した図形要素を持つものが並ぶ箇所はあるものの、122と141のように
恐らく字形的な類似性が見出されるであろうにも拘わらず分けられているもの等もあり、明
確なサブグループの区切りを見出すことは難しい。資料数の少なさから判断して、122以降
は類似性を評価するに十分な資料数が集まらなかったため、明確な構造なしに列挙されてい
ると思われる。
ともあれ、ここで抽出したサブグループに関しては、サブグループに共通する特徴を数個
の字形を挙げるなどして非専門家に示せるであろうし、また、サブグループのための副次的
な部首を定義することも可能と思われる。
3.3 字義類似性によると思われるサブグループ
非専門家には認識しにくいものとしては、030 ~ 045の構造がある。単純な字形類似性で
考えれば、この区間の見出し字は図8のようにグループ化されるであろう。なぜ032, 033と
038, 043は連続していないか、あるいはなぜ033と041 、038と042は連続していないかを理
解するのは、恐らく困難であろうと推測される。
これに類似した、「字形だけで判断した場合に、最も似た字形の近くに配されていない」
図8:『綜類』人部の030 – 045における排列順序と字形の類似性の混乱の例
『殷墟卜辭綜類』における文字域排列方式の分析
107
例としては、020が挙げられる。020は字形の類似だけで考えるならば「肆」部ではなく「貨」
部に配すべきものと思われるが、『綜類』はこれを「肆」部に配している。これは、基本的
な部首の対立(「肆」部・「貨」部)よりも、腹部の膨らみの有無に関連する字義を優先して
グループ化したと解釈できる。032 - 045の領域に、一般に「長」「老」「考」と釈字されてい
る文字があることを考えると、020と同様に字義を優先してグループ化したものと判断され
る。
これらのことから、『綜類』は見出し字に対して字義を提案してはいないものの、見出し
字の配置、換言すれば文字域の排列順序には編者の字義の解釈が自ずと影響を及ぼしている
ことが理解される。
4. まとめ並びに今後の課題
本稿では、『綜類』の部首内排列の分析の第一歩として、一部首当たりの配当字数が最も
多い「肆」部の分析を行った。この分析の意図する所は、1.2節で整理したように『綜類』
による文字検索に十分習熟していない者が『綜類』の部首内排列の法則性をどのように把握
すれば検索に当たっての困難さを減ずることができるかを明らかにする、というものである。
現代漢字や説文小篆への強引な対応づけに起因する甲骨文字研究の混乱の解決策として、甲
骨文字の字形を直接に扱う整理方式が『綜類』『類纂』といった工具書の形で提案されて久
しい。しかし、分類方式の特異性のためにこの整理手法は広く活用されているとは言い難く、
そのため非専門家との協力関係も築き難いのが現状である。このような分類方式に基づいた
研究の蓄積のためには、逆説的ではあるが、このような分類方式に習熟していない非専門家
の利便性にも配慮しなければならないのである。かくして本稿では『綜類』の部首内排列方
式の解明自体を目標とはせず、あくまでも「結果として、ユーザーにはどのような排列方式
として見えるか」を分析した。
本稿では、階層化された構造を持ち、規則的に絞り込めば、注視して探さねばならないグ
ループの文字域数が十分少なくなる検字表が必要であると考え、その構造の検討の第一段階
として、まず『綜類』の部首内排列の階層構造を分析した。その結果、
①「図形の相対配置(部首以外の図形要素が上に付加されるか、下に付加されるか等)
」「図
形要素の総数」といった現代漢字的なものではなく、
「ある種の形態パターンに基づいた
サブグループ」
「密着・偏旁配置といった大まかな字形の構造に基づいたサブグループ」
の排列になっていること
②前者は出現頻度が高い文字を図形要素として持つ文字のグループであること
を明確にすることができた。これらのことから、『綜類』部首内部の階層構造を示すために
は「部首よりは複雑だが、数個~十個程度の文字を例示するための文字」(サブグループ見
鈴木 敦/鈴木 俊哉
108
出し字)の設定が有効と考えられる。
しかし、クロス・レファレンスが可能な検字表を構想するとすれば、そこでは、サブグルー
プやグループをなさない文字の数は本文の部首内に見られるものよりも増えるであろう。本
稿の1で述べたように、殆ど相関が無い複数の排列基準を組み合わせれば、多くのサブグルー
プを作ることができ、同時に絞り込みが容易となる規則的な排列を取ることができる。しか
し、
『綜類』においては同一部首に収載される各文字域の排列方式もまた部首に類似した考
え方に基づいていた。かくして、これらと相関性が低いグループ化手法の検討が必要となる
訳であるが、既存のサブグループ概念との衝突を避けるためには、グループを形成していな
い・資料数が少ない文字についての検討が最初の課題となるであろう。
本稿は情報処理学会デジタルドキュメント研究会第94回研究会(2014年7月25日)での発
表「
『殷墟卜辞綜類』の部首内排列の分析」に加筆修正を行ったものである。
謝辞
本研究は、科研費課題24500116, 26330377の補助を受けた。記して感謝の意を表す。
注
(1)木構造データベースとは、「何もわからない状態」から、有限個の選択肢を選ぶ判断を繰り返して
ゆき、最終的に1つの状態に辿り着く(1つのデータを探し出す)手順を樹形図のように示したも
のである。この判断を繰り返して格納済みデータに到達することで、データの検索ができる。
(2)コンピュータはデータを通し番号を振った一連の有限の記憶領域に格納することしかできない。
データに対してどのような通し番号を振るかが自明でない場合、データの内容自体から通し番号
を生成しなければならないが、データベースの場合、データの内容がとりうる種類はコンピュー
タが確保できる記憶領域よりも遥かに多く、また、データの内容が異なる場合には必ず異なる通
し番号を生成する必要がある。このような目的で、不定長の入力(データ内容)から一定長のデー
タ(格納領域の通し番号)を出力し、また、入力が異なれば出力が異なると期待される関数を、
情報工学の分野ではハッシュ関数と呼ぶ。
(3)言語学者ジップ(G.K.Zipf)によって提唱された法則。あるテクスト中における個々の単語の出現
頻度と、これらの単語を頻度の高い順に排列して得られる順位(第1位、第2位・・・)との間には「順
位×頻度=定数」という公式が成り立つというもの。「ジップの曲線」は、この順位を横軸に・実
際の頻度を縦軸に取ることによって得られ、順位×頻度の積が一定であることを示す。従って、横
軸を対数でプロットした場合、Zipf則に従う統計量は直線的な減少カーブを描くことになる。
(4)これらの字書は説文部首体系をほぼそのまま踏襲したが、収録字数を増やしたため、それらをど
のように追加するかという問題は、『説文』の部首内排列をどのように解釈するかという問題に直
結していた。
『殷墟卜辭綜類』における文字域排列方式の分析
109
(5)例えば一部首当たりの収載文字域数が最も多い「肆」部について、『綜類』は163個の文字域を収
載しているのに対し、『類纂』は196個を収載している。
引用文献
George K. Zipf 1935: “The Psychobiology of Language. Houghton- Mifflin”.
ISO/IEC 10646 2012: Information technology -- Universal Coded Character Set (UCS), International
Standard Organization, Switzerland.
ISO/IEC JTC1/SC2/WG2/IRG 2008: “Classification of oracle bones based on prior researches on their
usages”ISO/IEC JTC 1/SC 2/WG 2/IRG N1424.
ISO/IEC JTC1/SC2/WG2/IRG 2011: “Japanʼs Proposal of Oracle Bone Coding Framework”, ISO/IEC JTC
1/SC2/WG 2/IRG N1771.
ISO/IEC JTC1/SC2/WG2/IRG 2012: “Resolutions of IRG Meeting #38”, ISO/IEC JTC1/SC2/WG2/IRG
N1870.
Li Guoying (李 國 英), Tom Bishop 2003: “Draft Agreement on Old Hanzi Encoding”, ISO/IEC JTC1/SC2/
WG2/IRG N1014.
R. Bayer and E. McCreight. 1972: “Organization and Maintenance of Large Ordered Indexes,” Acta Informatica, 1.
奥村晴彦 1991:『C言語による最新アルゴリズム事典』技術評論社,ISBN 4-87408-414-1
島邦男 1971:『増訂殷墟卜辭綜類』汲古書院
沈建華・曹錦炎 2001:『新編甲骨文字形總表』香港中文大学出版社,ISBN 9789629960476
鈴木敦 2007:“Input to Old Hanzi Expert Group”, ISO/IEC JTC1/SC2/WG2/IRG N1346
鈴木敦 2008a:“Questions on the policy of old hanzi expert group works” ISO/IEC JTC1/SC2/WG2/IRG N1522
鈴木敦 2008b:「対古漢字中的甲骨文字進行符号化処理的問題点」
『南方文物』2008年第3期
2009a
Old
Hanzi
鈴木敦
:「
における甲骨文字符号化作業の問題点と金文・列国文字符号化作業への影響」
『東洋学へのコンピュータ利用第20回研究セミナー』京都大学人文科学研究所附属漢字情報研究セ
ンター
鈴木敦 2009b:「論先秦文字編碼化問題」李雪山・郭旭東・郭勝強『甲骨学110年:回顧与展望 王宇
信教授師友国際学術研討会論文集』中国社会科学出版社
, 中国出土資料学会平成21年度大会(2010/03/13)
鈴木敦 2010a:
「先秦文字の符号化に関する諸要件」
鈴木敦 2010b:“Concerns on Old Hanzi Activities” ISO/IEC JTC1/SC2/WG2/IRG N1695
鈴木敦 2010c:「先秦文字の符号化に関する諸要件」『 茨城大学人文学部紀要人文コミュニケーション
学科論集』,No. 9
鈴木敦 2011:「先秦文字の符号化作業の現状と課題」『情報技術標準NEWSLETTER』, No.89
鈴木敦・鈴木俊哉 2012:「古漢字国際標準化の10年(2003-2012)」,文字研究会第7回ワークショップ
(2012/12/22)
鈴木敦・鈴木俊哉 2013:
「甲骨文データベースのデジタル化諸要件と作業プロセスの検討」, 『東洋学へ
のコンピュータ利用第24回研究セミナー』京都大学人文科学研究所附属漢字情報研究センター
中国社会科学院考古研究所 1965:『甲骨文編』中華書局,ISBN 7101005233
松丸道雄・高島謙一 1993:『甲骨文字字釋綜覽』東京大学東洋文化研究所
姚孝遂 1989:『殷墟甲骨刻辭類纂』中華書局,ISBN 9787101004779
李宗焜 2012:『甲骨文字編』中華書局,ISBN 9787101081343