(1) 発表カテゴリー 口頭発表 - 2012 CASTEL-J

漢字字体情報処理システムの開発と応用
Development and application of a system for processing data on the form of kanji
characters
ヴォロビヨワ・ガリーナ,キルギス民族大学,国立国語研究所
ヴォロビヨフ・ヴィクトル,キルギス民族大学
Vorobeva Galina, Kyrgyz National University,
National Institute for Japanese Language and Linguistics
Vorobev Victor, Kyrgyz National University
概要
漢字字体に関わる研究において計量的なアプローチとコンピュータ技術の利用は大きな役割
を果たす。本研究の目的は漢字の構造を表すコード化のシステム,コードのデータベースの開発
およびそれにもとづく漢字字体の分析のためのアルゴリズムとコンピュータのプログラムを含
めた漢字字体情報処理システムの開発である。システムの主な機能は漢字の構造分解とコード化,
コードのデータベースの構築とそれにもとづく漢字字体の分析,新しいタイプの漢字索引の開発,
複雑さによる漢字の分類などである。漢字字体情報処理システムの応用は効率的な漢字学習支援
となる。
[キーワード] 漢字字体,情報処理システム,構造分解,漢字のコード,漢字の複雑さ
1.研究目的
漢字字体に関わる研究において計量的なアプローチとコンピュータ技術の利用は大きな役割
を果たす。本研究の目的は漢字の構造を表すコード化のシステム,コードのデータベースの開発
およびそれにもとづく漢字字体の分析のためのアルゴリズムとコンピュータのプログラムを含
めた漢字字体情報処理システムの開発である。そしてそのシステムを土台にした効率的な漢字指
導法の開発も目的としている。
2.研究内容と方法
本研究では計量的なアプローチで漢字字体を分解してコード化し,漢字字体情報処理システム
を構築した。漢字字体情報処理システムの主な機能は下記のとおりである。①漢字の構造分解,
書記素と構成要素の確定とコード化 ②書記素と構成要素のコードにもとづく漢字のコード化
とその電子データベースの構築 ③漢字コードのデータベースにもとづく漢字字体の分析 ④
既存の漢字索引の選択係数の定義と比較分析,新しいタイプの文字・数字の漢字索引の開発 ⑤
漢字の複雑さ指数の定義と複雑さによる漢字の分類
⑥既存の漢字教材の中の漢字の掲出順序
の分析と学習対象漢字の合理的な掲出順序の開発などである。研究は下記の順番で行った。
1
2.1 漢字の構造分解,書記素と構成要素の確定とコード化を行った。漢字の構造分解では 2
段階が考えられる。それは構成要素と書記素への構造分解である。漢字を構成要素へ分解する
場合は線型分解と階層分解を考えた。漢字の構成要素への線型分解は漢字を筆順に従い同じレ
ベルの最小意味単位である構成要素に分解することである(例 1)。
例 1 漢字の線形構造分解 露=雨+足+夂+口
漢字の構成要素への階層分解は漢字を筆順に従い,順番にレベルが違う意味的単位に分解を
することである(例 2)
。
例2
漢字の階層構造分解 露=雨+路(足+各(夂+口))
漢字の構造分解をもとに,2136 字の新常用漢字をカバーする書記素と構成要素を確定し,そ
の書記素と構成要素をコード化するシステムを開発した。
表 1 漢字の 24 種類の書記素とそのコード
新常用漢字の個々の漢字を分解した結果,それらを
カバーするには 24 種類の書記素で必要十分である
ことが判明した(ヴォロビヨワ,2009)
。そこでこの
24 種類の個々の書記素にローマ字の形と結びつけ,
A から Z のアルファベット・コードをつけた。その
際,漢字の書記素の形からアルファベットの形が思
い浮かべられるようにした(表 1)
。2136 字の新常用漢字を分析した結果,その中の 834 字の漢
字(39%)は部首のリストに入っていない構成要素を含有していることが明らかになった。つ
まり,部首ではない構成要素がよく使用され,漢字の構造分解を行うためにはその構成要素の確
定と分析が極めて重要である。それで新常用漢字の個々の漢字の構造分解をもとに部首以外で使
用されている構成要素を抽出し,それらに対してグラフィウムという名称を使用した。2136 字
種の新常用漢字の個々の漢字を構造分解し,各々の漢字が含有するグラフィウムを抽出したとこ
ろ,その種類は 220 あることが判明した。
2.2 書記素と構成要素のコードにもとづく個々の新常用漢字のコード化をした(ヴォロビヨワ,
2011)
。書記素のコードによるアルファベット・コード及び構成要素のコードによるシンボル・
コードとセマンティック・コードという 3 種類の漢字コードシステムを開発した(表 2)
。
表 2.漢字のアルファベット・コードとシンボル・コードとセマンティック・コードの例
漢字
アルファベット・コード
シンボル・コード
セマンティック・コード
2PR
nine
九
PR
新
SAQLAABPOPPAB
117/75/69
stand/tree
族
SAGPPAPAAPO
70/2PA/111
direction/reclining
2
2.3 新常用漢字のコード化によるアルファベット・コードとシンボル・コードとセマンティッ
ク・コードのデータベースを構築した。また新常用漢字の階層構造分解を行い,漢字の階層構造
のデータベースを構築した(表 3)
。
表 3 2136 字の新常用漢字の漢字の階層構造分解の例
漢字
シンボル・コード
階層構造
右
//2AP/30//
ナ+口
雨
//173//
雨
花
//140/9/21//
艹+化(亻+匕)
2.4 漢字コードのデータを処理するために下記のアルゴリズムとコンピュータのプログラムを
開発した。 ①漢字の構成要素への線形構造分解と階層構造分解(ヴォロビヨフ&ヴォロビヨワ,
2011) ②漢字の複雑さ指数の測定(ヴォロビヨワ,2011) ③教材の中の漢字の掲出順序の分
析(ヴォロビヨワ,2010) ④既存の漢字索引の選択係数の計算と比較分析。新しいタイプの文
字・数字の漢字索引の開発(ヴォロビヨワ,2011) ⑤漢字群における漢字の書記素と構成要素
の使用頻度の測定(ヴォロビヨワ,2011) ⑥複雑さによる漢字の分類(ヴォロビヨワ,2011)
などである。
例として漢字の構成要素への線形分解のアルゴリズムの記述をする。漢字の構成要素への線
形分解のアルゴリズムは下記のようである(図 1)
。図 1 の「Y」は「はい」
,
「N」は「いいえ」
という意味である。筆順に従い構成要素を一個ずつ分析する。
①確認:全体の漢字は部首のリストに入っているか。
「はい」の場合「10」,
「いいえ」の場合「2」に進む。②確認:全体の漢字はグラフィウムであ
るか。
「はい」の場合「10」,「いいえ」の場合「3」に進む。③筆順に従
い文字の最初の構成要素を抽出する。それから「4」に進む。④確認:抽
出された構成要素は部首のリストに入っているか。
「はい」の場合「7」
,
「いいえ」の場合「5」に進む。⑤確認:抽出された構成要素はグラフィ
ウムであるか。
「はい」の場合「7」
,
「いいえ」の場合「6」に進む。⑥抽
出された要素は部首のリストにも入っていない,グラフィウムでもない
場合は構成要素の抽出を見なおし,
「4」に進む。⑦抽出した構成要素を
確定する。⑧確認:他にもまだ抽出されていない構成要素が残っている
か。
「はい」の場合は「9」
,「いいえ」の場合は「10」に進む。⑨次の構
成要素を抽出し,「4」に進む。⑩構成要素を確定する。構造分解は終わ
りである。
図 1 漢字の線形分解のアルゴリズム
3
2.5 コンピュータのプログラムを利用したコードのデータ処理による個々の漢字字体や様々
な漢字群に関わる計量的分析をした。例えば,新常用漢字群での書記素と構成要素の使用頻度
を測定した。また複雑さによる新常用漢字の分類のためには,まず漢字の複雑さの判定基準の
案も提出し,漢字の複雑さの指数という概念を定義した。それをもとに,複雑さによる新常用
漢字を分類した(表5)
。
表 5 漢字の複雑さによる新常用漢字の分布状況(漢字数)
書記素数
構成
要素数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
6
17
18
1
5
1
4
3
2
1
16
2
12
19
20
1
1
5
3
8
5
13
6
6
8
5
21
1
3
11
22
32
45
33
31
32
24
6
12
6
4
1
1
10
28
72
71
80
87
92
75
51
49
26
18
14
10
4
2
12
6
1
2
2
5
24
52
75
98
111
94
107
82
66
52
29
25
19
26
45
46
29
27
18
17
9
8
5
3
1
2
1
22
2
2
3.まとめと今後の課題
漢字教育では「簡単な漢字から複雑な漢字へ教える」という原理に従うことは重要であると
思う。ヴォロビヨワ(2010)では漢字教育を効率的に推進するには,漢字字体や漢字字書使用
に関わる問題などを解決する必要があると記した。漢字指導の体系化,漢字の筆順の規則のス
タンダード化,部首以外の構成要素のスタンダード化,漢字の複雑さの評価基準の開発は漢字
教育の効率化にとって欠かせないことである。しかし漢字の複雑さが定義されておらず,複雑
さによる漢字の分類もなされていない状況だった。筆者らはコンピュータ技術を土台に漢字字
体の分析,漢字の複雑さの定義,複雑さによる漢字の分類,合理的な掲出順序の開発,既存の
漢字索引の選択係数の定義と比較分析,新しいタイプの文字・数字の漢字索引の開発をした。
構成要素の理解にもとづく連想記憶法による字義の覚え方は漢字に対する興味を促進し,漢字
字体の理解を深化させ,記憶を効率化する。今後,本研究の成果をもとに効率的な漢字教材作
成や漢字 E ラーニングシステムの開発を目指す。
参考文献
(1)ヴォロビヨフ・ヴィクトル,ヴォロビヨワ・ガリーナ(2011)「階層的なアプローチに
もとづく漢字の指導法」
『第 10 回世界日本語教育研究大会予稿集上』778-779 中国
(2)ヴォロビヨワ・ガリーナ(2010)
「非漢字圏の漢字教育の効率化を目指す漢字のスタンダード 化
について」
『第 14 回ヨーロッパ日本語教育シンポジウム 報告・発表論文集 14』207-214
ドイツ
(3)ヴォロビヨワ・ガリーナ(2011)「構造分析とコード化に基づく漢字字体情報処理システム
の開発」
『日本語教育』No 149 日本語教育学会
16-30
4
23