文字データベースに基づく文字表現モデルの研究

文字データベースに基づく
文字表現モデルの研究
守岡 知彦
漢字情報研究センター
計算機で文字を扱うためには?
計算機は文字そのものは扱えない
文字に対応する番号を割り当てる
この割り当て規則を「文字符号」と呼ぶ
文字そのものは送信できない
送信者と受信者で同じ規則を共有する
『文字化け』との戦い
そもそも文字って何?
符号化文字
L a t i n
漢 字 と
文 字
文字列=符号化文字の列
符号化文字=符号化文字集合上の位置
番号を付ける
符号化文字集合
(文字符号)
『現実』の文字の世界
符号化文字の成功
とにかく文字を計算機で扱えるようになっ
た
いろんな処理の基盤を提供した
作成、加工、転送等が比較的容易
情報化社会の基盤技術
英語圏の場合
他の文字圏に対する優位性
文字化けしにくい
十分な表現力
処理の容易な文字表現
技術の蓄積
さまざまな情報の電子化に成功
日本語処理における問題点
つらい
からい
辛い
辛い
?
辛い
•組み合せ
•組み合わせ
•組合わせ
•
•
検索
置換
ソート
文字表現
表示
国 國
吉 吉
符号化文字の問題点
各符号位置の意味の定義を文字符号が
引き受ける
文字符号の作成、変更、普及のためのコスト
が甚大
文字符号にない文字や適合しない文字を
扱うのが困難
文書の諸構造
章
節
• 文
 句
 語
字
字、行、段、頁など見かけ上の単位も
字も構造を持っている
漢字における部首や旁(意符、音符)など
ハングルにおける字母と音節
タイ文字やラオ文字等における音節(子
音)字と母音字の結合
インド系諸文字における複雑な結合
ラテン文字におけるアクセント記号の付加
etc…
従来の技術
符号化文字の世界
イメージ・データの世界
要求される技術
文字の属性(意味)を扱うための技術
従来の符号化文字も利用可能
(符号化)文字以外の情報と符号化文字の
格差を減らす
符号化文字から文字オブジェク
トへ
漢 字 と
漢
符号化文字集合
L
a
t
i
n
文 字
L 文字列=文字オブジェクトの列
『現実』の文字の世界
文字オブジェクトの拡張
さまざまな情報
符号化文字集合
『現実』の文字の世界
Multiple Coded Scheme
単語
単語
や
絵や
写真
や
非符号化
文字
も
さまざまな情報
符号化文字集合
『現実』の文字の世界
UTF-2000
XEmacs を基に実装
文字属性の集合で表現される文字オブ
ジェクトで文字を表現する
約7万字分の文字定義データベースを内
蔵(再定義可能)
今後
効率化のためのモデル・実装の開発
データベース・サーバーの利用
データベースの分散化
文字定義の交換用表現の開発
文字画像等の表現法
インターネット等での実証実験