や - 漢字情報研究センター

次世代多言語処理系の
モデルおよび実装の開発
守岡 知彦
多様な構造の情報を自由に編集・
交換可能な文書処理系の開発
単語
単語
や
絵や
写真
や
非符号化
文字
も
さまざまな情報
符号化文字集合
『現実』の文字の世界
目標
文書のさまざまな構造や属性を適切に表現・
処理可能な枠組みの実現
利用者固有の用途への適合
インターネットでの情報交換が可能
符号化文字の成功
とにかく文字を計算機で扱えるようになった
いろんな処理の基盤を提供した
作成、加工、転送等が比較的容易
情報化社会の基盤技術
符号化文字
L a t i n
漢 字 と
文 字
文字列=符号化文字の列
符号化文字=符号化文字集合上の位置
符号化文字集合
(文字符号)
『現実』の文字の世界
英語圏の場合
他の文字圏に対する優位性
文字化けしにくい
十分な表現力
処理の容易な文字表現
技術の蓄積
さまざまな情報の電子化に成功
日本語処理における問題点
からい
辛い
辛い
?
辛い
•組み合せ
•組み合わせ
•組合わせ
•
•
検索
置換
ソート
文字表現
表示
つらい
国 國
吉 吉
符号化文字の問題点
各符号位置の意味の定義を文字符号が引き
受ける
文字符号の作成、変更、普及のためのコストが
甚大
文字符号にない文字や適合しない文字を扱
うのが困難
文書の諸構造
章
節
文
• 句
–語
字
字、行、段、頁など見かけ上の単位も
字も構造を持っている
漢字における部首や旁(意符、音符)など
ハングルにおける字母と音節
タイ文字やラオ文字等における音節(子音)
字と母音字の結合
インド系諸文字における複雑な結合
ラテン文字におけるアクセント記号の付加
etc…
従来の技術
符号化文字の世界
イメージ・データの世界
要求される技術
文字の属性(意味)を扱うための技術
従来の符号化文字も利用可能
(符号化)文字以外の情報と符号化文字の格
差を減らす
符号化文字から文字オブジェクトへ
漢 字 と
漢
符号化文字集合
L
a
t
i
n
文 字
L 文字列=文字オブジェクトの列
『現実』の文字の世界
文字オブジェクトの拡張
さまざまな情報
符号化文字集合
『現実』の文字の世界
Multiple Coded Scheme
単語
単語
や
絵や
写真
や
非符号化
文字
も
さまざまな情報
符号化文字集合
『現実』の文字の世界
Multiple Coded Scheme
editable entity unit (eeu)
文字を抽象化したもの
文字符号 = eeu の id
各種文字符号や各種属性を持つ
文字符号を持たない eeu を可能にする
• 文字以外の情報
• 符号化されていない文字
• 文字符号に合わない文字の用法
SGML / XML 等の tag 付き文書
文字データベースの利用や編集
研究計画
XEmacs での内部表現変更実験
任意の文字の部分集合を効率的に扱うため
のモデル・実装の開発
大規模文字データベースを効率的に扱うた
めの技術
対象に応じた文書表現の最適化
インターネット等での実証実験