文字データベースに基づく 文字表現モデルの研究 守岡 知彦 漢字情報研究センター 計算機で文字を扱うためには? 計算機は文字そのものは扱えない 文字に対応する番号を割り当てる この割り当て規則を「文字符号」と呼ぶ 文字そのものは送信できない 送信者と受信者で同じ規則を共有する 『文字化け』との戦い そもそも文字って何? 符号化文字 L a t i n 漢 字 と 文 字 文字列=符号化文字の列 符号化文字=符号化文字集合上の位置 番号を付ける 符号化文字集合 (文字符号) 『現実』の文字の世界 符号化文字の成功 とにかく文字を計算機で扱えるようになっ た いろんな処理の基盤を提供した 作成、加工、転送等が比較的容易 情報化社会の基盤技術 英語圏の場合 他の文字圏に対する優位性 文字化けしにくい 十分な表現力 処理の容易な文字表現 技術の蓄積 さまざまな情報の電子化に成功 日本語処理における問題点 つらい からい 辛い 辛い ? 辛い •組み合せ •組み合わせ •組合わせ • • 検索 置換 ソート 文字表現 表示 国 國 吉 吉 符号化文字の問題点 各符号位置の意味の定義を文字符号が 引き受ける 文字符号の作成、変更、普及のためのコスト が甚大 文字符号にない文字や適合しない文字を 扱うのが困難 文書の諸構造 章 節 • 文 句 語 字 字、行、段、頁など見かけ上の単位も 字も構造を持っている 漢字における部首や旁(意符、音符)など ハングルにおける字母と音節 タイ文字やラオ文字等における音節(子 音)字と母音字の結合 インド系諸文字における複雑な結合 ラテン文字におけるアクセント記号の付加 etc… 従来の技術 符号化文字の世界 イメージ・データの世界 要求される技術 文字の属性(意味)を扱うための技術 従来の符号化文字も利用可能 (符号化)文字以外の情報と符号化文字の 格差を減らす 符号化文字から文字オブジェク トへ 漢 字 と 漢 符号化文字集合 L a t i n 文 字 L 文字列=文字オブジェクトの列 『現実』の文字の世界 文字オブジェクトの拡張 さまざまな情報 符号化文字集合 『現実』の文字の世界 Multiple Coded Scheme 単語 単語 や 絵や 写真 や 非符号化 文字 も さまざまな情報 符号化文字集合 『現実』の文字の世界 UTF-2000 XEmacs を基に実装 文字属性の集合で表現される文字オブ ジェクトで文字を表現する 約7万字分の文字定義データベースを内 蔵(再定義可能) 今後 効率化のためのモデル・実装の開発 データベース・サーバーの利用 データベースの分散化 文字定義の交換用表現の開発 文字画像等の表現法 インターネット等での実証実験
© Copyright 2024 ExpyDoc