次世代多言語処理系の モデルおよび実装の開発 守岡 知彦 多様な構造の情報を自由に編集・ 交換可能な文書処理系の開発 単語 単語 や 絵や 写真 や 非符号化 文字 も さまざまな情報 符号化文字集合 『現実』の文字の世界 目標 文書のさまざまな構造や属性を適切に表現・ 処理可能な枠組みの実現 利用者固有の用途への適合 インターネットでの情報交換が可能 符号化文字の成功 とにかく文字を計算機で扱えるようになった いろんな処理の基盤を提供した 作成、加工、転送等が比較的容易 情報化社会の基盤技術 符号化文字 L a t i n 漢 字 と 文 字 文字列=符号化文字の列 符号化文字=符号化文字集合上の位置 符号化文字集合 (文字符号) 『現実』の文字の世界 英語圏の場合 他の文字圏に対する優位性 文字化けしにくい 十分な表現力 処理の容易な文字表現 技術の蓄積 さまざまな情報の電子化に成功 日本語処理における問題点 からい 辛い 辛い ? 辛い •組み合せ •組み合わせ •組合わせ • • 検索 置換 ソート 文字表現 表示 つらい 国 國 吉 吉 符号化文字の問題点 各符号位置の意味の定義を文字符号が引き 受ける 文字符号の作成、変更、普及のためのコストが 甚大 文字符号にない文字や適合しない文字を扱 うのが困難 文書の諸構造 章 節 文 • 句 –語 字 字、行、段、頁など見かけ上の単位も 字も構造を持っている 漢字における部首や旁(意符、音符)など ハングルにおける字母と音節 タイ文字やラオ文字等における音節(子音) 字と母音字の結合 インド系諸文字における複雑な結合 ラテン文字におけるアクセント記号の付加 etc… 従来の技術 符号化文字の世界 イメージ・データの世界 要求される技術 文字の属性(意味)を扱うための技術 従来の符号化文字も利用可能 (符号化)文字以外の情報と符号化文字の格 差を減らす 符号化文字から文字オブジェクトへ 漢 字 と 漢 符号化文字集合 L a t i n 文 字 L 文字列=文字オブジェクトの列 『現実』の文字の世界 文字オブジェクトの拡張 さまざまな情報 符号化文字集合 『現実』の文字の世界 Multiple Coded Scheme 単語 単語 や 絵や 写真 や 非符号化 文字 も さまざまな情報 符号化文字集合 『現実』の文字の世界 Multiple Coded Scheme editable entity unit (eeu) 文字を抽象化したもの 文字符号 = eeu の id 各種文字符号や各種属性を持つ 文字符号を持たない eeu を可能にする • 文字以外の情報 • 符号化されていない文字 • 文字符号に合わない文字の用法 SGML / XML 等の tag 付き文書 文字データベースの利用や編集 研究計画 XEmacs での内部表現変更実験 任意の文字の部分集合を効率的に扱うため のモデル・実装の開発 大規模文字データベースを効率的に扱うた めの技術 対象に応じた文書表現の最適化 インターネット等での実証実験
© Copyright 2024 ExpyDoc