多言語処理技術の基盤整備 星泉,町田和彦,上田広美,岡田知子 東京外国語大学 アジア・アフリカ言語文化研究所 プロジェクトの概要 1. 2. 3. 4. 5. なぜインド系文字か? インド系文字処理の現状 インド系文字汎用システム 成果(検証と実験) 今後に向けて 1. なぜインド系文字か? インド系文字分布図 インド系文字のカキクケコ インド系文字の複雑な構造 インド系文字の特徴 インド系文字 • • • • • まとめ 南アジア,東南アジア一帯で使用 豊かで多様な文字文化 たった一つの祖先 遠心的な分化→多様性 構造の保持 2. インド系文字処理の現状 • • ユニコード 事実上の国際標準 あらゆる文字に対応する姿勢 問題点 固有の文字文化への配慮がない 規格化されたが実用化は遠い 多様な結合の例 本プロジェクトの意義 • 人文科学と情報学との連携 • インド系文字汎用システム 一つのエンジンによる統一的な処理 ユニコードにも対応 • OSやブラウザの種類に依存しないシステム Linux, Windows , Macintosh,iモード • いつでも,どこでも,誰でも, アジアの固有の文字による情報送受信 3. インド系文字汎用システム • 処理単位(音節文字) • 機械可読の転写方式 汎インド系文字転写方式 各文字体系ローカルな転写方式 • 統計調査にもとづくレベルの設定 • グリフサーバーによる表示システム OS,ブラウザに依存しない システム概要 クライアント Webブラウザ サーバ HTTPサーバ CGI 転写入力処理部 転写入力解析 エンジン 文字コード変換 エンジン グリフイメージ作成部 ソーティング エンジン 結合文字処理 転写規則DB 文字コード DB 組版 エンジン グリフイメージ作成 エンジン 改行処理 ソーティング 規則DB グリフイメージ DB 様々なインド系文字に対応 • デーヴァナーガリー文字(ヒンディー語,サンスクリット,マラー ティー語,ネパール語) • クメール文字(カンボジア語) • チベット文字(チベット語) • グルムキー文字(パンジャービー語) • シンハラ文字(シンハラ語) • カンナダ文字(カンナダ語) ※ウルドゥー語(アラビア文字)にも対応 4. 成果(検証と実験) • インド系文字汎用システム 一つのエンジンによる統一的な処理 OSやブラウザの種類に依存しないシステム • コンテンツの構築と公開 Webサイトへの応用例 • • • • • 電子辞書 語学学習サイト 書誌情報検索 携帯電話端末 アジアの言語と文字による情報発信の ページ 電子辞書への応用例 言語学習サイトへの応用例 書誌情報検索への応用例 書誌情報検索(OPAC)への応用例 携帯電話端末への応用例 http://nedo.aa.tufs.ac.jp/mojimojiphone/i/ アジアの言語と文字による情報発信ページ 5. 今後に向けて • 国際標準準拠と文字文化の継承 • オープンソースによる レンダリングエンジンの開発 • インプットメソッドの開発 • オープンタイプフォントの開発 • 組版,ソーティング,スペルチェッカー
© Copyright 2024 ExpyDoc