PowerPoint プレゼンテーション -

多言語処理技術の基盤整備
星泉,町田和彦,上田広美,岡田知子
東京外国語大学
アジア・アフリカ言語文化研究所
プロジェクトの概要
1.
2.
3.
4.
5.
なぜインド系文字か?
インド系文字処理の現状
インド系文字汎用システム
成果(検証と実験)
今後に向けて
1. なぜインド系文字か?
インド系文字分布図
インド系文字のカキクケコ
インド系文字の複雑な構造
インド系文字の特徴
インド系文字
•
•
•
•
•
まとめ
南アジア,東南アジア一帯で使用
豊かで多様な文字文化
たった一つの祖先
遠心的な分化→多様性
構造の保持
2. インド系文字処理の現状
•
•
ユニコード
事実上の国際標準
あらゆる文字に対応する姿勢
問題点
固有の文字文化への配慮がない
規格化されたが実用化は遠い
多様な結合の例
本プロジェクトの意義
• 人文科学と情報学との連携
• インド系文字汎用システム
一つのエンジンによる統一的な処理
ユニコードにも対応
• OSやブラウザの種類に依存しないシステム
Linux, Windows , Macintosh,iモード
• いつでも,どこでも,誰でも,
アジアの固有の文字による情報送受信
3. インド系文字汎用システム
• 処理単位(音節文字)
• 機械可読の転写方式
汎インド系文字転写方式
各文字体系ローカルな転写方式
• 統計調査にもとづくレベルの設定
• グリフサーバーによる表示システム
OS,ブラウザに依存しない
システム概要
クライアント
Webブラウザ
サーバ
HTTPサーバ
CGI
転写入力処理部
転写入力解析
エンジン
文字コード変換
エンジン
グリフイメージ作成部
ソーティング
エンジン
結合文字処理
転写規則DB
文字コード
DB
組版
エンジン
グリフイメージ作成
エンジン
改行処理
ソーティング
規則DB
グリフイメージ
DB
様々なインド系文字に対応
•
デーヴァナーガリー文字(ヒンディー語,サンスクリット,マラー
ティー語,ネパール語)
• クメール文字(カンボジア語)
• チベット文字(チベット語)
• グルムキー文字(パンジャービー語)
• シンハラ文字(シンハラ語)
• カンナダ文字(カンナダ語)
※ウルドゥー語(アラビア文字)にも対応
4. 成果(検証と実験)
• インド系文字汎用システム
一つのエンジンによる統一的な処理
OSやブラウザの種類に依存しないシステム
• コンテンツの構築と公開
Webサイトへの応用例
•
•
•
•
•
電子辞書
語学学習サイト
書誌情報検索
携帯電話端末
アジアの言語と文字による情報発信の
ページ
電子辞書への応用例
言語学習サイトへの応用例
書誌情報検索への応用例
書誌情報検索(OPAC)への応用例
携帯電話端末への応用例
http://nedo.aa.tufs.ac.jp/mojimojiphone/i/
アジアの言語と文字による情報発信ページ
5. 今後に向けて
• 国際標準準拠と文字文化の継承
• オープンソースによる
レンダリングエンジンの開発
• インプットメソッドの開発
• オープンタイプフォントの開発
• 組版,ソーティング,スペルチェッカー