DixChange プロジェクト ~辞書共通化の試み~ 野首貴嗣, 小松弘幸, [email protected] [email protected] DixChange プロジェクトチーム 2003-11-01 関西オープンソース+フリーウェア2003 大阪産業創造館 http://sourceforge.jp/projects/dixchange/ 単語登録してますか? 新しい単語はどんどんと 「トリビア」 「ググる」 「_| ̄|○」 SKK で鍛えた辞書をAnthyでも使いたい? 入力ソフトウェアだけ? KAKASI 用辞書は? •単語登録は一度だけ •すべてのソフトウェアで辞書を共有 DixChange プロジェクト 辞書のメタフォーマットを策定・活用 各ソフトウェアのフォーマットに変換可能 その他各種リソースを標準化 ローマ字テーブル, キーバインド 変 換 専用 辞書 ソフトウェア #1 専用 辞書 ソフトウェア #2 DixChange 辞書 参加プロジェクト 幅広い分野からの参加 参加者募集中!! 変換エンジン Anthy: かな漢字変換 PRIME: 予測入力 入力ツール Uim: 入力インタフェース Sumika: 辞書管理ツール 文書解析 KAKASI: わかち書き MeCab: 形態素解析 単語辞書 かんな辞書 SKK辞書 実施計画 データ形式の決定 データ構造の決定 各辞書データのすりあわせ 実装 参加プロジェクトの充実 データ形式・構造 (まだ未決定) 1/2 <word literal=“脱輪”phonetic=“だつりん”pos=“名詞”/> <word literal=“走” phonetic=“はし” pos=“動詞”cclass=“ラ行五段”score=“200”/> <word literal=“山” phonetic=“やま” pos=“名詞”/> <word literal=“鍋” phonetic=“なべ” pos=“名詞”cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> 一部拡大 <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> データ形式・構造 (まだ未決定) 2/2 XML 形式 パーザが既に存在 拡張性が高い 処理速度は度外視 実際の使用時には、各実装の専用データに変換される <word literal=“山”phonetic=“やま”pos=“名詞”/> <word literal=“鍋”phonetic=“なべ”pos=“名詞” cclass=“無活用” score=“100”> <usage category=“料理” score=“200”/> <usage category=“道具” score=“150”/> </word> 実施計画 データ形式の決定 XML に決定 データ構造の決定 前述の構造をもとに議論中 各辞書データのすりあわせ 実装 参加プロジェクトの充実 各辞書データのすりあわせ 品詞情報などの整合性のすりあわせ 例: MS-IME の「名詞非接尾」と *1 ATOK の「名詞形容動詞」はおなじ品詞 既存のデータをもとに、自動判別を目指す 単語群に与えられている品詞名の対応で判別 •関西 •大阪 ソフトウェアA: 「地域名」 ソフトウェアB: 「固有名詞地名」 Aの「地域名」と Bの「固有名詞地名」 は同じ品詞? *1 http://homepage2.nifty.com/novel-diy/tool/tool_1.htm より引用 実装 データ構造の決定待ち Sumika (栖) プロジェクト 辞書管理ツール http://sumika.sourceforge.jp/ 参加プロジェクトの充実 参加者、随時募集中! 参加プロジェクトの充実 参加者、随時募集中! 企業様大歓迎! まとめ 辞書をはじめとした、日本語リソースの共有化 現在、データ構造について議論中 参加者募集中! SourceForge ページ http://sourceforge.jp/projects/dixchange/ Wiki ページ http://snurl.com/2rwf/ (http://ukai.org/wiliki/wiliki.cgi?%BC%AD%BD%F1%B6%A6%C4%CC%B2%BD)
© Copyright 2024 ExpyDoc