Document

DixChange プロジェクト
~辞書共通化の試み~
野首貴嗣, 小松弘幸,
[email protected]
[email protected]
DixChange プロジェクトチーム
2003-11-01
関西オープンソース+フリーウェア2003
大阪産業創造館
http://sourceforge.jp/projects/dixchange/
単語登録してますか?

新しい単語はどんどんと
「トリビア」
 「ググる」
 「_| ̄|○」

SKK で鍛えた辞書をAnthyでも使いたい?
 入力ソフトウェアだけ?


KAKASI 用辞書は?
•単語登録は一度だけ
•すべてのソフトウェアで辞書を共有
DixChange プロジェクト

辞書のメタフォーマットを策定・活用


各ソフトウェアのフォーマットに変換可能
その他各種リソースを標準化

ローマ字テーブル, キーバインド
変
換
専用
辞書
ソフトウェア
#1
専用
辞書
ソフトウェア
#2
DixChange
辞書
参加プロジェクト
幅広い分野からの参加
 参加者募集中!!

変換エンジン
Anthy: かな漢字変換
PRIME: 予測入力
入力ツール
Uim: 入力インタフェース
Sumika: 辞書管理ツール
文書解析
KAKASI: わかち書き
MeCab: 形態素解析
単語辞書
かんな辞書
SKK辞書
実施計画
データ形式の決定
 データ構造の決定
 各辞書データのすりあわせ
 実装
 参加プロジェクトの充実

データ形式・構造
(まだ未決定)
1/2
<word literal=“脱輪”phonetic=“だつりん”pos=“名詞”/>
<word literal=“走” phonetic=“はし” pos=“動詞”cclass=“ラ行五段”score=“200”/>
<word literal=“山” phonetic=“やま” pos=“名詞”/>
<word literal=“鍋” phonetic=“なべ” pos=“名詞”cclass=“無活用” score=“100”>
<usage category=“料理” score=“200”/>
<usage category=“道具” score=“150”/>
</word>
一部拡大
<word literal=“山”phonetic=“やま”pos=“名詞”/>
<word literal=“鍋”phonetic=“なべ”pos=“名詞”
cclass=“無活用” score=“100”>
<usage category=“料理” score=“200”/>
<usage category=“道具” score=“150”/>
</word>
データ形式・構造

(まだ未決定)
2/2
XML 形式



パーザが既に存在
拡張性が高い
処理速度は度外視
実際の使用時には、各実装の専用データに変換される
<word literal=“山”phonetic=“やま”pos=“名詞”/>
<word literal=“鍋”phonetic=“なべ”pos=“名詞”
cclass=“無活用” score=“100”>
<usage category=“料理” score=“200”/>
<usage category=“道具” score=“150”/>
</word>
実施計画

データ形式の決定


XML に決定
データ構造の決定

前述の構造をもとに議論中
各辞書データのすりあわせ
 実装
 参加プロジェクトの充実

各辞書データのすりあわせ

品詞情報などの整合性のすりあわせ


例: MS-IME の「名詞非接尾」と
*1
ATOK の「名詞形容動詞」はおなじ品詞
既存のデータをもとに、自動判別を目指す

単語群に与えられている品詞名の対応で判別
•関西
•大阪
ソフトウェアA:
「地域名」
ソフトウェアB:
「固有名詞地名」
Aの「地域名」と
Bの「固有名詞地名」
は同じ品詞?
*1 http://homepage2.nifty.com/novel-diy/tool/tool_1.htm より引用
実装
データ構造の決定待ち
 Sumika (栖) プロジェクト

辞書管理ツール
 http://sumika.sourceforge.jp/

参加プロジェクトの充実
参加者、随時募集中!
参加プロジェクトの充実
参加者、随時募集中!
企業様大歓迎!
まとめ

辞書をはじめとした、日本語リソースの共有化
現在、データ構造について議論中
参加者募集中!

SourceForge ページ




http://sourceforge.jp/projects/dixchange/
Wiki ページ

http://snurl.com/2rwf/
(http://ukai.org/wiliki/wiliki.cgi?%BC%AD%BD%F1%B6%A6%C4%CC%B2%BD)