ユーザ辞書(単語辞書)仕様

ユーザ辞書(単語辞書)仕様
2015/11/04
目次
1. はじめに........................................................................................................................... 2
2. 単語辞書........................................................................................................................... 3
2-1. 概要 ........................................................................................................................... 3
2-2. 辞書フォーマット ..................................................................................................... 4
3. 補足 .................................................................................................................................. 7
3-1. モーラ数とアクセント型 ........................................................................................... 7
※本ドキュメントに記載されている会社名・製品名は、各社の商標または登録商標です。
1
All Rights Reserved. Copyright AI Inc,.
1 はじめに
1. はじめに
本文書は、AITalk 製品で対応するユーザ辞書(単語辞書)仕様について記載したものです。
以後の節では、ファイルフォーマットについて解説します。
なお、仕様外のユーザ辞書ファイルをロードした場合の動作は未定義です。
各製品における単語辞書の対応については下記の通りです。
No
製品名
単語辞書
1
AITalk 4 声の職人
○
2
AITalk 4 SDK
○
3
AITalk 4 Server
○
4
micro AITalk 4 SDK
○
5
micro AITalk 4
○
中間言語作成ツール
6
micro AITalk 4
○
音声確認ツール
7
AICloud 各サービス内(※1)
○
(※1) AICloud では、サービス内で登録した単語辞書情報を単語辞書ファイルとして出力で
きます。出力した単語辞書ファイルは、各 AITalk 製品にてご利用いただけます。
なお、本書では、上記を総称し、AITalk と表記します。
2
All Rights Reserved. Copyright AI Inc,.
2 単語辞書
2. 単語辞書
AITalk に単語を登録する辞書です。
2-1. 概要
単語辞書には、単語・品詞・読み方とアクセント・優先度を登録する事ができます。
日本語解析処理で選択される単語は、文の構成に依存するため、必ずしも登録した単語が
選択され、その読み方になるとは限りません。
AITalk の日本語解析処理では、より高速な処理を実現するため、単語辞書ファイルをその
ままでは使用せず、一旦内部形式へ変換しています。この変換は単語辞書ロード時に自動
的に行われ、AITalk は内部形式の単語辞書をロードし使用します。
いくつかの製品では、内部形式の単語辞書ロードをサポートします。
3
All Rights Reserved. Copyright AI Inc,.
2 単語辞書
2-2. 辞書フォーマット

ファイル仕様
【ファイル形式】
テキストファイル
【漢字コード】
シフト JIS
【改行コード】
CR + LF

行書式
【先頭行】
行頭‘#’(ASCII コード:0x23)
固定
【最大長】
255 バイト
【1 行内の項目数】
5 項目
(6 項目目以降はコメント扱い)
【項目区切り文字】
‘;’
(ASCII コード:0x3B)
【備考】
空行スキップ
‘;’から始まる行はコメント扱い
要:行末改行コード
【制限事項】
各製品ごとに登録上限数があります。
4
All Rights Reserved. Copyright AI Inc,.
2 単語辞書
詳細は各製品ごとのユーザ辞書仕様をご参照ください。

表記例
0001:# 先頭行
0002:; コメント行
0003:名詞-一般;りんごみかん;2000;アップルオレンジ;0-4,2-4:*
0004:[EOF]
5. アクセント指定
4. 読み方
3. 優先度
2. 単語
1. 品詞
1.
品詞
品詞の項目に使用できる文字列は以下のいずれかです。

名詞-一般

名詞-固有名詞-人名-一般

名詞-固有名詞-人名-姓

名詞-固有名詞-人名-名

名詞-固有名詞-地域-一般

名詞-固有名詞-一般

名詞-サ変接続

名詞-形容動詞語幹

記号-一般
※「AITalk 4 声の職人」、
「micro AITalk 4 中間言語作成ツール」、
「micro AITalk 4 音
声確認ツール」では、「名詞-一般」および「名詞-形容動詞語幹」の品詞を持つ単語を
編集することはできません。
5
All Rights Reserved. Copyright AI Inc,.
2 単語辞書
2.
3.
単語
全角文字のみ使用可能
(文末記号‘。’、‘?’、‘!’および空白を除く)
最大 60 バイト
(全角 30 文字)
優先度
半角数字のみ使用可能
4.
最小値
1
(高優先度)
最大値
9999
(低優先度)
読み方
全角カタカナのみ使用可能
最大 60 バイト
5.
(全角 30 文字)
アクセント指定
アクセント指定の項目に使用できる文字列は以下のいずれかです。

x-y:*

x-y,x-y:*

x-y,…,x-y:*
(「,x-y」は繰り返し指定可能)
アクセント指定はコロン‘:’で 2 つの部分に区切られます。前半は単語を構成するそ
れぞれのアクセント句の「アクセント型とモーラ数」を表し、後半は「アクセント接
続情報」を表します。
【アクセント型とモーラ数】
上記文字列中の x はアクセント型を示し、y はアクセント句のモーラ数を表します。
x と y の取り得る範囲は、単語のモーラ数やアクセント句の構成に依存します。
‘,’は
アクセント句の区切りを示します。モーラ数とアクセント型については、「3-1 モーラ
数とアクセント型」を参照してください。
【アクセント接続情報】
AITalk のユーザ単語辞書で利用可能なアクセント接続情報はデフォルトの‘*’のみで
す。アクセント接続情報には常に‘*’を指定してください。
6
All Rights Reserved. Copyright AI Inc,.
3 補足
3. 補足
3-1. モーラ数とアクセント型
【モーラ数】
俳句の音の数え方に相当します。
例)
見出し語
読み
モーラ数
文京区
ブンキョーク
5 モーラ
日本
ニッポン
4 モーラ
【アクセント型】
東京方式アクセントでは、通常の単語の中にアクセント核(音の下がり目)は高々一つし
か現れません。そのため、アクセント核の位置によってアクセント型を表します。
例)
見出し語
読み(アクセント付)
アクセント型
アクセント指定
橋
ハシ
0型
0-2
箸
ハ’シ
1型
1-2
管理社会
カンリシャ’カイ
4型
4-6
※アクセント核は「'」で表されます。
語によっては、複数のアクセント核を持つ場合があります。
例)
見出し語
読み(アクセント付)
西郷隆盛
サ’イゴー
東京都中央区築地
トーキョ’ート
オ’ーク
タカ’モリ
チュー
アクセント型
アクセント指定
1 型、2 型
1-4,2-4
3 型、3 型、0 型
3-5,3-5,0-3
ツキジ
7
All Rights Reserved. Copyright AI Inc,.