ユーザ辞書(単語辞書)仕様 2015/11/04 目次 1. はじめに........................................................................................................................... 2 2. 単語辞書........................................................................................................................... 3 2-1. 概要 ........................................................................................................................... 3 2-2. 辞書フォーマット ..................................................................................................... 4 3. 補足 .................................................................................................................................. 7 3-1. モーラ数とアクセント型 ........................................................................................... 7 ※本ドキュメントに記載されている会社名・製品名は、各社の商標または登録商標です。 1 All Rights Reserved. Copyright AI Inc,. 1 はじめに 1. はじめに 本文書は、AITalk 製品で対応するユーザ辞書(単語辞書)仕様について記載したものです。 以後の節では、ファイルフォーマットについて解説します。 なお、仕様外のユーザ辞書ファイルをロードした場合の動作は未定義です。 各製品における単語辞書の対応については下記の通りです。 No 製品名 単語辞書 1 AITalk 4 声の職人 ○ 2 AITalk 4 SDK ○ 3 AITalk 4 Server ○ 4 micro AITalk 4 SDK ○ 5 micro AITalk 4 ○ 中間言語作成ツール 6 micro AITalk 4 ○ 音声確認ツール 7 AICloud 各サービス内(※1) ○ (※1) AICloud では、サービス内で登録した単語辞書情報を単語辞書ファイルとして出力で きます。出力した単語辞書ファイルは、各 AITalk 製品にてご利用いただけます。 なお、本書では、上記を総称し、AITalk と表記します。 2 All Rights Reserved. Copyright AI Inc,. 2 単語辞書 2. 単語辞書 AITalk に単語を登録する辞書です。 2-1. 概要 単語辞書には、単語・品詞・読み方とアクセント・優先度を登録する事ができます。 日本語解析処理で選択される単語は、文の構成に依存するため、必ずしも登録した単語が 選択され、その読み方になるとは限りません。 AITalk の日本語解析処理では、より高速な処理を実現するため、単語辞書ファイルをその ままでは使用せず、一旦内部形式へ変換しています。この変換は単語辞書ロード時に自動 的に行われ、AITalk は内部形式の単語辞書をロードし使用します。 いくつかの製品では、内部形式の単語辞書ロードをサポートします。 3 All Rights Reserved. Copyright AI Inc,. 2 単語辞書 2-2. 辞書フォーマット ファイル仕様 【ファイル形式】 テキストファイル 【漢字コード】 シフト JIS 【改行コード】 CR + LF 行書式 【先頭行】 行頭‘#’(ASCII コード:0x23) 固定 【最大長】 255 バイト 【1 行内の項目数】 5 項目 (6 項目目以降はコメント扱い) 【項目区切り文字】 ‘;’ (ASCII コード:0x3B) 【備考】 空行スキップ ‘;’から始まる行はコメント扱い 要:行末改行コード 【制限事項】 各製品ごとに登録上限数があります。 4 All Rights Reserved. Copyright AI Inc,. 2 単語辞書 詳細は各製品ごとのユーザ辞書仕様をご参照ください。 表記例 0001:# 先頭行 0002:; コメント行 0003:名詞-一般;りんごみかん;2000;アップルオレンジ;0-4,2-4:* 0004:[EOF] 5. アクセント指定 4. 読み方 3. 優先度 2. 単語 1. 品詞 1. 品詞 品詞の項目に使用できる文字列は以下のいずれかです。 名詞-一般 名詞-固有名詞-人名-一般 名詞-固有名詞-人名-姓 名詞-固有名詞-人名-名 名詞-固有名詞-地域-一般 名詞-固有名詞-一般 名詞-サ変接続 名詞-形容動詞語幹 記号-一般 ※「AITalk 4 声の職人」、 「micro AITalk 4 中間言語作成ツール」、 「micro AITalk 4 音 声確認ツール」では、「名詞-一般」および「名詞-形容動詞語幹」の品詞を持つ単語を 編集することはできません。 5 All Rights Reserved. Copyright AI Inc,. 2 単語辞書 2. 3. 単語 全角文字のみ使用可能 (文末記号‘。’、‘?’、‘!’および空白を除く) 最大 60 バイト (全角 30 文字) 優先度 半角数字のみ使用可能 4. 最小値 1 (高優先度) 最大値 9999 (低優先度) 読み方 全角カタカナのみ使用可能 最大 60 バイト 5. (全角 30 文字) アクセント指定 アクセント指定の項目に使用できる文字列は以下のいずれかです。 x-y:* x-y,x-y:* x-y,…,x-y:* (「,x-y」は繰り返し指定可能) アクセント指定はコロン‘:’で 2 つの部分に区切られます。前半は単語を構成するそ れぞれのアクセント句の「アクセント型とモーラ数」を表し、後半は「アクセント接 続情報」を表します。 【アクセント型とモーラ数】 上記文字列中の x はアクセント型を示し、y はアクセント句のモーラ数を表します。 x と y の取り得る範囲は、単語のモーラ数やアクセント句の構成に依存します。 ‘,’は アクセント句の区切りを示します。モーラ数とアクセント型については、「3-1 モーラ 数とアクセント型」を参照してください。 【アクセント接続情報】 AITalk のユーザ単語辞書で利用可能なアクセント接続情報はデフォルトの‘*’のみで す。アクセント接続情報には常に‘*’を指定してください。 6 All Rights Reserved. Copyright AI Inc,. 3 補足 3. 補足 3-1. モーラ数とアクセント型 【モーラ数】 俳句の音の数え方に相当します。 例) 見出し語 読み モーラ数 文京区 ブンキョーク 5 モーラ 日本 ニッポン 4 モーラ 【アクセント型】 東京方式アクセントでは、通常の単語の中にアクセント核(音の下がり目)は高々一つし か現れません。そのため、アクセント核の位置によってアクセント型を表します。 例) 見出し語 読み(アクセント付) アクセント型 アクセント指定 橋 ハシ 0型 0-2 箸 ハ’シ 1型 1-2 管理社会 カンリシャ’カイ 4型 4-6 ※アクセント核は「'」で表されます。 語によっては、複数のアクセント核を持つ場合があります。 例) 見出し語 読み(アクセント付) 西郷隆盛 サ’イゴー 東京都中央区築地 トーキョ’ート オ’ーク タカ’モリ チュー アクセント型 アクセント指定 1 型、2 型 1-4,2-4 3 型、3 型、0 型 3-5,3-5,0-3 ツキジ 7 All Rights Reserved. Copyright AI Inc,.
© Copyright 2025 ExpyDoc