CSJセミナー参加報告 北村・徳田研究室 中村和寛 日時・場所 日時 : 場所 : 国立国語研究所(東京都) 7月10日(土)13:30~17:00 道のり 名古屋 新幹線(2駅) 東京 山手線(9駅) 巣鴨 都営三田線(3駅) 板橋本町 高島屋のエレベータにて安全に集合 新幹線、遅れる… 速さに感動する 昼食と夕食の風景 噂の山手線 今回一番の収穫 都築さんに研究のことや研究室のことをいろい ろ聞けたこと セミナーの構成 『日本語話し言葉コーパスの概要』 XML文書についての解説 検索の実例 日本語話し言葉コーパスとは モノローグを中心とした、多少とも自発性を有 する音声のデータベース サイズが大きい 研究用付加情報が非常に豊富 CSJ全体 752万語,661時間 コア 50万語44時間 一つの講演に対して提供されるデータ (全講演) 話者&講演情報 – 転記テキスト – – 短単位と長単位(手解析と自動解析) 節単位情報(手解析と自動解析) 音声ファイル – 基本形(漢字と仮名) 発音形(片仮名のみ) 形態論情報 – 成年代、性別、出生地、転居暦、学歴、etc 16kHz,16bit,MS-RIFF 印象評定情報(単独評価) 一つの講演に対してさらに提供される データ(コア) 印象評定情報(集合評価) 係り受け構造情報 音声ラベル – – 文節音 イントネーション 重要文 談話境界(40ファイルのみ) XMLによるCSJ各情報の記述 階層構造を基本としてXMLにて研究用付加情 報が記述されている XSLTにより検索、構造変換ができる その他 開発期間 価格 – – – : 5年 学生 : 25000円 教授 : 50000円 企業 : 250000円 以上です。
© Copyright 2024 ExpyDoc