参加報告 - 徳田・南角研究室

CSJセミナー参加報告
北村・徳田研究室
中村和寛
日時・場所

日時 :

場所 : 国立国語研究所(東京都)
7月10日(土)13:30~17:00
道のり
名古屋
新幹線(2駅)
東京
山手線(9駅)
巣鴨
都営三田線(3駅)
板橋本町
高島屋のエレベータにて安全に集合
新幹線、遅れる…
速さに感動する
昼食と夕食の風景
噂の山手線
今回一番の収穫

都築さんに研究のことや研究室のことをいろい
ろ聞けたこと
セミナーの構成



『日本語話し言葉コーパスの概要』
XML文書についての解説
検索の実例
日本語話し言葉コーパスとは



モノローグを中心とした、多少とも自発性を有
する音声のデータベース
サイズが大きい
研究用付加情報が非常に豊富
CSJ全体
752万語,661時間
コア
50万語44時間
一つの講演に対して提供されるデータ
(全講演)

話者&講演情報
–

転記テキスト
–
–


短単位と長単位(手解析と自動解析)
節単位情報(手解析と自動解析)
音声ファイル
–

基本形(漢字と仮名)
発音形(片仮名のみ)
形態論情報
–

成年代、性別、出生地、転居暦、学歴、etc
16kHz,16bit,MS-RIFF
印象評定情報(単独評価)
一つの講演に対してさらに提供される
データ(コア)



印象評定情報(集合評価)
係り受け構造情報
音声ラベル
–
–


文節音
イントネーション
重要文
談話境界(40ファイルのみ)
XMLによるCSJ各情報の記述


階層構造を基本としてXMLにて研究用付加情
報が記述されている
XSLTにより検索、構造変換ができる
その他


開発期間
価格
–
–
–
:
5年
学生 : 25000円
教授 : 50000円
企業 : 250000円
以上です。