コーパスとしての国会議事録データベース

太田科研発表会(鹿児島大学)
言語資料としての国会会議録
検索システム または 国会の壁
2003年12月14日
松田謙次郎
[email protected]
はじめに
• 国会会議録
– 公表頒布が両院の義務(憲法第57条)
– 速記による逐語的記録(衆議院規定台15章、参
議院規定第10章)
– 議院保存版と、一般公表用と2種類作成
– 「議事録」は俗称
国会会議録検索システムトップページ
「簡単検索」画面イメージ
「詳細検索」画面イメージ
検索例:「検索語=疑惑のデパート」
検索件数(9件)が出て…
…検索結果一覧が出る
左ウィンドウに発言者一覧、中央に検
索語を含む発言のすべてが表示
発言者にチェックをいれるとDL可能
154-衆-予算委員会-22号 平成14年03月11日
○辻元委員 ケニア議連の会長に就任、その直前になさっているわけです。大使会っています
よ、行く前も。そして、そのときソンドゥ・ミリウの話が出ていますよ。特に債務削減について
出ています。
このとき、ちょうど、第二期分への百五億円の借款供与をするかでちょうどもめていた最
中だったわけです。そして、これまでの借金をまけてくれ、債務削減してくれとケニアが言い
出したら二期工事ができないという瀬戸際だったわけです。そのときにあなたは訪問してい
るわけですよ。ケニアと日本の当時の最大の懸案だったんですよ、これが。
あなたは、大使館で事前に債務削減を求めないようにという話をしてから行っているじゃ
ないですか。どうしてうそつくんですか。こんな、十年前から三回も四回も行っていて、大統
領にも会っていて、二年半前に行くまで、それも現地で現地の大使館員やそれから外務省
の人から話を聞くまで、ソンドゥ・ミリウがどこにあったか、そんなダムの名前も聞いたことな
い。そんなこと、だれが信じられるんですか。
あなたは疑惑のデパートと言われているけれども、疑惑の総合商社ですよ。
*
download[1].txtというテキストファイルで、会議録情報が1行
目に付与されてPCに落とされる。とても簡単!
国会会議録検索システムの特徴
• 話し言葉(を元にした筆記記録)の膨大な記
録
• 戦後60年近く国会開始以来のすべての会議
の記録
– 世界的にもまれ
• オンラインで検索・ダウンロード可能
– 将来はCD-ROM化(「参議院50年のあゆみ」)
国会会議録検索システムの概略
• http://kokkai.ndl.go.jp/ (国会図書館サイト)
• 2001年から本格運用開始
• 第一回国会(1947年5月開会)以降の本会議、
全ての委員会の議事録
• 会議後2,3週間でオンラインに出る
• もちろん、紙の会議録にないものはここには
でてこない…
これまでの会議録
• 会議後、議員用に速報(「速記録」)
• その後両院本会議が官報の号外として一般
に頒布(はんぷ)(「会議録」)
• 委員会記録は、各議員への配布が主目的
– 一般国民も(困難だが)一応入手可能
• このシステムで、本会議会議録と委員会記録
の両方が誰にでも手軽に入手可能に
関係なさそうだが、トリビア
• 「会議録」と「議事録」
– 正式名称は「会議録」
– イギリス、カナダではhansard
– アメリカではJournal とCongressional Record
• 前者は議事手続きを納める。後者は発言そのまま。
• 参議院と衆議院
– 実は速記者養成は別々にやっている
– 行政改革で一体化される?
言語資料としての問題点
• 会議録に含まれない発言
• OCRによる誤字・脱字(144回国会=2000年まで)
• 外字処理
– JIS第1.2水準に変換
• 速記反訳作業における整文化(字句の整理)
– ケバ取り
– 繰り返しの消去
– 明らかな助詞の誤りの訂正
– 一時はら抜き言葉も「訂正」
⇒「速記は逐音で、反訳は逐語で」がスローガン(らしい)
会議録に含まれないもの
• 国会の秘密会記録
• 議員により訂正された発言
– 会議録配布前なら痕跡は残らない
• 不穏当な発言
• プレス・コード
• 議長の許可を得ない発言(「不規則発言」)
– やじ
秘密会
• 前田英昭「国会の不穏当な発言と会議録の削除」
(「議会政治研究」, No. 43 (1987)).
• 憲法57条第2項
– 特に秘密を要すると議決された部分は公表の必要なし
• 本会議ではまだ秘密会はなし
• 委員会では、1987年現在で92回開催
• 秘密会の例: ロッキード問題に関する調査特別委
員会(ただしすべて公表)
• 秘密会の記録の公開を巡っては議論が多い
不穏当な発言
• 議長が取り消し権を行使して取り消す
– 無礼な発言
• 吉田茂の「バカヤロウ発言」
• 青島幸男の「男めかけ」も元の発言は削除
– 他人の私生活に関する発言
– 事実に背馳(はいち)する発言
– 委員長の不穏当な発言
• ハマコーの共産党スパイ査問事件関連の発言
プレス・コード
連合軍による検閲
 昭和27年失効(サンフランシスコ平和条約)
 「日本におけるあらゆる刊行物」に適用

– 国会会議録も含まれる

削除された発言は、現在でもこのまま
昭和26年1月27日衆議院本会議にお
ける川上貫一(共産)の発言
そもそもこの飛行基地は、すべて国民の税金でつくつたもの
です。終戰処理費によつてつくられた飛行場であります。
―――――――――――――――――。政府がいかように
強弁されようとも、国民は
――――――――――――――――という事実をおおい隠
すことはできません。(拍手)しかもこの終戰処理費は、二十
六年度において一千二十七億が計上されております。この
莫大な金が、次から次へと飛行基地や軍事道路や潜水艦基
地のために使われたらどうなるか。国民の税金はますます
高くなり、至るところで田畑は取上げられ、農民は立ちのきを
命ぜられ、
―――――――――――――――――――――ことは明白
である。
不規則発言
• 議長の許可を得ない発言
• 野次の類
• 例外
– 議事進行に特に関係がある場合
– 議長または委員長が特に取り上げた場合
• 議場の状況で発言者確認、聴取不可能な場
合
– (発言する者あり)(議場騒然、聴取不能)
整文化(字句の整理)の基準
• 記録部整文委員会の決定(1972年)
– 言い誤り、脱落などで発言趣旨が文字化しにくい
時は、軽微なものは社会通念上認められる範囲
で整理
– 字句の整理は改竄に繋がるので必要最小限に
– 発言そのものが問題になる時は、整理をしない
– 発言訂正請求を受けた場合、軽微な場合は会議
録主任が処理、内容が問題になる時は、委員長
の許可を必要とする
ケバ取り
• フィラー、聞き返し、接続詞などを、不自然に
ならない範囲で、また内容に影響のない範囲
で取り去る作業
• 結果的に、「読み物」として読みやすくなる
• テープリライト(文字起こし)の世界では、ほぼ
常識的知識
情報公開の壁
「…字句の整理後のものが記録部の「話したとおり」で
あるが、その原稿を見た外部の人に、こんなにナオ
スのかという印象を持たれ、なぜ発言を直すのか改
ざんではないかと言われたら会議録作成業務に携
わるものにとって致命的であるので、外部に対して
は、字句の整理ということは誤解を招く説明不可能
のこととして、今日まで公表を避けてきたのが実情
である」(青山 1989: 44)


「速記反訳処理について」という内部文書は、公開・複写
などができない
「情報公開法」(2001年4月1日施行)は司法・行政・政府
特殊法人が対象; 国会(立法)は、情報公開の埒外
議会資料の言語研究への使用例
• 平沢啓(2000)「明治期の県議会の言語—県
議会議事録速記録を資料として— 」 「きのく
に国文」 No. 6(2000)
• 井上史雄(2003)『日本語は年速一キロで動
く 』 (講談社新書)
• Hansard Corpus
平沢啓(2000)
• 大分、和歌山、山形3県の議事録速記に見られる方
言使用の地域差を見る
• 助動詞、助詞
• 結論
– 3県での地域差は見られない。特に方言の使用
が認められない
– これは共通語としての文語の使用によるもの
井上史雄(2003)
• 『日本語は年速一キロで動く 』
– 「サ入れ言葉」に関する卒論調査
• サ入れ言葉
– 五段動詞の使役に「サセル」をつ
けるもの
– 終わらさせてくださ い、しゃべらさ
せてください
• 「戦後まもなくの使用例が見つ
かった」(p. 53)
• 以下詳細不明…
会議録の言語データとしての使用
• 資料の豊富さの割に研究例はまだ少ない?
– 知られていない? 結構ジミか。
– 「フォーマルな会議」の記録であることへの不
信?
• 近代語の研究で、(議会を含めた)演説の分
析は山ほどある
• 国会会議録はまだまだこれから
• さらに、地方議会記録となるとさらにまだまだ
Hansard Corpus
• Linguistic Data Consortium (LDC)が
2000年に配布を開始したコーパス
• カナダ議会の1970年代半ばから1980年代
終わりくらいまでの英/仏両語による議事録
• なぜかIBMとBellcore(ベル電話会社の研究
機関)の提供データ
• Parallel corpus(対訳コーパス)の代表例
• 機械翻訳研究での使用
• よってここでのノリとはちょっと違う
言語資料としての可能性
• 完全な口語資料ではない
• しかしそれでも過去60年近くの日本語(の変
化)を何らかの形で反映しているはず
• 使えるものと使えないもの
– 談話標識、助詞の脱落、言い誤り等は無理
– 気づきにくい現象なら大丈夫?
• 助詞の使い分け
• サ入れ言葉
– 語彙の増加(新語、外来語)
さらに…
• 少なくとも都道府県議会レベルでは、会議録
はオンラインで公開されている
– 速記や反訳を外注している場合、品質に問題
– 国会は専門速記者を養成
• 基本的には標準語に準じた話し言葉
• 「気づかない方言」調査の可能性
都道府県議会レベルでの会議録公開
• 栃木(準備中)・福井両県議会以外は、すべ
てHPに会議録検索機能がある
• さらに百万都市レベル(札幌、仙台、さいたま、
千葉、川崎、横浜、名古屋、京都、大阪、神
戸、広島、北九州、福岡)でも会議録検索機
能付き市議会HPがある
• つまり全国に膨大なデータがある!
さらに…
• 国会審議の録画中継
– ビデオ・オン・デマンドシステムで、一部視聴可能
– 衆議院:
http://www.shugiintv.go.jp/top_frame.cfm
– 参議院:
http://online.sangiin.go.jp/cgi-bin/online.cgi
• これらを使って、一部については実際の発話
と会議録上の記録との照合は可能
今作業中(w/南部智史)のハナシ…
• 「が・の」交替規則(GA/NO-conversion)
• 埋め込み文内での主格助詞のゆれ
– 松田(が・の)やった発表
– 松田(が・の)話すのを聞いた
• 原田(1971)以来、日本語生成文法で最も扱
われてきた現象の1つ
• 言語変化の途上という予想(の⇒が)
• 気づかれにくい(⇒修正を逃れる)
南部智史(2003)の結果
• 南部智史「『が』と『の』の交替の史的変化について」(2003
年度神戸松蔭女子大大学院英語学研究XIIレポート)
• 吉田茂(1878-1967)、鳩山由紀夫(1947-:いずれも東京出
身、またほぼ原田と同年齢)の発言それぞれ約16万字分の
データから分析
• カイ自乗による検定: p< 0.001
吉田茂
鳩山由紀夫
合計
が
149 (70%)
57 (34%)
206
の
65 (30%)
107 (65%)
172
合計
214
164
378
今後やりたいこと・課題
• 議員数を増やし、より細かに変化をたどる
• 交替の文法的条件の詰め
– 原田仮説の検証(主語と述語の隣接性, etc)
• (拡大)恒速度仮説(Matsuda 2003)の検証
– すべての環境で変化は等速度か?
• スタイル差をどうする?
• 歴史的位置づけ
– 明晰化: 1つの格助詞=1つの文法的意味
まとめ
国会会議録は資料として可能性大(宝の山)
 ただし、万能ではなく、使えない面もある
 当該言語現象と、資料の性質のマッチ
 整文の実態解明の必要性
 地方議会会議録の分析?

– 全国規模での調査・分析の可能性
– だれか、科研組んでやりません?