藤沢市 議事録の研究 - 慶應義塾大学 湘南

藤沢市 議事録の研究
総合政策学部3年 飯塚直
総合政策学部3年 臼杵憲一
環境情報学部4年 黒崎伸夫
当初の研究目的

藤沢市の議事録を年度ごとに集計し、
どんなことが話し合われているのかを分析する
経年で話題の変化が見られるのか?
「TextImi」による話し言葉の分析⇒形態素分析
手法 ①出現語頻度表
②係り受け頻度表
③基礎意味チャンク集計表
分析以前にしたこと
データの収集
議事録データ 1995年度~2003年度
各年度のデータを4~5のファイルに分割
1ファイルのデータ数 10000件
 データの整形
システムに載せるためにCSVデータに置き換える

時間のかかった作業
①プログラミングによってデータを整形
数値への変換、「発言内容」や「期間」などの分類
②アップロードのエラーに対処する
元データにあるカンマの削除等
データ入手
藤沢市議会 会議録検索システム
http://www02.gijiroku.com/fujisawa/index.html
問題:データの一括ダウンロードができない
ダウンロードスクリプトを作成
ダウンロード完了(全843ファイル)
ファイルの書式
CSVファイルのフォーマットを伺う
ID, 日付, 会議名, 発言者名, 発言本文
CSVへの変換スクリプト作成
とりあえずCSVファイルを生成完了
CSVファイルの作成から解析可能段階に至るまでの経緯
授業でアドバイザーの方にCSVファイルの作成要領を伺う(12/5)
CSV作成→アドバイザーの方にお願いする(12/13)
→指示を頂き、ダブルクオーテーションを削除するように改良(12/17)
→IDなどフォーマットエラー多数によりアップロードできず、指示を頂く(12/17)
→中間発表で助言を頂き、再度CSV生成(12/19)
→1件に対する発言文が多すぎるため、文単位で区切るようにとの指示(12/20)
→再度スクリプト作成しCSV生成、アップロード作業をお願いする(12/28)
→件数が多すぎてシステムで扱えないことが判明し、村木さんにCSVファイルを1万
件ごとに分割して頂く(12/30)
→件数が多すぎてアドバイザーの方が対応できず、自分達でアップロードするように
との指示(1/7)
→アップロードおよび解析用URLについて連絡を受ける(1/7)
→3人で分担してアップロード作業を進める
→件数が多いせいかシステムがうまく作動しないことが多かったため中野さんに相
談したところ別のサーバーを用意して頂いたためそちらで解析開始(1/14)
完成したCSVファイル
現時点で分析は途中

データ数が膨大すぎたため、
データの整形やエラーの対処に時間がかかった

現時点では、出現語頻度表しかできていない

水曜日のレポート提出までには、集計結果を載せる
出現語頻度表
1.
分析方法
全ての年度に共通して出てくるような名詞
「子ども」や「高齢者」などを18語選択し、
出現語頻度表の100位までで出現数を集計する
2. 各年度で特徴的な珍しい名詞。
多年度には出現しない⇒その年度のTOPIX
出現語頻度表の200位までで出現数を集計する
5
20
0
4
3
20
0
20
0
2
1
20
0
20
0
0
9
20
0
19
9
8
7
19
9
19
9
6
5
00
05
20
04
20
03
20
02
20
01
20
20
99
19
98
19
97
19
96
30000
19
9
19
9
95
19
19
年度ごとの会議数・発言者数・件数
60000
50000
40000
発言者数
件数
20000
10000
0
会議数
120
100
80
60
会議数
40
20
0
集計結果 黄色は集計途中
年度
ごみ
子ども 高齢者
環境
健康
福祉
道路
病院
教育
介護保険
学校
1995
1996
381
505
0
0
0
88
0
0
0
0
0
1997
832
286
90
202
89
0
441
0
0
0
365
1998
832
106
81
0
0
76
0
0
0
0
97
1999
1031
655
222
293
299
275
149
128
153
225
533
2000
835
654
323
279
100
0
61
0
0
172
372
2001
373
854
251
176
87
0
149
88
0
182
652
2002
275
841
0
0
0
0
59
0
58
98
798
各年度で特徴的な名詞
頻度表200位までに出現した名詞
「その年に話題になったTOPIX」
1995年
1996年
1997年
1998年
1999年
2000年
2001年
2002年
「市民病院」 「難病」
「漁港」 「市民参加」
「児童クラブ」
「下水道」 「保育園」
「ダイオキシン」「寒川町」「NPO」
「ダイオキシン」「エネルギーセンター」「井戸」
「ダイオキシン」「荏原」
「個人情報」
解釈

2000年に社会問題となった「ダイオキシン問題」は、
「1999年」 から市議会の議題に挙がっていて、
頻出の出現語として確認することができた。(200位以内)
最も出現頻度が多かった年は「2001年」で、
他にも、問題となった企業名「荏原」の出現頻度が高かった。