藤沢市 議事録の研究 総合政策学部3年 飯塚直 総合政策学部3年 臼杵憲一 環境情報学部4年 黒崎伸夫 当初の研究目的 藤沢市の議事録を年度ごとに集計し、 どんなことが話し合われているのかを分析する 経年で話題の変化が見られるのか? 「TextImi」による話し言葉の分析⇒形態素分析 手法 ①出現語頻度表 ②係り受け頻度表 ③基礎意味チャンク集計表 分析以前にしたこと データの収集 議事録データ 1995年度~2003年度 各年度のデータを4~5のファイルに分割 1ファイルのデータ数 10000件 データの整形 システムに載せるためにCSVデータに置き換える 時間のかかった作業 ①プログラミングによってデータを整形 数値への変換、「発言内容」や「期間」などの分類 ②アップロードのエラーに対処する 元データにあるカンマの削除等 データ入手 藤沢市議会 会議録検索システム http://www02.gijiroku.com/fujisawa/index.html 問題:データの一括ダウンロードができない ダウンロードスクリプトを作成 ダウンロード完了(全843ファイル) ファイルの書式 CSVファイルのフォーマットを伺う ID, 日付, 会議名, 発言者名, 発言本文 CSVへの変換スクリプト作成 とりあえずCSVファイルを生成完了 CSVファイルの作成から解析可能段階に至るまでの経緯 授業でアドバイザーの方にCSVファイルの作成要領を伺う(12/5) CSV作成→アドバイザーの方にお願いする(12/13) →指示を頂き、ダブルクオーテーションを削除するように改良(12/17) →IDなどフォーマットエラー多数によりアップロードできず、指示を頂く(12/17) →中間発表で助言を頂き、再度CSV生成(12/19) →1件に対する発言文が多すぎるため、文単位で区切るようにとの指示(12/20) →再度スクリプト作成しCSV生成、アップロード作業をお願いする(12/28) →件数が多すぎてシステムで扱えないことが判明し、村木さんにCSVファイルを1万 件ごとに分割して頂く(12/30) →件数が多すぎてアドバイザーの方が対応できず、自分達でアップロードするように との指示(1/7) →アップロードおよび解析用URLについて連絡を受ける(1/7) →3人で分担してアップロード作業を進める →件数が多いせいかシステムがうまく作動しないことが多かったため中野さんに相 談したところ別のサーバーを用意して頂いたためそちらで解析開始(1/14) 完成したCSVファイル 現時点で分析は途中 データ数が膨大すぎたため、 データの整形やエラーの対処に時間がかかった 現時点では、出現語頻度表しかできていない 水曜日のレポート提出までには、集計結果を載せる 出現語頻度表 1. 分析方法 全ての年度に共通して出てくるような名詞 「子ども」や「高齢者」などを18語選択し、 出現語頻度表の100位までで出現数を集計する 2. 各年度で特徴的な珍しい名詞。 多年度には出現しない⇒その年度のTOPIX 出現語頻度表の200位までで出現数を集計する 5 20 0 4 3 20 0 20 0 2 1 20 0 20 0 0 9 20 0 19 9 8 7 19 9 19 9 6 5 00 05 20 04 20 03 20 02 20 01 20 20 99 19 98 19 97 19 96 30000 19 9 19 9 95 19 19 年度ごとの会議数・発言者数・件数 60000 50000 40000 発言者数 件数 20000 10000 0 会議数 120 100 80 60 会議数 40 20 0 集計結果 黄色は集計途中 年度 ごみ 子ども 高齢者 環境 健康 福祉 道路 病院 教育 介護保険 学校 1995 1996 381 505 0 0 0 88 0 0 0 0 0 1997 832 286 90 202 89 0 441 0 0 0 365 1998 832 106 81 0 0 76 0 0 0 0 97 1999 1031 655 222 293 299 275 149 128 153 225 533 2000 835 654 323 279 100 0 61 0 0 172 372 2001 373 854 251 176 87 0 149 88 0 182 652 2002 275 841 0 0 0 0 59 0 58 98 798 各年度で特徴的な名詞 頻度表200位までに出現した名詞 「その年に話題になったTOPIX」 1995年 1996年 1997年 1998年 1999年 2000年 2001年 2002年 「市民病院」 「難病」 「漁港」 「市民参加」 「児童クラブ」 「下水道」 「保育園」 「ダイオキシン」「寒川町」「NPO」 「ダイオキシン」「エネルギーセンター」「井戸」 「ダイオキシン」「荏原」 「個人情報」 解釈 2000年に社会問題となった「ダイオキシン問題」は、 「1999年」 から市議会の議題に挙がっていて、 頻出の出現語として確認することができた。(200位以内) 最も出現頻度が多かった年は「2001年」で、 他にも、問題となった企業名「荏原」の出現頻度が高かった。
© Copyright 2024 ExpyDoc