2016.7.30 NDLデータ利活用ワークショップ ~ウェブ・アーカイブの自治体サイトを可視化しよう~ WARPとデータセット 国立国会図書館 WARP WARPとは ・ウェブサイトのアーカイブ ・2002年に始めて15年目 ・2010年から公的機関サイト を大規模に収集 http://warp.da.ndl.go.jp/ 3 集めているウェブサイト 区分 公的機関 民間 根拠 対象 国の機関 地方自治体 法律 独立行政法人 国公立大学 公益法人、私立大学、 契約 政党、イベント、震災、 電子雑誌 サイト数 5,400 4,600 収集頻度 月1回 年4回 年1~4回 4 容量で可視化 本日のターゲット 都道府県 政令指定都市 市町村 特別地方公共団体(東京23区を含む) 218TB/633TB 5 内訳 収集対象 都道府県 政令指定都市 市町村 東京23区 合計 現存する自治体 47 20 1,698 23 1,788 消えた自治体 - - 989 - 989 合計 47 20 2,687 23 2,777 6 保存状況 2010年~ 全自治体を保存 ~2009年 消えた自治体が多い 7 具体例をみてみましょう ・消えた町-佐賀県大和町 http://warp.da.ndl.go.jp/info:ndljp/pid/246720/www.saganet.ne.jp/yamato/ ・2003年の香川県 http://warp.da.ndl.go.jp/info:ndljp/pid/236640/www.pref.kagawa.jp/ ・2012年の・・・(うどん県) http://warp.da.ndl.go.jp/info:ndljp/pid/6019057/www.my-kagawa.jp/udon-ken/top.html ・2015年の香川県 http://warp.da.ndl.go.jp/info:ndljp/pid/9498887/www.pref.kagawa.jp/ 8 データセット 本日、使えるデータ 1. メタデータ 2. 検索API 10 1. メタデータ ・2003年から2015年の自治体サイトの全件メタデータ ・2つのメタデータ 収集対象 (自治体) 収集個体 (収集回ごとのまとまり) 2,777 件 47,318 件 11 ここで収集のイメージを クローラによる収集 起点URL www.pref.kagawa.jp ➀ 起点URLにあるファイルを複製 www.pref.kaga wa.jp/abc.html www.pref.kaga wa.jp/def.html www.pref.kaga wa.jp/xyz.html udon.pref.kagawa.jp abc.pref.kagawa.jp www.pref.kagawa .lg.jp/gikai/ ➁ リンクを解析してページ遷移 ➂ リンク先のページでも同じように ファイル複製、リンク解析 ➃ 指定した範囲の全てのファイルを 複製するまで繰り返す ➄ ファイルをひとまとめにして保存 12 2つの関係 収集対象 収集個体 13 WARP画面 収集対象 収集個体 14 必ずしも100%ではありません ・技術的にとれないもの ・収集回ごとの時間制限(オーバーしたら停止) 自治体 2015年3月まで 2015年4月以降 都道府県 政令指定都市 5日 20日 市町村 東京23区 1日 15 詳細とダウンロードはこちら http://www.ndl.go.jp/jp/aboutus/standards/opendataset.html 16 2. 検索API ・自治体サイトをページ単位で検索できる ページ数 62,286,266 ページ 自治体数 1,788(47都道府県、20政令指定都市、1,698市町村、東京23区) 対象年 2010年、2013年、2015年 ・キーワード、外部リンクなど様々な情報を取得 17 詳細はこちら 18 補足 ・館内でのみ見られるものが19% ⇒ 各グループのPCで見られます 19
© Copyright 2025 ExpyDoc