DEIM Forum 2015 F6-5 小説や旅行記からの地理情報の自動抽出と編纂 平山 拓実† 難波 英嗣‡ 竹澤 寿幸‡ †広島市立大学 情報科学部 〒731-3166 広島県広島市安佐南区大塚東 3-4-1 ‡広島市立大学大学院 情報科学研究科 〒731-3166 広島県広島市安佐南区大塚東 3-4-1 E-mail: †‡{hirayama, nanba, takezawa}@ls.info.hiroshima-cu.ac.jp あらまし 近年,ストーリー性のある情報媒体の舞台場所を訪れる観光客が増加している.このような観光では,多大な経 済効果をもたらすとして注目されている.本研究では,書籍の舞台場所を訪れる観光客の支援として,書籍のストーリーと関連 のある舞台場所を可視化するシステムを構築する.本システムは,ジオコーディングとテキスト要約から構成する.ジオコーデ ィングでは,書籍における都道府県の出現頻度を用いて曖昧性問題の解消を行っている.また,書籍のストーリーと関連のある 舞台場所を抽出するため,テキスト要約を用いる.本システムにより,書籍における舞台場所の確認が容易となり,観光客の増 加が望める. キーワード 可視化,ジオコーディング,経路抽出,テキスト要約 1. は じ め に ストーリー性のある情報媒体における舞台場所の 本稿では, 書籍のストーリーと関連のある舞台場所 観光では,主人公が辿った場所やストーリーと関連の を提示するシステムを構築する.近年,ドラマやアニ ある場所を舞台場所として観光することが多い.本シ メ,書籍といったストーリー性のある情報媒体におけ ステムにおいて提示する舞台場所 は,ストーリーと関 る舞台場所の観光が増加している.有名な例として, 連のある場所としている.そのため,テキスト要約を NHK 朝 ド ラ の「 あ ま ち ゃ ん 」や 大 河 ド ラ マ「 龍 馬 伝 」 用いて,このような場所のみを抽出する. が挙げられる.このような 舞台場所を 観光する旅行者 ジオコーディングのみを用いたマッピングでは,不 に よ り ,「 あ ま ち ゃ ん 」 の 岩 手 県 に て 約 33 億 円 1 ,「 龍 要な舞台場所を多く含む提示となる.そのため本研究 馬 伝 」の 高 知 県 に て 535 億円3 では,マッピングする際に,上記のジオコーディング の経済波及効果をもたらしている.このように舞台場 とテキスト要約の二つの手法を組み合わせる.これに 所の観光では,多大な経済効果が もたらす として注目 より,ストーリーと関連のある舞台場所のみを提示で されている. きるため,書籍のストーリーと関連のある舞台場所の 億 円 2 ,長 崎 市 に て 191 ドラマやアニメでは,ホームページにストーリーと 確認が容易となる. 関連のある舞台場所を可視化した情報が記載されてい 本論文の構成は以下の通りである.2 章では本シス ることがある.そのため,舞台場所の確認が容易にで テムの概要・動作例を示し,3 章では関連研究につい きる.しかし,書籍では可視化された情報がない,と て述べ,4 章では書籍データからの地理情報の抽出と いう問題点がある.そこで本研究では,書籍のストー 編 纂 に つ い て 述 べ る .5 章 で は 評 価 実 験 に つ い て 述 べ , リーと関連のある舞台場所を地図上にマッピングする 6 章で本論文をまとめる. ことにより,可視化するシステムを構築する. 2. シ ス テ ム の 概 要 ・ 動 作例 地図上にマッピングするには,舞台場所を示す地理 本節では,構築するシステムの概要と動作例につい 情報にジオコーディングする必要がある.しかし,書 て 説 明 す る .ま ず ,本 シ ス テ ム の 概 要 に つ い て 述 べ る . 籍における舞台場所を示す地理情報は,正式な地名で 書籍のストーリーと関連のある舞台場所にマッピング はなく,省略された地名で記載されることが多い.そ す る こ と に よ り ,舞 台 場 所 の 確 認 を 容 易 と す る .ま た , のため,どの都道府県に属する地名であるか不明瞭と ピンが表示された舞台場所 の出現場面 を把握するため, なる,曖昧性問題がある.本研究では,このような曖 一文を提示するシステムである. 昧性のある地名に対して,書籍における都道府県の出 本 シ ス テ ム で は , 青 空 文 庫 か ら 収 集 し た 6,261 件 の 現頻度を用いることにより,最も適切と思われる緯度 書籍データを対象としている.書籍名または地名を入 経度を付与する手法を提案 する. 力として受け取り,一致するデータを本システムのデ ータベースから検索する.次に,ストーリーと関連の 岩 手 経 済 研 究 所 , 岩 手 経 済 研 究 25 年 9 月 号 日 本 銀 行 高 知 支 店 ,NHK 大 河 ド ラ マ「 龍 馬 伝 」の 経 済 波 及 効 果 (2011) 3 長 崎 市 , 平 成 22 年 長 崎 市 観 光 統 計 (平 成 23 年 3 月) 1 2 ある舞台場所を地図上にマッピングする.地図上にマ ッ ピ ン グ し た も の を 本 シ ス テ ム の 出 力 と す る .図 1 に 示す出力例のピンをクリックすると,書籍から抽出し た地理情報とそれを含む文,緯度経度といった情報が 提示される.本研究では,情報媒体を対象とした観光 て,正しい緯度経度の付与ができない.例えば,入力 では,経路選択も一つの楽しみであると考えている. に山梨県や埼玉県,岩手県に存在する「赤沢」を用い そのため,経路は提示しないものとする. た場合,岩手県に属する赤沢の緯度経度しか付与でき ない. このような曖昧性のある地名に対して正しい緯度 経度情報を付与する研究では,クラスタリングを用い た 河 野 ら [3]の 研 究 が あ る .河 野 ら は ,Twitter 5 に お け る ユ ー ザ の 一 連 の Tweet か ら 地 名 を 抽 出 し ,Tweet の 位置情報を推定する研究を行っている.曖昧性のある 地 名 に 対 応 す る 候 補 と ,前 後 の Tweet で 抽 出 し た 地 名 の両方を対象にクラスタリングを行う.各クラスタに 対して,候補と曖昧性のない地名を用いてスコアを付 与する.そして,最も総和の大きいクラスタにある候 補の緯度経度を適切な緯度経度として付与している. 図 1.シ ス テ ム 動 作 例 3. 関 連 研 究 このようなクラスタリングを用いた手法では,距離を 用いている.そのため,書籍データの舞台場所となる 本 研 究 の 関 連 研 究 と し て , 3.1 節 で は , 経 路 案 内 シ 都道府県と異なる都道府県の地名に緯度経度情報が付 ス テ ム , 3.2 節 で は , ジ オ コ ー デ ィ ン グ , 3.3 節 で は , 与される可能性がある.本研究では, 曖昧性のない地 テキスト要約についての研究をそれぞれ紹介する. 名の都道府県を基に,曖昧性のある地名に緯度経度情 3.1. 経 路 案 内 シ ス テ ム 報を付与している. 本研究のような, 情報媒体における経路を提示する 曖昧性のある地名に対してクラスタリング手法を 研 究 に Jannik[1]ら の 研 究 が あ る .Jannik ら は ,電 子 用 い な い 研 究 に 金 木 ら [4], 平 野 ら [5]の 研 究 が あ る . 化した書籍 データから抽出した時間情報と地理情報を 金木らは,地名テーブルとランドマークテーブルの 二 組み合わせてイベントを生成し,地図上に表示する手 つからなる 地名辞書を提案している.これにより,曖 法 を 提 案 し て い る . Jannik ら の 研 究 に お け る , 電 子 昧性を持つ地名に対して地域間距離とランドマーク距 化された書籍データを用いている点や,地理情報を抽 離を用いて特定を行うことができる.ランドマークと 出する点で本研究と類似している.しかし,地理情報 は地域を特定する際に,地名と同等の意味があるもの の 抽 出 や ジ オ コ ー デ ィ ン グ に 外 部 API を 用 い て い る . である.この研究では,ジオコーディングの精度を向 本 研 究 で は ,地 理 情 報 の 抽 出 に 外 部 API を 用 い て い る 上させるランドマークテーブルの作成を目的としてい が,ジオコーディングには生成した地名辞書を基に行 るため,本研究とは目的が異なる.平野らは,曖昧性 っている点で異なる. のある地名をジオコーディングする際,地名の距離と 中 嶋 ら [2]は Twitter か ら 情 報 を 抽 出 し , 経 路 を 生 成 有名度を用いる手法を提案している.店の多い場所を す る 手 法 を 提 案 し て い る .こ の 研 究 で は ,Twitter に お 有名な場所として,店の件数を有名度のスコアとして け る 観 光 ツ イ ー ト を 「 食 事 」,「 景 観 」,「 行 動 」 の 3 つ いる.ジオコーディングでは,地 名の距離を優先的に に分類する.さらに,旅行者のタイムラインから観光 処理し,候補の中で有名度が突出している候補を優先 ルートを抽出し,旅行者の好みに合わせた観光ルート して処理を行う.しかしこの手法では,店の少ない 地 を推薦している.本研究では,これから書籍を対象と 域の地名では,正しい緯度経度情報が付与されない問 した観光を行う観光客の支援として観光場所を提案す 題点がある.本研究では,このような事象の影響がな ることを目的としている.そのため,地理情報の緯度 い手法である. 経度に対応する位置にピンを立て,舞台場所だけを示 3.3. テ キ ス ト 要 約 本研究では,書籍のストーリーと関連のある舞台場 している. 3.2. ジ オ コ ー デ ィ ン グ 所を提示するシステムの構築をするため,テキスト要 地理情報に対してジオコーディングする既存のシ 約を行う. そのため,本節ではテキスト要約に関連す Tools&Utilities 4 が あ る .こ の シ る研究について紹介する. これまでに多くの自動要約 ス テ ム に ,Geocoding ス テ ム で は ,地 名 を 入 力 と し ,緯 度 経 度 の 出 力 を 行 う . しかし,このシス テムでは,曖昧性のある地名に対し 手法が提案されている. 相 良 ら [6]は ,テ キ ス ト 中 の 多 く の 段 落 に 現 れ る 話 題 を メ イ ン ト ピ ッ ク ,最 低 2 つ の 段 落 で 現 れ る 話 題 を サ 4 http://newspat.csis.u-tokyo.ac.jp/geocode/ 5 http://twitter.com/ ブトピックとし,これらのトピックを用いた要約によ り ,書 籍 の ス ト ー リ ー を 作 成 す る 手 法 を 提 案 し て い る . 4.2. 固 有 表 現 の タ グ 付 け 本節では,固有表現の抽出とタグ付けについて述べ この研究では,要約文の生成には,各トピックを代表 る . 本 研 究 で は , 係 り 受 け 解 析 器 CaboCha の 固 有 表 する語を含む文を統合する手法を提案している. 現 抽 出 機 能 を 利 用 し ,固 有 表 現 を 抽 出 す る .CaboCha Erkan ら [7] は , テ キ ス ト を グ ラ フ で 表 現 し , の 固 有 表 現 抽 出 機 能 で は ,ORGANIZATION(組 織 名 ), PageRank ア ル ゴ リ ズ ム を 適 用 , テ キ ス ト 中 の 各 文 の PERSON(人 名 ),LOCATION(地 名 ),DATE(日 付 表 現 ), 重 要 度 を 測 る 手 法 LexRank を 提 案 し て い る . 重 要 度 TIME(時 間 表 現 ),MONEY(金 額 表 現 ),PERCENT (割 の 算 出 に は ,次 数 の 多 い ノ ー ド を 評 価 す る だ け で な く , 合 表 現 ),ARTIFACT(固 有 物 名 )の 8 種 類 の 固 有 表 現 を 次数の多いノードと隣接しているノードの重要度につ 抽 出 す る . 本 研 究 で は いても考慮し,対象ノードを評価することができる. ORGANIZATION と 分 類 さ れ た 固 有 表 現 を 地 理 情 報 この手法では,文間のコサイン類似度に基づいた連結 と し て 扱 う . ま た , CaboCha の 固 有 表 現 抽 出 機 能 は , 性行列が文のグラフ表現の隣接行列として使われてお IREX-NE で 公 開 さ れ た 定 義 6 に 基 づ い た 固 有 表 現 を 抽 り,その隣接行列の第一固有ベクトルの成分を各ノー 出 し て い る . 以 下 に LOCATION と ORGANIZATION ド の 中 心 性 を 表 す ス コ ア と 考 え る .ま た ,LexRank は の定義を示す. 多くのテキスト要約タスクでその有効性が確認されて LOCATION ま た は LOCATION:固 有 の 場 所 を 指 す 名 前 .大 陸 ,国 いる.そのため,本研究のテキスト要約には,この 名,地域名,都市名,県名,町名,道路名,住 LexRank 手 法 を 用 い る . 所 ,駅 名 ,線 路 名 ,モ ニ ュ メ ン ト ,海 洋 名 ,湾 , 4. テ キ ス ト デ ー タ か ら 地理 情 報 の 抽 出と 編 纂 運河,川名,池名,湖名,島,公園,山,砂漠 4.1. シ ス テ ム 概 要 図 2 にシステム の概要を示す.また,本システムの の名前などを含む. ORGANIZATION: 複 数 の 人 間 で 構 成 さ れ , 共 通の目的を持った組織などの名称を指す.株式 流れを以下に示す. (1) 青 空 文 庫 を 利 用 し , 人 手 で 書 籍 デ ー タ を 収 集 会社などの会社,固有の政府組織,学校,軍, (2) 固 有 表 現 を 抽 出 し , タ グ 付 け を 行 う スポーツチーム,国際組織,労働組合,工場, (3) 地 理 情 報 の ジ オ コ ー デ ィ ン グ ホテル,空港,病院,教会や,なんらかの目的 (4) 3.3 節 で 述 べ た LexRank 手 法 を 用 い た テ キ ス ト を持ったグループなどもその 対象が組織として の意味で使われている文脈においては組織名と 要約 する. (5) (3)と (4)で 生 成 し た デ ー タ を 組 み 合 わ せ , デ ー タベースとする (6) デ ー タ ベ ー ス を 参 照 し ,入 力 の 書 籍 と 対 応 す る データを出力する 本 研 究 で は ,CaboCha の 固 有 表 現 抽 出 機 能 に よ る 抽 出 結 果 を 用 い て 自 動 タ グ 付 け を 行 う .書 籍「 駅 夫 日 記 」 にタグ付けを行った結果の一部を図 3 に示す. 4.2 節 で は ,固 有 表 現 の タ グ 付 け ,4.3 節 で は ,ジ オ コ ー デ ィ ン グ , 4.4 節 で は , テ キ ス ト 要 約 に つ い こ の 間 の 工 学 士 と い う の は <LOCATION> 品 て説明する. 川 </LOCATION> に 住 ん で い た <ORGANIZATION> 東 京 市 街 鉄 道 会 社 </ORGANIZATION>の 技 師 を 勤 め て い る <PERSON> 蘆 鉦 次 郎 </PERSON> と い う 男 で 、・ ・ ・ 図 3.タ グ 付 け 例 4.3. 地 理 情 報 の ジ オ コ ー ディ ン グ 本節では,書籍に出現する地理情報のジオコーディ ン グ に つ い て 述 べ る .本 研 究 の ジ オ コ ー デ ィ ン グ に は , 地理情報と対応する情報を地名辞書から検索する方法 を 用 い て い る .本 研 究 の 地 名 辞 書 は ,国 土 地 理 院 7 か ら 収 集 し た 都 道 府 県 と 市 区 町 村 の 計 1,957 件 , 言 語 資 源 協 会 8 か ら 収 集 し た 町 丁 と 施 設 名 の 計 117,061 件 , 6 図 2.シ ス テ ム 概 要 7 8 http://nlp.cs.nyu.edu/irex/ http://www.gsi.go.jp/ http://www.gsk.or.jp/ Wikipedia か ら 収 集 し た 山 や 駅 名 な ど 計 44,930 件 の 粒度の大きい候補を優先するため,地理情報「日光」 デ ー タ で 構 成 さ れ る .地 名 辞 書 の テ ー ブ ル は ,“名 称 ”, には「栃木県日光市日光」の緯度経度が付与する. こ “緯 度 ”, “経 度 ”, “粒 度 ”の 4 項 目 か ら 構 成 さ れ て い る . のように,提案手法では,書籍における都道府県の出 “粒 度 ”は ,“名 称 ”が 都 道 府 県 の 場 合 は 1,市 区 町 村 の 場 現頻度を用いることにより最も適切な緯度経度の付与 合 は 2, こ れ よ り 詳 し い 場 所 を 指 す も の に は 3 を 振 り を可能としている. 当 て て い る . 地 名 辞 書 の デ ー タ 例 を 表 1 に 示 す .“ 名 称”には,地名の正式名,山や駅名の名称が記載され ている.地名の正式名は,都道府県,市区町村,町丁 地名辞書における名称 埼玉県 秩父市 の境界部分をスペースで区切る. 表 1.地 名 辞 書 に 登 録 さ れ た デ ー タ 例 名称 緯度 経度 粒度 北海道 43.06417 141.34694 1 北海道 函館市 41.76861 140.72917 2 北海道 函館市 41.75731 140.71667 3 青柳町 幌尻岳 42.71944 142.68277 3 書籍データにおける地理情報には,どの都道府県に 属 す る か 曖 昧 性 な 地 理 情 報 が あ る .例 と し て ,書 籍「 秋 の鬼怒沼」における地名「日光」が挙げられる.この 書籍における「日光」は,最も適切であると思われる 「 栃 木 県 日 光 市 日 光 」 の 他 に 「 栃 木 県 日 光 市 」,「 福 井 県 福 井 市 日 光 」,「 愛 知 県 津 島 市 日 光 」 が あ る . こ の よ 地理情報 秩父 図 4.地 理 情 報 と “名 称 ”対 応 付 け 表 2.「 秋 の 鬼 怒 沼 」 に お け る 都 道 府 県 の 出 現 頻 度 都道府県名 出現頻度 埼玉県 3 静岡県 1 栃木県 1 山形県 1 福島県 2 山口県 1 長野県 5 新潟県 2 秋田県 1 うな曖昧性のある地理情報では,誤ったジオコーディ ングが行われる可能性がある. 4.4. 書 籍 デ ー タ の テ キ ス ト要 約 そのため本研究では,地理情報のジオコーディング 本節では,書籍データのテキスト要約について述べ に,書籍データにおける都道府県の出現頻度を用いる る.書籍データにおける地理情報には,ストーリーと 手法を提案する.まず,書籍データ中のすべての地理 関連のない舞台場所が含まれている.そのため,本研 情報の中で曖昧性 のない地理情報 に対して ,対応する 究では,書籍のストーリーと関連のある舞台場所のみ “名 称 ”が あ る か 判 定 を 行 う . 判 定 に は , 図 4 の よ う に を 提 示 す る た め ,LexRank を 用 い た テ キ ス ト 要 約 を 行 “名 称 ”を ス ペ ー ス で 分 割 し , “名 称 ”の 右 端 の 文 字 列 と っ た . LexRank で は , ま ず , 文 間 の 類 似 度 算 出 す る . 地 理 情 報 が 一 致 す る か 判 定 す る . こ の 際 , “市 ”や “県 ” 次に,求めた類似度を基に文の重要度を算出し,文に などの文字が省略されている場合でも,一致している 付与する.重要度の算出には,文のグラフ表現におけ と考える.判定により一致とみな した場合,地理情報 る固有ベクトル中心性を用いて,次数の多いノードや に 対 応 す る 名 称 で あ る と し , “ 名 称 ”の “ 緯 度 ” , “経 度 ” それに隣接するノードに重要度を付与 している.本研 を 地 理 情 報 に 付 与 す る .次 に ,付 与 し た “緯 度 ”,“経 度 ” 究では,重要度の高い文に含まれる地理情報のみを用 の “名 称 ”に お け る 都 道 府 県 の 出 現 頻 度 を 求 め る . 都 道 いることにより, 書籍のストーリーに関連のある舞台 府 県 の 出 現 頻 度 の 例 を 表 2 に 示 す .曖 昧 性 の な い 地 理 場所のみをマッピングする . 情報と同様の方法で,曖昧性のある地理情報と対応す 本 研 究 で は ,集 約 さ れ た 文 に 含 ま れ る 粒 度 3 の 地 理 る “名 称 ”の 候 補 を 抽 出 す る .地 理 情 報「 日 光 」の 場 合 , 情報をストーリーに関連のある舞台場所として,地図 候 補 は 「 栃 木 県 日 光 市 日 光 」,「 栃 木 県 日 光 市 」,「 福 井 上 に マ ッ ピ ン グ し て い る .粒 度 3 の 地 理 情 報 の み を 用 県 福 井 市 日 光 」,「 愛 知 県 津 島 市 日 光 」 と な る . 次 に , い る 理 由 に は ,粒 度 3 の よ う な 具 体 的 な 場 所 で な け れ 書籍における都道府県の出現頻度 を用いて,候補から ば観光場所とならないと考えたからである. 最 も 適 切 で あ る と 思 わ れ る “名 称 ”の “緯 度 ”,“経 度 ”を 付 5. 実 験 与 す る . 地 理 情 報 「 日 光 」の 場 合 ,表 2 の 出 現 頻 度 が 多 い 都 道 府 県 か ら 順 に 候 補 の 4 件 の “名 称 ”に 含 ま れ て いるか判断する.それにより,候補が「栃木県日光市 日 光 」,「 栃 木 県 日 光 市 」 の 2 件 と な る . 本 研 究 で は , 本章では,ジオコーディングにおける提案手法の有 効性とテキスト要約の有効性を確認するため行った実 験 と 結 果 に つ い て 述 べ る . 5.1 節 で は , ジ オ コ ー デ ィ ン グ 実 験 , 5.2 節 で は , テ キ ス ト 要 約 実 験 に つ い て 述 べる. 5.1. ジ オ コ ー デ ィ ン グ 実 験 本 節 で は , 4.3 節 で 述 べ た 提 案 手 法 の 有 効 性 を 確 認 す る 実 験 に つ い て 述 べ る . 5.1.1 節 で は , 実 験 方 法 , 5.1.2 節 で は , 実 験 結 果 , 5.1.3 節 で は , 考 察 に つ い て 述べる. 5.1.1. 実 験 方 法 表 4.ジ オ コ ー デ ィ ン グ 実 験 結 果 作品名 ベ ー スラ イ ン 提 案 手法 秋の鬼怒沼 0.463(25/54) 0.574(31/54) 秩父の渓谷美 0.588(30/51) 0.569(29/51) 駅夫日記 0.397(31/78) 0.590(46/78) 或恋愛小説 0.500(3/6) 0.667(4/6) リイズ 0.400(4/10) 0.900(9/10) 平均 0.470 0.660 【使用データ 】 青空文庫を利用し,収集した書籍データのうち,表 3 に 示 す 5 件 の 書 籍 デ ー タ を 4.2 節 で 述 べ た タ グ 付 け し た デ ー タ を 実 験 に 用 い る .表 3 に お け る 地 理 情 報 数 と は , タ グ 付 け に よ り LOCATION ( 地 名 ) ま た は ORGANIZATION( 組 織 名 ) と 分 類 さ れ た 固 有 表 現 の 数である. 正解データには,人手で地理情報をジオコ ーディングしたものを用いる. 分野 紀行 紀行 小説 小説 小説 表 3.実 験 に 用 い る 書 籍 デ ー タ 作品名 著者名 秋の鬼怒沼 秩父の渓谷美 駅夫日記 或恋愛小説 リイズ 木暮理太郎 木暮理太郎 白柳秀湖 芥川龍之介 太宰治 地理 情報数 138 86 128 15 14 表 5.曖 昧 性 の あ る 地 理 情 報 に お け る 正 解 数 作品名 曖 昧 性の あ る地 提 案 手法 で の正 理 情 報数 解数 秋の鬼怒沼 12 6 秩父の渓谷美 22 4 駅夫日記 42 26 或恋愛小説 3 2 リイズ 7 6 平均 17.2 8.8 5.1.3. 考 察 表 4 と 表 5 の 両 方 に お い て 悪 い 結 果 と な っ た「 秩 父 の渓谷美」では,二つの要因が考えられる.まず一つ 目は,提案手法で用いる書籍における都道府県の出現 頻度である.この書籍では,埼玉 県秩父市の自然と他 県の自然を比較する書籍であったため,都道府県の出 現頻度の上位が埼玉県であった.しかし,ベースライ 【比較手法】 ンでは正解となった山梨県の「赤沢」に対して,提案 提 案 手 法:曖 昧 性 の あ る 地 理 情 報 に 対 し て 書 籍 に 手法では,埼玉県の「赤沢」の緯度経度を付与してい おける都道府県の出現頻度 を用いる手法. た.二つ目の要因として,川や谷といった地名辞書に ベースライン:曖昧性のある地理情報に対して, 登録していない名称が多くあったことが挙げられる. 候補からランダムで選択した緯度経度を付与す 例として抽出した地理情報に「荒川」がある.文中で る手法. は,川の名前として出現した.しかし,地名辞書には 【評価尺度】 川としての「荒川」は無く,地名としての「荒川」が 以下の式に示す精度を用いる. 多く登録されていた.そのため,提案手法では地名の 精度= 正しくジオコーディングされた地理情報数 ジオコーディングされた地理情報数 5.1.2. 実 験 結 果 あ実験結果を表 4 に示す.表 4 の括弧中の数字は, 「荒川」の緯度経度が付与されていた.このような地 名辞書に登録されていないが,曖昧性のあ る地理情報 と 判 定 さ れ た も の が 13 件 存 在 す る こ と が 判 明 し た . 提案手法で良い結果が得られた書籍に「駅夫日記」 と「リイズ」が挙げられる.これらの書籍では,東京 左に正しくジオコーディングされた地理情報数,右に 都 が 主 な 舞 台 場 所 で あ り ,曖 昧 性 の あ る 地 名 で あ る「 渋 ジオコーディングされた地理情報数を示している.表 谷」や「新宿」といった地理情報が多く出現した.そ 4 より,書籍「秩父の渓谷美」を除いたすべてにおい のため,書籍における都道府県の出現頻度 の上位に東 て,ベースラインを上回る結果が得られた.平均をみ 京都が登録され,多くの曖昧性のある地理情報が正解 る と , 0.190 向 上 し て い る . データと同じ緯度経度が付与されたと考えられる. 表 5 では,ジオコーディングされた地理情報の内, 二つの手法において,不正解と判定したものには, 地 名 辞 書 に 対 応 す る “名 称 ”が 複 数 あ る 地 理 情 報 の 件 数 CaboCha に お け る 形 態 素 解 析 の 誤 り に よ る も の が 多 と,それに対して,提案手法で正解データと一致する く 存 在 し て い た .例 と し て「 日 光 沢 」の 場 合 , 「 日 」に 緯 度 経 度 を 付 与 し た 件 数 を 示 し て い る .表 4 と 同 様 に , LOCATION タ グ が 付 与 さ れ て い た . そ の た め ,「 日 」 正 解 と 一 致 し た 地 理 情 報 が「 秩 父 の 渓 谷 美 」に お い て , に「長野県東筑摩郡麻績村日」の緯度経度が付与され 低い割合であることが分かる. ており,不正解と判定している. 5.2. テ キ ス ト 要 約 実 験 本 節 で は ,4.4 節 で 述 べ た LexRank を 用 い た テ キ ス ト 要 約 の 有 効 性 を 確 認 す る 実 験 に つ い て 述 べ る . 5.2. 1 節 で は ,実 験 方 法 ,5.2.2 節 で は ,実 験 結 果 と 考 察 に ついて述べる. 5.2.1. 実 験 方 法 本 実 験 で は ,表 3 の 「 駅 夫 日 記 」を 対 象 と し ,ス ト ーリーを図 5 に示す. 「 駅 夫 日 記 」に 対 し て ,4.3 節 の 提案手法によりジオコーディング したもの を実験に用 いる.そして,テキスト要約を用いない場合と用いた 場合で地図上に舞台場所をマッピングする.マッピン グした舞台場所が図 5 に示すストーリーと関連するか を 人 手 で 判 定 し た . テ キ ス ト 要 約 に は , 全 693 文 中 LexRank に よ り 高 い ス コ ア が 付 与 さ れ た 上 位 207 文 を用いている. 図 7.要 約 を 用 い た マ ッ ピ ン グ 結 果 (マ ッ ピ ン グ 数 14 件 ) 目黒駅の駅夫である主人公の日常や経歴が描かれ た 小 説 .最 後 に 転 職 し て ,九 州 に 向 か う 話 で 終 わ る . 図 5.「 駅 夫 日 記 」 の ス ト ー リ ー 5.2.2. 実 験 結 果 と 考 察 地 図 上 に マ ッ ピ ン グ し た 結 果 を 図 6, 図 7 に 示 す . 図 6 におけるピンの数を表 6 の“要約なし”に示し, 図 7 に お け る ピ ン の 数 を “ 要 約 あ り ”に 示 す . 実 験 結 表 6.テ キ ス ト 要 約 実 験 結 果 ストーリーとの関連性 要約なし 要約あり 8 7 関連性あり 22 7 関連性なし 6. お わ り に 果 の 表 6 よ り ,関 連 性 の な い 舞 台 場 所 だ け が 大 き く 減 本研究では,小説や旅行記からの地理情報の自動抽 少していることが分かる.それに比べ,関連性のある 出と編纂により,書籍のストーリーと関連のある舞台 舞 台 場 所 は 1 件 だ け 減 少 す る 結 果 が 得 ら れ た .こ の こ 場所を地図上に表示するシステムの構築を行った. 書 とより,書籍のストーリーと関連のある舞台場所のみ 籍データにおける曖昧性のない地理情報から書籍デー を 提 示 す る の に ,LexRank を 用 い た テ キ ス ト 要 約 が 有 タにおける都道府県の出現頻度を用いて,曖昧性のあ 効であることが確認できる結果が得られたといえる. る地理情報をジオコーディングする手法を提案した. 実 験 結 果 よ り , 提 案 手 法 は 精 度 の 平 均 0.660 を 得 た . ベ ー ス ラ イ ン の 精 度 の 平 均 0.470 と 比 べ ,精 度 が 0.190 向上させることができ,提案手法の有効性を確認でき た.書籍のストーリーと関連のある舞台場所のみを提 示するため,本研究ではテキスト要約を用いた.実験 結果より, 書籍のストーリーと関連の低い舞台場所を 多く除外することができ,テキスト要約の有効性を確 認できた. 参 図 6.要 約 を 用 い な い 場 合 の マ ッ ピ ン グ 結 果 (マ ッ ピ ン グ 数 30 件 ) 考 文 献 [1] Strötgen, J. and Gertz, M., “Event-centric Search and Exploration in Document Collections”, Proceedings of the 12th ACM/IEEE-CS Joint Conference on Digital Libraries, pp.223-232, 2012. [2] 中 嶋 勇 人 , 新 妻 弘 崇 , 太 田 学 , “位 置 情 報 付 き ツ イ ー ト を 利 用 し た 観 光 ル ー ト 推 薦 ”, 情 報 処 理 学 会 研 究 報 告 デ ー タ ベ ー ス シ ス テ ム , Vol.2013-DBS-158, No.28, pp.1-6, 2013. [3] 河 野 愛 樹 , 中 村 健 二 , 小 柳 滋 , “マ イ ク ロ ブ ロ グ か ら抽出した地物情報と投稿間隔を考慮した位置 情 報 推 定 ”, 全 国 大 会 講 演 論 文 集 , Vol.2011, No.1, pp.785-787, 2011. [4] 金 木 雄 太 , 山 田 剛 一 , 絹 川 博 之 , 中 川 裕 志 , “地 名 辞書を利用した地名の曖昧性解消と文書の地域 分 類 ”, 人 工 知 能 学 会 論 文 集 , 2005. [5] 平 野 徹 , 松 尾 義 博 , 菊 井 玄 一 郎 , “地 理 的 距 離 と 有 名 度 を 用 い た 地 名 の 曖 昧 性 解 消 ”, 情 報 処 理 学 会 全 国 大 会 講 演 論 文 集 , Vol.70, No.2, pp.285-286, 2008. [6] 相 良 直 樹 , 砂 山 渡 , 谷 内 田 正 彦 , “サ ブ ト ピ ッ ク を 考 慮 し た 重 要 文 抽 出 に よ る 報 知 的 要 約 生 成 ”, 電 子 情 報 通 信 学 会 論 文 誌 D, Vol.90, No.2, pp.427-440, 2007. [7] Erkan, G. and Radev, D.R., “LexRank: Graph-based Lexical Centrality as Salience in Text Summarization”, Journal of Artificial Intelligence Research, Vol.22, Issue 1, pp.457-479, 2004.
© Copyright 2025 ExpyDoc