DEIM Forum 2016 H3-5 旅行ブログエントリへの緯度・経度情報の自動付与 佐々木 隆志† 難波 英嗣‡ 竹澤 寿幸‡ †広島市立大学 情報科学部 〒731-3194 広島県広島市安佐南区大塚東 3-4-1 ‡広島市立大学大学院 情報科学研究科 〒731-3194 広島県広島市安佐南区大塚東 3-4-1 E-mail: †‡{sasaki,nanba,takezawa}@ls.info.hiroshima-cu.ac.jp あらまし 旅行ブログエントリに緯度,経度情報を付与し,地図上からそれらを検索できるシステムの構築を目指す.旅行 ブログエントリを地図上にマッピングするには,例えば「広島市」のような広い範囲を示す地名ではなく,「広島市安佐南区 大塚東 3-4-1」,あるいは「広島市立大学」のように,厳密に場所を特定できる表現をブログエントリ中から抽出する必要が ある.さらに,抽出された表現が,そのブログエントリの中心的な話題に関するものであるかどうかを判断する必要がある. 本研究では,ブログエントリ中から場所を特定できる表現を自動抽出する. キーワード ジオコーディング,旅行ブログ,マッピング 1. は じ め に 大 学 」の よ う に ,厳 密 に 場 所 を 特 定 で き る 表 現 と す る . 観光情報を発信する媒体として,旅行雑誌や,旅行 自動的に地名表現を抽出し,緯度・経度を付与するこ 会社または地域の観光局が運営している観光情報サイ とで,今まで手作業で行っていた旅行ブログエントリ ト , 一 般 の 人 々 が ブ ロ グ や Twitter に 投 稿 す る 旅 行 記 に位置情報を付与する作業を軽減できる.また,旅行 など,様々な種類が存在する.その中でも旅行ブログ 者の目的に沿った旅行ブログエントリへのアクセスが エントリは,個人的な体験や特定のトピックにおける 容易になると考えられる.旅行ブログエントリから表 話題など,リアルタイム性の高い情報を持つものが多 現を抽出し,分析するために機械学習の1つである い.そのため,旅行ブログエントリは旅行計画を立て CRF 手 法 を 使 用 す る .さ ら に CRF を 用 い て 場 所 を 特 定 る際に有益な情報源と考えられる.そこで我々は, 石 できる表現にタグ付けを行うことで,より正確 な表現 野 ら [1]の 手 法 を 用 い て ,旅 行 ブ ロ グ エ ン ト リ を 自 動 的 の抽出が可能となる. に検出し,各エントリを「見る」や「食べる」など 5 本論文の構成は以下の通りである.2 節では関連研 種 類 の カ テ ゴ リ に タ イ プ 分 類 し ,地 図 上 に マ ッ ピ ン グ , 究について述べ,3 節ではブログ中から表現の抽出と 提示するシステムを構築している.このシステムは, その表現の判定について述べる.4 節では評価実験に 広 島 P2 ウ ォ ー カ ー で 公 開 さ れ て い る "ぶ ら り 広 島 電 停 ついて述べ,5 節で本論文をまとめる. 散 歩 MAP "に 使 用 さ れ て い る . こ の シ ス テ ム に よ り , 2. 関 連 研 究 旅行ブログエントリを地図上にマッピングすることで, 本 研 究 の 関 連 研 究 と し て , 2.1 節 で は , ブ ロ グ エ ン 旅行ブログエントリの分布の可視化が可能となり,目 ト リ を 情 報 源 と し た 分 析 に つ い て , 2.2 節 で は , ジ オ 的の地点について述べられた旅行ブログエントリを容 コーディングについての研究をそれぞれ紹介する. 易に検索することができる.しかし,上記のシステム 2.1. ブ ロ グ エ ン ト リ を 情 報 源 と し た 分 析 では,地図上へのマッピングを人手で行っている.ま 観光情報を自動的に収集するための研究として,石 た 旅 行 ブ ロ グ エ ン ト リ に は GPS を 利 用 し て 座 標 デ ー 野 ら [2]の 研 究 が あ る .石 野 ら は ,観 光 情 報 を 収 集 す る タなどの位置情報をつけて投稿できるが,位置情報を ため,ブロガーが日記形式で綴った旅行記である旅行 旅行ブログエントリに付与しているユーザは非常に少 ブログに焦点を当てた.多くのブロガーが旅行記をこ 数であるため,旅行ブログエントリに位置情報が付い の形で記述するため,旅行ブログは観光情報を得るた ていることは期待できない. めの有益な情報源であると考え,ブログデータベース 本研究では,旅行ブログエントリ中から地名表現を から旅行ブログを検出し,その中から観光情報を抽出 抽出し,旅行ブログエントリのタイプによる緯度・経 する手法を提案している.石野らの研究における,旅 度の付与を自動的に行う手法を提案する.自動的に地 行ブログから情報を抽出する点や,情報の抽出に機械 名表現を抽出し,緯度・経度を付与することで,旅行 学 習 の CRF を 用 い る 点 で 本 研 究 と 類 似 し て い る . し ブログエントリの地図上への提示を増やすことができ, か し ,CRF を 使 っ て 地 域 名 と 土 産 物 の 対 を 抽 出 し て い 旅行者の目的に沿った旅行ブログエントリへのアクセ る .本 研 究 で は 場 所 を 厳 密 に 特 定 で き る 表 現 を 1 つ の スが容易になると考えられる.本研究における地名表 ブログに対し 1 つだけ抽出している点で異なる. 現は, 「 広 島 市 」の よ う な 広 い 範 囲 を 示 す 表 現 で は な く , 「 広 島 市 安 佐 南 区 大 塚 東 3-4-1」, あ る い は 「 広 島 市 立 伊 川 ら [3]は ,マ イ ク ロ ブ ロ グ で あ る Twitter を 対 象 に付与されている位置情報タグを使わずに,メッセー ジのテキスト情報のみを用いて,あるメッセージが発 付 与 す る 研 究 で は ,ク ラ ス タ リ ン グ を 用 い た 河 野 ら [7] 信された場所を推定することを試みている. 位置情報 の 研 究 が あ る . 河 野 ら は , Twitter に お け る ユ ー ザ の のついていないテキスト情報のみを使うという点やあ 一 連 の Tweet か ら 地 名 を 抽 出 し ,Tweet の 位 置 情 報 を るメッセージが発信された場所を推定する 点で本研究 推定する研究を行っている.曖昧性のある地名に対応 と類似している.しかし,ユーザが過去に投稿した位 す る 候 補 と ,前 後 の Tweet で 抽 出 し た 地 名 の 両 方 を 対 置情報のついたメッセージから位置情報とキーワード 象にクラスタリングを行う.候補の中で一番適切な緯 の関連付けを行っている.本研究では,本文中から場 度 経 度 を 付 与 し て い る . Tweet の 内 容 か ら 地 名 を 抽 出 所を特定できる表現を抽出して,ジオコーディングを する点では本研究と類似している.しかし,このよう 行う点で異なっている. なクラスタリングを用いた手法では,距離を用いてい ブ ロ グ か ら 情 報 を 抽 出 す る 研 究 と し て 齋 藤 ら [4]の る.本研究ではジオコーディングに住所や地名を用い 研究がある.齋藤らは,ブログ上に書かれた個人の意 ている点で異なっている. 見 , 例 え ば , 企 業 や 新 製 品 に 対 す る 評 価 や TV 番 組 ・ 3. 旅 行 ブ ロ グ エ ン ト リ へ の 緯 度 ・ 経 度 情 報 の 映画・書籍等のメディアについての感想など のいわゆ 自動付与 る評判情報に対しては,別のユーザの購買行動に影響 3.1.シ ス テ ム 概 要 を与えたり,市場のトレンドをいち早く表していたり す る と 考 え ,CRF に 基 づ く ブ ロ グ か ら の 固 有 表 現 抽 出 について新聞ドメインとの比較評価・分析を行ってい る .CRF を 用 い て ブ ロ グ か ら 固 有 表 現 抽 出 を 行 う 点 で 本研究と類似している.しかし固有表現について評 価・分析を行うことが目標である.本研究ではブログ を地図上にマッピングすることを目的としている点で 異なっている. 2.2. ジ オ コ ー デ ィ ン グ 文 書 中 か ら 特 定 の 表 現 を 抽 出 す る 研 究 に 金 木 ら [5] 本システムの流れを以下に示す. (1) 旅 行 ブ ロ グ エ ン ト リ を 入 力 と す る . (2) 入 力 テ キ ス ト か ら 場 所 を 特 定 で き る 表 現 の 抽 出をする. (3) 抽 出 し た 表 現 を 用 い て の ジ オ コ ー デ ィ ン グ す る. 3.2 節 で は , 地 名 表 現 の 抽 出 に つ い て , 3.3 節 で は , 緯度経度情報の付与について説明する. 石 野 ら [1] の 手 法 を 用 い て 収 集 し た 旅 行 ブ ロ グ エ ントリを本システムの入力とする. の研究がある.金木らは,同名の地名に識別可能な番 収集した旅行ブログエントリのうち人手で観光 号 を 振 り ,文 書 中 の 地 名 と ラ ン ド マ ー ク (地 域 を 特 定 す ブログとして適切であるか,また緯度・経度情報が る 際 に 地 名 と 同 等 の 意 味 が あ る も の )を 抽 出 し ,地 域 の 一意に決まるかどうか判定を行い,緯度・経度が一 特定を行う手法を提案している.文書中から特定の表 意に決まると判定され人手で緯度・経度情報を付与 現を抽出する点や,抽出した表現からその文書がどこ したデータを緯度・経度が一意に定まるエントリ について書かれているか地域の特定を行う点 や,固有 (以下,緯度・経度が一意に定まるエントリ)とす 表 現 の 抽 出 に 構 文 解 析 機「 CaboCha」を 利 用 し て い る る.また,観光ブログとして適切であると判定され 点で本研究と類似している.しかし,同名の地域名を たものを,実験の対象とする観光ブログエントリの 判別することを目的としている.本研究では場所を特 全エントリ(以下,全エントリ)とする.全エント 定できる表現を抽出し,ジオコーディング行っている リには,緯度・経度が一意に定まるエントリと緯 点で異なっている. 度・経度が一意に決まらないと判定され人手で緯 平 野 ら [6]の 研 究 で は ,あ る 地 名 で の 店 舗 数 を 用 い た 有名度と距離による地域の特定する方法の提案 してい る.店の多い場所を有名な場所として,店の件数を有 名度のスコアとしている.ジオコーディングでは,地 名の距離を優先的に処理し,候補の中で有名度が突出 している候補を優先して処理を行う.しかしこの手法 では,店の少ない地域の地名では,正しい緯度経度情 報が付与されない問題点がある.地名からその場所を 特定する点で本研究と類似している.しかし,場所の 特定に店舗数と距離を利用している.本研究では場所 を特定できる表現を抽出し,ジオコーディング行って いる点で異なっている. 曖昧性のある地名に対して正しい緯度経度情報を 度・経度情報を付与しなかったデータを含む . 3.2.地 名 表 現 の抽 出 本節では,旅行ブログエントリから地名表現抽出し, 抽出した地名表現へタグ付けを行う手法について説明 を行う.旅行ブログエントリから地名表現を抽出する た め に ,ADDRESS タ グ と FACILITY タ グ の 2 種 類 の タ グ を 定 義 す る . 以 下 に ADDRESS と FACILITY の 定義を示す. ADDRESS: 住 所 . 例 え ば 「 広 島 市 」 の よ う な 広い範囲を示す地名ではなく, 「広島市安佐南区 大 塚 東 3-4-1」の よ う に 丁 番 地 ま で 記 載 さ れ て い るものとする. FACILITY:「 広 島 市 立 大 学 」 や 「 原 爆 ド ー ム 」 など厳密に場所を特定できる表現 入力した旅行ブログエントリの本文の中でメイントピ ックに対しての住所が記載されている場合は住所に ADDRESS タ グ を つ け , 住 所 の 記 載 が な い も の で 場 所 を一意に決められる表現が記載されているものにはそ の 表 現 に FACILITY タ グ を 付 与 す る . ま た , メ イ ン ト ピ ッ ク の 割 合 が 50%を 超 え て い る 場 合 の み を 対 象 と し , 図 3: CRF に 与 え た 素 性 と 動 作 の 模 式 図 3.3.緯 度 経 度 情 報 の 付 与 本 節 で は 旅 行 ブ ロ グ エ ン ト リ へ の 緯 度・経 度 情 報 の 自 例えば, 「 平 和 公 園 に 行 っ て そ の あ と 宮 島 ,最 後 に お 好 動付与について説明する.本研究では旅行ブログエン み 村 に 行 っ た .」の よ う に 複 数 の 場 所 を 移 動 し て い る ブ トリのタイプによる緯度・経度の付与を「食べる」タ ロ グ エ ン ト リ は ,ADDRESS タ グ ,FACILITY タ グ の 付 イ プ に 注 目 し て 行 っ た .3.2 節 の 手 法 を 用 い て ,緯 度 ・ 与の対象外にする. 経度が一意に定まるエントリのうち, 地名表現を抽出 一つの旅行ブログエントリに対して一つのタグを つけたものを人手でタグ付けを行ったデータとして用 いる.また,旅行ブログエントリにタグ付けを行った 結 果 の 一 部 を 図 1, 図 2 に 示 す . したブログエントリを対象にし,緯度・経度情報の付 与を行う. 本 研 究 の 緯 度 ・ 経 度 情 報 の 付 与 に は , 外 部 API で あ る Google Maps API を 用 い る .Google Maps API は 住 所 や地名,建物の名前などを入力とし,緯度・経度情報 を返すものである. 店 名 そ ば 吉 広 島 ア ル パ ー ク 店 ジ ャ ン ル そ ば ADDRESS タ グ が 付 与 さ れ る 地 名 表 現 は , API を 利 TEL082-276-8618 ※ お 問 い 合 わ せ の 際 は 「 食 べ ロ グ 用することで,緯度・経度を付与することができる. をた」とお伝えいただければ幸いです。住所 しかし,タイプ「食べる」の旅行ブログエントリに出 <ADDRESS> 広 島 県 広 島 市 西 区 草 津 南 現 す る FACILITY タ グ が 付 与 さ れ る 飲 食 店 名 は , 同 じ 4-7-1</ADDRESS>ア ル パ ー ク 北 棟 1F 交 通 手 段 商 工 名前の店が複数存在する場合があるため,緯度・経度 セ ン タ ー 入 口 駅 か ら 120m 営 業 時 間 11:00 を一意に定めることができない.この問題を解決する 図 1.ADDRESS タ グ の 例 ために,タイプ「食べる」の旅行ブログエントリに緯 度・経度を付与する際は,飲食店名と住所が大量に登 お 店:<FACILITY>ふ じ の 屋 </ FACILITY >/ 宮 島( 広 電宮島口駅横) メ ニ ュ ー : あ な ご め し ( 1,380 円 )( 吸 い 物 、 新 香 付 録されているグルメサイト「ホットペッパーグルメ」 を利用する.具体的には以下の手順で行う. (1) ードとして,レストランのページを検索する. しを。 「 う え の 」と い う お 店 が 有 名 で 、構 え も い か に も (2) 検 索 さ れ た レ ス ト ラ ン の ペ ー ジ か ら ,住 所 が 記 載 (3) 住 所 に 対 し API を 利 用 し て 緯 度・経 度 を 付 与 す る . された個所を抽出する. こちらのお店に。こんがり香ばしく焼けた穴子の蒲焼 が、ご飯の上に並んでいる。甘みを抑えたすっきり系 のタレで、あまり重たくない。 図 2: FACILITY タ グ の 例 <直 近 に 出 現 す る LOCATION タ グ が 付 与 さ れ た 地 名 >」を キ ー ワ き)土曜日、東京に帰る前に宮島で、名物のあなごめ 立 派 な の だ が 、か な り 待 た な け れ ば な ら な か っ た た め 、 グ ル メ サ イ ト で , 「 <飲 食 店 名 > ま た , LOCATION タ グ の つ い た 地 名 は FACILITY タ グの付与された地名表現が書かれている文と同じ文 の 中にあるものを用いる. 旅行ブログエントリに出現する地名表現の抽出に 緯 度・経 度 情 報 の 付 与 を 完 全 自 動 化 す る と ,誤 り が 含 機 械 学 習 の 1 つ で あ る ,CRF を 用 い る .人 手 で タ グ 付 まれる可能性が高いので,確実に付与できるもののみ けを行った旅行ブログエントリのデータを訓練用デー を対象とし,緯度・経度情報の付与を自動化する.場 タ と す る . CRF に 用 い る 素 性 は 以 下 の 通 り で あ る . 所を特定できる表現について,場所を一意に決められ (1) タ ー ゲ ッ ト の 前 後 k 個 の 形 態 素 . な い も の が あ る . 例 え ば ,「 広 島 市 安 佐 南 区 大 塚 東 3 (2) タ ー ゲ ッ ト の 前 後 k 個 の 単 語 の 品 詞 . 丁目」や「広島市安佐南区祇園」がある.これらは丁 (3) タ ー ゲ ッ ト 前 後 k 個 の 固 有 表 現 抽 出 結 果 . 番地が最後まで書かれてないので,誤った緯度・経度 固 有 表 現 抽 出 に は , 日 本 語 係 り 受 け 解 析 器 CaboCha 情報が付与される可能性がある. の 固 有 表 現 抽 出 機 能 を 利 用 す る .CRF に 与 え た 素 性 に ま た ,旅 行 ブ ロ グ エ ン ト リ に は 緯 度・経 度 が 一 意 に 決 ついて図 3 に示す.本研究では,予備実験の結果から まらないブログエントリが存在する.そのため, 人手 k=2 と 定 め た . で緯度・経度を一意に決めることができないと判断さ れた旅行ブログエントリには,実験で緯度・経度を付 ADDRESS タ グ の み の 場 合 ,FACILITY タ グ の み の 場 与 し な い よ う に し な け れ ば な ら な い . 3.2 節 の 手 法 を 合 ,ADDRESS タ グ と FACILITY タ グ の 2 つ の タ グ を 用いて,全エントリのうち,地名表現を抽出したブロ 用いた場合の平均を表 1 に示す. グ エ ン ト リ を 対 象 に し ,緯 度・経 度 情 報 の 付 与 を 行 う . ADDRESS タ グ に つ い て は と て も 良 い 結 果 が 得 ら れ その後,人手で緯度・経度を一意に決めることができ た .ADDRESS タ グ に つ い て 誤 り 例 の 一 部 を 示 す . 「広 ないと判断された旅行ブログエントリに緯度・経度を 島 県 広 島 市 佐 伯 区 五 日 市 5- 11- 22」 と い う 住 所 に タ 誤って付与したものを確認する. グをつけるべきであるが「広島県広島市佐伯区五日市 4.実 験 5- 11」 に タ グ を 付 与 し て お り 「 - 22」 と い う 部 分 に 本 節 で は ,地 名 表 現 の 抽 出 と Google Maps API に よ タ グ が 付 か な か っ た . ま た , FACILITY タ グ の 誤 り 例 る緯度・経度情報の付与における提案手法の有効性を の 一 部 を 示 す .飲 食 店 名 と し て 抽 出 す べ き , 「 和 田 」は 確 認 す る た め 行 っ た 実 験 と 結 果 に つ い て 述 べ る . 4.1 人名として, 「 ぶ ら じ る 」は 国 名 と し て 判 断 さ れ タ グ が 節 で は , 地 名 表 現 抽 出 実 験 , 4.2 節 で は , 緯 度 ・ 経 度 付与されなかった. 表 1: タ グ 付 け 実 験 結 果 の付与実験について述べる. 4.1.地 名 表 現 抽 出 実 験 精度 再現率 F値 ADDRESS 0.987 0.987 0.987 FACILITY 0.709 0.366 0.482 平均 0.860 0.703 0.774 本節では,提案手法の有効性を確認する実験につい て述べる. 4.1.1.実 験 方 法 本実験では,緯度・経度が一意に定まる旅行ブログ エ ン ト リ 2,595 件 を タ グ 付 け の 対 象 と す る . 訓 練 デ ー タには,各旅行ブログエントリで一番メインのトピッ ク の 割 合 が 50%を 超 え て お り ,緯 度・経 度 が 一 意 に 定 4.2.緯 度 ・ 経 度 情 報 の 付 与 実 験 ま る と 人 手 で 判 断 さ れ た も の に , ADDRESS(住 所 ) タ 本 節 で は , Google Maps API を 用 い て 緯 度 ・ 経 度 の グ , FACILITY( 施 設 )タ グ の タ グ 付 け を 人 手 で 行 い , 付与する実験について 2 段階に分けて述べる.まず, ADDRESS タ グ 160 件 と FACILITY タ グ 157 件 を 人 緯度・経度が一意に定まるエントリを 対象に提案手法 手 で 付 与 し た 緯 度 ・ 経 度 が 一 意 に 定 ま る エ ン ト リ 317 により地名表現からどのくらい正確に緯度・経度を付 件 の デ ー タ を 用 い て ,CRF に よ る 機 械 学 習 を 行 い 自 動 与できるか確認するための実験を行う.次に,全エン でタグ付けをする.どのくらい正確に付与できている トリを対象に,地名表現から緯度・経度を付与し,人 か確認するため,2 分割交差検定を行う.評価には精 手で緯度・経度が付与すべきでないエントリにどのく 度,再現率,F 値を用いる. らい誤って緯度・経度を付与したかを確認する実験を 【評価尺度】 行 う .4.2.1 節 で は ,緯 度・経 度 が 一 意 に 定 ま る エ ン ト 以下の式に示す精度,再現率,F 値を用いる. リ を 対 象 に 行 っ た 実 験 ,4.2.2 節 で は ,全 エ ン ト リ を 対 提案手法によって抽出された正解タグの数 精度= 提案手法によって抽出されたタグの数 象に行った実験について述べる. 4.2.1.緯 度・経 度 が 一 意 に 定 ま る エ ン ト リ を 対 象 とした実験 4.2.1.1. 実験方法 本 実 験 で は , 4.1 節 の 結 果 か ら , ADDRESS タ グ と 提案手法によって抽出された正解タグの数 再現率= FACILITY タ グ の 2 つ の タ グ が 付 与 さ れ た 訓 練 デ ー タ を用いてタグ付けを行い,タグの付与された旅行ブロ 提案手法によって抽出されたタグの数 グ エ ン ト リ の 緯 度 ・ 経 度 が 一 意 に 定 ま る エ ン ト リ 436 件を対象として提案手法の有効性を示す比較実験を行 2 × 精度 × 再現率 F 値= 精度 + 再現率 う . 提 案 手 法 の ADDRESS タ グ と FACILITY タ グ の それぞれについて,緯度・経度の付与の方法を以下に 示す. (1) 4.1.2.実 験 結 果 と 考 察 旅 行 ブ ロ グ エ ン ト リ (緯 度・経 度 が 一 意 に 定 ま る エ ン ト リ )に 対 し て CRF を 使 っ た 2 分 割 交 差 検 定 の 結 果 を ADDRESS タ グ に つ い て ADDRESS タ グ の 付 い た 地 名 表 現 は そ の ま ま Google maps API へ 入 力 し , 緯 度 ・ 経 度 を 取 得 す る . また,タグを付与したブログのうち,タグ 付けされた 住所が丁番地までしっかり書かれていないものや,タ グの中に複数の住所が入っているもの,過度に文字数 4.2.2. が多く正確な緯度・経度の付与ができないと判断した 4.2.2.1. ものを除いて,緯度・経度の取得を行う. (2) FACILITY タ グ に つ い て 全エントリを対象とした実験 実験方法 全エントリには,観光ブログとして適切であり,緯 度・経度が一意に決まると判定され人手で緯度・経度 FACILITY タ グ の 付 い た 地 名 表 現 は ,「 食 べ る 」 タ 情報を付与した観光ブログ(緯度・経度が一意に定ま イプに分類された旅行ブログエントリの場合, ホット るエントリ)の他に,緯度・経度が一意に決まらない ペッパーグルメから住所を抽出し,抽出した住所を と判定され人手で緯度・経度情報を付与しなかった旅 Google maps API へ 入 力 し , 緯 度 ・ 経 度 を 取 得 す る . 行ブログエントリも含まれている.このように旅行ブ また,タグの中の表現が文になっているものや,過度 ログエントリには,一意に緯度・経度が定まらないブ に文字数が多く正確な緯度・経度の付与ができないと ログエントリもあるため,一意に緯度・経度が定まら 判断したものを除いて,緯度・経度の取得を行う. ない観光ブログエントリも含まれたデータを対象とし 比 較 手 法 に つ い て 以 下 の よ う に 定 め る . ADDRESS た 実 験 を 行 う . 本 実 験 で は 4.1 節 の 結 果 か ら , タグについては提案手法と同じように緯度・経度取得 ADDRESS タ グ と FACILITY タ グ の 2 つ の タ グ が 付 与 を 行 う .FACILITY タ グ に つ い て は 旅 行 ブ ロ グ エ ン ト された訓練データを用いてタグ付けを行い,タグの付 リ の タ イ プ に 関 係 な く 地 名 表 現 を そ の ま ま Google 与 さ れ た 全 エ ン ト リ 462 件 を 対 象 と し て ,緯 度・経 度 maps API へ 入 力 し , 緯 度 ・ 経 度 の 取 得 を 行 う . 情報の付与を行う.緯度・経度を付与しないブログエ 実験により取得した緯度・経度と,緯度・経度が一 ントリに誤って緯度・経度を付与していないか,人手 意に定まるエントリにもともと人手で付与した緯度・ で確認する. 経度の 2 点間の距離から誤差を計算し誤差が地図上で 4.2.2.2. 10m 以 内 の も の を 正 解 と し , 正 解 率 を 出 し 評 価 す る . 全 エ ン ト リ に 自 動 的 に 緯 度・経 度 情 報 の 付 与 を 行 っ た . 【評価尺度】 その結果,緯度・経度情報が付与されたブログエント 以下の式に示す正解率を用いる. リの数,正解数,緯度・経度情報を付与すべきでない 提案手法によって抽出された正解タグの数 正解率= 提案手法によって抽出されたタグの数 実験結果と考察 ブログエントリへ緯度・経度情報を付与してしまった 旅行ブログエントリの数(以下,付与誤り数)をまと めたものを表 3 に正解率を表 4 に示す.また,緯度・ 経度を付与できないと人手で判断した旅行ブログに誤 4.2.1.2. って緯度・経度を付与した誤り例を図 4 に示す.表 3 実験結果と考察 緯度・経度が一意に定まるエントリに自動的に緯度・ 経度情報の付与を行った.その結果,緯度・経度情報 が付与された観光ブログエントリの数,自動的に付与 された緯度・経度が人手で付与した緯度・経度と比較 し誤差の範囲内であった観光ブログエントリの数(以 に示すブログ数とは,正解数,緯度・経度が付与され たが誤差の範囲外となったもの,付与誤り数を合わせ たものである. 表 3: 緯 度 ・ 経 度 情 報 の 自 動 付 与 の 結 果 ブログ数 正解数 付与誤り数 399 268 7 下,正解数)をまとめた.正解率による比較結果を表 2 に示す. 表 2: 緯 度 ・ 経 度 の 付 与 実 験 の 結 果 正解率 比較手法 提案手法 0.640 (254/395) 0.679 (254/374) 提案手法により,観光ブログエントリのタイプによ って緯度・経度付与の仕方を切り替えることでより正 確な緯度・経度が付与できたことがわかる.本実験で 正解数は増えなかったが,間違った緯度・経度の付与 するケースを減らすことに成功した.その結果 ,正解 率 を 0.039 ポ イ ン ト 向 上 さ せ る こ と が で き た . 表 4: 緯 度 ・ 経 度 の 付 与 実 験 の 結 果 正解率 0.672 (268/399) エールエールの意味<基町クレド (商環境デザイン 賞 受 賞 の ス タ イ リ ッ シ ュ な 複 合 施 設 ) <ADDRESS>広 島 市 中 区 基 町 6-78</ADDRESS> > < マ リ ー ナ ホ ッ プ ( 中 四 国 発 の ア ウ ト レ ッ ト モ ー ル ) <ADDRESS>広 島 市 西 区 観 音 新 町 4-14</ADDRESS>> ( こ ぼ れ ば な し ) 広島都市圏唯一の観覧車<アルパーク 図 4: 付 与 誤 り 例 表 3, 表 4 よ り 緯 度 ・ 経 度 が 一 意 に 決 ま ら な い と 判 断 されたが,緯度・経度情報を付与したものがあること が わ か っ た . 図 4 に 示 し て あ る ADDRESS タ グ が 付 い ている地名表現から緯度・経度が付与できているが, この旅行ブログエントリは複数のタグが付いているた め,付与誤り例となった.これは,1 つの観光ブログ エ ン ト リ に 対 し て , 複 数 の ADDRESS タ グ が 付 い て い た場合,タグのついた地名表現の類似度を計算し,緯 度・経度情報を付与すべきかどうか判断することで解 消できると思われる. 5.お わ り に 本研究では,旅行ブログエントリ中から,場所を特 定できる表現を自動的に抽出し,ブログエントリのタ イプによって緯度・経度を付与の仕方を切り替える手 法 を 提 案 し た . 4.2 節 の 比 較 実 験 に よ り , 提 案 手 法 で は 正 解 率 0.679 を 得 た .比 較 手 法 と 比 べ て ,0.039 ポ イ ント向上させることができ,提案手法の有効性を確認 す る こ と が で き た .ま た , 「 食 べ る 」と 分 類 さ れ た 場 合 のみしか実験を行っていないので, 「 泊 ま る 」や「 買 う 」 などのタイプに分類されたものも「食べる」の場合と 同じように,外部サイトから住所を抜き出すことで, より正確な緯度・経度の付与が可能になると考えられ る. 謝辞 本研究の位置具は総務省による戦略的情報通信研 究 開 発 推 進 制 度 ( SCOPE) の 支 援 を 受 け て 行 わ れ た . 参 考 文 献 [1] 石 野 亜 耶 ,藤 井 一 輝 , 藤 原 泰 士 , 前 田 剛 , 難 波 英 嗣 , 竹 澤 寿 幸 ,“ 旅 行 ブ ロ グ エ ン ト リ と 質 問 応 答 コンテンツを利用した旅行ガイドブックの情報 拡 張 ”,『 人 工 知 能 学 会 論 文 誌 』, Vol.29 , No.3 , 328-342, 2014. [2] 石 野 亜 耶 , 難 波 英 嗣 , 竹 澤 寿 幸 , “ 旅 行 ブ ロ グ エ ン ト リ か ら の 観 光 情 報 の 自 動 抽 出 ” ,日 本 知 能 情 報 フ ァ ジ ィ 学 会 誌 ,vol.22(6),pp.667-679,2010. [3] 伊 川 洋 平 , 榎 美 紀 , 立 堀 道 昭 , “マ イ ク ロ ブ ロ グ の メ ッ セ ー ジ を 用 い た 発 信 場 所 推 定 ” , DEIM Forum 2012 F7-2. [4] 齋 藤 邦 子 , 鈴 木 潤 , 今 村 賢 治 ,“ CRF を 用 い た ブ ロ グ か ら の 固 有 表 現 抽 出 ”, 言 語 処 理 学 会 2008 , C4-5. [5] 金 木 雄 太 , 山 田 剛 一 , 絹 川 博 之 , 中 川 裕 志 ,“ 地 名辞書を利用した地名の曖昧性解消と文書の地 域 分 類 ”, 人 工 知 能 学 会 論 文 集 , 2005. [6] 平 野 徹 , 松 尾 義 博 , 菊 井 玄 一 郎 ,“ 地 理 的 距 離 と 有 名 度 を 用 い た 地 名 の 曖 昧 性 解 消 ”, 情 報 処 理 学 会 全 国 大 会 講 演 論 文 集 ,Vol.70,No.2,pp.285-286, 2008. [7] 河 野 愛 樹 ,中 村 健 二 ,小 柳 滋 ,“マ イ ク ロ ブ ロ グ か ら抽出した地物情報と投稿間隔を考慮した位置 情 報 推 定 ”,全 国 大 会 講 演 論 文 集 ,Vol.2011,No.1, pp.785-787, 2011.
© Copyright 2024 ExpyDoc