プライバシー保護データマイニング ビッグデータにおける プライバシーの課題 菊池浩明 匿名化のリスク 明治大学 [email protected] 世界最先端IT国家創造宣言 n 2013年6月14日閣議決定 n n 1. 革新的な新産業・新サービスの創出 と全産業の成長を促進する社会の実現 q (1) 公共データの民間開放(オープンデータ) ・ビッグデータの活用の推進 » 公共データの案内・横断的検索を可能とするデ ータカタログサイト » 個人情報保護ガイドラインの見直し.第三者機関 の設置を含む、新たな法的措置も視野に入れる. http://www.kantei.go.jp/jp/singi/it2/dai61/siryou2-1.pdf Suica履歴をJR東日本が販売 n 2013年7月26日 概要 q 目的:携帯電話事業 を通じた社会貢献 の一環 q 各基地局に所在す る携帯電話数,性別 ,年齢層別,居住別. q 都市計画,人口変 動調査,防災計画, 帰宅困難者対策 http://www.nttdocomo.co.jp/corporate/disclosure/mobile_spatial_statistics/ 「個人情報」とは n 定義 q JR東日本は4,300万枚 のSuicaの乗降履歴を, 7月から販売していた. q 名前,連絡先は除外, 性別と年月日は含む. q 日立製作所が購入. 市場調査用統計リポ ート,10駅分500万円. q 7月31日までに8,823 件の除外申請. 例)ライフログビッグデータ Docomo モバイル空間統計 q 個人情報: 生存する個人に関する情報であ 123, 菊池,03-123, 123, 菊池,03-123, 123, 菊池,03-123, 1980年,男性, 123, 菊池,03-123, 1980年,男性, 1980年,男性, 中野, 1980年,男性, 中野, 中野, 2013年8月09日, 中野, 2013年8月09日, 2013年8月09日, 160円 2013年8月09日, 160円 160円 160円 123, 菊池,03-123, 123, 菊池,03-123, 123, 菊池,03-123, 1980年,男性, X32, *,*, 1980年,男性, 1980年,男性, 中野, 1980年,男性, 中野, 中野, 2013年8月09日, 中野, 2013年8月09日, 2013年8月09日, 160円 2013年8月09日, 160円 160円 160円 って,当該情報に含まれる氏名,生年月日 その他によって特定の個人を識別すること ができるもの. q 匿名化: 個人情報から個人を識別すること が出来る情報の全部又は一部を取り除き, 代わりにその人と関わりのない符号又は番 号を付すこと. http://digital.asahi.com/articles/TKY201307260002.html 1 匿名化と暗号化 匿名化の処理 n n 暗号化 q 1. q 2. q 3. q 4. q 5. 暗号化 平文 暗号文 攻撃(解読) 平文解読,識別可能 × CPA,CCA n 匿名化 n 氏名 年齢 駅1 菊池 克巳 30 駅2 仮ID 駅1 匿名化 33 新宿 中野 オリジナルレコード 攻撃 (再識別) 処理 注意. q k-匿名化,l-多様化などの性質はまだ考えない.2,3,4 駅2 の組み合わせはNP完全. 新宿 中野 q 他にも,ノイズデータを加える(摂動化),確率的に 匿名化レコード データを交換する(swap),統計情報を基にサンプリン グ(re-sampling), 合成 (synthesis) などもある. ? 匿名化例 仮名化(IDを除くだけ) 属性削除(列削除) レコード削除(行削除) 一般化 統計化 「再識別化」の種類 列削除 氏名 仮ID 日付 乗駅 降駅 残高 菊池 3 10/14 新宿 中野 1200 高橋 4 10/14 新宿 三鷹 840 佐藤 5 10/14 新宿 御茶ノ水 600 菊池 3 10/15 中野 御茶ノ水 1020 仮ID 駅1 駅2 駅3 4駅 3 新宿 中野 中野 御茶ノ水 4 新宿 中野 三鷹 新宿 ユーザ 5 数 3 n=3 新宿 御茶ノ水 御茶ノ水 新宿 中野 御茶ノ水 人口 n 駅数 448, 千葉395, 埼玉 291, 栃木,群馬 q n = 42,598,300 = 4 x 107 q 関東地方(東京 930, 42,470,000 仮ID 駅1 駅2 3 新宿 中野 4 新宿 中野 3 中野 御茶ノ水 4 中野 御茶ノ水 6 新宿 信濃町 (2) 識別非特定 (仮IDが同じ人を リンク出来る) (3) 一意識別 (その駅に降りた人が 一人しかいない) 評価1 (仮名化の評価) q 総数 9,262件 q Suica 発行枚数 3 SUICAの案件は(2)を見落としている. k−匿名性で議論しているのは(3)だけ. q 東京 930万,神奈川 (2012年4月1日, Wikipedia) 菊池 駅数 s=4 基本データ n (1) 特定個人 再識別可能 神奈川 448, 千葉 395) m = 2,497 = 2.5 x 103 (http://info.jmc.or.jp/ekiensen.html ) q JR西日本 811駅, Pasmo 1,291駅,JR 東海 149, JR西日本 430駅 n 問題 q 各カードにs個の駅名があるとすると,(全員 が)再識別できるsはいくらか. n 仮定 q m個の駅乗降は一様に分布する独立事象 n 解 q ms ≧ n (全ユーザ数) を解いて, s = 2.237 駅.(3駅あれば全利用者が再識別できる) 2 sに対する再識別順位x* 評価2 (k-匿名化の評価) n x* = 23693 信濃町(153位) x 昭島 (154位) 99.9 % 行削除する必要性 P(x) 再識別可能 順位 x* 再識別可能 確率 k/n 再識別可能 レコード 行削除しないと 危険なデータ x* = 234位 立川(15位) x 浜松町 (16位) x 田町 (17位) 第 x 位 匿名化と課題 匿名化 プライバシー保護データマイニング 病院 A 病院 B Privacy-Preserving Data Mining 概要 PPDM 病院 A 病院 B AI needs Security n Privacy-Preserving Data Mining: Models and Algorithms By Charu C. Aggarwal , Philip S. Yu, Springer, 2009. n Privacy Concerns required now! 氏名 ID 年齢 術式 入院日 菊池 一郎 32 C 2011/12 佐藤 次郎 63 C 2011/12 加藤 三郎 51 P 2012/2 44 P 2012/3 鈴木四郎 氏名 匿名 化 32 C 2011/12 佐藤 次郎 63 C 2011/12 加藤 三郎 51 P 2012/2 44 P 2012/3 鈴木四郎 術式 入院日 30 C 2 60 C 2011 3 50 P 2012 4 P 2012 40 2011 (1) 属性情報から再識別化リスク (2) データ削除による精度劣化 ID 年齢 術式 入院日 菊池 一郎 年齢 1 暗号 化 年齢 術式 入院日 1 224 126 832 2 727 902 265 3 720 844 554 4 020 947 402 暗号化したまま正確な疫学調査 PPDM Class [Aggarwal 2009] n 1. Randomization q Adding artificial random noise. Perturbation Approach. n n 2. k-anonimity model 3. Distributed privacy preservation q Cryptographical Approach. Primitives of MPC (Multi-party Computation), OT (Oblivious Transfer) n 4. Downgrading q Downgrading effectiveness of mining knowledge to prevent them from analyzing 3 Tradeoff Vertically Partitioned Data n Safety statistics Players Gender age Milk Beer q Shop B F 20s 0 0 q regulation M 10s 0 1 M 30s 1 1 F 30s 0 1 F 10s 1 0 M 20s 1 1 q Agency A (no risk of leakage) Privacy-Preserving Data Mining Blog SNS n Objective q Common Knowledge of Beer Buyers Medical records Agency A Shop B private Horizontally Partitioned Data n n Players 比較 Gender Age Owner beer q Shop A F 20s Y 0 q Shop B M 10s N 1 q Competitors M 30s Y 1 Shop A Objective q Common Knowledge of Beer Buyers q Accuracy F 30s Y 1 F 10s N 0 M 20s N 1 Shop B 2 マイニング 1 摂動 マイニング ノイズ除去 分散計算 復元 秘匿計算 復号 知識 3 分割 汎用性 効率 △ ○制約 なし △ ○任意 1b. MDAV サンプリング △+ ○ △++ ○ ○- 2. 匿名化 一般化,削除 △ ○ △- ○ △ NP 完全 3. 秘匿計算 [LP00] OPE,エント ロピー ○ 2 ○ 決定木 × 3b. SFE [Yao] 1-out of-4 OT ○ ○(基本 は2) ○ ○ブール関 数 ×-- 3c. 水平分割 [JW05] 準同型性 ○ 2 ○ クラスタリン グ × 3d. P2P [Canny 02] 準同型,特異 値分割 ○ ○ ○- 固有値 ×- ○ 各自 独立 Author Application Tricks Perfor mance 1 Naïve Bays Vaidya Clifton [27] Classify Identify Conditional probability (scalar prod.) Good 2 Decision Tree Du & Zhao [8] Classify Identify Entropy gain (OFE) Fair 3 k-menas Vaidya& Clifton [26] Clustering Euclidian Bad distance (scalar prod. & SFE) 4 Associati on Rule Vaidya & Clifton [25] Knowledg e Support (scalar prod.) good Recomme ndation Eigenvalue (dist. SVD) Bad 4 Downgrading 3 暗号化 精度 分割数 秘匿 ランダマイ ズ,ベイズ Data Mining マイニング データ 要素 1. 摂動法 Summary of PPDM アプローチの違い 匿名化 技術 5 Collabora Canny, tion Kikuchi Filtering 4 ヘリコバクター・ピロリ n Helicobacter pylori q 胃に感染するらせん状の細菌 q 胃炎,胃潰瘍,十二指腸潰瘍 PPDMの応用 プライバシー保護疫学調査 疫学調査 n n 統計量 χ= 加法準同型性 a c ad / ≈ a + b c + d bc N − 1((ad − bc ) ± N / 2) (a + c) (b + d )(a + b)(c + d ) (Homomorphic Property) E + m+m’ 氏名� 年齢� 部位� 氏名� E(m, r) E(m’, r’) × E n Privacy-preserving 胃境界� 吉田哲郎� 45 2001 佐久間淳� 28 胃底部� 菊池浩明� 25 2001 三上春雄� 35 幽門� 古川和彦� 35 2002 組織A (千葉がんセンター)� 組織B (厚生省・保健所)� セキュア内積プロトコル B X = (富山,菊池,松尾,若林)� � = (1, 0, 1, 1) Xの暗号化� E(1) computations Y = (富山,菊池,松尾,若林)� � = (1, 1, 1, 0) E(1), E(0), E(1), E(1) E(m+m’, r+r’) E(m,r) × E(m’, r’) = E(m+m’, r+r’) E(m,r)x = E(mx,rx) 年齢� 検診日� 菊池浩明� 25 A n 可換な図 m m’ 組織A, Bが互いのデータセット を秘匿して,相対危険度RRを求める n 研究目的: がん罹患� 対象(無) 罹患率� a b a/(a+b) c d c/(c+d) 相対危険度 (Relative Risk) RR = n 研究目的: 安全な疫学調査 患者-対象調査 要因� ピロリ菌� 未感染� http://ja.wikipedia.org� の原因のひとつ q 40-50%の感染率(日本の40代以上 70%) 先進国は低い q 発ガン性は認められているが,そのリスクはま だ明らかになっていない c 復号� D(c) = D(E(2)) = 2 = | X ∩ Y | 合計のみ分かる � c=E(1)1E(0)1E(1)1E(1)0 =E(1*1) E(0*1) E(1*1) E(1*0) =E(1 + 0 +1 + 0) =E(2) 5 データセット CAN(がんセンター) n 人口分布 n 4000 氏名,性別,生年月 日,住所� 受付番号,診断日, 死亡日� 胃(小湾,大湾,底 部),幽門� 悪性リンパ腫,血管, 腫瘍� 分化度� 0〜9 100.00% 3000 80.00% 頻度 2500 2000 60.00% 1500 40.00% 1000 20.00% 500 20 00 19 80 19 60 19 40 0.00% 19 20 19 00 0 がん患 者数� 属性 基本� 情報� 管理� 情報� 診断� 部位� 組織� 120.00% 3500 照合結果 生年月日 非登録者� 計� ピロリ菌� 80 2,549 2,629 非保有者� 346 106,988 107,334 計� 426 2,999,574 3,000,000 相対危険度 RR = 9.70 (ピロリ菌はがんに9.7倍なりやすい) 有意性 χ = 17.81 (98%以上の確からしさで有意) � 処理時間 2500 "thread.txt" f(x) 1024bit Pailier暗号, Hadoop, Intel E5 Processing time [s] 2000 1500 Randomized Approach n = 14万件 (105)の時, 40分 (1CPU) 3分 (16 CPU) 1000 Perturbation 500 0 0 2 4 6 8 10 12 14 16 # of threads k 1. Randomization n Proposed by q Agrawal R., Srikant R. Privacy-Preserving Data Mining. Proceedings of the ACM SIGMOD Conference, 2000. q Idea: adding noise and reconstruction (denoise process based on Bays’s theorem) n Pros: scalability (no interaction) n Cons: outlier, PCA attack Perturbation n Learning data gender Beer X Random R Y q True X F 0 1 0 (unknown distribution) q Random R (known distribution) q Randomized Y Y = ƒ(X, R) M 1 0 1 M 1 1 1 Shop A F 1 0 0 F 0 1 0 M 1 0 1 Shop B 6 How to discard random noises Random Yes 25% 0.5 Yes 45% fXj+1(a) := (Bayes' rule) ∞ −∞ m=6 fY (( xi + yi ) − a ) f Xj ( a ) j := j+1 until (stopping criterion met) n Converges to maximum likelihood estimate. q D. Agrawal & C.C. Aggarwal, PODS 2001. 10 8 6 4 k (True ballots) x 2 = 40%" fY (( xi + yi ) − a ) f Xj ( a ) ∫ 0.2 0 fX0 := Uniform distribution j := 0 // Iteration number repeat n 1 ∑ n i =1 m=10 m=8 0.1 Reconstruction: Bootstrapping 0.3 2 True Yes 20% True No 30% 0.4 0 No 55% 0.6 P(k|m) Random No 25% 60% = 2 x" Probability Distribution of P(k|m) 評価値行列 X i1 i2 i3 i4 i5 Y i1 i2 i3 i4 i5 u1 2" 2" 3" 1" 0" u1 2" 3" 1" 1" 0" u2 1" 3" 2" 0" 3" 摂動化 u2 1" 1" 2" 0" 1" u3 2" 0" 3" 3" 2" u3 1" 0" 3" 3" 0" u4 3" 2" * 2" 2" u4 3" 2" * 2" 3" オリジナルデータ 偽データ 実験1:再構築された評価の分布 X Z Y 生活習慣とがんの相対危険度 の安全なコホート調査 7 JPHC 多目的コホート研究 n 多目的コホート研究に基づくがん予防な ど健康の維持・増進に役立つエビデンス の構築に関する研究 身体活動量とがんの関係 n n q 国立がん研究センター,11保健所,国立循 環器病研究センター q 活動量 q 14万人コホート, MET x 時間 20年間に渡る追跡調査 q 生活習慣アンケート, 血液資料,健康診断 n 課題 患者-対象調査 n (1) 要因� がん罹患� 対象(無) 罹患率� 高運動量� a b a/(a+b) 低運動量� c d c/(c+d) n 統計量 χ= ID 氏名� N − 1((ad − bc ) ± N / 2) (a + c) (b + d )(a + b)(c + d ) 秘匿積集合プロトコル [AES03] n 照合タグ(可換性を満たす一方向性関数) 1. 乱数 u ∈ Zq H(1)u, H(2)u, H(3)u 3. 照合 B Y = {2, 3, 4} 2. 乱数 v ∈ Zq H(2)v, H(3)v, H(4)v H(1)uv, H(2)uv, H(3)uv H(2)vu, H(3)vu, H(4)vu H(1)uv, H(2)uv, H(3)uv 年 部位� 齢� 10 菊池浩明� 25 胃境界� a c ad / ≈ a + b c + d bc A X = { 1, 2, 3} 個人情報の目的外利用 n (2)一意な識別子の欠落 相対危険度 (Relative Risk) RR = n 男0.74 女0.87 多目的コホート研究の成果 2013, 多目的コホート研究 事務局 疫学調査 n 定期的に体を 動かす人はが んのリスクが減る 運動強度指数 MET (Metabolic Equivalent) マッチ数 z = 2 = |X∩Y| 識別の困難さは素体上のDDH問題に帰着することが証明されている 11 佐久間淳� 28 胃底部� ID 氏名� 年齢� METs� 301 吉田哲郎� 45 H 302 菊池浩明� 25 H 303 古川和彦� 35 L 12 三上春雄� 35 幽門� 個人識別子 n 一方向性ハッシュ関数 q H: {0,1}* → {0,1}128 q SHA1, SHA2 (256) 標準化アルゴリズム q 例) ID1 = H(菊池浩明,明治大学) = 1938374 q 安全性: AES 02ではIDは互いに漏洩しな いので,名前から決め打ちされる恐れは ない. n 課題: 入力に使う個人属性は何が適当か 8 漢字表記氏名の課題 n 1. 同姓同名者の調査(氏名カナ) 異体字,システム独自拡張外字 同姓同名数 q 斉藤,斎藤,齋藤,齊藤,…. q UTF-16では37,000字を対応できない n 2. 同姓同名問題 JPHC 文献[4] 電話帳 同姓同名数の順位 個人属性の組み合わせ 実験結果 PSOモデ 重複最大数 未解決 ル絞り込み レコード数 量 [bit] 属性組 A 氏名カナ+ 姓名 14 30 30180 B 氏名カナ+姓名+生年月日 30 2 16 C 氏名カナ+姓名+生年月日 +都道府県 36 2 12 D 氏名カナ+姓名+生年月日 +住所 56 0 0 E 氏名カナ+生年月日+住所 55 0 0 F 氏名カナ+住所 40 2 16 G 姓名+生年月日+住所 42 2 10 確率検定 交絡因子肥満度 n 身体活動量と結腸がんの関係 BMI27を削除 本実験結果(相対危険度) 井上 2008 (オッズ比) 男性に関しては,身体活動量が適量あれば がん罹患のリスクが軽減する. 結論 n プライバシーを保護して分散されたデー 活動量Lを基準として,95%有意水準(3.8)を超えて 相対危険度が下がる タセット間で相対危険度を安全に計算す るシステムを実装した. n 識別子として,カナ表記の氏名+生年 月日+住所の属性のハッシュ値を利用. n 14万件のデータを4分間で正確に結腸 がんの相対危険度と確率検定を実施. 9
© Copyright 2025 ExpyDoc