1 機械学習勉強会 2009年9月24日 P. Domingos and M. Richardson, Chap. 12 Markov Logic: A Unifying Framework for Statistical Relational Learning in Introduction to Statistical Relatinal Learning, eds, L. Getoor and B. Taskar, MIT Press, 2007 H. Poon and P. Domingos (2009) Unsupervised Semantic Parsing, in Proc. of EMNLP 2009 (best paper award) H. Poon, C. Cherry and K. Toutanova (2009) Unsupervised Morphological Segmentation with Log-Linear Models, in Proc. of NAACL/HLT 2009 (best paper award, IBM Best Student Paper) 2 論理式をMarkov Network(=Markov Random Field)において定式化した枠組 3 一階知識ベース (KB) › 一階述語論理の論理式の集合 › 論理式は次の4つの構成素から成る 定数 (constant) [Anna, Bob, Chrisなどのオブジェクト] 変数 (variable) [x, y, zなど] 関数 (function) [オブジェクトのタプルからオブジェクトを返す 関数。MotherOfなど。ここでは使わないことにする] 述語 (predicate) [オブジェクトの関係や属性を表す。Friends, Smokeなど。] › 論理式F1, F2に対し次も論理式 ¬F1 (negation) ∀F1 (universal quantification) ∃F1 (existential quantification) F1 ∧ F2 (conjunction) F1 ∨ F2 (disjunction) F1 ⇒ F2 (implication) F1 ⇔ F2 (equivalence) 4 項 (term): 定数、関数、変数からなる構造体 › Anna, Bob, MotherOf(Anna)など › 変数付のデータ構造と考えれば良い › 定数の集合が有限で、関数を使わなければ、項の集合は有限 アトム(atomic formula, or atom) › 項が適用されている単一の述語から成る論理式をアトムと呼ぶ Friends(x, MotherOf(Anna)) グラウンド(ground) › 基底項 (ground term):変数を含まない項 › ground atom/ground predicate: 全ての項が変数を含まないアトム 可能世界/エルブラン解釈 › 全ての可能なground predicateに対する真偽値の割り当て 充足 › ある論理式Fが充足可能⇔Fが真となる世界が一つ以上ある 5 English First-order logic Clausal form Friends of friends are friends. ∀x∀y∀z Fr(x, y)∧Fr(y, z) ⇒ Fr(x,z) ¬Fr(x,y) ∨ ¬Fr(y,z) ∨ Fr(x,z) Friendless people smoke. ∀x (¬(∃y Fr(x, y))⇒ Sm(x)) Fr(x, g(x)) ∨ Sm(x) Smoking causes cancer. ∀x Sm(x) ⇒ Ca(x) ¬Sm(x)∨ Ca(x) If two people are friends, either both smoke or neither does. ∀x∀y Fr(x,y)⇒(Sm(x)⇔Sm(y)) ¬Fr(x,y)∨Sm(x)∨¬Sm(y), ¬Fr(x,y)∨¬Sm(x)∨Sm(y) 6 例 › › › 定数集合 = {Anna, Bob} 述語集合={Sm, Fr, Ca} 論理式 › Fr(Anna, Bob)が真となる世界は? ¬Sm(x)∨ Ca(x) ¬Fr(x,y)∨Sm(x)∨¬Sm(y) ¬Fr(x,y)∨¬Sm(x)∨Sm(y) ground predicate 値域 (真=1, 偽=0) 世界1~8 世界9~40 Sm(Anna) 1/0 1 0 Sm(Bob) 1/0 1 0 Ca(Anna) 1/0 1 1/0 Ca(Bob) 1/0 1 1/0 Fr(Anna, Anna) 1/0 1/0 1/0 Fr(Anna, Bob) 1/0 1 1 Fr(Bob, Anna) 1/0 1/0 1/0 Fr(Bob, Bob) 1/0 1/0 1/0 7 各論理式Fiに重みwiを付与 この重み付き知識ベースをMLNと呼ぶ English First-order logic Clausal form 重み Friends of friends are friends. ∀x∀y∀z Fr(x, y)∧Fr(y, z) ⇒ Fr(x,z) ¬Fr(x,y) ∨ ¬Fr(y,z) ∨ Fr(x,z) 0.7 ∀x Friendless people smoke. (¬(∃y Fr(x, y))⇒ Sm(x)) Fr(x, g(x)) ∨ Sm(x) 2.3 ∀x Sm(x) ⇒ Ca(x) Smoking causes cancer. ¬Sm(x)∨ Ca(x) 1.5 If two people are friends, either both smoke or neither does. ¬Fr(x,y)∨Sm(x)∨¬Sm(y), ¬Fr(x,y)∨¬Sm(x)∨Sm(y) 1.1 1.1 ∀x∀y Fr(x,y)⇒(Sm(x)⇔Sm(y)) 8 Fr(Anna, Anna) MLN Clausal form 重み ¬Sm(x)∨ Ca(x) 1.5 ¬Fr(x,y)∨Sm(x)∨¬Sm(y), ¬Fr(x,y)∨¬Sm(x)∨Sm(y) 1.1 1.1 Fr(Bob, Bob) Fr(Anna, Bob) Sm(Anna) Ca(Anna) Sm(Bob) Ca(Bob) Fr(Bob, Anna) ground predicate 値域 (真=1, 偽=0) Sm(Anna) 1/0 Sm(Bob) 1/0 Ca(Anna) 1/0 Ca(Bob) 1/0 Fr(Anna, Anna) 1/0 Fr(Anna, Bob) 1/0 Fr(Bob, Anna) 1/0 Fr(Bob, Bob) 91/0 MLN ⇔ 素性関数 Clausal form 重み ¬Sm(x)∨ Ca(x) 1.5 ¬Fr(x,y)∨Sm(x)∨¬Sm(y), ¬Fr(x,y)∨¬Sm(x)∨Sm(y) 1.1 1.1 ground predicate ⇔ 入力ベクトルx=<x1, x2, x3, …, x8> ground predicate 値域(真=1, 偽=0) Sm(Anna) 1/0 ⇔ x1 Sm(Bob) 1/0 Ca(Anna) 1/0 ⇔ x2 ⇔ x3 Ca(Bob) 1/0 Fr(Anna, Anna) 1/0 Fr(Anna, Bob) 1/0 Fr(Bob, Anna) 1/0 ⇔ x4 ⇔ x5 ⇔ x6 ⇔ x7 Fr(Bob, Bob) 1/0 ⇔ x8 10 世界x(ground predicateに対して具体的に0/1を割り当て たベクトル)に対する確率 P( X x) 1 1 exp wi ni ( x) i ( x{i} ) ni ( x ) Z i Z i ni(x) はxにおいてFiが真となる関係の個数 x{i}はFiに出現するアトムの真偽の状態 φi(x{i}) = exp(wi) これで、例えば、AnndとBobの喫煙習慣によって、彼らが 友達であるかどうかの確率が求まる 11 MLN: ∀x R(x) ⇒ S(x) with weight w 定数集合: C={A} 可能世界とその確率 › › › › ¬R(A), ¬S(A) ¬R(A), S(A) R(A), ¬S(A) R(A), S(A) ew P({R( A), S ( A)}) w 3e 1 ew P({R( A), S ( A)}) w 3e 1 1 P({R( A), S ( A)}) w 3e 1 ew P({R( A), S ( A)}) w 3e 1 P({R( A), S ( A)}) 1 P( S ( A) | R( A)) P({R( A), S ( A)}) P({R( A), S ( A)}) 1 e w w→∞で、P→1 に注意 (wを大きくする とハードな制約 に近づく) 12 P( F1 | F2 , L, C ) P( F1 | F2 , M ) P( F1 F2 | M L ,C ) P( F2 | M L ,C ) x F1 F2 P( X x | M L,C ) x P( X x | M L,C ) F2 F はFiを満たす全ての世界 i ものすごい計算量になる ・MCMCで計算 ・実データ上でtrueのものは計算しない ・条件部を満たさない世界は計算をしない ・著者は2フェーズの効率的アルゴリズムを提案している 13 ground atomのデータベースがあると仮定 closed-world assumption › データベースの中に無いground atomは全てfalseとする 可能なground atomがn個あるとすると、データベース は一つのベクトルx=(x1,…,xn)と表現できる › xj = 1 (データベースにxjが出現) › xj = 0 (それ以外) xの中にFiが満たされているアトムの出現回数をni(x)とす る log Pw ( X x) ni ( x) Pw ( X x' )ni ( x' ) wi x' ・Monte Carlo maximum likelihood estimator (MC-MLE) ・マルコフブランケットによる近似→L-BFGS 14 15 H. Poon & P. Domingos in Proc. of EMNLP-2009 スライドの大部分は下記URLからとってきています。 http://www.cs.washington.edu/homes/hoifung/talks/usp09.ppt Natural language text First-order logic First-order logic: Formal and detailed meaning representation E.g., Microsoft buys Powerset. BUY(MICROSOFT,POWERSET) 16 Manually construct a grammar Challenge: Same meaning can be expressed in many different ways Microsoft buys Powerset Microsoft acquires semantic search engine Powerset Powerset is acquired by Microsoft Corporation The Redmond software giant buys Powerset Microsoft’s purchase of Powerset, … …… Manual encoding of variations?→NO! 17 buys 入力 nsubj › 依存構造解析結果 Powerset 出力 › 意味構造 Microsoft dobj CBUY(n1)∧ABUYER(n1,n2)∧ABOUGHT(n1,n3)∧ CMICROSOFT(n2)∧ CPOWERSET(n3) QLF の主要形式(動詞や述語に相当)のクラス タリングと項形式(目的語や主語など)のクラ スタリングをMLNの枠組みで学習 18 buys nsubj Microsoft dobj Powerset Convert each node into an unary atom 19 buys(n1) nsubj Microsoft(n2) dobj Powerset(n3) n1, n2, n3 are Skolem constants 20 buys(n1) nsubj Microsoft(n2) dobj Powerset(n3) Convert each edge into a binary atom 21 buys(n1) nsubj(n1,n2) Microsoft(n2) dobj(n1,n3) Powerset(n3) Convert each edge into a binary atom 22 buys(n1) nsubj(n1,n2) Microsoft(n2) dobj(n1,n3) Powerset(n3) Partition QLF into subformulas 23 buys(n1) nsubj(n1,n2) Microsoft(n2) dobj(n1,n3) Powerset(n3) Subformula Lambda form: Replace Skolem constant not in unary atom with a unique lambda variable 24 buys(n1) λx2.nsubj(n1,x2) Microsoft(n2) λx3.dobj(n1,x3) Powerset(n3) Subformula Lambda form: Replace Skolem constant not in unary atom with a unique lambda variable 25 Core form buys(n1) Argument form λx2.nsubj(n1,x2) Microsoft(n2) Argument form λx3.dobj(n1,x3) Powerset(n3) Follow Davidsonian Semantics Core form: No lambda variable Argument form: One lambda variable 26 これをpartと呼ん でいる buys(n1) λx2.nsubj(n1,x2) λx3.dobj(n1,x3) CBUYS Microsoft(n2) CMICROSOFT Powerset(n3) CPOWERSET Assign subformula to lambda-form cluster 27 buys(n1) CBUYS 0.1 acquires(n1) 0.2 …… One formula in MLN Learn weights for each pair of cluster and core form Distribution over core forms 28 0.1 ABUYER acquires(n1) 0.2 ABOUGHT buys(n1) CBUYS …… APRICE …… May contain variable number of argument types 29 λx2.nsubj(n1,x2) 0.5 λx2.agent(n1,x2) 0.4 CMICROSOFT 0.2 CGOOGLE 0.1 None 0.1 One 0.8 …… …… …… Three MLN formulas Distributions over argument forms, clusters, and number 30 p∈+c∧Form(p, +f) ArgType(p, i, +a)∧ArgForm(p, i, +f) Arg(p, i, p’)∧ArgType(p, i, +a)∧p’∈+c’ Number(p, +a, +n) ただし、+のついた変数には実体が入っていて、異なる実体毎に重みが ついている(つまり、論理式は4つではなくて、ものすごくたくさんあ る) 31 クラスターとMLNの重みが学習済みとする 次のアルゴリズムで、依存構造→抽象化された意味構造を 出力 › › › › 1. 依存構造→QLF(変換) 2. QLF→parts(分解) 3. 各partを最大確率のクラスターに割り当てる 4. 全てのparts pに対し、 pがλ-reducibleならその結果を最大確率のクラスターに割り当 てる λ-reducible: pのλ式をreduceした結果がクラスターの要素と して存在している › 5. その中で最も確率を大きくする割り当てを選択 › 6. 確率が収束するまで4.5.を繰り返す。 技術: unordered subtree matching (Kilpelainen1992), inverted indexex 32 Observed: Q (QLFs obtained from dependency trees) Hidden: S (semantic parses) Maximizes log-likelihood of observing the QLFs L(Q) log P(Q, S ) S 問題: クラスターの数、割り当て、λ-reduction 33 論理式のグループ化 › MLNのある論理式集合に対しては、以下の制約を課す k e wi 1 i 1 あるcに対して、p∈+c∧Form(p,+f) あるaに対して、残りの3つのMLN論理式 経験的相対頻度を使う › p∈c∧Form(p,f)の重み=log(nc,f/nc) nc,fはp∈cとForm(p,f)を満たすpartの数 ncはp∈cを満たすpartの数 これで、P(Q,S)はclosed formで計算できる。 34 可能な全てのsemantic parseの尤度や期待 値の計算 › MC-SAT(Poon&Domingos2006)でも厳しい › sumをモードで近似 そもそも各partが一つもしくは少数のクラスタに しか属さないだろう 35 クラスターの生成 › 1. 次のオペレーションの結果をagendaに MERGE(C1, C2): Merge clusters C1, C2 E.g.: buys, acquires buys, acquires COMPOSE(C1, C2): Create a new cluster resulting from composing lambda forms in C1, C2 E.g.: Microsoft, Corporation Microsoft Corporation › 2.agendaの中で最も確率があがるオペレーションを(本当に)実 行 › 3. オペレーションの影響があるQLFについてのみ確率の計算 を再実行 › 4. 1.に戻って繰り返 36 37 GENIA dataset: 1999 Pubmed abstracts Questions › Use simple questions in this paper, e.g.: What does anti-STAT1 inhibit? What regulates MIP-1 alpha? › Sample 2000 questions according to frequency 38 Highest accuracy: 88% 300 200 100 0 KW-SYN TextRunner RESOLVER DIRT USP 39 USP resolves many nontrivial variations Argument forms that mean the same, e.g., expression of X X expression X stimulates Y Y is stimulated with X Active vs. passive voices Synonymous expressions Etc. 40 Clusters in core forms investigate, examine, evaluate, analyze, study, assay diminish, reduce, decrease, attenuate synthesis, production, secretion, release dramatically, substantially, significantly …… Compositions amino acid, t cell, immune response, transcription factor, initiation site, binding site … 41 Q: What does IL-13 enhance? A: The 12-lipoxygenase activity of murine macrophages Sentence: The data presented here indicate that (1) the 12-lipoxygenase activity of murine macrophages is upregulated in vitro and in vivo by IL-4 and/or IL-13, (2) this upregulation requires expression of the transcription factor STAT6, and (3) the constitutive expression of the enzyme appears to be STAT6 independent. 42 USP: The first approach for unsupervised semantic parsing Based on Markov Logic Learn target logical forms by recursively clustering variations of same meaning Novel form of relational clustering Applicable to general domains Substantially outperforms shallow methods Markov Logic NetworkというよりはMarkov Network(=Markov Random Fields)を使った述語、 項のクラスタリングという気がしました 43
© Copyright 2024 ExpyDoc