COSTRUZIONE DI RETI PER SISTEMI BIPARTITI TRAMITE PROCEDURE STATISTICHE Tirabassi Giulio introduzione In questa presentazione introdurremo un metodo di costruzione di reti proiettate da reti bipartite che: ● ● ● ● Costruisce reti proiettate in modo da tener conto dell'eterogeneità degli elementi. Applicabile sistemi complessi molto differenti: Genomi & Geni, Azioni & Giorni di scambio, Film & Attori. In grado di indentificare relazioni preferenziali e classificazione dei link. Evidenzia in maniera naturale cluster e comunità di elementi. introduzione ● Introduzione al problema ● Introduzione al metodo ● Applicazioni: – Genomi→rimozione eterogeneità – Azioni→Multilink – Film→Insieme vasto con eterogeneità non eliminabile ● Ricerca di comunità ● Piccolo esempio homemade le reti bipartite ● In una rete bipartita i nodi si dividono in due gruppi ben distinti di elementi non connessi tra loro: Generi Alimentari Italia Materie Prime Francia Germania Prodotti Tecnologici USA Valuta A B ● Si può ridurre una rete bipartita ad una singola rete di elementi di un solo gruppo, utilizzando, come ponte tra gli stessi, gli elementi del secondo gruppo. Italia Italia Generi Alimentari USA USA Italia USA RIDUZIONE Germania Francia problemi ● ● ● Molta informazione riguardante il sistema è definitivamente persa! Quanti link sono espressione di proprietà significative del sistema? E quanti sono dovuti all'elevato grado di eterogeneità? Vogliamo allora introdurre un metodo per individuare quali link della rete proiettata siano validi e quanti vadano invece rimossi. il metodo della convalida statistica dei link Il Metodo è basato sulla valutazione di quanto un link si casuale e quanto invece sia da attribuirsi a proprietà intrinseche della rete. Questa stima è basata sul valore della distribuzione ipergeometrica, P X = Na N−Na X N b− X N Nb il cui valore corrisponde alla probabilità di avere X estrazioni uguali in due insiemi di Na e Nb estrazioni da un insieme di elementi di cardinalità N. reti biologiche Consideriamo la rete bipartita formata da 66 genomi di vari organismi (insieme A) e da 4873 cluster di geni ortologhi, detti COGs (insieme B) e la rete proiettata dei genomi. Riduzione dell'eterogeneità: Dividiamo l'insieme B in sottoinsiemi COGk di COGs presenti in k=3,...,66 organismi. La cardinalità di COGk è Nk. Possiamo allora procedere alla convalida statistica di due genomi, a e b, collegati da un certo numero Nab di COGs appartenenti all'insieme COGk. Definiamo Na e Nb come il numero di COGs di COGk connessi rispettivamente ai genomi a e b. La probabilità di avere X matches casuali sarà allora data dalla distribuzione ipergeometrica: P X = N a N k −N a X N b− X Nk Nb da cui: N ab −1 P N ab =1− ∑ P X X =0 che stima la probabilità che il link tra a e b sia di natura casuale, dovuta all'eterogeneità del sistema. A questo punto si contano il numero di sottoinsiemi W COGk in cui il valore di P(Nab) è al di sotto di una certa probabilità di soglia e lo si usa come peso del link. Dal valore scelto per questa soglia dipenderà il tipo di rete costruita. ● ● Rete di Bonferroni: p b≃7.3×10−8 [No Falsi Positivi] False Discovery Rate (FDR): variabile, in ogni caso, però, si ha p FDR ≫ p b risultati: bonferroni fdr risultati: fdr reti finanziarie ● ● Consideriamo la rete bipartita formata da 500 azioni da un lato e 748 giorni di scambi finanziari dall'altro. Ogni azione è connessa ad un giorno da tre tipi di link, up, down e null, a seconda se l'azione abbia ecceduto o meno il proprio valore medio calcolato sui 20 giorni precedenti. Lo scopo è studiare la correlazione di stati up e down tra coppie di azioni. Definiamo Na come il numero di giorni in cui una certa azione i ha assunto lo stato a (up o down) e Nb il numero di giorni in cui un'azione j ha assunto lo stato b. Sia poi Nab il numero di giorni in cui si è osservato lo stato a per l'azione i e lo stato b per l'azione j. La probabilità di osservare X volte lo stato (ia , jb) nei T giorni di osservazione sarà P X = N a T−Na X N b− X T Nb Procedendo in maniera analoga a quanto visto per il caso biologico, possiamo studiare le quattro combinazioni: (iu , ju), (iu , jd), (id , ju), (id , jd). In questo modo costruiamo 5 differenti tipi di link tra le azioni: DOPPIA CORRELAZIONE ● L1 : entrambi i casi (iu , ju) e (id , jd). ● L2 : solamente il caso (id , jd). ● L3 : solamente il caso (iu , ju). CORRELAZIONE ● ANTICORRELAZIONE ● L4 : o il caso (iu , jd) o il caso equivalente (id , ju). L5 : entrambi i casi (iu , jd) e (id , ju). risultati: bonferroni reti sociali Consideriamo la rete bipartita composta da 89605 film e 412 143 attori, e la rete proiettata dei soli film. Problema: l'elevato grado di eterogeneità dell'insieme degli attori non è eliminabile in nessun modo! La rete risultante sarà solo una stima. Il metodo seguito è del tutto analogo a quello degli esempi precedenti e anche in questo caso sarà possibile costruire una rete Bonferroni e una FDR. risultati Bonferroni: solo il 16% dei nodi e l'1% dei link convalidati FDR: convalidati il 47% dei nodi e il 7% dei link. NUM. FILM NUM. LINK NUM. COMP. CONN. COMP. CONN. PIÙ GRANDE RETE PROIETTATA 78 686 2 902 060 647 77 193 FDR 37 429 205 553 2 443 30 937 BONFERRONI 12 850 29 281 2 456 1 627 Un risultato interessante si ottiene dal plot tra il grado dei nodi della rete proiettata e della rete FDR: ricerca di comunità La profonda differenza tra reti proiettate, Bonferroni e FDR fa sì che in esse compaiano delle strutture di cluster e comunità dalle proprietà molto differenti. In questa sezione ci occuperemo della rilevazione di comunità nei casi precedentemente esposti per studiare queste differenze. Allo scopo utilizzeremo l'algoritmo Infomap (Rosvall & Bergstrom). la caratterizzazione dei cluster Una volta isolati i cluster emerge il problema della loro interpretazione. Consideriamo allora un sistema di N elementi e un cluster C di NC elementi che vogliamo caratterizzare. Ogni elemento del sistema avrà un certo numero di attributi che lo definiscono. Il numero totale di attributi degli elementi del sistema sia allora NA. È da notare come questi attributi siano assegnati tramite una classificazione a priori degli elementi del sistema. La probabilità che X elementi scelti a caso nel cluster abbiano lo stesso attributo Q è dato dalla distribuzione ipergeometrica P X = N C N −N C X N Q− X N NQ Dove NQ è il numero totale di elementi con attributo Q. Da cui abbiamo la probabilità di avere nel cluster NCQ elementi di attributo Q. N CQ −1 P N CQ =1− ∑ PX X =0 Se questa probabilità è minore di una certa soglia l'attributo Q caratterizzerà il cluster. il caso della rete di azioni La presenza in queste reti di diversi tipi di link rende la clssificazione non facile. ● Approccio minimalista: separazione di correlazioni e anticorrelazioni. ● L4 e L5 (anticorrelazioni) Peso: 0 ● L2 e L3 (correlazioni uu o dd) Peso: 1 ● L1 Peso: 2 (doppia correlazione) A questo punto si procede con la ricerca di comunità Una volta deterimati cluster tramite Infomap si può passare alla loro classificazione. Per questo sistema si azioni si possono identificare 12 settori economici. Bonferroni ● ● ● ● 349 elementi non isolati 37 cluster 81 differenti sottosettori economici 1.32 sottosettori per cluster FDR ● ● 494 elementi non isolati 96 differenti sottosettori economici Cluster individuati nella rete Bonferroni I 10 cluster più gradi individuati nella rete Bonferroni up down Si hanno correzioni, all'interno di ogni cluster, per tutto il periodo monitorato. Cluster anticorrelati (tecnologia e settore immobiliare) il caso della rete di film ● ● ● Rete proiettata: 77193 elementi nella componente connessa più grande. 2451 cluster di taglia da 13608 a 2 film FDR: 30934 elementi nella componente connessa più grande 3967 cluster di taglia variabile tra 1478 e 2 film Bonferroni: 2456 componenti connesse e nessuna dominante 2782 cluster di taglia variabile tra 577 e 2 film Per realizzare la ricerca di comunità all'interno della rete di film è necessario pesare i link della rete per tenere conto dell'eterogeneità dell'insieme degli attori. Q w ab =∑ i=1 1 N i −1 Dove Q è il numero totale di attori presenti sia nel film a che nel b e Ni è il numero totale di film interpretati dall'attore i. Applicando nuovamente Infomap alle tre reti pesate in questo modo otteniamo una partizione più rifinita, soprattutto per quanto riguarda la rete proiettata. L'influenza dei link pesati nelle propietà delle reti POWER LAW Per la caratterizzazione dei cluster sono stati considerati separatamente 4 diversi classi di attributi: ● Paese di produzione ● Lingua ● Genere ● Location Per tutte queste classi si nota una decrescita del numero di attributi per cluster passando dalla rete proiettata alla FDR alla Bonferroni, indice questo di maggiore specificità. Il cluster più grande della rete proiettata e i relativi cluster nella rete FDR. Un cluster di film indiani nella rete proiettata e i relativi cluster nelle reti FDR e Bonferroni. Comunità più piccole ma più omogenee conclusioni ● ● ● Consente la costuzione di reti con link a convalida statistica dotati di un numero limitato di falsi positivi, identificando così le relazioni preferenziali tra gli elementi del sistema. Evidenzia le componenti connesse e le comunità in manera molto naturale. È generalizzabile a sistemi molto complessi e a casi di reti a link multipli. la rete fiori-impollinatori L'insieme degli impollinatori: la rete proiettata DISASSORTATIVA! Le reti Bonferroni & FDR Apoidea Megachilidae Apidae Altre Api Farfalle Mosche Insetti colibrì API L'insieme dei fiori: la rete proiettata DISASSORTATIVA! Le reti Bonferroni & FDR Ranunculaes Caryophyllidae Liliaes Brassicales Saxifragales
© Copyright 2024 ExpyDoc