Il Data Mining metodi esplorativi Rosaria Lombardo Dipartimento di Economia Seconda Università di Napoli Analisi Multidimensionale dei Dati L’analisi multidimensionale dei dati (AMD) consiste in un insieme di tecniche/metodi statistici (Metodi Fattoriali) che consentono la sintesi del numero di variabili che spiegano un fenomeno. Si determinano un certo numero di variabili “latenti” (non direttamente osservate nella realtà) che sono riassuntive (di sintesi) rispetto alle variabili di partenza Si pensi al reddito di una popolazione di aziende Il reddito riguarda le attività aziendali nei diversi ambiti economici. E’ lecito supporre che le attività si distinguono in due “fattori” : attività for profit ed attività non profit. Con I Metodi Fattoriali è possibile misurare queste due attività per mezzo di due variabili latenti, combinazioni lineari delle variabili originarie (fatturato, utile/perdita, n.dipendenti, costo del lavoro, ecc) ponderate sulla base dell’importanza del discriminare le aziende viste le loro attività: “for profit” e “non profit” 1 Analisi Multidimensionale dei Dati L’analisi multidimensionale dei dati (AMD) trova grande applicazione nelle scienze economico sociali (es. misurazione di “performance”, “qualità”) Esigenza di misurare “fenomeni” non direttamente osservabili (variabili latenti) espressi attravero una serie di “informazioni” sui soggetti/oggetti/individui (varibili orginarie) Obiettivi dell’AMD Costruzione di variabili di sintesi ↔ dimesioni ↔ variabili latenti ↔ variabili non osservate Principali Metodi Analisi in Componenti Principali (ACP) per variabili quantitative Analisi delle Corrispondenze (AC) per variabili qualitative I dati originali vengono rappresentati nei sottospazi di migliore approssimazione in cui vengono evidenziate : Le relazioni tra le variabili, tra le unità e tra le une e le altre … M ETODI F A T TORIALI 2 Analisi Multidimensionale dei dati quantitativi: Matrice individui/variabili 1 ......... j ....... . X= 1 . . . . i . . . . n xij p I metodi fattoriali consentono di ridurre la dimensionalità dell’insieme dei dati, eliminando la ridondanza di informazioni nelle p variabili originarie, spesso altamente correlate, costruendo un minor numero di nuove variabili tra loro non correlate, legate linearmente alle variabili di partenza . Le righe rappresentano gli individui e sono in genere osservazioni, oggetti, unità statistiche – n punti nello spazio Rp Le colonne rappresentano le variabili definite da valori numerici continui – p punti nello spazio Rn Obiettivo AMD In un ottica geometrica la matrice X è vista come una nube di punti in uno spazio multidimensionale. Obiettivo: Sintesi delle informazioni disponibili con la minima perdita Individuare uno spazio di dimensione ridotta su cui proiettare I punti originari Problema: L’operazione di proiezione deforma (riduce) le distanze originarie tra I punti. Soluzione Si massimizzano le distanze tra I punti per renderle quanto più fedeli alla realtà osservata. Ricerca del miglior sottospazio di approssimazione dei dati tale da consentire una buona visualizzazione dei punti, deformando il meno possibile le distanze originarie dei punti (problema di massimo vincolato) 3 Sottospazio d’approssimazione: Approccio Geometrico all’AMD Spazio Individui - Proiezione di n punti dello spazio Rp Si cerca la Base ortonormale dello spazio vettoriale, che si adatta al meglio alla nube dei punti osservati x3 Mi I vettori della Base sono costituiti da p autovettori U=[u1,…, up] u Hi x1 x2 2 Min M i H i i 2 Max OHi i p OH i i x i u xij u j Gli autovettori sono corrispondenti agli autovalori (variabilità spiegata) della matrice simmetrica X’X (dimensione pxp). Gli autovalori sono di numerosità p j 1 OH (Xu)' (Xu) u' X' Xu 2 i i Approccio Geometrico all’AMD Sottospazio d’approssimazione: Spazio Variabili - Proiezione di p punti dello spazio Rn Si cerca la Base ortonormale del spazio vettoriale, che si adatta al meglio alla nube dei punti originari x3 Mj La Base è costituita da n autovettori V=[v1,…,vn] v Hj x1 x2 2 Min M j H j j OH j i x j v OH 2 j 2 Max OH j j n x v i 1 ij Gli autovettori sono corrispondenti agli autovalori (variabilità spiegata) della matrice simmetrica XX’ (dimensione nxn) i (X' v)' (X' v) v' XX' v Gli autovalori non nulli sono di numerosità p j 4 Analisi in Componenti Principali ACP: Analisi generale nello spazio centrato Analisi generale x3 x3 u Hn u G Hi x1 x1 x2 x2 È il problema dell’Analisi Generale con l’origine in G Analisi in Componenti Principali È il problema dell’Analisi Generale con l’origine in G Max H i d i, i 2 H i Max d H2 i, G H i Sia Y la matrice iniziale dei dati Trasformazione in matrice valori centrati e standardizzati Y X ; xij yij - y j 1 sj n Ricerca dei vettori di base: Diagonalizzare la matrice di correlazione X’ X NOTA: h i i i - hi 2 n 2 h i - h 2 i 5 Analisi in Componenti Principali: Spazio Individui Spazio Rp Problema di Massimo Vincolato X = [xij] maxU' X' XU ←Vincolo di Norma U' U 1 di ortogonalità Si introduce il moltiplicatore di Lagrange λ (lambda) per inserire il vincolo di norma unitaria u1 ' X' Xu1 Si calcola la derivata prima della funzione l detta di Lagrange (consideriamo il primo vettore) u1 ' X' Xu1 2X' Xu1 u λ(u1 ' u1 1) 2λu1 u unitaria e (u1 ' u1 1) X' Xu1 u1 0 X' Xu1 u1 λ è anche detto «autovalore» e indica λ1 la variabilità spiegata (inertia) sul primo autovettore (detto anche asse principale) Maxu1 ' X' Xu1 Maxu1 ' λu1 Max Analisi in Componenti Principali: Spazio Variabili Spazio Rn x3 Problema di Massimo Vincolato X = [xij] Vincolo di Norma unitaria e di ortogonalità → maxV' XX' V V' V 1 Si introduce il moltiplicatore di Lagrange µ (mi) per inserire il vincolo di norma unitaria Si calcola la derivata prima della funzione (consideriamo il primo asse) v1 ' XX' v1 μ(v1 ' v1 1) 1) v1 ' XX' v1 2XX' v1 v1 2) μ(v1 ' v1 1) 2μμ1 v XX' v1 μv1 0 XX' v1 μv1 Maxv1 ' XX' v1 Maxv1 ' μv1 Maxμ1 µ è anche detto «autovalore» e indica la variabilità spiegata (inertia) sul primo autovettore (detto anche asse principale) 6 Relazione tra l’approssimazione in Rn ed Rp Le relazioni di transizione tra gli assi principali: di dimensione (p,1) u 1 X' v λ v 1 Xu λ di dimensione (n,1) Espressioni delle coordinate (punto individuo e punto variabile) o Componenti Principali sul primo asse fattoriale ˆ 1 X u1 λ1 v1 ˆ ' ˆ ˆ ˆ 1 1 1 ' 1 1 ˆ1 X' v1 λ1 u1 Espressioni della coordinata individuo sul primo asse fattoriale in termini scalari ˆ i 1 yij - y j u j1 j1 n s j p Analisi in Componenti Principali: Analisi delle Variabili Distanza tra variabili della matrice X 2 yij - y j 1 i yij - y j 2 2 d 0, j xij 1 s2 i i n j sj n d 2 j , j x ij - xij 2 i d 2 xi2j i j, j 2 1 - cor j, j 2 xi2j - 2 xij xij i i Spazio Rn punti molto vicini cor j, j 1 d ( j, j ' ) 0 punti a distanza media cor j, j 0 d 2 ( j, j ' ) 2 punti molto distanti cor j, j -1 d 2 ( j, j ' ) 4 2 j O j’ 7 ACP: Ausili all’interpretazione Numero di dimensioni Variabilità spiegata Si fissa una soglia di variabilità spiegata in percentuale rispetto alla variabilità totale (di solito non inferiore al 70%) Eigenvalue-one (per variabili standardizzate) Avendo le variabili standardizzate una varianza unitaria si scelgono solo gli autovalori maggiori di uno (che esprimono che sugli assi la variabilità sintetizzata è maggiore rispetto a quella delle singole variabili originarie) Scree-test Tecnica grafica, si considerano gli assi i cui autovalori precedono il valore massimo di variabilità originaria spiegata (valore uno se le variabili sono standardazzitae) ACP: Ausili all’interpretazione Qualità grafica La qualità della rappresentazione è in funzione dei contributi assoluti e relativi dei vari punti. Contributo assoluto: indica il contribuito dato dalla variabile nella costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata all’ inerzia associata dell’ asse, autovalore). 8 ACP: Ausili all’interpretazione Qualità grafica Contributo relativo: indica quanto la variabile è ben rappresentata sull’ asse ricordando che la proiezione non sempre riesce a riprodurre la distanza iniziale tra due punti. Si calcola il quadrato della correlazione (coseno dell’ angolo formato dai vettori corrispondenti) tra i punti originari e i punti proiettati (le componenti principali). Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’ angolo formato dai due vettori e tanto migliore quindi la rappresentazione. M1 u H1 Analisi in Componenti Principali: nube delle variabili Fattore “Taglia” Se la maggior parte delle variabili è correlata positivamente con il primo asse– equivale a dire che xi1, xi2, …, xip sono simultaneamente forti o simultaneamente deboli per tutti gli individui Spazio Rn 2 4 1 1 O 2 4 3 3 Proiezione delle 4 variabili Piano Fattoriale 9 Analisi in Componenti Principali: Rappresentazioni grafiche Rp degli Spazio individui Spazio Rn delle variabili u2 0 v2 0 v1 u1 Le due nubi delle variabili coincidono (a meno di un fattore di scala) Coordinate classiche Coordinate nel Biplot per rappresentazioni su unico piano ˆ X u λ v ˆ ˆ X' v λ u ˆ jα u λ v Analisi in Componenti Principali: Punti supplementari Spazio Rp degli individui Spazio Rn delle variabili u2 0 v2 0 u1 v1 Immaginiamo di rilevare i valori delle p variabili relativamente a qualche nuovo individuo, magari appartenente ad un gruppo esterno all’insieme iniziale e che possa essere considerato di “controllo”. Nello spazio possono essere proiettati dei punti supplementari, che non contribuiscono alla costruzione del piano ma possono fornire un’informazione supplementare: Punto individuo supplementare sull’asse u Punto variabile supplementare sull’asse v ˆ X u i j ˆ j X ' v i 10 Analisi in Componenti Principali: Punti supplementari l’ ACP consente di proiettare in supplementare sui piani fattoriali anche variabili qualitative ordinali, Considerando una variabile qualitativa, con m modalità, si definisce una matrice X di dimensioni (m, p) in cui si riportano i valori medi delle p variabili calcolate per gli m sottogruppi individuati dalla variabile nominale e nel proiettare le righe della matrice come punti supplementari sul piano fattoriale. Trasformazione in ranghi delle variabili qualitative ordinali con m modalità di risposta: xi 0,5 m xi* Esempio ACP: aziende ad energia solare Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova Belgio 72,20 4,20 98,80 40,40 103,20 20,90 102,00 80,00 7,70 14,20 Danimarca 70,50 2,20 57,00 39,50 50,00 22,00 105,80 145,20 4,10 14,30 14,80 Germania 71,30 2,30 74,10 37,10 83,10 22,80 97,20 90,70 6,90 Grecia 109,80 5,40 90,00 30,00 229,50 25,30 77,10 63,10 0,90 11,30 Spagna 71,40 5,80 107,80 26,80 191,70 43,00 102,10 98,40 0,60 15,30 Francia 73,00 4,30 78,20 34,10 95,00 64,50 110,50 98,90 8,90 15,00 Irlanda 93,40 3,20 151,50 34,80 55,00 3,90 105,00 185,90 3,40 11,40 110,20 4,80 38,60 27,90 181,90 61,60 88,00 65,00 2,40 11,10 Olanda 54,60 5,00 86,70 39,70 99,00 14,00 89,40 136,20 5,40 10,70 Portogallo 86,00 5,70 106,60 29,40 100,00 57,00 75,50 96,00 1,50 7,70 RegnoUnito 74,30 4,50 94,10 39,80 60,00 10,40 74,40 129,30 3,20 10,80 Austria 68,70 4,20 62,60 37,10 81,90 34,30 93,40 121,30 4,30 13,40 Finlandia 70,10 5,40 61,60 35,70 52,60 10,20 65,00 208,40 5,80 10,90 Islanda 79,70 1,90 50,20 54,90 50,00 6,20 71,70 205,60 4,60 11,30 Norvegia 76,90 3,50 73,20 37,30 48,30 6,60 54,90 176,50 2,10 11,30 Svezia 69,30 4,30 70,00 37,50 48,50 12,30 60,50 154,10 5,70 12,90 Italia 11 Esempio ACP: la matrice di correlazione Cere Riso Pata Zucc Verd Vino Carn Latt Burr Cere 1,00 Riso 0,13 1,00 Pata 0,06 0,23 1,00 Zucc -0,41 -0,69 -0,28 1,00 Verd 0,56 0,57 0,07 -0,64 1,00 Vino 0,29 0,42 -0,13 -0,62 0,54 1,00 Carn -0,07 -0,15 0,29 -0,19 0,22 0,39 1,00 Latt -0,34 -0,39 -0,04 0,58 -0,75 -0,69 -0,41 1,00 Burr -0,52 -0,34 -0,19 0,43 -0,46 -0,06 0,29 0,10 1,00 Uova -0,34 -0,31 -0,10 0,02 0,07 0,11 0,60 -0,22 0,45 Uova 1,00 Esempio ACP: autovalori e autovettori Autovalori – Eigenvalues PCAalimenti$eig eigenvalue percentage of variance comp 1 3.89 38.91 comp 2 2.30 22.97 comp 3 1.21 12.13 comp 4 0.97 9.67 comp 5 0.56 5.59 comp 6 0.41 4.06 comp 7 0.31 3.05 comp 8 0.21 2.15 comp 9 0.11 1.09 comp10 0.04 0.37 cumulative percentage of variance 38.91 61.88 74.00 83.68 89.27 93.34 96.39 98.54 99.63 100.00 12 Esempio ACP: coordinate individui BELGIO DANIMARCA GERMANIA GRECIA SPAGNA FRANCIA IRLANDA ITALIA OLANDA PORTOGALLO REGNO UNITO AUSTRIA FINLANDIA ISLANDA NORVEGIA SVEZIA 1 -0.23 -1.52 -0.85 3.45 2.92 0.68 -0.58 3.42 -0.79 2.40 -0.70 -0.18 -1.48 -3.58 -1.46 -1.49 2 -1.96 -1.48 -2.12 1.43 -0.95 -3.08 0.62 0.31 0.04 1.96 1.17 -0.89 1.43 0.95 2.02 0.54 3 -0.62 0.43 0.30 0.32 -1.23 0.32 -2.93 2.27 -0.67 -0.42 -0.54 0.48 0.26 1.35 0.29 0.39 4 0.10 -1.00 -0.64 -1.14 0.39 0.77 -1.78 -0.75 1.36 0.83 0.25 0.42 1.63 -1.36 -0.07 0.99 5 -0.12 0.28 0.12 0.78 1.72 -1.10 -0.81 -0.57 0.05 -1.55 0.01 0.21 0.05 -0.14 0.63 0.46 Coordinate delle variabili (Correlazioni variabili-fattori) cereali 1 0.59 2 0.36 3 0.19 4 -0.60 5 -0.20 riso 0.69 0.27 -0.14 0.61 0.07 patate 0.21 0.07 -0.95 -0.10 -0.11 zucchero-0.87 -0.01 0.16 -0.18 -0.04 verdure 0.89 -0.05 0.12 -0.13 0.28 vino 0.73 -0.35 0.30 0.17 -0.34 carne 0.24 -0.81 -0.32 -0.25 -0.15 latte -0.79 0.39 -0.16 0.02 0.02 burro -0.50 -0.64 0.09 0.28 -0.31 uova -0.07 -0.86 -0.01 -0.09 0.43 13 ACP Rappresentazione delle variabili: cerchio delle correlazioni Analisi in Componenti Principali Rappresentazione delle unità statistiche 14 Esempio ACP: ausilii all’interpretazione Contributi assoluti 1 BELGIO DANIMARCA GERMANIA GRECIA SPAGNA FRANCIA IRLANDA ITALIA OLANDA PORTOGALLO REGNO UNITO AUSTRIA FINLANDIA ISLANDA NORVEGIA SVEZIA 0.1 3.7 1.2 19.1 13.7 0.7 0.5 18.8 1.0 9.2 0.8 0.1 3.5 20.5 3.4 3.6 2 10.5 5.9 12.3 5.6 2.5 25.8 1.1 0.3 0.0 10.4 3.7 2.1 5.6 2.5 11.1 0.8 3 4 5 2.0 1.0 0.5 0.5 7.8 0.5 44.4 26.5 2.3 0.9 1.5 1.2 0.3 9.4 0.4 0.8 0.1 6.5 2.6 8.3 1.0 3.8 20.5 3.6 11.9 4.5 0.4 1.1 17.2 11.9 0.0 6.3 0.2 0.9 0.2 6.8 32.9 13.6 7.3 3.6 0.0 27.0 0.0 0.5 0.0 0.2 4.4 2.4 Esempio ACP: ausilii all’interpretazione Qualità della rappresentazione (Coseni al quadrato) 1 2 3 4 5 BELGIO 0.01 0.62 0.06 0.00 0.00 DANIMARCA 0.32 0.30 0.03 0.14 0.01 GERMANIA 0.11 0.66 0.01 0.06 0.00 GRECIA 0.69 0.12 0.01 0.07 0.03 SPAGNA 0.57 0.06 0.10 0.01 0.20 FRANCIA 0.04 0.76 0.01 0.05 0.10 IRLANDA 0.02 0.03 0.62 0.23 0.05 ITALIA 0.65 0.01 0.28 0.03 0.02 OLANDA 0.13 0.00 0.09 0.39 0.00 PORTOGALLO 0.41 0.28 0.01 0.05 0.17 REGNO UNITO 0.17 0.48 0.10 0.02 0.00 AUSTRIA 0.02 0.46 0.14 0.10 0.03 FINLANDIA 0.26 0.24 0.01 0.31 0.00 ISLANDA 0.68 0.05 0.10 0.10 0.00 NORVEGIA 0.28 0.54 0.01 0.00 0.05 SVEZIA 0.46 0.06 0.03 0.20 0.04 15 Analisi in Componenti Principali in R –assi 1-3 Esempio ACP: 32 aziende , 5 variabili continue Sorgenia Uni-Solar Enerpoint NWG Everlight Helios SEProject Enereco EnerSolare Potinst 19.2 12.3 9.8 4.5 2.4 4.3 13.3 1.8 2.1 MiaEnergia DEA Conergy SolarEnergy SiciliaFTV Geos Solargenia …….. nImpia 653 231 145 345 132 46 121 18 12 Fatt 130 60.2 120 54.3 80 21.3 78 37.8 20 8.7 16 7.4 5 21.5 4 4.9 8 2.1 3.8 2.9 18.4 19 24 523 16 4.2 11 5.2 5 59.8 541 457 1450 221 178 550 12.3 6.4 3.7 1.5 ….. 243 28 12 20 6 42.3 120 9.8 190 5.6 12 3.7 … 1089 890 436 198 432 345 189 82 ……………… … Ndip …. Produ Ricavo 1400 513 1150 420 789 289 324 123 234 97 432 162 876 324 231 86 256 98 … 16 Esempio ACP: la matrice di correlazione > round(cor(ener),dig=2) Potinst nImpia Potinst 1.00 0.86 nImpia 0.86 1.00 Ndip 0.32 0.30 Fatt 0.91 0.93 Produ 0.97 0.78 Ricavo 0.95 0.77 > Ndip 0.32 0.30 1.00 0.35 0.37 0.34 Fatt 0.91 0.93 0.35 1.00 0.88 0.86 Produ 0.97 0.78 0.37 0.88 1.00 0.99 Ricavo 0.95 0.77 0.34 0.86 0.99 1.00 Esempio ACP: autovalori e autovettori Autovalori – Eigenvalues eigenvalue percentage of variance cumulative percentage of variance comp 1 4.72 78.63 78.63 comp 2 0.85 14.19 92.81 comp 3 0.33 5.56 98.38 comp 4 0.05 0.91 99.28 comp 5 0.03 0.54 99.83 comp 6 0.01 0.17 100.00 > 17 Esempio ACP: coordinate individui Coordinate > round(PCAener$ind$coord,dig=2) Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Sorgenia 6.66 0.68 1.00 0.65 0.05 Uni-Solar 4.09 1.08 -0.26 -0.90 -0.10 Enerpoint 1.79 0.62 -0.43 0.12 -0.27 NWG 1.17 0.65 2.03 -0.32 0.08 Everlight -0.76 -0.22 0.69 0.13 0.05 Helios -0.43 -0.35 -0.22 0.02 -0.09 SEProject 1.94 -1.08 -0.90 0.18 -0.66 Enereco -1.33 -0.43 0.14 -0.13 -0.09 EnerSolare -1.30 -0.35 -0.01 0.01 -0.08 MiaEnergia -0.31 -0.35 -0.71 0.06 0.21 DEA -0.61 -0.40 -0.41 -0.04 0.16 Conergy 5.86 -1.87 0.16 0.09 0.15 SolarEnergy 3.31 -1.30 -0.49 -0.41 0.09 ………………………………………………… Coordinate delle variabili (Correlazioni variabili-fattori) round(PCAener$var$coord,dig=2) Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Potinst 0.98 -0.12 -0.09 0.07 -0.14 nImpia 0.90 -0.11 0.40 0.12 0.05 Ndip 0.43 0.90 0.02 0.01 0.00 Fatt 0.96 -0.07 0.21 -0.19 -0.02 Produ 0.97 -0.05 -0.24 0.00 0.01 Ricavo 0.96 -0.07 -0.26 0.00 0.10 18 ACP Rappresentazione delle variabili: cerchio delle correlazioni Analisi in Componenti Principali Rappresentazione delle unità statistiche 19 Esempio ACP: ausilii all’interpretazione Contributi assoluti e relativi > round(PCAener$var$contrib,dig=2) Potinst nImpia Ndip Fatt Produ Ricavo Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 20.23 1.59 2.17 9.36 58.40 17.26 1.33 47.39 24.51 8.56 3.92 95.70 0.09 0.16 0.06 19.44 0.50 12.75 65.93 0.97 19.81 0.30 16.81 0.00 0.26 19.34 0.58 20.80 0.03 31.76 > round(PCAener$var$cos,dig=2) Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Potinst 0.95 0.01 0.01 0.01 0.02 nImpia 0.81 0.01 0.16 0.01 0.00 Ndip 0.18 0.81 0.00 0.00 0.00 Fatt 0.92 0.00 0.04 0.04 0.00 Produ 0.93 0.00 0.06 0.00 0.00 Ricavo 0.91 0.00 0.07 0.00 0.01 > 20
© Copyright 2024 ExpyDoc