ANALISI DEI DATI PER IL MARKETING 2014 Marco Riani [email protected] http://www.riani.it OBIETTIVO del MULTIDIMENSIONAL SCALING DALLA MATRICE DI DISSIMILARITA’ D RICOSTRUIRE LA MATRICE DEI DATI X 1 Dati di input • I dati di input sono una o più matrici di misure di prossimità (dissomiglianza) – Di tipo diretto (raccogliendo i giudizi espressi da uno i più individui) – Calcolate in funzione di caratteri quantitativi e/o qualitativi Caratteristiche della misura di dissomiglianza δij • • • • non negatività δij >=0 Ɐ i,j identità δii =0 Ɐi uguaglianza delle unità se ui=uj δij =0 simmetria δij = δji • Osservazione: se ui=uj se e solo se δii =0 (nullità) + disuguaglianza triangolare allora la dissimilarità diventa una distanza 2 Modelli di multidimensional scaling • INPUT: una matrice di indici di prossimità n×n • OUPUT: una matrice dei dati X di dimensioni ridotte (ad es n × 2 oppure n × 3) Es. input sono le distanze Euclidee 3 Se opero in termini di scostamenti dalla media • La matrice delle distanze Euclidee rimane sempre la stessa sia che si operi sulla matrice originaria oppure sulla matrice Xtilde (scostamenti dalla media) • La somma delle righe e delle colonne della matrice Q=Xtilde*XtildeT è zero se si opera in termini di scostamenti dalla media diventa 4 Osservazione • Senza perdita di generalità nelle slide che seguono la matrice Q indicata con X*XT in realtà si riferisce alla matrice Q= Xtilde*XtildeT Relazione tra l’elemento ij della matrice D2 (quadrati distanze euclidee) e l’elemento ij della matrice Q = XXT 5 Relazione tra l’elemento ij della matrice D2 (quadrati distanze euclidee) e l’elemento ij della matrice Q = XXT Relazione tra l’elemento ij della matrice D2 (quadrati distanze euclidee) e l’elemento ij della matrice Q = XXT In termini matriciali 6 Ricostruzione della matrice X Scomposizione spettrale della matrice Q La miglior rappresentazione di rango 2 della matrice X è data da Matrice di dimensione n x 2 che contiene (nelle colonne) i primi due autovettori della matrice Q Matrice diagonale di dimensione 2 x 2 che contiene sulla diagonale principale le radici quadrate dei primi due autovalori della matrice Q Scelta del numero di dimensioni • Se la matrice di dissimilarità è una matrice di distanze allora Q ha rango n-1, tutti gli autovalori sono positivi e l’indice per valutare la bontà della soluzione in uno spazio ridotto a k dimensioni è 7 Scelta del numero di dimensioni • Se la matrice di dissimilarità non è una matrice di distanze e non è semidefinita positiva l’indice per valutare la bontà della soluzione in uno spazio ridotto a k dimensioni è Osservazione • La soluzione trovata è definita a meno di una rotazione e/o traslazione 8 Esempio Matrice dissimilarità derivante derivante dai questionari somministrati a 100 individui a cui è stato chiesto di valutare (sulla scala 0-30) il grado di diversità di 17 città Italiane. SalernoNapoli Firenze Siena Pescara Verona Parma Bologna Palermo Messina Roma Catania Bari Lecce Trento Milano Salerno Napoli Firenze Siena Pescara Verona Parma Bologn a Palermo Messina Roma Catania Bari Lecce Trento Milano Modena 0 22 23 24 26 27 26 0 11 10 17 7 16 0 15 19 28 20 0 10 28 25 0 28 20 0 24 0 23 24 23 23 18 23 23 28 24 22 12 21 21 22 21 19 18 21 15 12 24 24 29 27 28 21 26 28 24 23 26 28 28 20 27 8 26 28 28 29 27 24 27 24 25 19 24 29 24 28 28 29 26 26 29 18 29 14 28 29 22 28 28 24 26 25 29 24 21 20 0 27 29 23 27 25 25 29 12 13 0 21 25 26 25 12 29 29 27 0 23 16 25 24 27 29 28 0 19 21 26 27 29 27 0 26 26 28 27 25 0 25 29 26 29 0 29 28 26 0 27 26 Modena 0 12 0 Questiti • Applicando le tecniche di multidimensional scaling ricostruire la matrice dei dati originaria limitandosi ad analizzare la migliore approssimazione di rango 2. Fornire un giudizio sulla bontà di adattamento. • Rappresentare graficamente la configurazione in due dimensioni commentando i risultati ottenuti. • Inserire come titoli degli assi la bontà di adattamento delle prime due dimensioni. 9 Rappresentazione grafica delle prime due dimensioni 15 Messina Catania 10 Dimensione 2 (17.5%) Palermo Lecce Salerno Modena 5 Napoli Bologna Milano Trento 0 -15 -10 -5 0 Verona 5 10 15 20 Ferrara Parma -5 Bari Lecce Firenze -10 Siena -15 -20 Dimensione 1 (20%) 10
© Copyright 2024 ExpyDoc