Guido Galli ELEMENTI DI STATISTICA DELLE VARIABILI QUALITATIVE Seminari 2002 - per specializzandi e medici d’area radiologica INDICE Premessa: le variabili qualitative Pagina 3 Frequenze e proporzioni - Limiti fiduciali di una proporzione 5 - Confronto fra proporzioni 7 Tabelle di contingenza 9 Test per i confronti Tabelle 2 x 2: dati indipendenti - Metodo del Chi Quadrato 11 - Test esatto di Fisher 12 Tabelle 2 x 2: dati associati - Test di McNemar 15 Tabelle m x n : dati indipendenti - Estensione del Chi Quadrato 16 Tabelle m x n : dati associati -Test di Cochran 18 Test d’associazione (correlazione) Tabelle 2 x 2 - Coefficiente R-phi 21 - Coefficiente b di regressione 22 Tabelle m x n - Coefficiente C di Cramér 23 L’affidabilità delle osservazioni Due osservatori, due categorie 25 Più osservatori e/o più categorie - La statistica K 27 Due osservatori, una variabile ordinata - Il K “pesato” (Kw) 29 Raccomandazione finale 31 Tavole dei fattoriali e del Chi quadrato 32-33 -2- Premessa: le variabili qualitative Per variabile si intende, nell’accezione più ampia, tutto ciò che può essere osservato, misurato, classificato dando così luogo a dati trattabili con metodi statistici. Le variabili possono essere quantitative o qualitative. Le variabili quantitative sono quelle che danno luogo a dati di tipo numerico, frutto di misurazioni (non accennerò qui al problema delle scale di misura). I metodi statistici più noti anche ai medici d’area radiologica, come il t di Student o l’analisi della varianza, riguardano le variabili quantitative ed in particolare i dati che si suppone abbiano una distribuzione normale (gaussiana). Dati di questo tipo non sono però frequenti in Diagnostica per Immagini. Lo sono di più in Medicina Nucleare (risultati di prove funzionali, di dosaggi, ecc.); in campo medico nucleare è molto impiegato anche un tipo particolare di statistica di dati numerici: la statistica dei conteggi (statistica poissoniana). In Diagnostica per Immagini (ma, sempre di più, anche in Medicina Nucleare) si ha più sovente a che fare con variabili qualitative (categoriali). I dati di queste non sono caratterizzati da quantità numeriche, ma risultano da una identificazione (classificazione) in categorie di particolari oggetti o particolari caratteristiche (aspetti) di un oggetto. In rapporto alla variabile “colore” una cosa può essere identificata come bianca, rossa, verde, ecc. In rapporto alla sua morfologia, una opacità polmonare può essere identificata come “tumore”, “processo flogistico” od altro. In rapporto alla sua evoluzione un tumore può essere classificato come appartenente al I, II, III o IV stadio. Già questi esempi ci mostrano che vi sono due tipi di variabili qualitative categoriali: Nominali, per le quali tutto quello che si può fare è identificare la categoria, o il carattere, con un nome, senza che ciò corrisponda ad un ordine naturale delle categorie o stabilisca fra loro particolari rapporti. Le variabili nominali possono essere multicategoriali (come nell’esempio dei colori), ma un tipo particolarmente importante nella nostra area professionale è quello in cui una certa caratteristica è presente od assente, per cui l’osservazione cade soltanto in una di due possibili categorie: ad esempio deceduto/sopravvivente, positivo/negativo, patologico/non patologico ecc. Queste variabili nominali sono dette anche quantali, binarie o dicotomiche. Si noti che a variabili dicotomiche, trattabili con test statistici piuttosto semplici, possono essere ricondotte anche variabili qualitative multicategoriali (per es. se si decide di classificare i colori come bianco/non bianco) e perfino variabili numeriche continue: per es. se si decide di classificare come “positivo” il risultato di un dosaggio quando supera una certa soglia e “negativo” se rimane al di sotto. Si noti anche che una variabile nominale può essere costituita da numeri, che in questo caso hanno solo funzione di “nome” od “etichetta”: una targa automobilistica numerica non è altro che il “nome” assegnato dal Registro alla particolare automobile di Tizio; altro esempio sono i codici numerici che contraddistinguono le patologie nelle classificazioni sanitarie e nei tariffari. Ordinali: in queste le categorie hanno un ordine naturale non ambiguo, che stabilisce “precedenze” o “priorità”: nell’esempio del tumore, l’ordine di precedenza è stabilito dall’evoluzione della neoplasia; al II stadio è più avanzata che al I, al III più avanzata che al secondo e così via. Sovente, come in questo caso, i nomi sono numeri (ordinali, appunto): si pensi, come altro esempio, all’ordine di arrivo dei partecipanti ad una corsa. Ma, anche se vi è un ordine, non è detto che le “distanze”, od “intervalli” fra le categorie siano uniformi e costanti (per lo più non lo sono: il distacco fra il primo e il secondo arrivato in una corsa può essere minimo, ed invece grande il distacco fra il secondo e il terzo). Le variabili qualitative non sono trattabili con i metodi della statistica classica cosidetta “parametrica”, basata sui parametri della distribuzione normale (ma non è del tutto raro vedere erroneamente applicati concetti come media e deviazione standard o test come il t di Student ai numeri di serie ordinali). Occorrono i test “non parametrici”, che, da un punto di vista pratico, hanno alcuni svantaggi: -3- - sono per lo più meno efficienti dei test parametrici; sono poco conosciuti dai medici e quindi poco o male applicati; molti, anche utilissimi, non sono disponibili nei consueti packages statistici per personal computer. Per contro hanno il vantaggio di essere quasi tutti di esecuzione piuttosto semplice e di non presentare particolari difficoltà di calcolo (serve una calcolatrice tascabile solo perché ci siamo dimenticati come si fanno a mano le quattro operazioni aritmetiche e si estrae una radice quadrata). Nei seminari del 2003 ci proponiamo di trattare i metodi per le variabili qualitative ordinali; in quelli di quest’anno (2002) affrontiamo invece il trattamento dei dati nominali, illustrando quanto diremo con esempi pratici tratti dal nostro ambito di attività professionale e di ricerca. -4- Frequenze e proporzioni Di fronte ai dati nominali, il compito principale è contare le osservazioni nelle varie categorie; stabilire cioè la frequenza delle caratteristiche che interessano. Se dico: “In questo gruppo di oggetti 15 sono bianchi” è perché ho rilevato con un conteggio che il carattere denominato “bianco” è 15 volte frequente nella mia osservazione. Le frequenze possono venire utilizzate tal quali in molti test statistici; ma un passo che spesso viene compiuto è rapportare la frequenza al totale delle osservazioni, trasformandola così in proporzione o frequenza relativa. Come esempio di proporzioni ne riportiamo due usatissime (anche troppo) nella letteratura radiologica. La sensibilità è la proporzione che deriva dal rapportare il numero (frequenza) dei risultati “veri positivi” al numero dei malati esaminati; la specificità deriva dal rapporto fra la frequenza dei “veri negativi” e il numero dei soggetti non malati. Se una indagine diagnostica, mettiamo la SPET, correttamente identifica una particolare patologia in 20 soggetti su 25 che ne sono affetti, noi diciamo che quella indagine ha una sensibilità: 20 / 25 = 0.8 = 80% e diciamo che ha una specificità del 90% se esclude la malattia in 27 su 30 soggetti non patologici esaminati (27 / 30 = 0.9 = 90%). Si noti che i rapporti danno luogo a frazioni dell’unità, spesso trasformate in percentuali per miglior comprensione (ma ai fini statistici è bene che le proporzioni rimangano espresse in frazioni dell’unità). a , dove p (minuscolo) è la proporzione nel n campione studiato, a la frequenza osservata del carattere e n la numerosità del campione. Con la lettera q si usa designare la quantità 1 – p; perciò se p (la sensibilità, nel precedente esempio) è 0.8 , q sarà: 1 – 0.8 = 0.2 . In simbologia matematica la proporzione è perciò: p = Limiti fiduciali di una proporzione Raramente qualcuno studia un campione per affermare qualcosa che riguarda soltanto il campione stesso. Quello che in realtà si vuol fare è inferire dal campione qualcosa che riguarda, più generalmente, la popolazione da cui il campione è tratto. Se il medico nucleare che ha sperimentato la SPET nei 30 soggetti di cui sopra afferma: “La specificità della SPET è del 90%” in realtà non sta pensando: “E’ del 90% in questi 30 soggetti, ma potrebbe avere un valore completamente diverso in altri 30”; egli invece, in base alla sua osservazione, si attende che l’impiego generalizzato della SPET per quella indicazione dia una specificità se non proprio del 90%, almeno nell’attorno del 90%. a A Quando però si vuole inferire da p = qualcosa che riguarda P = (dove le lettere maiuscole n N indicano che si tratta della popolazione e non del campione) una cosa è molto importante (e viene spesso trascurata): stabilire i limiti fiduciali della proporzione osservata nel campione studiato. I limiti fiduciali sono quei due valori entro i quali si può ritenere che stia, con il 95% (o 99%) di confidenza (si usa dire “di probabilità”, ma non è correttissimo), il valore “vero” della proporzione P nella popolazione. Purtroppo per avere i limiti esatti o si dispone di apposito programma per computer o bisogna consultare grafici e tabelle nella letteratura statistica. Le tabelle più semplici e complete si trovano a pag. 89-102 delle Tavole Geigy 1982, Volume II. In mancanza, diamo qui due metodi che forniscono un risultato approssimato, ma sufficiente: - a renderci conto subito della bontà, o meno, dei nostri risultati; - a confrontare i nostri risultati con dati della letteratura. -5- Metodo I (il più usato) - Si determina l’Errore Standard di p che è: ES = p⋅q n - I limiti di confidenza (al 95%) sono: L.C. = p ± 1.96 x ES Questo metodo è buono se moltiplicando n sia per p che per q si ha, in entrambi i casi, un risultato maggiore di 10; non si può usare se uno dei due è minore di 5. Se si fosse in queste condizioni si usi il: Metodo II I limiti di confidenza al 95% sono dati dalla formula: pq 1.96 2 1.96 2 p+ ± 1.96 + 2n n 4n 2 L.C. = 1.96 2 1+ n Nota: Se si vogliono i limiti di confidenza al 99%, bisogna sostituire 2.58 a 1.96 nelle formule per il primo e secondo metodo. Esempio operativo n. 1 In una recente pubblicazione (Torricelli et al. La RM con bobina endorettale nel Ca. del retto Radiol.Med 1, 74-83, 2002) vi sono dati che permettono di stimare l’efficacia della RM endorettale per la rilevazione delle metastasi linfonodali da Ca. rettale. Su 11 pazienti con metastasi linfonodali istologicamente accertate, il reperto RM fu positivo in 9 (“veri positivi”), mentre fu negativo (“veri negativi”) in 15 su 27 pazienti con linfonodi indenni. Possiamo ordinare i dati in una tabella e procedere al calcolo (per la sensibilità e la specificità abbiamo già visto come si fa; l’accuratezza è la somma dei risultati “veri” fratta il totale dei casi, cioè (9 + 15) / (11 + 27) = 0.63): Linfonodi + Linfonodi – RM + 9 12 RM - 2 15 11 27 Totale Sensibilità = 0.82 (82%) Specificità = 0.55 (55%) Accuratezza = 0.63 (63%) Domanda: potremmo dedurre da questi dati che la RM e.r. ha, quando estesamente applicata per la ricerca delle metastasi linfonodali, una sensibilità nell’attorno dell’ 80% ? Determiniamo l’ES della proporzione: p⋅q = n 0.82 ⋅ 0.18 = 0.116 11 Quindi la proporzione nel campione è, con il suo errore: Sensibilità = 0.82 ± 0.116 -6- Metodo 1: L.C. = 0.82 ± 1.96 x 0.116 Limite superiore = 0.82 + 0.227 = 1.047 (104.7%) Il risultato (104.7 % ) è assurdo perché non avevamo controllato se il metodo è applicabile. Ma non lo è: infatti 0.82 x 11 (p x n) dà 9.02 e va bene; però 0.18 x 11 (q x n) dà 1.98 (<5: non accettabile). Ricorriamo quindi (riassumendo il calcolo che il lettore può fare da sé in base alla formula precedentemente riportata) al: Metodo II: L.C. = 0.9946 ± 0.2864 1.349 L. infer. = 0.524 (52.4%) L. super. = 0.949 (95%) Accertiamo ora con le Tavole Geigy il risultato esatto: Limite inferiore = 0.482 (48.2 %) Limite superiore = 0.977 (97.7%) Come si vede il risultato approssimato non è lontano da quello esatto ( è anche più ottimistico, a vantaggio della metodica diagnostica, perché dà dei limiti meno ampi). Considerazioni sull’esempio 1) I limiti di confidenza sono troppo ampi: i casi studiati sono pochi per trarre attendibili indicazioni; 2) Nella discussione riportata nella pubblicazione gli Autori sembrano sorpresi che Chan abbia trovato una sensibilità solo del 57%. In realtà il dato di Chan non è incompatibile con i loro (la sensibilità “vera” sta fra il 48 e il 98 %); 3) Possono nascere dubbi che un reperto RM positivo sia realmente indicativo di metastasi linfonodali . Confronto fra due proporzioni Capita spesso di chiedersi: ma la differenza fra queste due proporzioni (osservate, per esempio, in soggetti diversi) è significativa oppure no? In genere si preferisce confrontare, con i metodi che vedremo, le frequenze dalle quali le proporzioni sono tratte, ma può essere praticamente utile disporre di un semplice metodo (anche se subisce qualche critica nella letteratura statistica) per confrontare direttamente due proporzioni fra loro. Nota 1: Ricordiamo, anche se ben noto, che quando si procede ad un confronto statistico per testare una differenza si parte sempre dall’ipotesi H0 (detta anche “ipotesi nulla”): cioè quella che una differenza in realtà non vi sia (e quindi che la differenza osservata sia soltanto casuale, dal momento che i campioni che si confrontano sono tratti dalla stessa popolazione). Quando diciamo: “Il risultato di questo test ci indica che -7- vi è una differenza significativa con p<0.05” vogliamo semplicemente dire che rimangono meno del 5% di probabilità a favore dell’ipotesi nulla; il che ci consente di respingerla e affermare che vi è una differenza significativa (e la respingiamo con ancor maggior fiducia se il risultato del test ci indica p<0.01: a favore dell’ipotesi nulla rimane solo l’1% di probabilità). Nota 2: Effettuando un test per confronti ci si dovrebbe anche chiedere: intendo effettuare un test “a due code” o un test “a una coda” ? Si effettua un test “a due code” se si vuole esaminare che sia significativa una differenza comunque orientata (e cioè, se si confronta A con B, tanto nel senso che A sia maggiore di B, quanto nel senso che B sia maggiore di A). Si effettua un test a “una coda” se si hanno buone ragioni per pensare che la differenza, se c’è, sia orientata in un particolare modo: per es. che A debba essere maggiore di B e si vuole la prova che ciò sia vero. Per affermare una differenza a “una coda” basta un risultato del test usato per il confronto (per esempio un valore del t di Student) meno grande di quello che sarebbe significativo per un test “a due code”. Ciò è allettante (soprattutto quando si testano dati propri!), ma pericoloso: perciò i risultati dei test a una coda vanno valutati con prudenza, ed è in genere consigliabile utilizzare come significativi i valori del test “a due code”. E’ la ragione per cui d’ora in poi forniremo solo questi (come del resto in genere è nelle tavole riportate dai testi di statistica). Metodo per il confronto di due proporzioni Consideriamo la proporzione p1, determinata su un primo gruppo di N1 individui (q1 è il complemento ad 1 di p1) per confrontarla con la proporzione p2 ( q2 sarà 1 – p2 ) determinata su un secondo gruppo di N2 individui. Si calcola V: V= p1 - p 2 p1 q1 p 2 q 2 + N1 N2 V è significativo con p<0.05 se supera 1.96 e significativo con p<0.01 se supera 2.58 . N.B. Questo metodo può essere usato solo se N1 x p1 , N1 x q1 , N2 x p2 e N2 x q2 sono tutti maggiori di 5. Questa è una verifica da fare prima di applicarlo. Esempio operativo n. 2 Abbiamo effettuato la scintigrafia ossea in un gruppo di 15 pazienti con accertate metastasi scheletriche da carcinoma tiroideo ottenendo un reperto positivo in 8 ( 8 / 15 = 0.533 = 53.3% ) e in un secondo gruppo di 20 pazienti con metastasi ossee di carcinoma polmonare ottenendo un reperto positivo in 15 (15 / 20 = 0.75 = 75%). Possiamo affermare, in base al nostro studio, che la proporzione di reperti positivi che si ottengono quando la scintigrafia è applicata allo studio delle metastasi ossee da Ca. polmonare è significativamente superiore a quanto si ottiene se le metastasi sono da tumore tiroideo? Calcoliano V: V = 0.533 - 0.75 = 1.34 0.533 x0.467 0.75 x0.25 + 15 20 Il risultato non è superiore a 1.96 e quindi concludiamo che, nonostante le apparenze (75% contro 53.3%) non risulta dal nostro studio una significativa differenza di risultati positivi per i due tipi di tumore (può anche darsi che vi sia, ma lo studio, del resto condotto su pochi casi, non la dimostra). -8- Attenzione! Il metodo tende a sopravalutare le differenze. Perciò se il V calcolato è, come nell’esempio, inferiore a 1.96 possiamo tranquillamente affermare che “la differenza non è significativa”. Ma se è maggiore di 1.96 e non molto lontano da esso il risultato potrebbe essere fasullo e va controllato con un altro metodo. Per limitare questo inconveniente si può usare una formula più cautelativa (che consiglio vivamente, anche se meno facile da ricordare e più complicata) e che è la seguente: Ê 1 1 ˆ ˜ p1 - p2 - 0.5 xÁÁ + N1 N 2 ˜¯ Ë V= Ê 1 1 ˆ ˜˜ pxqxÁÁ + N N 2 ¯ Ë 1 In questa formula non compaiono p1 e p2, ma un unico p che si calcola sommando le frequenze osservate nei due campioni e dividendo la somma per N1 + N2. Cioè per il nostro esempio sarebbe p = (8+15) / (15+20) = 23 / 35 = 0.657 (65.7%). Applicando la formula all’ esempio ed utilizzando questo valore per p (provi il lettore a fare il calcolo) si ottiene un valore di V di 0.978 in luogo di 1.34 . Ordinamento delle frequenze: tabelle di contingenza La tabellina riportata a pag. 7 per l’esempio operativo n.1 è un esempio di tabella di contingenza. Le tabelle di contingenza sono un modo di ordinare le frequenze quando vi sono più gruppi (di soggetti o di osservazioni) e gli elementi che compongono tali gruppi vengono classificati in rapporto a più categorie di appartenenza. Il caso più semplice e più frequente nella pratica è quello di due gruppi e due categorie (tabelle 2 x 2 , con due colonne e due righe). Nell’esempio n. 1 il I gruppo è quello dei pazienti con linfonodi metastatici (risultati tali all’accertamento istologico); il II gruppo è quello dei pazienti con linfonodi esenti da metastasi; i soggetti appartenenti ai due gruppi sono suddivisi a seconda che la RM endorettale abbia evidenziato un quadro “positivo” o “negativo” per la metastatizzazione. Ovviamente se i gruppi sono parecchi e/o sono parecchie le categorie, la tabella non sarà 2 x 2 , ma comprenderà più righe e più colonne: sarà cioè una tabella cosidetta m x n , dove m sono le righe e n le colonne. Per evitare confusioni ed un uso improprio dei test, quando si costruisce una tabella di contingenza bisogna porre cura a riportare i gruppi nelle colonne e le categorie nelle righe (come nell’esempio n.1, nel quale le righe rappresentano le due categorie della variabile nominale dicotomica positivo / negativo ). Sulle frequenze raccolte in tabelle di contingenza si possono effettuare test di confronto (per evidenziare differenze significative) e test di associazione (per studiare correlazioni fra le variabili). Per i confronti è indispensabile, ai fini della scelta del test corretto, chiedersi preliminarmente: i dati che mi accingo a trattare sono indipendenti oppure associati ? Nell’esempio n. 1 i dati sono indipendenti: si tratta di osservazioni compiute su pazienti diversi. Ma se, studiando con Ecografia e Tomografia Computerizzata la malattia X in 12 pazienti che ne sono affetti, avessimo la seguente distribuzione di frequenze: Positivo Negativo Eco TC 8 4 10 2 -9- diviene chiaro che siamo di fronte a dati associati: le 24 osservazioni ottenute in 12 soggetti sono di necessità associate due a due nei singoli pazienti. Nelle formule che si usano per effettuare i test statistici, gli elementi della tabella di contingenza sono indicati con lettere. Una tabella 2 x 2 assume di conseguenza l’aspetto che segue (al quale fare riferimento per interpretare le formule; le lettere nelle formule possono essere anche minuscole): GRUPPO Variabile I II Totali + A B A+B - C D C+D A+C B+D N Totali Nella tabella dell’esempio n. 1: A = 9; B = 12; C = 2; D = 15; A+B = 21; C+D = 17; A+C = 11; B+D = 27; N = 38 . - 10 - Test per i confronti A) Tabelle 2 x 2: dati indipendenti Il test più impiegato nella pratica è il test del Chi Quadrato: lo esamineremo pertanto in dettaglio. Vi sono però casi (campioni di piccole dimensioni ) nei quali questo test non è correttamente applicabile e bisogna ricorrere al test di Fisher (che è in ogni caso il più esatto, ma ha il difetto di rendere quasi indispensabile l’uso del computer). Metodo del chi quadrato ( c 2 ) Principio: si confrontano le frequenze osservate nei due campioni con quelle che ci potremmo attendere se fosse vera l’ipotesi H0; maggiore è la divergenza fra valori osservati e valori attesi, maggiore è la significatività della differenza. Per capire il principio e il procedimento, applichiamo il metodo allo: Esempio operativo n. 3 Riprendiamo i dati che ci servirono per l’esempio operativo n. 1. Questa volta ci chiederemo: usando la RM endorettale, la proporzione di reperti “veri” (cioè confermati come positivi o come negativi dall’esame istologico) osservata studiando i linfonodi patologici è significativamente diversa da quella rilevata nello studio dei linfonodi esenti da metastasi ? Ciò equivale a chiedersi: la frazione dei “veri positivi” è significativamente diversa dalla frazione dei “veri negativi” ovvero: la sensibilità è significativamente diversa dalla specificità? Disponiamo le frequenze osservate in questo modo: I gruppo (metastasi) II gruppo (linf. indenni) Totali Veri 9(a) 15 ( b ) 24 Falsi 2(c) 12 ( d ) 14 27 38 Totali 11 Si tratta quindi di vedere se è significativa la differenza fra 9 risultati “veri positivi” su 11 malati (linfonodi metastatici) e 15 “veri negativi” su 27 soggetti senza metastasi linfonodali. Se si assume che non vi siano differenze fra i due gruppi (è l’ipotesi H0 ), i due campioni possono venire unificati. Quindi la proporzione di risultati “veri” attesa nell’ipotesi H0 è (colonna a destra): 24/38, cioè p = 0.63 ( q = 0.37). Questa proporzione ci permette di calcolare le frequenze “attese” se non ci fosse differenza fra i due gruppi. Infatti: a = 0.63 x 11 = 6.93 b = 0.63 x 27 = 17 c = 0.37 x 11 = 4.07 d = 0.37 x 27 = 10 Scriviamo le frequenze attese fra parentesi accanto a quelle osservate: Veri 9 ( 6.93 ) 15 ( 17 ) Falsi 2 ( 4.07 ) 12 ( 10 ) Il c 2 si calcola: - facendo la differenza fra il valore osservato e quello atteso per ogni elemento della tabella; - 11 - - mettendo la differenza al quadrato (serve a eliminare i segni negativi); - dividendola per il valore “atteso” (è una operazione di normalizzazione) - sommando le quattro differenze così ottenute. Perciò: c2= (9 - 6.93) 2 (15 - 17) 2 (2 - 4.07) 2 (12 - 10) 2 + + + = 0.618 +0.235+1.053+0.4 = 2.306 6.93 17 4.07 10 Correzione per la continuità di Yates Per le tabelle 2x2 è stato consigliato da Yates (e ormai da tutti adottato) una correzione al metodo sopradescritto consistente nell’aggiustare i valori osservati di 0.5 punti più vicino ai valori “attesi” (ciò ovviamente diminuisce le differenze e quindi il valore calcolato di c 2 ). c 2 (corretto) = (8.5 - 6.93) 2 (15.5 - 17) 2 (2.5 - 4.07) 2 (11.5 - 10) 2 + + + = 1.32 6.93 17 4.07 10 Nota importante. Il c 2 corretto può essere calcolato dalle frequenze originali con questa formula (è quella di solito usata ), dove le barre verticali indicano “prendi il valore assoluto”: N 2 ) N ( 9 x12 - 15 x 2 - 19) 2 x38 2 Per l’esempio: c 2 = = 1.32 c2= (a + b)(c + d )(a + c)(b + d ) 24 x14 x11x 27 ( ac - bd - Valutazione della significatività del risultato trovato E’ inutile andare a consultare grafici e Tavole: per le tabelle 2x2 basta ricordare –ed è facileche c 2 è significativo con p<0.05 se è maggiore di 3.84 e con p<0.01 se maggiore di 6.635. Conclusione per l’esempio: Il valore trovato (1.32) è inferiore a 3.84; perciò,nonostante le apparenze, la sensibilità della RM per le metastasi linfonodali da Ca. rettale non è significativamente maggiore della specificità. Il test esatto di Fisher E’ uno strumento poderoso ed il miglior metodo per il confronto di due proporzioni: ma la complessità dei calcoli lo rende poco agevole (a meno di usare un programma ad hoc per computer). Il test si basa sul fatto che è possibile, per una tabella 2 x 2, calcolare la probabilità esatta di avere una particolare distribuzione osservata. Essa è data dalla formula: p= (a + b)!(c + d )!(a + c)!(b + d )! N ! a !b! c! d ! Nota. Il punto esclamativo significa fattoriale del numero in oggetto. Il fattoriale di N è 1x2x3x4x........N. Il fattoriale di 4 è, per esempio, 1x2x3x4 = 24 Il fattoriale di 1 è 1. Il fattoriale di 0 è, per convenzione, 1. - 12 - Non è difficile ricordare la formula se si pensa che il numeratore è il prodotto dei fattoriali dei totali marginali e il denominatore il prodotto dei fattoriali delle singole caselle, moltiplicato per il fattoriale di N. Nota. Per il lettore amante del “fai da te” una Tavola dei fattoriali fino a N = 64 è riportata al termine della dispensa. Ma tutti, per effettuare il test di Fisher, usano il computer! Esempio operativo n. 4 Supponiamo d’aver studiato un piccolo campione (sul quale è bene che il lettore si eserciti perché il test di Fisher è quello che deve essere usato quando le proporzioni sono state determinate su campioni piccoli) : Malattia A Malattia B Totale Scinti. Pos. 5 (a) 1 (b) 6 Scinti. Neg. 2 (c) 7 (d) 9 7 8 N= 15 Totale Ovviamente stiamo esaminando se c’è una differenza significativa fra le proporzioni 5/7 = 0.714 (71.4%) e la proporzione 1/8 = 0.125 (12.5%): sembrerebbe, ad occhio, di sì. Il calcolo della formula: p= 6 ! 9 ! 7 !8 ! 15!5!1! 2 ! 7 ! da’ (il lettore verifichi facendo ricorso alla tavola dei fattoriali posta in calce alla dispensa) p= 0.0336 (3.36%). Ma basta questo risultato, essendo inferiore a p<0.05 (5%) per respingere l’ipotesi H0 ed affermare che la differenza fra le due proporzioni sia significativa? No, perché non si è verificato se il risultato cade in una “zona critica”. Potrebbe infatti succedere che la probabilità complessiva di avere o il risultato osservato o quello di una o più distribuzioni ancor più sbilanciate superi 0.05 e quindi non sia significativa. Per capire ciò proviamo a calcolare p per tutte le tabelle di contingenza che è possibile ipotizzare, rispettando i totali di riga (6 e 9) e di colonna (7 e 8). Ecco le tabelle: 1) A B 2) A B 3) A B 4) A B 5) A B + 6 0 6 + 5 1 + 4 2 + 3 3 + 2 4 - 1 8 9 - 2 7 - 3 6 - 4 5 - 5 4 7 8 6) A B 7) A B + 1 5 + 0 6 6 - 6 3 - 7 2 9 7 8 - 13 - Nonostante le apparenze, costruire queste tabelle non è difficile: basta mettere inizialmente il numero più alto possibile, nel rispetto dei totali marginali, nella casella a (quella in alto a sinistra) e farlo decrescere di una unità alla volta: tutti gli altri tre numeri, rispettando i totali marginali, vengono modificati di conseguenza. Si noti che la distribuzione 2) è quella osservata nella nostra sperimentazione scintigrafica. Calcoliamo ora, con la formula di Fisher, il p di ogni distribuzione. Trovo: Combinazione 1) p = 0.0014 Combinazione 2) p = 0.0336 Combinazione 3) p = 0.1958 Combinazione 4) p = 0.3916 Combinazione 5) p = 0.2937 Combinazione 6) p = 0.0783 Combinazione 7) p = 0.0056 Quella osservata nel nostro esempio Esaminando questa tavola si vede subito che le combinazioni 1) e 2) con le probabilità 0.0014 + 0.0336 = 0.035 costituiscono una regione critica (p <0.05) a una estremità della distribuzione e la combinazione 7 con p = 0.0056 costituisce la regione critica all’altra estremità. Siccome il risultato osservato (quello della combinazione 2) cade in una zona critica, posso respingere l’ipotesi H0 ed affermare: la differenza fra le due proporzioni di scintigrafie positive nella malattia A e nella malattia B è statisticamente significativa, con p = 0.035. Un accorgimento pratico. Per giungere a questa conclusione, che è quella che di solito cerchiamo, non è necessario calcolare tutte le combinazioni possibili: quella che serve è la somma delle probabilità delle combinazioni che presentano un numero uguale o inferiore a quello della casella che ha il valore più piccolo. Siccome nella tabella di contingenza dei campioni il numero più piccolo è 1 (in posizione b), basta calcolare oltre al p della tabella, anche quello della tabella con b= 0 (che è la combinazione n.1) e fare la somma, che è, appunto, 0.035. Nota: Ovviamente quando la probabilità esatta della particolare distribuzione osservata è da sola superiore a 0.05 (5%) è inutile fare i calcoli per le altre possibili tabelline perché già si può tranquillamente affermare che non vi sono differenze significative. Importante: indicazioni per l’impiego dei test di confronto per tabelle 2 x 2 1) Quando N è minore di 20 si usi sempre il test esatto di Fisher; 2) Quando N è compreso fra 20 e 40 si può usare il test del Chi Quadrato se tutte le frequenze attese sono uguali o maggiori di 5. Se, in una sola casella, la più piccola frequenza attesa è minore di 5 ma almeno uguale a 2, il test al Chi Quadrato fornisce ancora risultati sufficienti, ma sarebbe meglio, se possibile, usare il test di Fisher; 3) Quando N è maggiore di 40 usare il Chi Quadrato con la correzione di Yates. B) Tabelle 2 x 2: dati associati Talvolta si vogliono confrontare frequenze e proporzioni osservate nello stesso gruppo di soggetti. In medicina ciò avviene per lo più nei disegni “prima-dopo” nei quali si vuol verificare come una - 14 - caratteristica, osservata prima di un certo trattamento, viene modificata dal trattamento stesso. In radiologia e medicina nucleare il caso più frequente (anzi è un caso molto comune) è che si vogliano confrontare i risultati di due metodi diversi applicati agli stessi pazienti. Test di Mc Nemar Questo test può essere utilizzato per variabili nominali dicotomiche, o dicotomizzate, esprimendo un risultato come “positivo” (+) e il risultato alternativo come “negativo” (-). Si dispongono i risultati in una tabella 2x2 mettendo nelle righe quelli (positivi e negativi) ottenuti con un metodo (oppure “prima”) e nelle colonne i risultati ottenuti con l’altro metodo (o “dopo”). - + + a b - c d Per il test si tiene conto solo dei risultati che divergono fra loro, cioè a e d per la disposizione sopra riportata, e si calcola: 2 c = ( a - d - 1) 2 a+d Esempio operativo n. 5: Frank J. et al. hanno applicato sia l’Ecografia che la TC allo studio dei tumori pancreatici. In 38 casi i risultati furono concordemente positivi per tumore e in 18 concordemente negativi. Due casi negativi alla TC risultarono positivi all’ecografia; per contro la TC risultò positiva in ben 12 casi negativi all’ecografia. Tabella: Ecografia + 12 + 38 - 18 2 TC 2 c = ( 12 - 2 - 1) 2 14 = 5.78 Il risultato, essendo maggiore di 3.84, depone per una differenza significativa (p<0.05) fra i due metodi diagnostici. Nota. A dimostrazione dell’utilità del test di Mc Nemar riflettiamo che chi non lo conosce avrebbe 2 probabilmente effettuato un consueto test al c nel modo che segue. Ecografia TC Positivi 40 50 Negativi 30 20 E avrebbe trovato un c 2 (corretto sec. Yates) = 2.52 erroneamente non significativo! - 15 - C) Tabelle m x n: dati indipendenti Estensione del test del Chi Quadrato Il test può essere esteso a confronti multipli di frequenze raccolte in una tabella m x n seguendo esattamente lo stesso procedimento già illustrato, con due avvertenze: - non si applica la correzione di Yates (necessaria nelle tab. 2 x 2); i Gradi di Libertà (G.L.) per i quali verificare nella Tavola del Chi Quadrato posta in appendice alla dispensa la significatività del risultato sono: G.L. = (m – 1) x (n – 1) . Nel caso delle Tabelle 2 x 2 , G.L. = 1 (il che corrisponde alla prima riga della Tavola). Abbiamo preferito evitare l’uso della Tavola, citando direttamente i due valori critici per p = 0.05 e p = 0.01 (cioè 3.841 e 6.635). Ma per un confronto multiplo la consultazione della Tavola è indispensabile, cercando i valori “critici” nella riga corrispondente ai G.L. definiti con la formuletta sopra riportata. Illustriamo il c 2 per confronti multipli con un caso non raro a trovarsi quando si leggono editoriali, recensioni, messe a punto: il confronto fra casistiche di vari Autori. Esempio operativo n. 6 In una recente pubblicazione viene rivista l’attendibilità della PET in varie patologie; fra l’altro nello studio della vitalità miocardica. Per cinque degli Autori che si sono occupati di questo argomento, sono riportati i seguenti dati: AUTORI A B C D E Medie Sensibilità 81% 83% 100% 85% 90% 88% Specificità 93% 71% 62% 50% 80% 71% Accuratezza 87% 77% 73% 64% 87% 78% Alt! Nota importante 1) Fare la media delle proporzioni (o percentuali) non è corretto e può condurre a gravi errori. Mettiamo, per esempio, che un Autore riporti una sensibilità del 90% e un altro, per la stessa metodica, una del 60%. Possiamo dire che, in base ai due autori, la sensibilità è, in media, (90 + 60) / 2 = 75% ? No; bisogna considerare la frequenza dei risultati e il numero dei malati studiati. Se, ad es., il primo ha trovato 90 risultati positivi su 100 malati (sensibilità=90%) e il secondo 6 positivi su 10 malati (sensibilità=60%), i due ricercatori, assieme, hanno trovato una sensibilità = (90+6)/(100+10)=96/110=0.87: l’87% e non il 75% ! Quindi un procedimento corretto è cumulare le frequenze e calcolare la proporzione sulle frequenze cumulate. In alternativa si può anche calcolare la media ponderata, anziché la media semplice: (90x100 + 60x10)/(100+10)=0.87 Il risultato è lo stesso. 2) Per accorpare casistiche occorre presumere che i ricercatori abbiano lavorato in modo omogeneo (in condizioni tecniche comparabili e con criteri similari nell’interpretazione dei risultati). Questo è difficile da stabilire, ma spesso è possibile disporre delle frequenze dei risultati ed applicare il Chi Quadro per confronti multipli per stabilire se le differenze sono casuali (è l’ipotesi H0) o dovute a differente modus operandi. E’ quello che faremo. - 16 - Sviluppo dell’esempio. Leggendo i lavori dei 5 Autori è possibile risalire al numero dei “reperti veri” (veri positivi e veri negativi) osservati da ciascuno: A B C D E Totale Veri positivi 13 15 14 11 9 62 Veri negativi 13 15 21 10 4 63 26 30 35 21 13 Tot. N = 125 Calcoliamo i valori attesi. Per ogni casella: (totale di riga x totale di colonna) / N Ad esempio, per la prima: (62 x 26) / 125 = 12.9 e per l’ultima: (63 x 13) / 125 = 6.55 Riportiamo i valori trovati nella tabella: Veri positivi 13 (12.9) 15 (14.9) 14 (17.4) 11 (10.4) 9 (6.4) Veri negativi 13 (13.1) 15 (15.12) 21 (17.64) 10 (10.6) 4 (6.6) Possiamo calcolare il Chi Quadro: (13-12.9)2/12.9 + …. + (4-6.6)2/6.6 = 3.37 Nella Tavola il valore “critico” per p = 0.05 e (2-1) x (5-1) = 4 GL è 9.488 Il valore trovato è molto inferiore, quindi non ci sono differenze significative nell’ambito della tabella. Bene! Possiamo presumere che i ricercatori hanno lavorato in modo omogeneo e perciò possiamo accorpare le frequenze osservate dai cinque Autori. I “veri positivi” sono 62 su 71 malati complessivamente studiati: quindi la sensibilità è 62/71 = 0.873 (87.3%). I “veri negativi” sono 63, su 94 non malati: specificità = 63/94 = 0.67(67%). L’accuratezza è: (62+63)/(71+94) = 125/165 = 0.757 (75.7%). Considerando i risultati la specificità appare piuttosto bassa, il che significa un numero elevato di “falsi positivi” (ciò può condurre a inutili interventi di rivascolarizzazione). Localizzazione delle differenze Nell’esempio precedente il valore calcolato di Chi Quadrato è risultato inferiore al valore “critico” per p = 0.05. Ma se fosse risultato superiore? Vuol dire che nell’ambito della tabella ci sono una o più differenze significative: bisogna localizzarle (spesso si vede subito dove sono le differenze più rilevanti, ma bisogna dimostrarne la significatività). Esempio operativo n. 7 In una ricerca su 273 pazienti affetti da tumori polmonari (suddivisi in tre categorie: metastasi, non-small cell carcinoma e microcitoma) è stata studiata la captazione del Gallio radioattivo, definita in tre gradi: I (bassa: uguale o minore di quella delle parti molli); II (discreta: più delle parti molli, ma meno del fegato); III (elevata: più del fegato). Nella tabella sono riportati i risultati (in parentesi i valori attesi) calcolati come nell’esempio già fatto. Con R è indicato il totale di riga e con C il totale di colonna. - 17 - Metastasi Non-small cell Microcitoma R I grado 56 (50.41) 30 (23.93) 13 (24.66) 99 II grado46 (42.77) 18 (20.31) 20 (20.92) 84 III grado 37 (45.82) 18 (21.76) 35 (22.42) 90 66 68 C 139 N = 273 Con questi valori posso calcolare il Chi Quadrato: (56-50.41)2/50.41 + (30-23.93)2/23.93 + … + (35-22.42)2/22.42 = 17.62 ; che è significativo con p<0.005). Quindi ci sono veramente, nella tabella, una o più differenze significative. Ma dove sono? Per localizzare le differenze è riportato nei libri di statistica un metodo molto complicato che si chiama scomposizione in tabelle di partizione. Un metodo più semplice (basta una calcolatrice tascabile!) è l’analisi dei residui standardizzati. Chiamiamo O il valore osservato ed A quello atteso, riportati nella tabella. O- A Il residuo RS è, per ogni casella, il valore: che viene standardizzato moltiplicandolo per A N -C (dove C ed R sono i totali marginali della colonna e della riga alla quale la casella N-R appartiene). Facciamo il calcolo per la prima casella: RS = 56 - 50.41 50.41 x 273 - 139 = 0.69 273 - 99 Ripetendo questa operazione per tutte le caselle, possiamo costruire una tabella dei RS: Metastasi I grado II grado III grado Non-small cell 0.69 0.416 -1.112 1.353 -0.536 -0.86 Microcitoma -2.55* 0.21 2.81** La differenza è significativa con p<0.05 (*) se RS è maggiore di 1.96 e con p<0.01 (**) se RS è maggiore di 2.58. Considerando la tabella dei residui possiamo concludere che l’unica differenza significativa riguarda il microcitoma, per il quale rispetto agli altri istotipi è meno (segno negativo!) frequente(p<0.05) una bassa captazione e per contro assai più frequente (p<0.01) una captazione elevata, di III grado. D) Tabelle m x n: dati associati Rimane da considerare il caso di più gruppi di dati associati: non raro in radiologia e medicina nucleare, perché spesso si vogliono confrontare i risultati di più metodiche applicate agli stessi soggetti. In questi casi si può usare il test Q di Cochran. Il test Q di Cochran è adatto per dati nominali dicotomici (o dicotomizzabili): positivo/negativo, successo/insuccesso ecc. Si assegna il valore 1 ad uno dei due risultati possibili (in genere quello in qualche modo “vantaggioso”) e 0 all’altro e si dispongono gli 0 ed 1 in una tabella di n righe (n è il numero dei casi) per k colonne (k è il numero dei gruppi). - 18 - Esempio operativo n. 8 L’esempio riguarda quattro metodi diagnostici ( k = 4) applicati a 20 soggetti ( n = 20) affetti da metastasi epatiche. Tabella (nella quale 1 = reperto di metastasi): Pazienti ECO TC RM PET L 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 1 0 0 0 0 1 0 0 1 1 0 1 0 1 0 0 1 0 0 1 1 1 1 0 1 0 1 1 1 1 0 1 1 0 0 1 1 1 0 1 0 0 1 1 0 1 0 1 0 1 1 1 0 1 1 1 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 16 9 1 9 4 1 9 4 9 9 16 4 16 4 9 1 9 4 4 1 G 7 14 12 16 G2 49 196 144 256 In calce alla tabella segniamo G, il numero degli 1 presenti in ogni colonna (è il numero dei casi che ogni metodica segnala come metastatici) e, sotto, G2: i quadrati di G. Gli L a margine sono il numero degli 1 presenti in ogni riga, posto al quadrato. Calcoliamo ora: somma dei G = 49; somma dei G2 = 645; somma degli L = 120 La formula del Q di Cochran è: Q = (k-1) k  G 2 - ( G ) 2 kÂG -  L Applichiamo la formula del Q di Cochran al nostro esempio: 4 x645 - 49 2 Q=3x = 8.8 4 x 49 - 120 Se il numero dei casi non è troppo piccolo (k x n deve essere maggiore di 24) la significatività di Q può essere controllata nella tavola di Chi Quadro, per k-1 GL. Un Q di 8.8 è superiore al valore critico per p<0.05 con 3 GL (che è 7.8147). Possiamo quindi ritenere che vi sono differenze significative fra le metodiche (o almeno fra qualcuna di esse) nel rilevare le metastasi epatiche. In realtà, guardando i dati, la differenza più evidente è fra la PET che dà 16 risultati positivi e l’Eco, che ne dà solo 7. E’ statisticamente significativa questa differenza? Si tratta di dati associati, quindi il controllo lo facciamo con il test di McNemar, che già conosciamo. Costruiamo quindi la tabellina, che mostra la concordanza o discordanza di risultato nei singoli casi: - 19 - PET 0 1 1 1 6 0 3 10 ECO Come si ricorderà, per questo test si tiene conto solo dei risultati discordanti (nelle caselle A e D ( A - D - 1) 2 della tabella) e si usa la formula: c 2 = A+ D Nel nostro caso: c 2 = (9 - 1) 2 = 5.82 1 + 10 Il valore trovato conferma la significatività della differenza (con p<0.05). Se si fa la stessa operazione con PET e RM (16 risultati positivi contro 12) si ha un risultato di 1.78, che non è significativo (e diviene inutile una verifica per la TC che con 14 risultati positivi non differirà né dai 16 della PET né dai 12 della RM). La conclusione è che tre metodiche su quattro danno risultati praticamente equivalenti e solo l’Ecografia scarta significativamente dalle altre. - 20 - Test per la studio dell’associazione ( correlazione ) di dati nominali A) Tabelle 2 x 2 Coefficiente di associazione R j Per saggiare l’associazione fra due gruppi di dati nominali (espressi in frequenze poste in una tabella 2 x 2 e la tabella viene costruita esattamente come abbiamo visto per il test di McNemar, in modo da evidenziare le concordanze e discordanze dei risultati) si può usare il coefficiente R j che è semplice da calcolare con la seguente formula: Rj = AD - BC ( A + B)(C + D)( A + C )( B + D) E’ facile ricordare la formula considerando che al numeratore vi è la differenza fra i prodotti degli elementi nelle diagonali e al denominatore la radice quadrata del prodotto dei totali marginali. Il coefficiente va da 0 a 1 ed è tanto più vicino a 1 quanto più è stretta l’associazione (correlazione) fra le due variabili considerate. Il valore trovato è significativo se è significativo il c 2 (con correzione di Yates) calcolato sulla stessa tabellina 2 x 2. Esempio operativo n. 9. Abbiamo visto, parlando del test Q, che la PET fornisce il maggior numero di risultati positivi nella ricerca delle metastasi epatiche, ma non in misura statisticamente superiore alla RM o alla TC. Il problema che può porsi è: quale di queste metodiche meglio correla con la PET (per quanto riguarda i risultati nei singoli casi)? Se vi fosse una buona correlazione la metodica potrebbe infatti essere usata in luogo della PET, che è costosa e poco disponibile. Riportiamo le possibili tabelline con accanto i valori di R : PET 1 0 2 1 9 RM Rj = 0 2 7 1 0 3 1 11 2⋅7 -9⋅2 11 ⋅ 9 ⋅ 4 ⋅ 16 = 0.05 (n. s.) PET TC Rj = 0 1 5 1 0 7 1 7 3 ⋅ 5 - 11 ⋅ 1 14 ⋅ 6 ⋅ 4 ⋅ 16 RM - 21 - = 0.055 (n.s.) TC Rj = 0 1 7 ⋅ 5 - 7 ⋅1 14 ⋅ 6 ⋅ 8 ⋅ 12 = 0.31 (n. s.) 5 Nessun coefficiente è significativo. Non vi è quindi correlazione: ciò significa che nessuna delle metodiche può essere usata in luogo di un'altra. Nota. Può sorprendere che il coefficiente più elevato sia quello che riguarda RM/TC, dal momento che proprio qui si riscontrano le discordanze più numerose (12 su 20). Ma ciò avviene perché quel po’ di correlazione che c’è è negativa: quando un metodo tende a dare risultato positivo, l’altro tende a darlo negativo. Per la sua struttura R j non può segnalare questa situazione con il segno negativo – (come succede invece per R di Pearson). Esempio operativo n. 10 Riguarda uno studio su 66 pazienti sulla associazione fra positività per embolia della scintigrafia perfusoria polmonare e la presenza di dolore toracico. La tabella: Dolore No (0) Si (1) 12 25 Negativa (0) 18 11 Positiva (1) Scintigrafia Rj = (12 x11) - (25 x18) 37 x 29 x30 x36 = 0.295 Il coefficiente 0.295 non sembra elevato, ma se si calcola c 2 con la correzione di Yates troviamo c 2 = 4.62 che è superiore al valore critico per p = 0.05 (è 3.841, come si ricorderà). Possiamo concludere che negli embolici vi è una significativa correlazione fra dolore toracico e positività scintigrafica. Coefficiente b di regressione Qualche volta l’appartenenza ad un gruppo comporta un rischio particolare. Per esempio se si suddividono dei cardiopatici ischemici a seconda che abbiano avuto un solo infarto o più di uno (reinfartuati) è ben noto che l’appartenenza al gruppo dei reinfartuati comporta un rischio di morte molto maggiore. In casi come questo può essere utile calcolare sui dati della tabella un particolare coefficiente: il coefficiente di regressione b (di regressione perché pone in rapporto l’appartenenza ad una categoria con l’entità del rischio). Tale coefficiente è il logaritmo naturale di (A x D) / (B x C) . Vediamone, al solito, l’impiego con un esempio operativo. Esempio operativo n. 11 - 22 - Riprendiamo i dati dell’esempio operativo n. 1 (in questo caso il gruppo a rischio è, evidentemente, quello dei pazienti con metastasi linfonodali): RM + RM - Meta. Linf. + 9 2 Meta. Linf. – 12 15 Calcoliamo anzitutto il coefficiente di regressione: b = ln (9 x 15 / 12 x 2) = ln 5.625 = 1.727 A cosa ci serve l’averlo calcolato? A rispondere a due domande: 1) La risposta positiva dell’indagine RM comporta, o no, un rischio significativo di avere metastasi linfonodali? 2) Quanto è alto questo rischio? Per rispondere alla prima domanda si deve calcolare l’Errore Standard di b: Errore standard di b = 1 1 1 1 + + + Esempio: ES = a b c d 1 1 1 1 + + + =0.87 9 2 12 15 Si può verificare se b è diverso da 0 (cioè se vi è una correlazione) dividendo b per il suo ES. Se il risultato è maggiore di 1.96 la regressione c’è ed è significativa con p<0.05; se supera 2.58 è significativa con p<0.01. Per l’esempio: Test = 1.727 b = = 1.985 0.87 ES Il risultato supera,anche se di poco, 1.96 quindi possiamo affermare che la positività del reperto RM correla (p<0.05) con la presenza di metastasi linfonodali. Per rispondere alla seconda domanda bisogna calcolare il “rischio relativo” che è: Rischio relativo = e b Perciò per l’esempio: e1.727 = 5.6 Possiamo quindi ritenere che, rispetto a un reperto RM negativo, una sua positività comporta un rischio di avere metastasi linfonodali più di 5 volte maggiore. Nota Se avessimo calcolato un Chi Quadro sui dati della tabellina avremmo trovato un risultato di 3.03, significativo con p<0.10, ma che non raggiunge il livello “critico” per p = 0.05 (cioè 3.84). Avremmo quindi respinto la “ipotesi nulla” concludendo, in modo probabilmente erroneo, che le risposte positive della RM non sono significativamente più frequenti quando ci sono metastasi linfonodali. Il coefficiente b sembra darci una informazione migliore. B) Tabelle m x n Può capitare di dover studiare la correlazione fra più variabili nominali, con dati (frequenze) raccolti in tabelle di contingenza di r righe per k colonne. In questo caso si può usare il coefficiente C di Cramér, che è una particolare applicazione del c 2 . Prima si calcola il Chi Quadro con le modalità che abbiamo imparato parlando della estensione del c 2 ai confronti multipli. Poi il coefficiente C viene determinato con la seguente formula: - 23 - C= c2 N ( L - 1) Il coefficiente è significativo se è significativo il valore di c 2 contenuto nella formula, verificandolo per (r – 1) x (k – 1) GL. Esempio operativo n. 12 Il Direttore della Radiodiagnostica vuole accertare se vi sia un rapporto (correlazione) fra la rapidità nell’effettuare le indagini richieste dai Reparti e alcuni settori nei quali le prestazioni vengono effettuate. Decide di considerare “rapida” l’effettuazione entro 24 ore dalla richiesta, “normale” se fra 24 e 48 ore e “lenta” se oltre le 48 ore. Rivedendo i registri di un certo periodo di attività si può costruire la seguente tabella 3 x 4 comprendente 260 indagini: Lenta Normale Rapida C Scheletro Digerente Torace TC 13 38 26 77 11 15 10 36 18 26 52 96 25 12 14 51 R 67 91 102 N = 260 Abbiamo posto a margine della tabella i totali di riga e di colonna per facilitare allo studente il calcolo del Chi Quadro per confronti multipli con il metodo già imparato. Questo calcolo dà per risultato c 2 = 32.9. Per conseguenza il coefficiente di Cramér è: C = 32.9 = 0.25 260(3 - 1) Il coefficiente non è elevato, ma è probabile che sia significativo considerando che il campione contiene un numero considerevole di dati. Se andiamo a vedere nella tavola di c 2 troviamo che 32.9 è superiore, per (3 – 1) x (4 – 1) = 6 GL, anche al valore tabulato per p = 0.005. Si può quindi concludere che C è oltremodo significativo: la velocità d’espletamento delle richieste non è casuale, ma è correlata con i settori ove le indagini vengono eseguite. Ma, se è così, il Direttore (persona di non facile contentatura) vuole anche sapere in quale settore l’espletamento è significativamente più lento (reprimenda) e in quale settore più rapido (elogio). Conviene quindi localizzare le differenze significative presenti nella tabella con il metodo dell’analisi dei residui standardizzati, che già conosciamo. Ne viene la tabella: Scheletro Lenta Normale Rapida - 1.52 2.21* - 0.83 Digerente 0.57 0.77 - 1.31 Torace TC - 1.25 - 1.3 2.38* 3.4** - 1.54 -1.55 In base ad essa il Direttore sa, per i provvedimenti del caso, che il settore TC è di gran lunga (** = p<0.01) il più lento nel soddisfare le richieste e il settore Torace il più rapido (* = p<0.05). Nel settore Scheletro prevale un espletamento fra 24 e 48 ore. - 24 - Dati nominali: controllo dell’affidabilità delle osservazioni E’ evidente che un dato nominale nasce dal fatto che viene indicato con un nome particolare un certo oggetto (viene cioè operata una classificazione). Un radiologo, ad es., può indicare (giudicare, classificare) un addensamento polmonare come “tumore” o “processo flogistico” od altro. Oppure, più genericamente ed in rapporto alla patologia che va cercando, può giudicare “positivo” o “negativo” il risultato. In rapporto a tale operazione si devono distinguere e controllare due cose: 1) L’accuratezza: cioè la capacità di risposte esatte, corrispondenti al vero. Questo si controlla verificando quanto i giudizi dati corrispondano alla realtà delle cose, come indicata da un “metodo di riferimento” considerato privo di errore (golden standard): per lo più un esame istologico e/o anatomopatologico. I risultati della verifica sono espressi in termini di sensibilità, specificità, ecc. 2) L’affidabilità, detta anche precisione, che si identifica con la ripetibilità: capacità di dare le stesse risposte in osservazioni ripetute. La precisione ha, per rimanere nel campo radiologico, due aspetti: - Precisione “tra osservazioni” (interobserver, interrater): più radiologi indipendenti concordano nel dare le stesse risposte (o giudizi) sugli stessi radiogrammi; - Precisione “nell’osservazione” (intraobserver, intrarater): ogni osservatore è coerente nel mantenere le risposte date anche rivedendo i radiogrammi a distanza di tempo. Non parleremo qui dell’accuratezza (sono cose molto note), ma invece dei controlli di affidabilità (purtroppo spesso trascurati): lo faremo con esempi concreti. A ) Uno o due osservatori, due categorie di giudizio Esempio operativo n.13 Il Direttore della Radiodiagnostica vuole assegnare due radiologi, Tizio e Caio, al settore operativo “Torace”. Vuole però sapere, preliminarmente: a) Tizio e Caio concordano (è importante che lo facciano) nel dare i propri giudizi di fronte agli stessi radiogrammi del torace? (è una valutazione di precisione interobserver); b) Chi dei due è il più capace di mantenere invariati nel tempo i propri criteri di valutazione? (è una valutazione di precisione intraobserver). Vi sono vari metodi per affrontare questo problema, ma uno particolarmente semplice è impiegare il coefficiente R j che già abbiamo studiato. Cento radiogrammi del torace con opacità da tumore polmonare, ma anche di differente origine e natura, vengono presentati ai due radiologi e si chiede loro di simboleggiare con il segno + il giudizio “c’è un tumore polmonare” e con il segno – il giudizio “no, non è un tumore polmonare”. Confrontando i giudizi dati nei singoli casi, chi organizza lo studio può costruire questa tabella: - 25 - TIZIO + + 35 7 - 10 48 CAIO Nota 1: Si osserverà che i due radiologi hanno dato 48 + 35 = 83 giudizi concordanti su 100 casi. Purtroppo v’è chi direbbe -e scriverebbe- che la concordanza fra i due è dell’83%. Questo è un errore, perché è 83% la concordanza non depurata da quanto dovuto al caso: se i giudizi “positivo” e “negativo” fossero stati espressi senza neppure vedere i radiogrammi, gli esaminatori si sarebbero comunque trovati casualmente d’accordo in un buon numero di casi. Calcoliamo il coefficiente R j = (35 x 48) - (7 x10) = 0.66 (35 + 7) ⋅ (10 + 48) ⋅ (35 + 10) ⋅ (7 + 48) Un coefficiente di 0.66 è, dato il numero elevato di casi con i quali è stato determinato, molto elevato ed indica un ottima concordanza “tra osservazioni”. Sappiamo comunque che la significatività può essere controllata calcolando c 2 sulla stessa tabellina: facendolo si trova c 2 = 40.36, significativo con p<0.001. Nota 2: La formula adoperata contiene una piccola personale modifica a quella del R j che si trova nei testi e che fu riportata in precedenza. Per questo particolare impiego conviene infatti disporre la tabellina in modo che, al numeratore, il prodotto dei dati discordanti figuri sempre come sottraendo e non prendere il valore assoluto del risultato. In tal modo viene indicato il senso della concordanza: se, ad es., fossero stati 83 i giudizi discordanti e 17 i concordanti avremmo avuto: R j = -0.66; che segnala sì una forte concordanza, ma in negativo: quando un osservatore giudica positivo un risultato, l’altro tende a dare un giudizio opposto: una situazione molto sgradevole per i pazienti. Nota 3: L’omogeneità . Si è potuto costruire la tabella per il calcolo di R j perché lo studio è stato condotto in modo da poter confrontare caso per caso i giudizi dati dai due osservatori. Rivedendo casistiche o leggendo delle pubblicazioni, il caso più comune è però un altro: che si abbiano i risultati complessivi dei due osservatori, ma non quelli dati nei singoli casi. Non possiamo valutare la concordanza, ma possiamo sapere qualcosa circa la omogeneità. Possiamo infatti costruire la tabellina: TIZIO CAIO Positivi 45 42 Negativi 55 58 Possiamo così vedere che i due radiologi sono omogenei nelle loro valutazioni: entrambi trovano più o meno la stessa percentuale di tumori nella casistica esaminata (45% il primo e 42% il secondo). Perché vi sia omogeneità occorre che il chi quadro non sia significativo e l’omogeneità è tanto maggiore quanto più è piccolo R j (o altri coefficienti analoghi, come il Q di Yule ecc.). Per la tabella sopraindicata è R j = 0.03, indicante una forte omogeneità. A questo punto interessa valutare la concordanza “nell’osservazione” (intraobserver) per ciascuno dei due radiologi. Dopo un mese (in modo che siano dimenticati i giudizi precedentemente dati) le - 26 - 100 radiografie, opportunamente rimescolate, vengono ripresentate a TIZIO. Da questa seconda lettura emerge: - che su 45 casi precedentemente considerati positivi per tumore, il giudizio è mutato in 5, ora ritenuti negativi; - che, per contro, viene dato giudizio di positività in 7 casi considerati negativi nella prima osservazione. La tabella dei risultati è perciò la seguente: I OSSERVAZIONE + + - 40 7 5 48 II OSSERVAZIONE - Il coefficiente di concordanza, calcolato su questa tabella, è R j = 0.58 (58%) Si ripete la stessa procedura per CAIO, trovando R j = 0.79 (79%) Si conclude che vi è una buona concordanza fra i due radiologi, ma che CAIO è più affidabile in quanto dotato di maggior precisione “intraobserver”. B) Più osservatori e/o più categorie La statistica K di Cohen- Fleiss è un metodo molto generale, solitamente impiegato per più osservatori e più categorie di giudizio, ma che può essere impiegato anche per più osservatori e due categorie o per due categorie e due osservatori (quindi anche nel caso dell’esempio 1, ma R j è più semplice da adoperare). E’ utile anche quando le categorie sono “gradi” o “stadi” di una variabile ordinata, come nell’esempio che proponiamo per spiegare il metodo. Esempio operativo n. 14 Quattro medici nucleari debbono stabilire il grado di captazione del Gallio radioattivo in 15 casi di scintigrafia polmonare effettuata per sospetto di interstiziopatia. Ciascuno sceglie la sua stima del grado di captazione in ogni soggetto fra 5 categorie: I grado (meno delle parti molli), II grado (come le parti molli), III grado (più delle parti molli, ma meno del fegato), IV grado (come il fegato), V grado (più del fegato). Al termine della valutazione i risultati vengono raccolti nella tabella che possiamo esaminare nella pagina che segue. - 27 - VALUTAZIONI Paziente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 C P P2 I grado 2 2 1 3 3 3 4 4 4 26 0.433 0.187 II grado 1 - III grado 2 2 2 1 1 2 1 3 1 0.017 0.0003 14 0.233 0.054 IV grado 1 2 1 V grado 4 4 3 4 - 4 0.067 0.0045 S 1 0.333 1 0.333 0.5 0.167 0.5 0.5 0.333 0.5 1 1 1 1 0.5 15 0.25 0.0625 Nella tabella è riportato per ogni paziente il numero di volte che gli osservatori hanno data una determinata valutazione (ad es. tutti e 4 hanno indicato una captazione di V grado per il n.1; per il secondo paziente, 2 medici hanno ritenuto la captazione di I grado e 2 di III, ecc.). I C posti in calce alla tabella sono il totale dei dati (osservazioni) contenuti in ogni colonna. Al di sotto vi è P, che è la proporzione di C rispetto al totale delle osservazioni (il totale è dato, ovviamente, dal numero degli osservatori per il numero dei casi: 4 x 15 = 60, nell’esempio). Perciò nella prima colonna è p = 26/60 = 0.433; così per le altre. Sotto ancora si pone P2, che non è altro che P posto al quadrato: P2 è la proporzione delle osservazioni che ci attenderemmo nella colonna se la concordanza fosse dovuta solo al caso. Le S poste a margine della tabella sono le stime della concordanza fra gli osservatori per ogni  n(n - 1) dove, essendo k il numero degli singolo paziente: si ottengono con la formula S = k (k - 1) osservatori, il denominatore è, per tutte le righe, 4 x (4-1) = 4 x 3 = 12. Per il numeratore si sommano i numeri che compaiono in ogni riga, dopo aver moltiplicato ciascuno di essi per se stesso meno una unità. Ad esempio, nella prima riga abbiamo un solo numero, il 4: perciò S = (4 x 3)/12 = 1; nella seconda riga abbiamo due 2: perciò S = ((2 x 1) + (2 x 1))/12 = 4/12 = 0.333; nella sesta riga abbiamo tre numeri che danno ((1 x 0) + (1 x 0) + (2 x 1))/12 = 2/12 = 0.167. Ottenute tutte le S se ne fa la somma e la media, che, nel caso nostro, è 9.666/15 = 0.644. La formula che ci fornisce il coefficiente K è: K = P(O) - P( E ) 1 - P( E ) P(O) è la media delle S: quindi 0.644 P(E), la proporzione di concordanza dovuta al caso, si ottiene facendo la somma dei P2: quindi P(E) = 0.187 + 0.0003 + 0.054 + 0.0045 + 0.0625 = 0.3083. - 28 - Possiamo quindi calcolare K = 0.644 - 0.3083 0.3357 = = 0.485 (48.5%) 1 - 0.3083 0.6917 Si sarà notato che K stima la concordanza depurata da quanto dovuto al caso; è questo che rende il metodo interessante e vantaggioso. Il coefficiente varia fra 0 e 1 ed è tanto più alto quanto maggiore è la concordanza fra gli osservatori. La significatività di K La domanda che sorge per il nostro esempio è: è significativa o no una concordanza del 48.5% ? La significatività di K viene testata dividendoil coefficiente per la sua deviazione standard: Z= K DS (K ) K è significativo con p<0.05 se Z è più di 1.96; con p<0.01 se Z è maggiore di 2.58; con p<0.005 se Z è più di 3.291. Ma come si calcola la DS di K? Prendendo la radice quadrata della varianza di K che, a sua volta, è data da questa formula piuttosto complessa: 2 P( E ) - (2k - 3) ⋅ [P( E )] + 2(k - 2) ⋅  p 3 2 Var (K) = ⋅ Nk (k - 1) (1 - P( E )) 2 Per il nostro esempio: Var (K) = 2 0.3083 - (8 - 3) x0.30832 + 2 x(4 - 2) x(0.4333 + 0.0173 + 0.2333 + 0.073 + 0.253 x 15 x 4 x3 (1 - 0.3083) 2 Var (K) = 0.0111 x 0.3083 - (5 x0.095) + 4 x0.11 = 0.00694 0.4785 Perciò la DS di K è: DS = Var (K ) = 0.00694 = 0.083 ed è Z = 0.485 = 5.84 (p<0.005) 0.083 Quindi possiamo affermare che, nonostante l’apparenza, un K di 0.485 indica una concordanza altissimamente significativa (p<0.001) fra gli osservatori. C) Due osservatori, una variabile categoriale ordinata E’ un caso particolarmente interessante. Chissà quante volte i due radiologi dell’esempio precedente si saranno trovati imbarazzati nel dover forzatamente esprimere il loro giudizio secondo le due categorie della variabile dicotomica “positivo” (tumore presente) o “negativo” (tumore assente). Si sarebbero certamente trovati a miglior agio se fossero stati richiesti di esprimere il loro giudizio, di fronte ad ogni radiogramma, scegliendo una delle seguenti categorie: “sicuramente positivo”; “probabilmente positivo”; “dubbio”; “probabilmente negativo”, “sicuramente negativo” che, come il lettore ben vede, rappresentano le categorie di una variabile ordinata (graduata) dal più al meno. In questo caso il test più opportuno per valutare la concordanza non è K, ma K W cioè K “pesato” (W sta per “weighted”). Si noti che anche i gradi di captazione del Gallio nell’esempio precedente rappresentano una variabile ordinata: ma non è possibile utilizzare KW perché gli osservatori sono parecchi e non due soltanto. Il test Kw fornisce un coefficiente più elevato della statistica K applicata agli stessi casi ed - 29 - anche concettualmente più valido, in quanto il test valorizza le concordanze parziali (cioè le vicinanze nei giudizi: è chiaro che un osservatore che classifica un caso come “probabilmente positivo” è molto più vicino a chi lo definsce “sicuramente positivo” che non a chi lo classificherebbe come “probabilmente negativo” o, peggio, “sicuramente negativo”. Di questo interessante, anche se complesso, test qui non tratteremo: sarà oggetto di studio nei Seminari 2003, dedicati alle variabili qualitative ordinali. Chi però volesse fin d’ora saperne di più per poterlo utilizzare, può consultare alle pagine 184-187 il testo: G.Galli: Guida alla statistica nelle Scienze Radiologiche, Ecoedizioni Internazionali, Roma 2000 (non reperibile nelle librerie, ma direttamente presso l’Editore: per informazioni E-mail [email protected]). - 30 - Raccomandazione finale Vogliamo concludere questa dispensa con una raccomandazione: l’uso corretto di un test dipende dall’aver chiaro in testa che cosa si va cercando e dall’organizzare di conseguenza il test stesso. Il lettore avrà notato, per esempio, che i dati dell’esempio operativo n. 1 sono stati riportati, nel testo della dispensa, con due diverse disposizioni; la prima volta nella tabellina: Meta. Linf. + RM + RM - Meta. Linf. – 9 2 12 15 E la seconda volta come tabellina: RM “veri” RM “falsi” Meta. Linf. + 9 2 Meta Linf. – 15 12 Calcolando il Chi Quadro si è ottenuto nel primo caso 3.03 e nel secondo 1.32. Ma come, potrà sorprendersi qualcuno, con gli stessi numeri (dati) si ottengono due risultati diversi? Occorre riflettere che la risposta del test è diversa perché sono differenti i quesiti che gli sono stati posti. Nel primo caso si chiede al test di informarci se la proporzione di risposte positive, rispetto alle negative, fornita dalla RM è significativamente diversa a seconda che vi siano o non vi siano metastasi linfonodali (quindi il confronto avviene in termini di previsione di malattia, data una risposta positiva, o previsione di assenza di malattia, data una risposta negativa). Nel secondo caso si chiede al test di informarci se la proporzione di reperti RM positivi o negativi “veri” (cioè corrispondenti al reperto istologico) osservata nel gruppo di soggetti affetti da metastasi è significativamente diversa, oppure no, rispetto a quella osservata nei soggetti privi di metastasi (quindi il confronto avviene in termini di sensibilità e specificità della RM). E’ quindi sempre necessario formulare chiaramente un problema, prima di applicarvi un test statistico. - 31 - TAVOLA DEI FATTORIALI Fattoriali dei numeri fino a 65 n. Fattoriale n. Fattoriale n. Fattoriale 0 1 22 1.12 x 1021 44 2.66 x 1054 1 1 23 2.59 x 1022 45 1.2 x 1056 2 2 24 6.2 x 1023 46 5.5 x 1057 3 6 25 1.55 x 1025 47 2.59 x 1059 4 24 26 4 x 1026 48 1.24 x 1061 5 120 27 1.09 x 1028 49 6.1 x 1062 6 720 28 3.05 x 1029 50 3.04 x 1064 7 5040 29 8.84 x 1030 51 1.55 x 1066 8 40320 30 2.65 x 1032 52 8.06 x 1067 9 362880 31 8.2 x 1033 53 4.2 x 1069 10 3628800 32 2.6 x 1035 54 2.3 x 1071 11 39916800 33 8.6 x 1036 55 1.27 x 1073 12 4.79 x 108 34 2.95 x 1038 56 7.1 x 1074 13 6.23 x 109 35 1.03 x 1040 57 4.05 x 1076 14 8.72 x 1010 36 3.7 x 1041 58 2,35 x 1078 15 1.3 x 1012 37 1.37 x 1043 59 1.39 x 1080 16 2.1 x 1013 38 5.23 x 1044 60 8.3 x 1081 17 3.56 x 1014 39 2.04 x 1046 61 5.07 x 1083 18 6.4 x 1015 40 8.16 x 1047 62 3.14 x 1085 19 1.22 x 1017 41 3.34 x 1049 63 1.98 x 1087 20 2.43 x 1018 42 1.4 x 1051 64 1.27 x 1089 21 5.1 x 1019 43 6.04 x 1052 65 9.25 x 1090 - 32 - Valori di Chi quadro (fino a 20 Gradi di Libertà) G.L. P= 0.10 P=0.05 P=0.01 P=0.005 1 2.705 3.841 6.635 7.879 2 4.605 5.991 9..210 10.597 3 6.251 7.815 11.345 12.838 4 7.779 9.488 11.277 14.860 5 9.236 11.07 15.086 16.749 6 10.645 12.592 16.812 18.547 7 12.017 14.067 18.475 20.278 8 13.362 15.507 20.090 21.955 9 14.684 16.919 21.666 23.589 10 15.987 18.307 23.209 25.188 11 17.275 19.675 24.725 26.757 12 18.549 21.026 26.217 28.299 13 19.812 22.362 27.688 29.819 14 21.064 23.685 29.141 31.319 15 22.307 24.996 30.578 32.801 16 23.542 26.296 31.999 34.267 17 24.769 27.587 33.409 35.718 18 25.989 28.869 34.805 37.156 19 27.204 30.143 36.191 38.582 20 28.412 31.410 37.566 39.997 Nota Un valore calcolato di c 2 superiore, per un determinato grado di libertà (G.L), al valore riportato nella tavola indica significatività con P minore del dato che intesta la corrispondente colonna (in grassetto la colonna che si riferisce al limite convenzionale per la significatività : P=0.05). I valori riportati sono arrotondati alla III° cifra decimale. - 33 -
© Copyright 2024 ExpyDoc