ELEMENTI DI STATISTICA DELLE VARIABILI QUALITATIVE

Guido Galli
ELEMENTI DI STATISTICA
DELLE VARIABILI QUALITATIVE
Seminari 2002 - per specializzandi e medici d’area radiologica
INDICE
Premessa: le variabili qualitative
Pagina 3
Frequenze e proporzioni
- Limiti fiduciali di una proporzione
5
- Confronto fra proporzioni
7
Tabelle di contingenza
9
Test per i confronti
Tabelle 2 x 2: dati indipendenti
- Metodo del Chi Quadrato
11
- Test esatto di Fisher
12
Tabelle 2 x 2: dati associati
- Test di McNemar
15
Tabelle m x n : dati indipendenti
- Estensione del Chi Quadrato
16
Tabelle m x n : dati associati
-Test di Cochran
18
Test d’associazione (correlazione)
Tabelle 2 x 2
- Coefficiente R-phi
21
- Coefficiente b di regressione
22
Tabelle m x n
- Coefficiente C di Cramér
23
L’affidabilità delle osservazioni
Due osservatori, due categorie
25
Più osservatori e/o più categorie
- La statistica K
27
Due osservatori, una variabile ordinata
- Il K “pesato” (Kw)
29
Raccomandazione finale
31
Tavole dei fattoriali e del Chi quadrato
32-33
-2-
Premessa: le variabili qualitative
Per variabile si intende, nell’accezione più ampia, tutto ciò che può essere osservato, misurato,
classificato dando così luogo a dati trattabili con metodi statistici.
Le variabili possono essere quantitative o qualitative.
Le variabili quantitative sono quelle che danno luogo a dati di tipo numerico, frutto di misurazioni
(non accennerò qui al problema delle scale di misura). I metodi statistici più noti anche ai medici
d’area radiologica, come il t di Student o l’analisi della varianza, riguardano le variabili quantitative
ed in particolare i dati che si suppone abbiano una distribuzione normale (gaussiana). Dati di questo
tipo non sono però frequenti in Diagnostica per Immagini. Lo sono di più in Medicina Nucleare
(risultati di prove funzionali, di dosaggi, ecc.); in campo medico nucleare è molto impiegato anche
un tipo particolare di statistica di dati numerici: la statistica dei conteggi (statistica poissoniana).
In Diagnostica per Immagini (ma, sempre di più, anche in Medicina Nucleare) si ha più sovente a
che fare con variabili qualitative (categoriali). I dati di queste non sono caratterizzati da quantità
numeriche, ma risultano da una identificazione (classificazione) in categorie di particolari oggetti o
particolari caratteristiche (aspetti) di un oggetto. In rapporto alla variabile “colore” una cosa può
essere identificata come bianca, rossa, verde, ecc. In rapporto alla sua morfologia, una opacità
polmonare può essere identificata come “tumore”, “processo flogistico” od altro. In rapporto alla
sua evoluzione un tumore può essere classificato come appartenente al I, II, III o IV stadio.
Già questi esempi ci mostrano che vi sono due tipi di variabili qualitative categoriali:
Nominali, per le quali tutto quello che si può fare è identificare la categoria, o il carattere, con un
nome, senza che ciò corrisponda ad un ordine naturale delle categorie o stabilisca fra loro particolari
rapporti. Le variabili nominali possono essere multicategoriali (come nell’esempio dei colori), ma
un tipo particolarmente importante nella nostra area professionale è quello in cui una certa
caratteristica è presente od assente, per cui l’osservazione cade soltanto in una di due possibili
categorie: ad esempio deceduto/sopravvivente, positivo/negativo, patologico/non patologico ecc.
Queste variabili nominali sono dette anche quantali, binarie o dicotomiche. Si noti che a variabili
dicotomiche, trattabili con test statistici piuttosto semplici, possono essere ricondotte anche variabili
qualitative multicategoriali (per es. se si decide di classificare i colori come bianco/non bianco) e
perfino variabili numeriche continue: per es. se si decide di classificare come “positivo” il risultato
di un dosaggio quando supera una certa soglia e “negativo” se rimane al di sotto. Si noti anche che
una variabile nominale può essere costituita da numeri, che in questo caso hanno solo funzione di
“nome” od “etichetta”: una targa automobilistica numerica non è altro che il “nome” assegnato dal
Registro alla particolare automobile di Tizio; altro esempio sono i codici numerici che
contraddistinguono le patologie nelle classificazioni sanitarie e nei tariffari.
Ordinali: in queste le categorie hanno un ordine naturale non ambiguo, che stabilisce “precedenze”
o “priorità”: nell’esempio del tumore, l’ordine di precedenza è stabilito dall’evoluzione della
neoplasia; al II stadio è più avanzata che al I, al III più avanzata che al secondo e così via. Sovente,
come in questo caso, i nomi sono numeri (ordinali, appunto): si pensi, come altro esempio,
all’ordine di arrivo dei partecipanti ad una corsa. Ma, anche se vi è un ordine, non è detto che le
“distanze”, od “intervalli” fra le categorie siano uniformi e costanti (per lo più non lo sono: il
distacco fra il primo e il secondo arrivato in una corsa può essere minimo, ed invece grande il
distacco fra il secondo e il terzo).
Le variabili qualitative non sono trattabili con i metodi della statistica classica cosidetta
“parametrica”, basata sui parametri della distribuzione normale (ma non è del tutto raro vedere
erroneamente applicati concetti come media e deviazione standard o test come il t di Student ai
numeri di serie ordinali). Occorrono i test “non parametrici”, che, da un punto di vista pratico,
hanno alcuni svantaggi:
-3-
-
sono per lo più meno efficienti dei test parametrici;
sono poco conosciuti dai medici e quindi poco o male applicati;
molti, anche utilissimi, non sono disponibili nei consueti packages statistici per personal
computer.
Per contro hanno il vantaggio di essere quasi tutti di esecuzione piuttosto semplice e di non
presentare particolari difficoltà di calcolo (serve una calcolatrice tascabile solo perché ci siamo
dimenticati come si fanno a mano le quattro operazioni aritmetiche e si estrae una radice quadrata).
Nei seminari del 2003 ci proponiamo di trattare i metodi per le variabili qualitative ordinali; in
quelli di quest’anno (2002) affrontiamo invece il trattamento dei dati nominali, illustrando quanto
diremo con esempi pratici tratti dal nostro ambito di attività professionale e di ricerca.
-4-
Frequenze e proporzioni
Di fronte ai dati nominali, il compito principale è contare le osservazioni nelle varie categorie;
stabilire cioè la frequenza delle caratteristiche che interessano. Se dico: “In questo gruppo di
oggetti 15 sono bianchi” è perché ho rilevato con un conteggio che il carattere denominato “bianco”
è 15 volte frequente nella mia osservazione. Le frequenze possono venire utilizzate tal quali in molti
test statistici; ma un passo che spesso viene compiuto è rapportare la frequenza al totale delle
osservazioni, trasformandola così in proporzione o frequenza relativa. Come esempio di
proporzioni ne riportiamo due usatissime (anche troppo) nella letteratura radiologica. La sensibilità
è la proporzione che deriva dal rapportare il numero (frequenza) dei risultati “veri positivi” al
numero dei malati esaminati; la specificità deriva dal rapporto fra la frequenza dei “veri negativi” e
il numero dei soggetti non malati. Se una indagine diagnostica, mettiamo la SPET, correttamente
identifica una particolare patologia in 20 soggetti su 25 che ne sono affetti, noi diciamo che quella
indagine ha una sensibilità: 20 / 25 = 0.8 = 80% e diciamo che ha una specificità del 90% se esclude
la malattia in 27 su 30 soggetti non patologici esaminati (27 / 30 = 0.9 = 90%). Si noti che i rapporti
danno luogo a frazioni dell’unità, spesso trasformate in percentuali per miglior comprensione (ma ai
fini statistici è bene che le proporzioni rimangano espresse in frazioni dell’unità).
a
, dove p (minuscolo) è la proporzione nel
n
campione studiato, a la frequenza osservata del carattere e n la numerosità del campione. Con la
lettera q si usa designare la quantità 1 – p; perciò se p (la sensibilità, nel precedente esempio) è 0.8 ,
q sarà: 1 – 0.8 = 0.2 .
In simbologia matematica la proporzione è perciò: p =
Limiti fiduciali di una proporzione
Raramente qualcuno studia un campione per affermare qualcosa che riguarda soltanto il campione
stesso. Quello che in realtà si vuol fare è inferire dal campione qualcosa che riguarda, più
generalmente, la popolazione da cui il campione è tratto. Se il medico nucleare che ha sperimentato
la SPET nei 30 soggetti di cui sopra afferma: “La specificità della SPET è del 90%” in realtà non
sta pensando: “E’ del 90% in questi 30 soggetti, ma potrebbe avere un valore completamente
diverso in altri 30”; egli invece, in base alla sua osservazione, si attende che l’impiego generalizzato
della SPET per quella indicazione dia una specificità se non proprio del 90%, almeno nell’attorno
del 90%.
a
A
Quando però si vuole inferire da p =
qualcosa che riguarda P =
(dove le lettere maiuscole
n
N
indicano che si tratta della popolazione e non del campione) una cosa è molto importante (e viene
spesso trascurata): stabilire i limiti fiduciali della proporzione osservata nel campione studiato. I
limiti fiduciali sono quei due valori entro i quali si può ritenere che stia, con il 95% (o 99%) di
confidenza (si usa dire “di probabilità”, ma non è correttissimo), il valore “vero” della
proporzione P nella popolazione.
Purtroppo per avere i limiti esatti o si dispone di apposito programma per computer o bisogna
consultare grafici e tabelle nella letteratura statistica. Le tabelle più semplici e complete si trovano a
pag. 89-102 delle Tavole Geigy 1982, Volume II. In mancanza, diamo qui due metodi che
forniscono un risultato approssimato, ma sufficiente:
-
a renderci conto subito della bontà, o meno, dei nostri risultati;
-
a confrontare i nostri risultati con dati della letteratura.
-5-
Metodo I (il più usato)
- Si determina l’Errore Standard di p che è:
ES =
p⋅q
n
- I limiti di confidenza (al 95%) sono: L.C. = p ± 1.96 x ES
Questo metodo è buono se moltiplicando n sia per p che per q si ha, in entrambi i casi, un
risultato maggiore di 10; non si può usare se uno dei due è minore di 5. Se si fosse in queste
condizioni si usi il:
Metodo II
I limiti di confidenza al 95% sono dati dalla formula:
pq 1.96 2
1.96 2
p+
± 1.96
+
2n
n
4n 2
L.C. =
1.96 2
1+
n
Nota: Se si vogliono i limiti di confidenza al 99%, bisogna sostituire 2.58 a 1.96 nelle formule
per il primo e secondo metodo.
Esempio operativo n. 1
In una recente pubblicazione (Torricelli et al. La RM con bobina endorettale nel Ca. del retto
Radiol.Med 1, 74-83, 2002) vi sono dati che permettono di stimare l’efficacia della RM endorettale
per la rilevazione delle metastasi linfonodali da Ca. rettale. Su 11 pazienti con metastasi linfonodali
istologicamente accertate, il reperto RM fu positivo in 9 (“veri positivi”), mentre fu negativo (“veri
negativi”) in 15 su 27 pazienti con linfonodi indenni. Possiamo ordinare i dati in una tabella e
procedere al calcolo (per la sensibilità e la specificità abbiamo già visto come si fa; l’accuratezza è
la somma dei risultati “veri” fratta il totale dei casi, cioè (9 + 15) / (11 + 27) = 0.63):
Linfonodi +
Linfonodi –
RM +
9
12
RM -
2
15
11
27
Totale
Sensibilità = 0.82 (82%)
Specificità = 0.55 (55%)
Accuratezza = 0.63 (63%)
Domanda: potremmo dedurre da questi dati che la RM e.r. ha, quando estesamente applicata per la
ricerca delle metastasi linfonodali, una sensibilità nell’attorno dell’ 80% ?
Determiniamo l’ES della proporzione:
p⋅q
=
n
0.82 ⋅ 0.18
= 0.116
11
Quindi la proporzione nel campione è, con il suo errore: Sensibilità = 0.82 ± 0.116
-6-
Metodo 1:
L.C. = 0.82 ± 1.96 x 0.116 Limite superiore = 0.82 + 0.227 = 1.047 (104.7%)
Il risultato (104.7 % ) è assurdo perché non avevamo controllato se il metodo è applicabile. Ma non
lo è: infatti 0.82 x 11 (p x n) dà 9.02 e va bene; però 0.18 x 11 (q x n) dà 1.98 (<5: non accettabile).
Ricorriamo quindi (riassumendo il calcolo che il lettore può fare da sé in base alla formula
precedentemente riportata) al:
Metodo II:
L.C. =
0.9946 ± 0.2864
1.349
L. infer. = 0.524 (52.4%) L. super. = 0.949 (95%)
Accertiamo ora con le Tavole Geigy il risultato esatto:
Limite inferiore = 0.482 (48.2 %)
Limite superiore = 0.977 (97.7%)
Come si vede il risultato approssimato non è lontano da quello esatto ( è anche più ottimistico, a
vantaggio della metodica diagnostica, perché dà dei limiti meno ampi).
Considerazioni sull’esempio
1) I limiti di confidenza sono troppo ampi: i casi studiati sono pochi per trarre attendibili
indicazioni;
2) Nella discussione riportata nella pubblicazione gli Autori sembrano sorpresi che Chan abbia
trovato una sensibilità solo del 57%. In realtà il dato di Chan non è incompatibile con i loro
(la sensibilità “vera” sta fra il 48 e il 98 %);
3) Possono nascere dubbi che un reperto RM positivo sia realmente indicativo di metastasi
linfonodali .
Confronto fra due proporzioni
Capita spesso di chiedersi: ma la differenza fra queste due proporzioni (osservate, per esempio, in
soggetti diversi) è significativa oppure no? In genere si preferisce confrontare, con i metodi che
vedremo, le frequenze dalle quali le proporzioni sono tratte, ma può essere praticamente utile
disporre di un semplice metodo (anche se subisce qualche critica nella letteratura statistica) per
confrontare direttamente due proporzioni fra loro.
Nota 1: Ricordiamo, anche se ben noto, che quando si procede ad un confronto statistico per testare una
differenza si parte sempre dall’ipotesi H0 (detta anche “ipotesi nulla”): cioè quella che una differenza in
realtà non vi sia (e quindi che la differenza osservata sia soltanto casuale, dal momento che i campioni che
si confrontano sono tratti dalla stessa popolazione). Quando diciamo: “Il risultato di questo test ci indica che
-7-
vi è una differenza significativa con p<0.05” vogliamo semplicemente dire che rimangono meno del 5% di
probabilità a favore dell’ipotesi nulla; il che ci consente di respingerla e affermare che vi è una differenza
significativa (e la respingiamo con ancor maggior fiducia se il risultato del test ci indica p<0.01: a favore
dell’ipotesi nulla rimane solo l’1% di probabilità).
Nota 2: Effettuando un test per confronti ci si dovrebbe anche chiedere: intendo effettuare un test “a due
code” o un test “a una coda” ? Si effettua un test “a due code” se si vuole esaminare che sia significativa
una differenza comunque orientata (e cioè, se si confronta A con B, tanto nel senso che A sia maggiore di B,
quanto nel senso che B sia maggiore di A). Si effettua un test a “una coda” se si hanno buone ragioni per
pensare che la differenza, se c’è, sia orientata in un particolare modo: per es. che A debba essere maggiore di
B e si vuole la prova che ciò sia vero. Per affermare una differenza a “una coda” basta un risultato del test
usato per il confronto (per esempio un valore del t di Student) meno grande di quello che sarebbe
significativo per un test “a due code”. Ciò è allettante (soprattutto quando si testano dati propri!), ma
pericoloso: perciò i risultati dei test a una coda vanno valutati con prudenza, ed è in genere consigliabile
utilizzare come significativi i valori del test “a due code”. E’ la ragione per cui d’ora in poi forniremo solo
questi (come del resto in genere è nelle tavole riportate dai testi di statistica).
Metodo per il confronto di due proporzioni
Consideriamo la proporzione p1, determinata su un primo gruppo di N1 individui (q1 è il
complemento ad 1 di p1) per confrontarla con la proporzione p2 ( q2 sarà 1 – p2 ) determinata su un
secondo gruppo di N2 individui.
Si calcola V:
V=
p1 - p 2
p1 q1 p 2 q 2
+
N1
N2
V è significativo con p<0.05 se supera 1.96 e significativo con p<0.01 se supera 2.58 .
N.B. Questo metodo può essere usato solo se N1 x p1 , N1 x q1 , N2 x p2 e N2 x q2 sono tutti
maggiori di 5. Questa è una verifica da fare prima di applicarlo.
Esempio operativo n. 2
Abbiamo effettuato la scintigrafia ossea in un gruppo di 15 pazienti con accertate metastasi
scheletriche da carcinoma tiroideo ottenendo un reperto positivo in 8 ( 8 / 15 = 0.533 = 53.3% ) e in
un secondo gruppo di 20 pazienti con metastasi ossee di carcinoma polmonare ottenendo un reperto
positivo in 15 (15 / 20 = 0.75 = 75%). Possiamo affermare, in base al nostro studio, che la
proporzione di reperti positivi che si ottengono quando la scintigrafia è applicata allo studio delle
metastasi ossee da Ca. polmonare è significativamente superiore a quanto si ottiene se le metastasi
sono da tumore tiroideo?
Calcoliano V: V =
0.533 - 0.75
= 1.34
0.533 x0.467 0.75 x0.25
+
15
20
Il risultato non è superiore a 1.96 e quindi concludiamo che, nonostante le apparenze (75% contro
53.3%) non risulta dal nostro studio una significativa differenza di risultati positivi per i due tipi di
tumore (può anche darsi che vi sia, ma lo studio, del resto condotto su pochi casi, non la dimostra).
-8-
Attenzione! Il metodo tende a sopravalutare le differenze. Perciò se il V calcolato è, come
nell’esempio, inferiore a 1.96 possiamo tranquillamente affermare che “la differenza non è
significativa”. Ma se è maggiore di 1.96 e non molto lontano da esso il risultato potrebbe essere
fasullo e va controllato con un altro metodo. Per limitare questo inconveniente si può usare una
formula più cautelativa (che consiglio vivamente, anche se meno facile da ricordare e più
complicata) e che è la seguente:
Ê 1
1 ˆ
˜
p1 - p2 - 0.5 xÁÁ
+
N1 N 2 ˜¯
Ë
V=
Ê 1
1 ˆ
˜˜
pxqxÁÁ
+
N
N
2 ¯
Ë 1
In questa formula non compaiono p1 e p2, ma un unico p che si calcola sommando le frequenze
osservate nei due campioni e dividendo la somma per N1 + N2. Cioè per il nostro esempio sarebbe
p = (8+15) / (15+20) = 23 / 35 = 0.657 (65.7%).
Applicando la formula all’ esempio ed utilizzando questo valore per p (provi il lettore a fare il
calcolo) si ottiene un valore di V di 0.978 in luogo di 1.34 .
Ordinamento delle frequenze: tabelle di contingenza
La tabellina riportata a pag. 7 per l’esempio operativo n.1 è un esempio di tabella di contingenza. Le
tabelle di contingenza sono un modo di ordinare le frequenze quando vi sono più gruppi (di soggetti
o di osservazioni) e gli elementi che compongono tali gruppi vengono classificati in rapporto a più
categorie di appartenenza. Il caso più semplice e più frequente nella pratica è quello di due gruppi e
due categorie (tabelle 2 x 2 , con due colonne e due righe). Nell’esempio n. 1 il I gruppo è quello
dei pazienti con linfonodi metastatici (risultati tali all’accertamento istologico); il II gruppo è quello
dei pazienti con linfonodi esenti da metastasi; i soggetti appartenenti ai due gruppi sono suddivisi a
seconda che la RM endorettale abbia evidenziato un quadro “positivo” o “negativo” per la
metastatizzazione.
Ovviamente se i gruppi sono parecchi e/o sono parecchie le categorie, la tabella non sarà 2 x 2 , ma
comprenderà più righe e più colonne: sarà cioè una tabella cosidetta m x n , dove m sono le righe e
n le colonne.
Per evitare confusioni ed un uso improprio dei test, quando si costruisce una tabella di
contingenza bisogna porre cura a riportare i gruppi nelle colonne e le categorie nelle righe (come
nell’esempio n.1, nel quale le righe rappresentano le due categorie della variabile nominale
dicotomica positivo / negativo ).
Sulle frequenze raccolte in tabelle di contingenza si possono effettuare test di confronto (per
evidenziare differenze significative) e test di associazione (per studiare correlazioni fra le variabili).
Per i confronti è indispensabile, ai fini della scelta del test corretto, chiedersi preliminarmente: i dati
che mi accingo a trattare sono indipendenti oppure associati ? Nell’esempio n. 1 i dati sono
indipendenti: si tratta di osservazioni compiute su pazienti diversi. Ma se, studiando con Ecografia
e Tomografia Computerizzata la malattia X in 12 pazienti che ne sono affetti, avessimo la seguente
distribuzione di frequenze:
Positivo
Negativo
Eco
TC
8
4
10
2
-9-
diviene chiaro che siamo di fronte a dati associati: le 24 osservazioni ottenute in 12 soggetti sono di
necessità associate due a due nei singoli pazienti.
Nelle formule che si usano per effettuare i test statistici, gli elementi della tabella di contingenza
sono indicati con lettere. Una tabella 2 x 2 assume di conseguenza l’aspetto che segue (al quale fare
riferimento per interpretare le formule; le lettere nelle formule possono essere anche minuscole):
GRUPPO
Variabile
I
II
Totali
+
A
B
A+B
-
C
D
C+D
A+C
B+D
N
Totali
Nella tabella dell’esempio n. 1: A = 9; B = 12; C = 2; D = 15; A+B = 21; C+D = 17; A+C = 11;
B+D = 27; N = 38 .
- 10 -
Test per i confronti
A) Tabelle 2 x 2: dati indipendenti
Il test più impiegato nella pratica è il test del Chi Quadrato: lo esamineremo pertanto in dettaglio. Vi
sono però casi (campioni di piccole dimensioni ) nei quali questo test non è correttamente
applicabile e bisogna ricorrere al test di Fisher (che è in ogni caso il più esatto, ma ha il difetto di
rendere quasi indispensabile l’uso del computer).
Metodo del chi quadrato ( c 2 )
Principio: si confrontano le frequenze osservate nei due campioni con quelle che ci potremmo
attendere se fosse vera l’ipotesi H0; maggiore è la divergenza fra valori osservati e valori attesi,
maggiore è la significatività della differenza. Per capire il principio e il procedimento, applichiamo
il metodo allo:
Esempio operativo n. 3
Riprendiamo i dati che ci servirono per l’esempio operativo n. 1. Questa volta ci chiederemo:
usando la RM endorettale, la proporzione di reperti “veri” (cioè confermati come positivi o come
negativi dall’esame istologico) osservata studiando i linfonodi patologici è significativamente
diversa da quella rilevata nello studio dei linfonodi esenti da metastasi ? Ciò equivale a chiedersi: la
frazione dei “veri positivi” è significativamente diversa dalla frazione dei “veri negativi” ovvero: la
sensibilità è significativamente diversa dalla specificità?
Disponiamo le frequenze osservate in questo modo:
I gruppo (metastasi)
II gruppo (linf. indenni)
Totali
Veri
9(a)
15 ( b )
24
Falsi
2(c)
12 ( d )
14
27
38
Totali
11
Si tratta quindi di vedere se è significativa la differenza fra 9 risultati “veri positivi” su 11 malati
(linfonodi metastatici) e 15 “veri negativi” su 27 soggetti senza metastasi linfonodali.
Se si assume che non vi siano differenze fra i due gruppi (è l’ipotesi H0 ), i due campioni possono
venire unificati. Quindi la proporzione di risultati “veri” attesa nell’ipotesi H0 è (colonna a destra):
24/38, cioè p = 0.63 ( q = 0.37).
Questa proporzione ci permette di calcolare le frequenze “attese” se non ci fosse differenza fra i due
gruppi. Infatti:
a = 0.63 x 11 = 6.93 b = 0.63 x 27 = 17 c = 0.37 x 11 = 4.07 d = 0.37 x 27 = 10
Scriviamo le frequenze attese fra parentesi accanto a quelle osservate:
Veri
9 ( 6.93 )
15 ( 17 )
Falsi 2 ( 4.07 )
12 ( 10 )
Il c 2 si calcola:
-
facendo la differenza fra il valore osservato e quello atteso per ogni elemento della
tabella;
- 11 -
-
mettendo la differenza al quadrato (serve a eliminare i segni negativi);
-
dividendola per il valore “atteso” (è una operazione di normalizzazione)
-
sommando le quattro differenze così ottenute.
Perciò:
c2=
(9 - 6.93) 2 (15 - 17) 2 (2 - 4.07) 2 (12 - 10) 2
+
+
+
= 0.618 +0.235+1.053+0.4 = 2.306
6.93
17
4.07
10
Correzione per la continuità di Yates
Per le tabelle 2x2 è stato consigliato da Yates (e ormai da tutti adottato) una correzione al
metodo sopradescritto consistente nell’aggiustare i valori osservati di 0.5 punti più vicino ai
valori “attesi” (ciò ovviamente diminuisce le differenze e quindi il valore calcolato di c 2 ).
c 2 (corretto) =
(8.5 - 6.93) 2 (15.5 - 17) 2 (2.5 - 4.07) 2 (11.5 - 10) 2
+
+
+
= 1.32
6.93
17
4.07
10
Nota importante. Il c 2 corretto può essere calcolato dalle frequenze originali con questa formula
(è quella di solito usata ), dove le barre verticali indicano “prendi il valore assoluto”:
N 2
) N
( 9 x12 - 15 x 2 - 19) 2 x38
2
Per l’esempio: c 2 =
= 1.32
c2=
(a + b)(c + d )(a + c)(b + d )
24 x14 x11x 27
( ac - bd -
Valutazione della significatività del risultato trovato
E’ inutile andare a consultare grafici e Tavole: per le tabelle 2x2 basta ricordare –ed è facileche c 2 è significativo con p<0.05 se è maggiore di 3.84 e con p<0.01 se maggiore di 6.635.
Conclusione per l’esempio: Il valore trovato (1.32) è inferiore a 3.84; perciò,nonostante le
apparenze, la sensibilità della RM per le metastasi linfonodali da Ca. rettale non è
significativamente maggiore della specificità.
Il test esatto di Fisher
E’ uno strumento poderoso ed il miglior metodo per il confronto di due proporzioni: ma la
complessità dei calcoli lo rende poco agevole (a meno di usare un programma ad hoc per
computer). Il test si basa sul fatto che è possibile, per una tabella 2 x 2, calcolare la probabilità
esatta di avere una particolare distribuzione osservata. Essa è data dalla formula:
p=
(a + b)!(c + d )!(a + c)!(b + d )!
N ! a !b! c! d !
Nota. Il punto esclamativo significa fattoriale del numero in oggetto.
Il fattoriale di N è 1x2x3x4x........N.
Il fattoriale di 4 è, per esempio, 1x2x3x4 = 24
Il fattoriale di 1 è 1.
Il fattoriale di 0 è, per convenzione, 1.
- 12 -
Non è difficile ricordare la formula se si pensa che il numeratore è il prodotto dei fattoriali dei totali
marginali e il denominatore il prodotto dei fattoriali delle singole caselle, moltiplicato per il
fattoriale di N.
Nota. Per il lettore amante del “fai da te” una Tavola dei fattoriali fino a N = 64 è riportata al
termine della dispensa. Ma tutti, per effettuare il test di Fisher, usano il computer!
Esempio operativo n. 4 Supponiamo d’aver studiato un piccolo campione (sul quale è bene che il
lettore si eserciti perché il test di Fisher è quello che deve essere usato quando le proporzioni sono
state determinate su campioni piccoli) :
Malattia A Malattia B
Totale
Scinti. Pos.
5 (a)
1 (b)
6
Scinti. Neg.
2 (c)
7 (d)
9
7
8
N= 15
Totale
Ovviamente stiamo esaminando se c’è una differenza significativa fra le proporzioni 5/7 = 0.714
(71.4%) e la proporzione 1/8 = 0.125 (12.5%): sembrerebbe, ad occhio, di sì.
Il calcolo della formula:
p=
6 ! 9 ! 7 !8 !
15!5!1! 2 ! 7 !
da’ (il lettore verifichi facendo ricorso alla tavola dei fattoriali posta in calce alla dispensa)
p= 0.0336 (3.36%). Ma basta questo risultato, essendo inferiore a p<0.05 (5%) per respingere
l’ipotesi H0 ed affermare che la differenza fra le due proporzioni sia significativa? No, perché non si
è verificato se il risultato cade in una “zona critica”.
Potrebbe infatti succedere che la probabilità complessiva di avere o il risultato osservato o quello
di una o più distribuzioni ancor più sbilanciate superi 0.05 e quindi non sia significativa.
Per capire ciò proviamo a calcolare p per tutte le tabelle di contingenza che è possibile ipotizzare,
rispettando i totali di riga (6 e 9) e di colonna (7 e 8). Ecco le tabelle:
1)
A
B
2)
A
B
3)
A
B
4)
A
B
5)
A
B
+
6
0
6
+
5
1
+
4
2
+
3
3
+
2
4
-
1
8
9
-
2
7
-
3
6
-
4
5
-
5
4
7
8
6)
A
B
7)
A
B
+
1
5
+
0
6
6
-
6
3
-
7
2
9
7
8
- 13 -
Nonostante le apparenze, costruire queste tabelle non è difficile: basta mettere inizialmente il
numero più alto possibile, nel rispetto dei totali marginali, nella casella a (quella in alto a sinistra) e
farlo decrescere di una unità alla volta: tutti gli altri tre numeri, rispettando i totali marginali,
vengono modificati di conseguenza. Si noti che la distribuzione 2) è quella osservata nella nostra
sperimentazione scintigrafica. Calcoliamo ora, con la formula di Fisher, il p di ogni distribuzione.
Trovo:
Combinazione 1)
p = 0.0014
Combinazione 2)
p = 0.0336
Combinazione 3)
p = 0.1958
Combinazione 4)
p = 0.3916
Combinazione 5)
p = 0.2937
Combinazione 6)
p = 0.0783
Combinazione 7)
p = 0.0056
Quella osservata nel nostro esempio
Esaminando questa tavola si vede subito che le combinazioni 1) e 2) con le probabilità 0.0014 +
0.0336 = 0.035 costituiscono una regione critica (p <0.05) a una estremità della distribuzione e la
combinazione 7 con p = 0.0056 costituisce la regione critica all’altra estremità. Siccome il risultato
osservato (quello della combinazione 2) cade in una zona critica, posso respingere l’ipotesi H0 ed
affermare: la differenza fra le due proporzioni di scintigrafie positive nella malattia A e nella
malattia B è statisticamente significativa, con p = 0.035.
Un accorgimento pratico. Per giungere a questa conclusione, che è quella che di solito
cerchiamo, non è necessario calcolare tutte le combinazioni possibili: quella che serve è la
somma delle probabilità delle combinazioni che presentano un numero uguale o inferiore a
quello della casella che ha il valore più piccolo. Siccome nella tabella di contingenza dei campioni
il numero più piccolo è 1 (in posizione b), basta calcolare oltre al p della tabella, anche quello della
tabella con b= 0 (che è la combinazione n.1) e fare la somma, che è, appunto, 0.035.
Nota: Ovviamente quando la probabilità esatta della particolare distribuzione osservata è da sola
superiore a 0.05 (5%) è inutile fare i calcoli per le altre possibili tabelline perché già si può
tranquillamente affermare che non vi sono differenze significative.
Importante: indicazioni per l’impiego dei test di confronto per tabelle 2 x 2
1) Quando N è minore di 20 si usi sempre il test esatto di Fisher;
2) Quando N è compreso fra 20 e 40 si può usare il test del Chi Quadrato se tutte le frequenze
attese sono uguali o maggiori di 5. Se, in una sola casella, la più piccola frequenza attesa è
minore di 5 ma almeno uguale a 2, il test al Chi Quadrato fornisce ancora risultati
sufficienti, ma sarebbe meglio, se possibile, usare il test di Fisher;
3) Quando N è maggiore di 40 usare il Chi Quadrato con la correzione di Yates.
B) Tabelle 2 x 2: dati associati
Talvolta si vogliono confrontare frequenze e proporzioni osservate nello stesso gruppo di soggetti.
In medicina ciò avviene per lo più nei disegni “prima-dopo” nei quali si vuol verificare come una
- 14 -
caratteristica, osservata prima di un certo trattamento, viene modificata dal trattamento stesso. In
radiologia e medicina nucleare il caso più frequente (anzi è un caso molto comune) è che si
vogliano confrontare i risultati di due metodi diversi applicati agli stessi pazienti.
Test di Mc Nemar
Questo test può essere utilizzato per variabili nominali dicotomiche, o dicotomizzate, esprimendo
un risultato come “positivo” (+) e il risultato alternativo come “negativo” (-).
Si dispongono i risultati in una tabella 2x2 mettendo nelle righe quelli (positivi e negativi) ottenuti
con un metodo (oppure “prima”) e nelle colonne i risultati ottenuti con l’altro metodo (o “dopo”).
-
+
+
a
b
-
c
d
Per il test si tiene conto solo dei risultati che divergono fra loro, cioè a e d per la disposizione
sopra riportata, e si calcola:
2
c =
( a - d - 1) 2
a+d
Esempio operativo n. 5: Frank J. et al. hanno applicato sia l’Ecografia che la TC allo studio dei
tumori pancreatici. In 38 casi i risultati furono concordemente positivi per tumore e in 18
concordemente negativi. Due casi negativi alla TC risultarono positivi all’ecografia; per contro la
TC risultò positiva in ben 12 casi negativi all’ecografia. Tabella:
Ecografia
+
12
+
38
-
18
2
TC
2
c =
( 12 - 2 - 1) 2
14
= 5.78
Il risultato, essendo maggiore di 3.84, depone per una differenza significativa (p<0.05) fra i due
metodi diagnostici.
Nota. A dimostrazione dell’utilità del test di Mc Nemar riflettiamo che chi non lo conosce avrebbe
2
probabilmente effettuato un consueto test al c nel modo che segue.
Ecografia
TC
Positivi
40
50
Negativi
30
20
E avrebbe trovato un c 2 (corretto sec. Yates) = 2.52 erroneamente non significativo!
- 15 -
C) Tabelle m x n: dati indipendenti
Estensione del test del Chi Quadrato
Il test può essere esteso a confronti multipli di frequenze raccolte in una tabella m x n
seguendo esattamente lo stesso procedimento già illustrato, con due avvertenze:
-
non si applica la correzione di Yates (necessaria nelle tab. 2 x 2);
i Gradi di Libertà (G.L.) per i quali verificare nella Tavola del Chi Quadrato posta in
appendice alla dispensa la significatività del risultato sono: G.L. = (m – 1) x (n – 1) .
Nel caso delle Tabelle 2 x 2 , G.L. = 1 (il che corrisponde alla prima riga della Tavola).
Abbiamo preferito evitare l’uso della Tavola, citando direttamente i due valori critici
per p = 0.05 e p = 0.01 (cioè 3.841 e 6.635). Ma per un confronto multiplo la
consultazione della Tavola è indispensabile, cercando i valori “critici” nella riga
corrispondente ai G.L. definiti con la formuletta sopra riportata.
Illustriamo il c 2 per confronti multipli con un caso non raro a trovarsi quando si
leggono editoriali, recensioni, messe a punto: il confronto fra casistiche di vari Autori.
Esempio operativo n. 6
In una recente pubblicazione viene rivista l’attendibilità della PET in varie patologie;
fra l’altro nello studio della vitalità miocardica. Per cinque degli Autori che si sono
occupati di questo argomento, sono riportati i seguenti dati:
AUTORI
A
B
C
D
E
Medie
Sensibilità
81%
83%
100%
85%
90%
88%
Specificità
93%
71%
62%
50%
80%
71%
Accuratezza
87%
77%
73%
64%
87%
78%
Alt! Nota importante
1) Fare la media delle proporzioni (o percentuali) non è corretto e può condurre a gravi
errori. Mettiamo, per esempio, che un Autore riporti una sensibilità del 90% e un
altro, per la stessa metodica, una del 60%. Possiamo dire che, in base ai due autori,
la sensibilità è, in media, (90 + 60) / 2 = 75% ? No; bisogna considerare la
frequenza dei risultati e il numero dei malati studiati. Se, ad es., il primo ha trovato
90 risultati positivi su 100 malati (sensibilità=90%) e il secondo 6 positivi su 10
malati (sensibilità=60%), i due ricercatori, assieme, hanno trovato una sensibilità =
(90+6)/(100+10)=96/110=0.87: l’87% e non il 75% ! Quindi un procedimento
corretto è cumulare le frequenze e calcolare la proporzione sulle frequenze cumulate.
In alternativa si può anche calcolare la media ponderata, anziché la media
semplice: (90x100 + 60x10)/(100+10)=0.87 Il risultato è lo stesso.
2) Per accorpare casistiche occorre presumere che i ricercatori abbiano lavorato in
modo omogeneo (in condizioni tecniche comparabili e con criteri similari
nell’interpretazione dei risultati). Questo è difficile da stabilire, ma spesso è
possibile disporre delle frequenze dei risultati ed applicare il Chi Quadro per
confronti multipli per stabilire se le differenze sono casuali (è l’ipotesi H0) o dovute
a differente modus operandi. E’ quello che faremo.
- 16 -
Sviluppo dell’esempio. Leggendo i lavori dei 5 Autori è possibile risalire al numero dei
“reperti veri” (veri positivi e veri negativi) osservati da ciascuno:
A
B
C
D
E
Totale
Veri positivi
13
15
14
11
9
62
Veri negativi
13
15
21
10
4
63
26
30
35
21
13
Tot.
N = 125
Calcoliamo i valori attesi. Per ogni casella: (totale di riga x totale di colonna) / N
Ad esempio, per la prima: (62 x 26) / 125 = 12.9 e per l’ultima: (63 x 13) / 125 = 6.55
Riportiamo i valori trovati nella tabella:
Veri positivi
13 (12.9)
15 (14.9)
14 (17.4)
11 (10.4)
9 (6.4)
Veri negativi
13 (13.1)
15 (15.12)
21 (17.64)
10 (10.6)
4 (6.6)
Possiamo calcolare il Chi Quadro: (13-12.9)2/12.9 + …. + (4-6.6)2/6.6 = 3.37
Nella Tavola il valore “critico” per p = 0.05 e (2-1) x (5-1) = 4 GL è 9.488
Il valore trovato è molto inferiore, quindi non ci sono differenze significative
nell’ambito della tabella.
Bene! Possiamo presumere che i ricercatori hanno lavorato in modo omogeneo e
perciò possiamo accorpare le frequenze osservate dai cinque Autori. I “veri positivi”
sono 62 su 71 malati complessivamente studiati: quindi la sensibilità è 62/71 = 0.873
(87.3%). I “veri negativi” sono 63, su 94 non malati: specificità = 63/94 = 0.67(67%).
L’accuratezza è: (62+63)/(71+94) = 125/165 = 0.757 (75.7%).
Considerando i risultati la specificità appare piuttosto bassa, il che significa un numero
elevato di “falsi positivi” (ciò può condurre a inutili interventi di rivascolarizzazione).
Localizzazione delle differenze
Nell’esempio precedente il valore calcolato di Chi Quadrato è risultato inferiore al
valore “critico” per p = 0.05. Ma se fosse risultato superiore? Vuol dire che nell’ambito
della tabella ci sono una o più differenze significative: bisogna localizzarle (spesso si
vede subito dove sono le differenze più rilevanti, ma bisogna dimostrarne la
significatività).
Esempio operativo n. 7
In una ricerca su 273 pazienti affetti da tumori polmonari (suddivisi in tre categorie:
metastasi, non-small cell carcinoma e microcitoma) è stata studiata la captazione del
Gallio radioattivo, definita in tre gradi: I (bassa: uguale o minore di quella delle parti
molli); II (discreta: più delle parti molli, ma meno del fegato); III (elevata: più del
fegato). Nella tabella sono riportati i risultati (in parentesi i valori attesi) calcolati come
nell’esempio già fatto. Con R è indicato il totale di riga e con C il totale di colonna.
- 17 -
Metastasi
Non-small cell
Microcitoma
R
I grado 56 (50.41)
30 (23.93)
13 (24.66)
99
II grado46 (42.77)
18 (20.31)
20 (20.92)
84
III grado 37 (45.82)
18 (21.76)
35 (22.42)
90
66
68
C
139
N = 273
Con questi valori posso calcolare il Chi Quadrato:
(56-50.41)2/50.41 + (30-23.93)2/23.93 + … + (35-22.42)2/22.42 = 17.62 ; che è significativo con
p<0.005). Quindi ci sono veramente, nella tabella, una o più differenze significative. Ma dove sono?
Per localizzare le differenze è riportato nei libri di statistica un metodo molto complicato che si
chiama scomposizione in tabelle di partizione. Un metodo più semplice (basta una calcolatrice
tascabile!) è l’analisi dei residui standardizzati.
Chiamiamo O il valore osservato ed A quello atteso, riportati nella tabella.
O- A
Il residuo RS è, per ogni casella, il valore:
che viene standardizzato moltiplicandolo per
A
N -C
(dove C ed R sono i totali marginali della colonna e della riga alla quale la casella
N-R
appartiene).
Facciamo il calcolo per la prima casella: RS =
56 - 50.41
50.41
x
273 - 139
= 0.69
273 - 99
Ripetendo questa operazione per tutte le caselle, possiamo costruire una tabella dei RS:
Metastasi
I grado
II grado
III grado
Non-small cell
0.69
0.416
-1.112
1.353
-0.536
-0.86
Microcitoma
-2.55*
0.21
2.81**
La differenza è significativa con p<0.05 (*) se RS è maggiore di 1.96 e con p<0.01 (**) se RS
è maggiore di 2.58.
Considerando la tabella dei residui possiamo concludere che l’unica differenza
significativa riguarda il microcitoma, per il quale rispetto agli altri istotipi è meno (segno
negativo!) frequente(p<0.05) una bassa captazione e per contro assai più frequente
(p<0.01) una captazione elevata, di III grado.
D) Tabelle m x n: dati associati
Rimane da considerare il caso di più gruppi di dati associati: non raro in radiologia e medicina
nucleare, perché spesso si vogliono confrontare i risultati di più metodiche applicate agli stessi
soggetti. In questi casi si può usare il test Q di Cochran.
Il test Q di Cochran è adatto per dati nominali dicotomici (o dicotomizzabili): positivo/negativo,
successo/insuccesso ecc. Si assegna il valore 1 ad uno dei due risultati possibili (in genere quello in
qualche modo “vantaggioso”) e 0 all’altro e si dispongono gli 0 ed 1 in una tabella di n righe (n è il
numero dei casi) per k colonne (k è il numero dei gruppi).
- 18 -
Esempio operativo n. 8 L’esempio riguarda quattro metodi diagnostici ( k = 4) applicati a 20
soggetti ( n = 20) affetti da metastasi epatiche. Tabella (nella quale 1 = reperto di metastasi):
Pazienti
ECO TC
RM
PET
L
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1
1
0
0
0
0
1
0
0
1
1
0
1
0
1
0
0
1
0
0
1
1
1
1
0
1
0
1
1
1
1
0
1
1
0
0
1
1
1
0
1
0
0
1
1
0
1
0
1
0
1
1
1
0
1
1
1
0
0
0
1
1
0
1
1
0
1
1
1
1
1
1
1
1
1
0
1
0
1
1
16
9
1
9
4
1
9
4
9
9
16
4
16
4
9
1
9
4
4
1
G
7
14
12
16
G2
49
196
144
256
In calce alla tabella segniamo G, il numero degli 1 presenti in ogni colonna (è il numero dei casi che
ogni metodica segnala come metastatici) e, sotto, G2: i quadrati di G. Gli L a margine sono il
numero degli 1 presenti in ogni riga, posto al quadrato. Calcoliamo ora: somma dei G = 49; somma
dei G2 = 645; somma degli L = 120
La formula del Q di Cochran è:
Q = (k-1)
k  G 2 - ( G ) 2
kÂG - Â L
Applichiamo la formula del Q di Cochran al nostro esempio:
4 x645 - 49 2
Q=3x
= 8.8
4 x 49 - 120
Se il numero dei casi non è troppo piccolo (k x n deve essere maggiore di 24) la significatività di Q
può essere controllata nella tavola di Chi Quadro, per k-1 GL.
Un Q di 8.8 è superiore al valore critico per p<0.05 con 3 GL (che è 7.8147). Possiamo quindi
ritenere che vi sono differenze significative fra le metodiche (o almeno fra qualcuna di esse) nel
rilevare le metastasi epatiche. In realtà, guardando i dati, la differenza più evidente è fra la PET che
dà 16 risultati positivi e l’Eco, che ne dà solo 7. E’ statisticamente significativa questa differenza?
Si tratta di dati associati, quindi il controllo lo facciamo con il test di McNemar, che già
conosciamo. Costruiamo quindi la tabellina, che mostra la concordanza o discordanza di risultato
nei singoli casi:
- 19 -
PET
0
1
1
1
6
0
3
10
ECO
Come si ricorderà, per questo test si tiene conto solo dei risultati discordanti (nelle caselle A e D
( A - D - 1) 2
della tabella) e si usa la formula: c 2 =
A+ D
Nel nostro caso: c 2 =
(9 - 1) 2
= 5.82
1 + 10
Il valore trovato conferma la significatività della differenza (con p<0.05).
Se si fa la stessa operazione con PET e RM (16 risultati positivi contro 12) si ha un risultato di 1.78,
che non è significativo (e diviene inutile una verifica per la TC che con 14 risultati positivi non
differirà né dai 16 della PET né dai 12 della RM). La conclusione è che tre metodiche su quattro
danno risultati praticamente equivalenti e solo l’Ecografia scarta significativamente dalle altre.
- 20 -
Test per la studio dell’associazione ( correlazione ) di dati nominali
A) Tabelle 2 x 2
Coefficiente di associazione R j
Per saggiare l’associazione fra due gruppi di dati nominali (espressi in frequenze poste in una
tabella 2 x 2 e la tabella viene costruita esattamente come abbiamo visto per il test di McNemar, in
modo da evidenziare le concordanze e discordanze dei risultati) si può usare il coefficiente R j che
è semplice da calcolare con la seguente formula:
Rj =
AD - BC
( A + B)(C + D)( A + C )( B + D)
E’ facile ricordare la formula considerando che al numeratore vi è la differenza fra i prodotti degli
elementi nelle diagonali e al denominatore la radice quadrata del prodotto dei totali marginali. Il
coefficiente va da 0 a 1 ed è tanto più vicino a 1 quanto più è stretta l’associazione (correlazione)
fra le due variabili considerate. Il valore trovato è significativo se è significativo il c 2 (con
correzione di Yates) calcolato sulla stessa tabellina 2 x 2.
Esempio operativo n. 9.
Abbiamo visto, parlando del test Q, che la PET fornisce il maggior numero di risultati positivi nella
ricerca delle metastasi epatiche, ma non in misura statisticamente superiore alla RM o alla TC. Il
problema che può porsi è: quale di queste metodiche meglio correla con la PET (per quanto
riguarda i risultati nei singoli casi)? Se vi fosse una buona correlazione la metodica potrebbe infatti
essere usata in luogo della PET, che è costosa e poco disponibile.
Riportiamo le possibili tabelline con accanto i valori di R :
PET
1
0
2
1
9
RM
Rj =
0
2
7
1
0
3
1
11
2⋅7 -9⋅2
11 ⋅ 9 ⋅ 4 ⋅ 16
= 0.05 (n. s.)
PET
TC
Rj =
0
1
5
1
0
7
1
7
3 ⋅ 5 - 11 ⋅ 1
14 ⋅ 6 ⋅ 4 ⋅ 16
RM
- 21 -
= 0.055 (n.s.)
TC
Rj =
0
1
7 ⋅ 5 - 7 ⋅1
14 ⋅ 6 ⋅ 8 ⋅ 12
= 0.31 (n. s.)
5
Nessun coefficiente è significativo. Non vi è quindi correlazione: ciò significa che nessuna delle
metodiche può essere usata in luogo di un'altra.
Nota. Può sorprendere che il coefficiente più elevato sia quello che riguarda RM/TC, dal
momento che proprio qui si riscontrano le discordanze più numerose (12 su 20). Ma ciò
avviene perché quel po’ di correlazione che c’è è negativa: quando un metodo tende a dare
risultato positivo, l’altro tende a darlo negativo. Per la sua struttura R j non può segnalare
questa situazione con il segno negativo – (come succede invece per R di Pearson).
Esempio operativo n. 10
Riguarda uno studio su 66 pazienti sulla associazione fra positività per embolia della scintigrafia
perfusoria polmonare e la presenza di dolore toracico. La tabella:
Dolore
No (0)
Si (1)
12
25
Negativa (0) 18
11
Positiva (1)
Scintigrafia
Rj =
(12 x11) - (25 x18)
37 x 29 x30 x36
= 0.295
Il coefficiente 0.295 non sembra elevato, ma se si calcola c 2 con la correzione di Yates
troviamo c 2 = 4.62 che è superiore al valore critico per p = 0.05 (è 3.841, come si ricorderà).
Possiamo concludere che negli embolici vi è una significativa correlazione fra dolore toracico
e positività scintigrafica.
Coefficiente b di regressione
Qualche volta l’appartenenza ad un gruppo comporta un rischio particolare. Per esempio se si
suddividono dei cardiopatici ischemici a seconda che abbiano avuto un solo infarto o più di uno
(reinfartuati) è ben noto che l’appartenenza al gruppo dei reinfartuati comporta un rischio di morte
molto maggiore.
In casi come questo può essere utile calcolare sui dati della tabella un particolare coefficiente: il
coefficiente di regressione b (di regressione perché pone in rapporto l’appartenenza ad una
categoria con l’entità del rischio).
Tale coefficiente è il logaritmo naturale di (A x D) / (B x C) .
Vediamone, al solito, l’impiego con un esempio operativo.
Esempio operativo n. 11
- 22 -
Riprendiamo i dati dell’esempio operativo n. 1 (in questo caso il gruppo a rischio è, evidentemente,
quello dei pazienti con metastasi linfonodali):
RM +
RM -
Meta. Linf. +
9
2
Meta. Linf. –
12
15
Calcoliamo anzitutto il coefficiente di regressione: b = ln (9 x 15 / 12 x 2) = ln 5.625 = 1.727
A cosa ci serve l’averlo calcolato? A rispondere a due domande:
1) La risposta positiva dell’indagine RM comporta, o no, un rischio significativo di avere
metastasi linfonodali?
2) Quanto è alto questo rischio?
Per rispondere alla prima domanda si deve calcolare l’Errore Standard di b:
Errore standard di b =
1 1 1 1
+ + +
Esempio: ES =
a b c d
1 1 1
1
+ +
+
=0.87
9 2 12 15
Si può verificare se b è diverso da 0 (cioè se vi è una correlazione) dividendo b per il suo ES. Se il
risultato è maggiore di 1.96 la regressione c’è ed è significativa con p<0.05; se supera 2.58 è
significativa con p<0.01.
Per l’esempio: Test =
1.727
b
=
= 1.985
0.87
ES
Il risultato supera,anche se di poco, 1.96 quindi possiamo affermare che la positività del
reperto RM correla (p<0.05) con la presenza di metastasi linfonodali.
Per rispondere alla seconda domanda bisogna calcolare il “rischio relativo” che è:
Rischio relativo = e b
Perciò per l’esempio: e1.727 = 5.6
Possiamo quindi ritenere che, rispetto a un reperto RM negativo, una sua positività comporta un
rischio di avere metastasi linfonodali più di 5 volte maggiore.
Nota Se avessimo calcolato un Chi Quadro sui dati della tabellina avremmo trovato un risultato di
3.03, significativo con p<0.10, ma che non raggiunge il livello “critico” per p = 0.05 (cioè 3.84).
Avremmo quindi respinto la “ipotesi nulla” concludendo, in modo probabilmente erroneo, che le
risposte positive della RM non sono significativamente più frequenti quando ci sono metastasi
linfonodali. Il coefficiente b sembra darci una informazione migliore.
B) Tabelle m x n
Può capitare di dover studiare la correlazione fra più variabili nominali, con dati (frequenze)
raccolti in tabelle di contingenza di r righe per k colonne.
In questo caso si può usare il coefficiente C di Cramér, che è una particolare applicazione del c 2 .
Prima si calcola il Chi Quadro con le modalità che abbiamo imparato parlando della estensione del
c 2 ai confronti multipli. Poi il coefficiente C viene determinato con la seguente formula:
- 23 -
C=
c2
N ( L - 1)
Il coefficiente è significativo se è significativo il valore di c 2 contenuto nella formula,
verificandolo per (r – 1) x (k – 1) GL.
Esempio operativo n. 12
Il Direttore della Radiodiagnostica vuole accertare se vi sia un rapporto (correlazione) fra la
rapidità nell’effettuare le indagini richieste dai Reparti e alcuni settori nei quali le prestazioni
vengono effettuate. Decide di considerare “rapida” l’effettuazione entro 24 ore dalla richiesta,
“normale” se fra 24 e 48 ore e “lenta” se oltre le 48 ore. Rivedendo i registri di un certo periodo di
attività si può costruire la seguente tabella 3 x 4 comprendente 260 indagini:
Lenta
Normale
Rapida
C
Scheletro
Digerente
Torace
TC
13
38
26
77
11
15
10
36
18
26
52
96
25
12
14
51
R
67
91
102
N = 260
Abbiamo posto a margine della tabella i totali di riga e di colonna per facilitare allo studente il
calcolo del Chi Quadro per confronti multipli con il metodo già imparato. Questo calcolo dà per
risultato c 2 = 32.9.
Per conseguenza il coefficiente di Cramér è: C =
32.9
= 0.25
260(3 - 1)
Il coefficiente non è elevato, ma è probabile che sia significativo considerando che il campione
contiene un numero considerevole di dati. Se andiamo a vedere nella tavola di c 2 troviamo che
32.9 è superiore, per (3 – 1) x (4 – 1) = 6 GL, anche al valore tabulato per p = 0.005. Si può quindi
concludere che C è oltremodo significativo: la velocità d’espletamento delle richieste non è casuale,
ma è correlata con i settori ove le indagini vengono eseguite.
Ma, se è così, il Direttore (persona di non facile contentatura) vuole anche sapere in quale settore
l’espletamento è significativamente più lento (reprimenda) e in quale settore più rapido (elogio).
Conviene quindi localizzare le differenze significative presenti nella tabella con il metodo
dell’analisi dei residui standardizzati, che già conosciamo. Ne viene la tabella:
Scheletro
Lenta
Normale
Rapida
- 1.52
2.21*
- 0.83
Digerente
0.57
0.77
- 1.31
Torace
TC
- 1.25
- 1.3
2.38*
3.4**
- 1.54
-1.55
In base ad essa il Direttore sa, per i provvedimenti del caso, che il settore TC è di gran lunga (** =
p<0.01) il più lento nel soddisfare le richieste e il settore Torace il più rapido (* = p<0.05). Nel
settore Scheletro prevale un espletamento fra 24 e 48 ore.
- 24 -
Dati nominali: controllo dell’affidabilità delle osservazioni
E’ evidente che un dato nominale nasce dal fatto che viene indicato con un nome particolare un
certo oggetto (viene cioè operata una classificazione).
Un radiologo, ad es., può indicare (giudicare, classificare) un addensamento polmonare come
“tumore” o “processo flogistico” od altro. Oppure, più genericamente ed in rapporto alla patologia
che va cercando, può giudicare “positivo” o “negativo” il risultato.
In rapporto a tale operazione si devono distinguere e controllare due cose:
1) L’accuratezza: cioè la capacità di risposte esatte, corrispondenti al vero. Questo si controlla
verificando quanto i giudizi dati corrispondano alla realtà delle cose, come indicata da un
“metodo di riferimento” considerato privo di errore (golden standard): per lo più un esame
istologico e/o anatomopatologico. I risultati della verifica sono espressi in termini di
sensibilità, specificità, ecc.
2) L’affidabilità, detta anche precisione, che si identifica con la ripetibilità: capacità di dare le
stesse risposte in osservazioni ripetute. La precisione ha, per rimanere nel campo
radiologico, due aspetti:
-
Precisione “tra osservazioni” (interobserver, interrater): più radiologi indipendenti
concordano nel dare le stesse risposte (o giudizi) sugli stessi radiogrammi;
-
Precisione “nell’osservazione” (intraobserver, intrarater): ogni osservatore è coerente
nel mantenere le risposte date anche rivedendo i radiogrammi a distanza di tempo.
Non parleremo qui dell’accuratezza (sono cose molto note), ma invece dei controlli di affidabilità
(purtroppo spesso trascurati): lo faremo con esempi concreti.
A ) Uno o due osservatori, due categorie di giudizio
Esempio operativo n.13
Il Direttore della Radiodiagnostica vuole assegnare due radiologi, Tizio e Caio, al settore operativo
“Torace”. Vuole però sapere, preliminarmente:
a) Tizio e Caio concordano (è importante che lo facciano) nel dare i propri giudizi di fronte
agli stessi radiogrammi del torace? (è una valutazione di precisione interobserver);
b) Chi dei due è il più capace di mantenere invariati nel tempo i propri criteri di valutazione? (è
una valutazione di precisione intraobserver).
Vi sono vari metodi per affrontare questo problema, ma uno particolarmente semplice è impiegare il
coefficiente R j che già abbiamo studiato.
Cento radiogrammi del torace con opacità da tumore polmonare, ma anche di differente origine e
natura, vengono presentati ai due radiologi e si chiede loro di simboleggiare con il segno + il
giudizio “c’è un tumore polmonare” e con il segno – il giudizio “no, non è un tumore polmonare”.
Confrontando i giudizi dati nei singoli casi, chi organizza lo studio può costruire questa tabella:
- 25 -
TIZIO
+
+
35
7
-
10
48
CAIO
Nota 1: Si osserverà che i due radiologi hanno dato 48 + 35 = 83 giudizi concordanti su 100
casi. Purtroppo v’è chi direbbe -e scriverebbe- che la concordanza fra i due è dell’83%. Questo è
un errore, perché è 83% la concordanza non depurata da quanto dovuto al caso: se i giudizi
“positivo” e “negativo” fossero stati espressi senza neppure vedere i radiogrammi, gli
esaminatori si sarebbero comunque trovati casualmente d’accordo in un buon numero di casi.
Calcoliamo il coefficiente R j =
(35 x 48) - (7 x10)
= 0.66
(35 + 7) ⋅ (10 + 48) ⋅ (35 + 10) ⋅ (7 + 48)
Un coefficiente di 0.66 è, dato il numero elevato di casi con i quali è stato determinato, molto
elevato ed indica un ottima concordanza “tra osservazioni”. Sappiamo comunque che la
significatività può essere controllata calcolando c 2 sulla stessa tabellina: facendolo si trova
c 2 = 40.36, significativo con p<0.001.
Nota 2: La formula adoperata contiene una piccola personale modifica a quella del R j che si
trova nei testi e che fu riportata in precedenza. Per questo particolare impiego conviene infatti
disporre la tabellina in modo che, al numeratore, il prodotto dei dati discordanti figuri sempre
come sottraendo e non prendere il valore assoluto del risultato. In tal modo viene indicato il
senso della concordanza: se, ad es., fossero stati 83 i giudizi discordanti e 17 i concordanti
avremmo avuto: R j = -0.66; che segnala sì una forte concordanza, ma in negativo: quando un
osservatore giudica positivo un risultato, l’altro tende a dare un giudizio opposto: una situazione
molto sgradevole per i pazienti.
Nota 3: L’omogeneità . Si è potuto costruire la tabella per il calcolo di R j perché lo studio è
stato condotto in modo da poter confrontare caso per caso i giudizi dati dai due osservatori.
Rivedendo casistiche o leggendo delle pubblicazioni, il caso più comune è però un altro: che si
abbiano i risultati complessivi dei due osservatori, ma non quelli dati nei singoli casi. Non
possiamo valutare la concordanza, ma possiamo sapere qualcosa circa la omogeneità. Possiamo
infatti costruire la tabellina:
TIZIO
CAIO
Positivi
45
42
Negativi
55
58
Possiamo così vedere che i due radiologi sono omogenei nelle loro valutazioni: entrambi trovano
più o meno la stessa percentuale di tumori nella casistica esaminata (45% il primo e 42% il
secondo). Perché vi sia omogeneità occorre che il chi quadro non sia significativo e l’omogeneità
è tanto maggiore quanto più è piccolo R j (o altri coefficienti analoghi, come il Q di Yule ecc.).
Per la tabella sopraindicata è R j = 0.03, indicante una forte omogeneità.
A questo punto interessa valutare la concordanza “nell’osservazione” (intraobserver) per ciascuno
dei due radiologi. Dopo un mese (in modo che siano dimenticati i giudizi precedentemente dati) le
- 26 -
100 radiografie, opportunamente rimescolate, vengono ripresentate a TIZIO. Da questa seconda
lettura emerge:
-
che su 45 casi precedentemente considerati positivi per tumore, il giudizio è mutato
in 5, ora ritenuti negativi;
-
che, per contro, viene dato giudizio di positività in 7 casi considerati negativi nella
prima osservazione.
La tabella dei risultati è perciò la seguente:
I OSSERVAZIONE
+
+
-
40
7
5
48
II OSSERVAZIONE
-
Il coefficiente di concordanza, calcolato su questa tabella, è R j = 0.58 (58%)
Si ripete la stessa procedura per CAIO, trovando R j = 0.79 (79%)
Si conclude che vi è una buona concordanza fra i due radiologi, ma che CAIO è più affidabile in
quanto dotato di maggior precisione “intraobserver”.
B) Più osservatori e/o più categorie
La statistica K di Cohen- Fleiss è un metodo molto generale, solitamente impiegato per più
osservatori e più categorie di giudizio, ma che può essere impiegato anche per più osservatori e due
categorie o per due categorie e due osservatori (quindi anche nel caso dell’esempio 1, ma R j è più
semplice da adoperare). E’ utile anche quando le categorie sono “gradi” o “stadi” di una variabile
ordinata, come nell’esempio che proponiamo per spiegare il metodo.
Esempio operativo n. 14
Quattro medici nucleari debbono stabilire il grado di captazione del Gallio radioattivo in 15 casi di
scintigrafia polmonare effettuata per sospetto di interstiziopatia. Ciascuno sceglie la sua stima del
grado di captazione in ogni soggetto fra 5 categorie: I grado (meno delle parti molli), II grado (come
le parti molli), III grado (più delle parti molli, ma meno del fegato), IV grado (come il fegato), V
grado (più del fegato).
Al termine della valutazione i risultati vengono raccolti nella tabella che possiamo esaminare nella
pagina che segue.
- 27 -
VALUTAZIONI
Paziente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C
P
P2
I grado
2
2
1
3
3
3
4
4
4
26
0.433
0.187
II grado
1
-
III grado
2
2
2
1
1
2
1
3
1
0.017
0.0003
14
0.233
0.054
IV grado
1
2
1
V grado
4
4
3
4
-
4
0.067
0.0045
S
1
0.333
1
0.333
0.5
0.167
0.5
0.5
0.333
0.5
1
1
1
1
0.5
15
0.25
0.0625
Nella tabella è riportato per ogni paziente il numero di volte che gli osservatori hanno data una
determinata valutazione (ad es. tutti e 4 hanno indicato una captazione di V grado per il n.1; per il
secondo paziente, 2 medici hanno ritenuto la captazione di I grado e 2 di III, ecc.).
I C posti in calce alla tabella sono il totale dei dati (osservazioni) contenuti in ogni colonna. Al di
sotto vi è P, che è la proporzione di C rispetto al totale delle osservazioni (il totale è dato,
ovviamente, dal numero degli osservatori per il numero dei casi: 4 x 15 = 60, nell’esempio). Perciò
nella prima colonna è p = 26/60 = 0.433; così per le altre. Sotto ancora si pone P2, che non è altro
che P posto al quadrato: P2 è la proporzione delle osservazioni che ci attenderemmo nella colonna
se la concordanza fosse dovuta solo al caso.
Le S poste a margine della tabella sono le stime della concordanza fra gli osservatori per ogni
 n(n - 1) dove, essendo k il numero degli
singolo paziente: si ottengono con la formula S =
k (k - 1)
osservatori, il denominatore è, per tutte le righe, 4 x (4-1) = 4 x 3 = 12. Per il numeratore si
sommano i numeri che compaiono in ogni riga, dopo aver moltiplicato ciascuno di essi per se stesso
meno una unità. Ad esempio, nella prima riga abbiamo un solo numero, il 4: perciò S = (4 x 3)/12 =
1; nella seconda riga abbiamo due 2: perciò S = ((2 x 1) + (2 x 1))/12 = 4/12 = 0.333; nella sesta
riga abbiamo tre numeri che danno ((1 x 0) + (1 x 0) + (2 x 1))/12 = 2/12 = 0.167. Ottenute tutte le
S se ne fa la somma e la media, che, nel caso nostro, è 9.666/15 = 0.644.
La formula che ci fornisce il coefficiente K è: K =
P(O) - P( E )
1 - P( E )
P(O) è la media delle S: quindi 0.644
P(E), la proporzione di concordanza dovuta al caso, si ottiene facendo la somma dei P2:
quindi P(E) = 0.187 + 0.0003 + 0.054 + 0.0045 + 0.0625 = 0.3083.
- 28 -
Possiamo quindi calcolare K =
0.644 - 0.3083 0.3357
=
= 0.485 (48.5%)
1 - 0.3083
0.6917
Si sarà notato che K stima la concordanza depurata da quanto dovuto al caso; è questo che rende il
metodo interessante e vantaggioso. Il coefficiente varia fra 0 e 1 ed è tanto più alto quanto maggiore
è la concordanza fra gli osservatori.
La significatività di K
La domanda che sorge per il nostro esempio è: è significativa o no una concordanza del 48.5% ?
La significatività di K viene testata dividendoil coefficiente per la sua deviazione standard:
Z=
K
DS (K )
K è significativo con p<0.05 se Z è più di 1.96; con p<0.01 se Z è maggiore di 2.58; con p<0.005 se
Z è più di 3.291. Ma come si calcola la DS di K? Prendendo la radice quadrata della varianza di K
che, a sua volta, è data da questa formula piuttosto complessa:
2
P( E ) - (2k - 3) ⋅ [P( E )] + 2(k - 2) ⋅ Â p 3
2
Var (K) =
⋅
Nk (k - 1)
(1 - P( E )) 2
Per il nostro esempio:
Var (K) =
2
0.3083 - (8 - 3) x0.30832 + 2 x(4 - 2) x(0.4333 + 0.0173 + 0.2333 + 0.073 + 0.253
x
15 x 4 x3
(1 - 0.3083) 2
Var (K) = 0.0111 x
0.3083 - (5 x0.095) + 4 x0.11
= 0.00694
0.4785
Perciò la DS di K è: DS = Var (K ) =
0.00694 = 0.083 ed è Z =
0.485
= 5.84 (p<0.005)
0.083
Quindi possiamo affermare che, nonostante l’apparenza, un K di 0.485 indica una concordanza
altissimamente significativa (p<0.001) fra gli osservatori.
C) Due osservatori, una variabile categoriale ordinata
E’ un caso particolarmente interessante.
Chissà quante volte i due radiologi dell’esempio precedente si saranno trovati imbarazzati nel dover
forzatamente esprimere il loro giudizio secondo le due categorie della variabile dicotomica
“positivo” (tumore presente) o “negativo” (tumore assente). Si sarebbero certamente trovati a
miglior agio se fossero stati richiesti di esprimere il loro giudizio, di fronte ad ogni radiogramma,
scegliendo una delle seguenti categorie: “sicuramente positivo”; “probabilmente positivo”;
“dubbio”; “probabilmente negativo”, “sicuramente negativo” che, come il lettore ben vede,
rappresentano le categorie di una variabile ordinata (graduata) dal più al meno. In questo caso il test
più opportuno per valutare la concordanza non è K, ma K W cioè K “pesato” (W sta per
“weighted”).
Si noti che anche i gradi di captazione del Gallio nell’esempio precedente rappresentano una
variabile ordinata: ma non è possibile utilizzare KW perché gli osservatori sono parecchi e non due
soltanto. Il test Kw fornisce un coefficiente più elevato della statistica K applicata agli stessi casi ed
- 29 -
anche concettualmente più valido, in quanto il test valorizza le concordanze parziali (cioè le
vicinanze nei giudizi: è chiaro che un osservatore che classifica un caso come “probabilmente
positivo” è molto più vicino a chi lo definsce “sicuramente positivo” che non a chi lo
classificherebbe come “probabilmente negativo” o, peggio, “sicuramente negativo”. Di questo
interessante, anche se complesso, test qui non tratteremo: sarà oggetto di studio nei Seminari 2003,
dedicati alle variabili qualitative ordinali. Chi però volesse fin d’ora saperne di più per poterlo
utilizzare, può consultare alle pagine 184-187 il testo: G.Galli: Guida alla statistica nelle Scienze
Radiologiche, Ecoedizioni Internazionali, Roma 2000 (non reperibile nelle librerie, ma
direttamente presso l’Editore: per informazioni E-mail [email protected]).
- 30 -
Raccomandazione finale
Vogliamo concludere questa dispensa con una raccomandazione: l’uso corretto di un test dipende
dall’aver chiaro in testa che cosa si va cercando e dall’organizzare di conseguenza il test stesso.
Il lettore avrà notato, per esempio, che i dati dell’esempio operativo n. 1 sono stati riportati, nel
testo della dispensa, con due diverse disposizioni; la prima volta nella tabellina:
Meta. Linf. +
RM +
RM -
Meta. Linf. –
9
2
12
15
E la seconda volta come tabellina:
RM “veri”
RM “falsi”
Meta. Linf. +
9
2
Meta Linf. –
15
12
Calcolando il Chi Quadro si è ottenuto nel primo caso 3.03 e nel secondo 1.32.
Ma come, potrà sorprendersi qualcuno, con gli stessi numeri (dati) si ottengono due risultati diversi?
Occorre riflettere che la risposta del test è diversa perché sono differenti i quesiti che gli sono
stati posti.
Nel primo caso si chiede al test di informarci se la proporzione di risposte positive, rispetto alle
negative, fornita dalla RM è significativamente diversa a seconda che vi siano o non vi siano
metastasi linfonodali (quindi il confronto avviene in termini di previsione di malattia, data una
risposta positiva, o previsione di assenza di malattia, data una risposta negativa).
Nel secondo caso si chiede al test di informarci se la proporzione di reperti RM positivi o negativi
“veri” (cioè corrispondenti al reperto istologico) osservata nel gruppo di soggetti affetti da metastasi
è significativamente diversa, oppure no, rispetto a quella osservata nei soggetti privi di metastasi
(quindi il confronto avviene in termini di sensibilità e specificità della RM).
E’ quindi sempre necessario formulare chiaramente un problema, prima di applicarvi un test
statistico.
- 31 -
TAVOLA DEI FATTORIALI
Fattoriali dei numeri fino a 65
n.
Fattoriale
n.
Fattoriale
n.
Fattoriale
0
1
22
1.12 x 1021
44
2.66 x 1054
1
1
23
2.59 x 1022
45
1.2 x 1056
2
2
24
6.2 x 1023
46
5.5 x 1057
3
6
25
1.55 x 1025
47
2.59 x 1059
4
24
26
4 x 1026
48
1.24 x 1061
5
120
27
1.09 x 1028
49
6.1 x 1062
6
720
28
3.05 x 1029
50
3.04 x 1064
7
5040
29
8.84 x 1030
51
1.55 x 1066
8
40320
30
2.65 x 1032
52
8.06 x 1067
9
362880
31
8.2 x 1033
53
4.2 x 1069
10
3628800
32
2.6 x 1035
54
2.3 x 1071
11
39916800
33
8.6 x 1036
55
1.27 x 1073
12
4.79 x 108
34
2.95 x 1038
56
7.1 x 1074
13
6.23 x 109
35
1.03 x 1040
57
4.05 x 1076
14
8.72 x 1010
36
3.7 x 1041
58
2,35 x 1078
15
1.3 x 1012
37
1.37 x 1043
59
1.39 x 1080
16
2.1 x 1013
38
5.23 x 1044
60
8.3 x 1081
17
3.56 x 1014
39
2.04 x 1046
61
5.07 x 1083
18
6.4 x 1015
40
8.16 x 1047
62
3.14 x 1085
19
1.22 x 1017
41
3.34 x 1049
63
1.98 x 1087
20
2.43 x 1018
42
1.4 x 1051
64
1.27 x 1089
21
5.1 x 1019
43
6.04 x 1052
65
9.25 x 1090
- 32 -
Valori di Chi quadro (fino a 20 Gradi di Libertà)
G.L.
P= 0.10
P=0.05
P=0.01
P=0.005
1
2.705
3.841
6.635
7.879
2
4.605
5.991
9..210
10.597
3
6.251
7.815
11.345
12.838
4
7.779
9.488
11.277
14.860
5
9.236
11.07
15.086
16.749
6
10.645
12.592
16.812
18.547
7
12.017
14.067
18.475
20.278
8
13.362
15.507
20.090
21.955
9
14.684
16.919
21.666
23.589
10
15.987
18.307
23.209
25.188
11
17.275
19.675
24.725
26.757
12
18.549
21.026
26.217
28.299
13
19.812
22.362
27.688
29.819
14
21.064
23.685
29.141
31.319
15
22.307
24.996
30.578
32.801
16
23.542
26.296
31.999
34.267
17
24.769
27.587
33.409
35.718
18
25.989
28.869
34.805
37.156
19
27.204
30.143
36.191
38.582
20
28.412
31.410
37.566
39.997
Nota
Un valore calcolato di c 2 superiore, per un determinato grado di libertà (G.L), al valore riportato
nella tavola indica significatività con P minore del dato che intesta la corrispondente colonna (in
grassetto la colonna che si riferisce al limite convenzionale per la significatività : P=0.05).
I valori riportati sono arrotondati alla III° cifra decimale.
- 33 -