Confusión e interacción (1): Qué son, qué suponen y cómo - Fabis

DocuWeb FABIS
Dot. Núm 0702007
Confusión e interacción (1): Qué son, qué suponen y cómo
manejarlas en el análisis estratificado
Aguayo Canela, Mariano
Hospital Universitario Virgen Macarena. Sevilla
Resumen
Cuando se evalúa la relación entre una variable independiente (o exposición) y una variable
dependiente (o respuesta), hay dos tipos de variables o factores que pueden enmascarar el
efecto objeto de estudio. Se trata de variables predictoras que –en conjunto- se llaman “de
control”, pero que juegan un papel muy diferente. Es muy importante distinguir entre
confusión e interacción, y tener en cuenta de que ambos fenómenos pueden estar presentes.
El análisis estratificado puede servir para detectar una interacción por una tercera variable
(variable modificadora de efecto) en la relación de dos variables (una exposición y otra
resultado).
0. Introducción.
Cuando se evalúa la relación entre una variable independiente (o exposición) y una variable
dependiente (o respuesta), hay dos tipos de variables o factores que pueden enmascarar el
efecto objeto de estudio. Se trata de variables predictoras que –en conjunto- se llaman “de
control”, pero que juegan un papel muy diferente:
a) Los llamados factores o variables de confusión (o confundentes, o confundidoras),
que son variables externas a la relación que se evalúa, cronológicamente anteriores a la
exposición y relacionadas tanto con la exposición como con la respuesta. Su presencia
produce sesgos en la relación de la variable dependiente e independiente, que se deben
eliminar (o controlar) a través de ajustes estadísticos realizados con análisis
estratificado o con técnicas de análisis multivariante.
b) Las variables de interacción o modificadoras de efecto, cuyos valores cambian la
intensidad o el sentido de la relación entre el factor de estudio (exposición) y la
variable dependiente (respuesta). Descubrirlas es un objetivo del estudio.
Es muy importante distinguir entre confusión e interacción, y tener en cuenta de que ambos
fenómenos pueden estar presentes.
1. El fenómeno de la confusión.
Correspondencia: [email protected]
1 de 8
Aguayo Canela, Mariano
DocuWeb fabis.org
1.1. El ejemplo de la relación espuria entre el consumo de café y desarrollar
infarto de miocardio (Hulley y Cummings, 1993).
La siguiente tabla 2×2 muestra los datos hipotéticos de un estudio de cohortes para evaluar la
relación entre consumo de café y desarrollo de infarto de miocardio (IAM):
Tomaban café
SI
NO
Totales
Infarto de miocardio
SI
NO
40
460
10
490
50
950
Totales
500
500
1.000
Las medidas de riesgo que pueden calcularse con estos datos son:
OR = (40 × 490) / (460 × 10) = 4,3
RR = (40 / 500) / (10 / 500) = 0,08 / 0,02 = 4,0
RA = (40 / 500) - (10 / 500) = 0,08 – 0,02 = 0,06 (6%)
La OR (Odds Ratio) y el RR (Riesgo Relativo)1 expresan cuántas veces más se da el resultado
(tener IAM) en los expuestos (los que tomaban café) que en los no expuestos, bajo una óptica
multiplicativa. Puede decirse también que representa cuántas veces más riesgo tienen los
expuestos en relación con los no expuestos.
El RA (Riesgo Atribuible o diferencia de riesgos) indica la cantidad adicional de incidencia de
IAM (o exceso de riesgo) que tienen los expuestos respecto a los no expuestos, bajo una
óptica aditiva. Es una medida útil en salud pública, ya que permite evaluar cuánta cantidad de
IAM se debe a la exposición y, secundariamente, cuánta incidencia se podría reducir a través
de programas educativos o intervenciones sanitarias.
En el mismo estudio se registró el consumo de tabaco, como una variable reconocida de riesgo
para padecer infarto de miocardio. Para evaluar si dicha variable en este estudio pudiera estar
comportándose como una variable confundente en la relación principal evaluada (café →
IAM) se realizó un análisis estratificado de la relación principal en los grupos o estratos de la
variable presumiblemente confundidora, con los siguientes resultados:
Estrato 1
Tomaban café
SI
NO
Totales
Estrato 2
Tomaban café
SI
NO
Totales
NO FUMADORES
Infarto de miocardio
Totales
SI
NO
120
2
118
480
8
472
10
590
600
FUMADORES
Infarto de miocardio
Totales
SI
NO
380
38
342
20
2
18
40
360
400
La OR en el estrato de NO-FUMADORES
es:
ORESTRATO 1 = 2 × 472 / 118 × 8 = 1
La OR en el estrato de FUMADORES es:
ORESTRATO 2 = 38 × 18 / 342 × 2 = 1
Si en vez del modelo multiplicativo
hubiésemos empleado el modelo aditivo, el
RA o diferencia de riesgos también sería
similar en cada estrato, y muy diferente del
1
En este caso se puede calcular el RR puesto que hemos dicho que es un estudio de cohortes. (prospectivo) y,
por tanto, tiene sentido obtener la incidencia de IAM en expuestos y en no-expuestos.
DocuWeb fabis.org
2 de 8
Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado
fabis.org, 2007
RA “bruto”:
RAESTRATO 1 = (2 / 120) – (8 / 480) = 0,0167 – 0,0167 = 0
RAESTRATO 2 = (38 / 380) – (2 / 20) = 0,1 – 0,1 = 0
Al mirar los datos marginales puede observarse como entre los 500 sujetos que tomaban café
(expuestos) hay muchos más fumadores (380 versus 120), mientras que entre los que no
tomaban café (no-expuestos) hay muchos más no fumadores (480 versus 20). Por otra parte,
en el grupo de fumadores hay más incidencia de infarto de miocardio (40/400, un 10%) que el
estrato de no fumadores (10/600, un 1,7%). Es por este desajuste en la distribución de los
sujetos por la variable de confusión por lo que se encuentra en este estudio de cohortes una
relación espuria o sesgada entre el tomar café y el infarto de miocardio, con una OR = 4,3. De
hecho hemos visto que al controlar o ajustar el efecto del tabaquismo (estratificando por la
variable hábito de fumar), dentro de cada estrato desaparece la relación (OR = 1, RA = 0)
entre consumo de café e IAM.
1.2. Detección de confusión en el análisis estratificado.
El análisis estratificado consiste en calcular las medidas de asociación entre las dos variables
principales (dependiente e independiente) para cada uno de los estratos de la variable
confundente.2 Esto puede llevarse a cabo en el programa SPSS (Analizar > Estadística
descriptiva > Tablas de contingencia) si tenemos todos los casos o individuos en una única
base de datos; o en el programa EPIINFO (calculadora estadística STATCAL) si conocemos
los recuentos de valores (frecuencias absolutas) para cada variable que se va a introducir en el
análisis.
Tras obtener la medida de asociación “bruta” (relación entre la dependiente y la
independiente, sin tener en cuenta la variable presumiblemente confundente), se procede a
obtener la misma medida (OR, RR ó RA) en cada estrato o capa definido por la variable
confundente, y una medida final ajustada (en ocasiones llamada OR global o ponderada de
Mantel-Haenszel). Se dice que existe confusión cuando:
a) Los valores de las medidas de asociación en cada estrato son similares entre sí, y
diferentes de las medidas de asociación “brutas”. Pueden darse varias combinaciones:
a. Relación espuria: La OR global detecta asociación (valor > 1), mientras que la
OR en cada estrato no lo detectan, arrojando valores próximos al valor nulo
(OR = 1).
b. Confusión enmascarando el efecto: la OR global es 1 (no hay asociación),
mientras que las OR en cada estrato ponen de manifiesto una asociación
(valores > 1).
c. Confusión invirtiendo el efecto (Paradoja de Simpson): Las OR en cada estrato
muestran asociación (valores > 1), mientras que la OR global muestra una
relación o asociación invertida (valor < 1).
2
El análisis estratificado requiere que la variable por la que se estratifica o ajusta sea de tipo categórico y que el
tamaño muestral sea suficientemente grande como para que no existan celdas con pocos representantes. Por ello
hoy en día ha sido casi sustituido por las técnicas de análisis multivariante, mucho más eficientes (estimaciones
más precisas con menos tamaños muestrales) y que permiten evaluar varios factores de confusión
simultáneamente. Sin embargo siguen siendo muy útiles para comprender las relaciones entre las variables
analizadas.
DocuWeb fabis.org
3 de 8
Aguayo Canela, Mariano
DocuWeb fabis.org
b) Los valores de las medidas de asociación “ajustadas” difieren en más de un 10% de los
de las medidas “brutas”.
c) Por supuesto deben cumplirse los criterios generales3 de una variable de confusión.
Vamos a hacer un análisis estratificado en EPIINFO con los datos del ejemplo del estudio de
cohortes anterior (consumo de café e IAM). Abrimos el programa EPIINFO 6.0 y optamos en
Programas por STATCAL Calculadora Estadística, y sucesivamente Tablas (2 × 2, 2 × n).
En el cuadro introducimos los datos (pulsando <Enter> cada vez para saltar de casilla) y
marcamos <F4> (calcular). Debemos obtener esta pantalla:
Vemos que la OR en este primer estrato (NO FUMADORES) vale 1, como ya sabemos por el cálculo
manual. Ahora debemos indicar al programa que estamos haciendo un análisis estratificado,
oprimiendo la tecla <F2> (Estratos). Volvemos a rellenar los datos de las cuadro celdillas, esta vez con
los correspondientes a FUMADORES. Obtendremos, tras calcular, la siguiente salida:
3
Son tres: la variable de confusión debe ser un factor de riesgo (o protector) de la variable dependiente, debe
estar relacionada con la variable independiente y no ser un mero paso intermedio en la relación principal
evaluada (cronológicamente anterior a la exposición).
DocuWeb fabis.org
4 de 8
Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado
fabis.org, 2007
Igualmente comprobamos que en este estrato (FUMADORES) la OR también vale 1. Ahora, para
finalizar, indicamos al programa que no hay más estratos, oprimiendo la tecla <Enter>. Obtendremos
la siguiente pantalla:
Vemos el resumen del Análisis Estratificado (en este caso resumen de dos tablas o estratos): la
OR cruda (o “bruta”) para la tabla global es 4,26 mientras que la OR “ajustada” (o ponderada
de Mantel-Haenszel) es de 1,00. Si no hubiésemos realizado este ajuste habríamos dado una
medida de asociación sesgada, llegando a la falsa conclusión de que el hecho de beber café
incrementa el riesgo de IAM, multiplicándolo por cuatro veces, cuando en realidad no están ni
siquiera asociados.
La medida de asociación que debe darse cuando hay confusión es el valor ajustado o
ponderado, ya que el valor “bruto” está sesgado (o confundido).
2. El fenómeno de la interacción (modificación de efecto).
2.1. El ejemplo de la relación -modificada por la edad- entre el hábito de fumar y
desarrollar infarto de miocardio.
La siguiente tabla 2×2 muestra los datos hipotéticos de un estudio de cohortes para evaluar la
relación entre consumo de cigarrillos y el desarrollo de infarto agudo de miocardio:
Fumaban
SI
NO
Totales
Infarto de miocardio
SI
NO
34
466
9
491
43
957
Totales
500
500
1.000
Las medidas de riesgo que pueden calcularse con estos datos son:
OR = (34 × 491) / (466 × 9) = 3,98
RR = (34 / 500) / (9 / 500) = 0,068 / 0,018 = 3,78
RA = (34 / 500) - (9 / 500) = 0,068 – 0,018 = 0,05 (5%)
DocuWeb fabis.org
5 de 8
Aguayo Canela, Mariano
DocuWeb fabis.org
Con este primer análisis se detecta que el consumo de cigarrillos está asociado con el
desarrollo de infarto de miocardio, multiplicando el riesgo por cuatro.
Sin embargo, si se hubiese realizado el mismo análisis en dos grupos de edad (definidos por
un punto de corte de 45 años), los resultados hubiesen sido los siguientes:
Estrato 1
< 45 años
Fumaban
SI
NO
Totales
Infarto de miocardio
Totales
SI
NO
300
6
294
300
4
296
10
590
600
Estrato 2
≥ 45 años
Fumaban
SI
NO
Totales
Infarto de miocardio
Totales
SI
NO
200
28
172
200
5
195
33
367
400
La OR en el estrato de edad < 45 años es:
ORESTR 1 = 6 × 296 / 294 × 4 = 1,51
La OR en el estrato de edad ≥ 45 años es:
ORESTR 2 = 28 × 195 / 172 × 5 = 6,35
Si en vez del modelo multiplicativo
hubiésemos empleado el modelo aditivo, el
RA o diferencia de riesgos también sería
muy diferente en cada estrato, y también
diferente del RA “bruto”:
RAESTRATO 1 = (6 / 300) – (4 / 300) = 0,02 – 0,0133 = 0,0067 (0,67%)
RAESTRATO 2 = (28 / 200) – (5 / 200) = 0,14 – 0,025 = 0,115 (11,5%)
Estos “sorprendentes” resultados se explican por el fenómeno de interacción: en realidad lo
que está ocurriendo es que la relación entre el tabaco y el IAM, que sabemos que existe, se ve
modificada en su intensidad por una tercera variable, la edad, cambiando significativamente
las medidas de asociación, tanto en el modelo multiplicativo (OR, RR) como en el modelo
aditivo (RA). En efecto, según la edad de los sujetos evaluados, la relación entre el consumo
de tabaco y el IAM cambia, siendo débil en el grupo de menos edad (OR = 1,51; RA = 0,67%)
y fuerte en el grupo de más edad (OR = 6,35; RA = 11,5%).
La interacción, al contrario de la confusión, no produce ningún sesgo en la evaluación de la
relación analizada. De hecho, la OR o el RA encontrados cuando se analiza la totalidad de los
sujetos son valores promedio (para el conjunto de edades) del hábito de fumar sobre el infarto
de miocardio. Pero estos valores promedio tienen en verdad poco interés práctico, ya que no
informan de manera precisa sobre la relación objeto de estudio. Cuando existe interacción o
modificación de efecto, el investigador debe detectarlo y describirlo, siendo un objetivo más
del estudio descubrir estas interacciones.
2.2. Detección de interacción en el análisis estratificado.
El análisis estratificado puede servir para detectar una interacción por una tercera variable
(variable modificadora de efecto) en la relación de dos variables (una exposición y otra
resultado).
Así, el cálculo de medidas de asociación con la totalidad de los datos y, posteriormente, en los
diferentes estratos establecidos por la variable modificadora de efecto, arrojará valores
diferentes: la OR o el RA obtenido en cada estrato serán distintos, y las medidas de asociación
calculadas con el global de los sujetos representarán un promedio de los valores de las
medidas obtenidas en los estratos. Por ello, cuando sólo existe interacción pura, no deben
emplearse estas medidas “brutas” para describir la relación principal entre la variable
DocuWeb fabis.org
6 de 8
Confusión e interacción (1): Qué son, qué suponen y cómo manejarlas en el análisis estratificado
fabis.org, 2007
dependiente y la independiente, ni deben calcularse medidas ajustadas o ponderadas, como en
el caso de la confusión. Debe expresarse el valor de la medida en cada estrato de la variable
modificadora de efecto.
Por otra parte, el análisis estratificado puede servir para identificar la presencia de confusión e
interacción al mismo tiempo. En esta situación, la OR en los estratos definidos por los valores
de la variable modificadora de efecto (y confundente) serán diferentes, pero la OR global o
“cruda”, con la totalidad de los individuos, no será un valor promedio.4 En estos casos el
análisis multivariante será de gran ayuda, como veremos en otro documento.
3. Confusión versus interacción (modificación de efecto).
Es muy importante comprender estos dos fenómenos y saber diferenciarlos. A manera de
resumen se muestran los principales conceptos en la siguiente tabla.
Características
CONFUSIÓN
INTERACCIÓN
Significado
Es un sesgo, una distorsión entre la
verdadera relación entre una exposición
(variable independiente) y un efecto
(variable resultado o dependiente), debido a
la presencia de un factor externo que se
llama variable confundente.
No tiene significado biológico. Proviene de
una relación específica entre variables en la
base de datos que se analiza, y que no
necesariamente existe en la población de la
que se extrajo la muestra. Dicho de otra
manera, la confusión depende de cómo se
distribuye el factor de confusión entre los
grupos de análisis, de forma que una
característica o variable puede ser un factor
confundente en un estudio y no serlo en
otro.
Puede corresponder a un fenómeno biológico
(sobre todo cuando existe una modificación
en las medidas de efecto bajo un modelo
aditivo).
Corresponde al cambio del verdadero valor
de la asociación entre una exposición y un
desenlace introducido por una tercera
variable, que se conoce como modificadora
de efecto.
Consecuencia de su
presencia
Introduce un sesgo o error sistemático en la
estimación de la medida de asociación.
Enriquece la información que se puede dar
de la medida de asociación.
En el análisis estratificado, la OR cruda
difiere de las OR calculadas en los estratos,
establecidos por los valores de la variable
confusora, mientras que en éstos son
similares. La OR cruda está sesgada y no
es válida.
En el análisis estratificado por los valores
de la variable modificadora de efecto, las OR
obtenidas son muy diferentes. La OR global,
sin estratificar, representa un valor promedio
entre las OR de los estratos, que no tiene
trascendencia práctica.
En el análisis multivariante la interacción
debe analizarse introduciendo un término
multiplicativo, que contiene la variable
independiente y la variable modificadora de
efecto. Cuando hay interacción, éste término
es estadísticamente significativo, y tanto él
como las variables que lo componen deben
permanecer en el modelo.
Identificación
Actuación del
investigador
En el análisis multivariante, al introducir el
factor de confusión, se modifica el
coeficiente de regresión (y la OR si estamos
en una Regresión Logística) de la variable
independiente, al calcularse una estimación
ajustada (o controlada) de la relación entre
la exposición y el efecto.
Si no se ha podido eliminar en la fase de
diseño (hay tres estrategias para ello: la
restricción, el emparejamiento y la
randomización o asignación aleatoria), hay
que eliminarlo en la fase de análisis,
ajustando o controlando la relación principal
evaluada por cada factor de confusión
Debe describirse en detalle, dando medidas
de asociación para cada estrato o subgrupo
establecido por la variable modificadora de
efecto.
4
Si se presentan simultáneamente, la interacción debe evaluarse siempre antes de la confusión. Sólo en el caso de
que la interacción sea moderada es recomendable utilizar una estimación ajustada o controlada.
DocuWeb fabis.org
7 de 8
Aguayo Canela, Mariano
DocuWeb fabis.org
Referencias bibliográficas.
1. Doménech JM, Sarriá A. Análisis multivariante: modelos de regresión. Unidad
Didáctica 8: Confusión e interacción. Editorial Signo. Barcelona, 1997.
2. De Irala-Estévez J, Martínez-González MA. Errores en la estimación de medidas de
asociación en estudios epidemiológicos. En: Epidemiología Aplicada. Ariel Ciencias
Médicas. Editorial Ariel S.A. Barcelona, 2004. Capítulo 7, páginas 257-346.
3. De Irala-Estévez J, Martínez-González MA. Variables modificadoras de efecto. En:
Epidemiología Aplicada. Ariel Ciencias Médicas. Editorial Ariel S.A. Barcelona,
2004. Capítulo 8, páginas 347-370.
4. Cobo E, Buekens P. Necesidades y limitaciones del ajuste. Med Clin (Barc) 1990; 95:
702-708.
5. de Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es una variable de
confusión? Med Clin (Barc) 2001; 117: 377-385.
6. Cobo E, Corchero C. Ajuste: qué variables, cómo y cuándo. FMC 2003; 10(10): 741742.
DocuWeb fabis.org
8 de 8