técnicas estadísticas para el tratamiento de datos

Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
CURSO DE POSTGRADO DEL CSIC:
“Tendencias actuales de la investigación en Enología”
Módulo: “Tratamiento estadístico de los datos”
Dr. Pedro J. Martín-Álvarez,
Instituto de Investigación en Ciencias
de la Alimentación (CIAL, CSIC-UAM)
Grupo: Biotecnología Enológica Aplicada
Madrid, 20-24 de Abril de 2015
ÏNDICE
1.TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES............
1.1 UN SOLO GRUPO DE DATOS .......................................................
1.2 DOS GRUPOS DE DATOS INDEPENDIENTES ............................
1.3 DOS GRUPOS DE DATOS RELACIONADOS ...............................
1.4 MAS DE DOS GRUPOS DE DATOS INDEPENDIENTES .......
1.4.1 Análisis de la Varianza (ANOVA) ............................................
2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES ...........
2.1 ANALISIS DE CORRELACION SIMPLE .......................................
2.2 ANALISIS DE REGRESION LINEAL SIMPLE .............................
3. TRATAMIENTO ESTADÍSTICO DATOS MULTIVARIANTES. .......
3.1 MATRIZ DE DATOS
.....................................................................
3.2 REPRESENTACION GRAFICA DE LOS DATOS........................
3.3 CLASIFICACION DE LOS METODOS.........................................
3.4 TRATAMIENTO PREVIO DE LOS DATOS ...................................
4. MÉTODOS ESTAD. DATOS MULTIV. NO SUPERVISADOS
4.1 ANALISIS DE COMPONENTES PRINCIPALES.............................
4.2 ANALISIS FACTORIAL ....................................................................
4.3 ANALISIS DE CONGLOMERADOS .......................................
5. MÉTODOS ESTAD. DATOS MULTIV. SUPERVISADOS .................
5.1 ANALISIS CANONICO DE VARIABLES (CVA) ...............................
5.2 METODOS DE CLASIFICACION SUPERVISADA ....................
5.2.1 Análisis discriminante ................................................................
5.2.2 Método SIMCA ……..................................................................
5.2.3 Método kNN ………… ................................................................
6. MÉTODOS ESTAD. DATOS MULTIV. DE DEPENDENCIA ............
6.1 ANALISIS DE CORRELACION CANONICA (ACC) .........................
6.2 MODELOS DE REGRESION MULTIVARIANTE .............................
6.2.1 Regresión lineal múltiple............................................................
6.2.2 Diseño de Experimentos ...........................................................
7. BIBLIOGRAFIA ..................................................................................
8. Comandos de los programas SPSS, Statgraphics 5.1 y Statistica 7.1
0
Pág.
1
1
2
3
4
5
8
9
10
13
13
14
15
17
17
17
19
20
22
22
22
22
23
23
24
24
24
25
26
28
29
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
1. TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES
1.1 UN SOLO GRUPO DE DATOS
Datos: disponemos de un conjunto de n datos (observaciones), {x1, x2, x3, ..., xn}, de
una única variable aleatoria (v.a.) X, procedentes de una cierta población W.
Podríamos calcular:
Medidas de centralización (o de posición), que tienen en cuenta el valor de
los datos en la muestra pero no dan idea del agrupamiento de los mismos, como
n
son: la moda, la media aritmética ( x
x / n ) y la mediana que es mas robusta
i 1i
que la media. También las medias recortadas al 5% (eliminando el 5% de los datos
extremos).
Medidas de dispersión o variablididad, que dan idea sobre el agrupamiento
de los datos observados en torno a los valores centrales, como son: el intervalo,
2
amplitud o recorrido ( xmax xmin ), la varianza muestral ( s ), la desviación
n
estándar (o típica) muestral ( s
i 1
( xi
x ) 2 /(n 1) ), la
desviación estándar
relativa (o coeficiente de variación, DER s / x ), el intervalo intercuartílico
(diferencia entre el primer y tercer cuartíl, IQ = Q3 - Q1), y la MEDA (mediana de las
desviaciones entorno a la mediana, MEDA= Mediana |xi – Mediana|) más robusta
que la desviación típica.
Momentos y coeficientes de asimetría y apuntamiento, que describen
aspectos relevantes de la distribución de frecuencias.
Para la detección de datos anómalos o atípicos, se podría
0,70
utilizar el intervalo de valores admisibles que se define
9
como: Q1 1.5(Q3 Q1 ), Q3 1.5(Q3 Q1 ) . Una representación 0,60
gráfica muy utilizada es el diagrama de caja ("box plot"),
0,50
que incluye información sobre la mediana, los cuartíles Q1 y
Q3, y los extremos del intervalo de valores admisibles (los 0,40
bigotes). Los datos que están fuera cabría pensar en que son
0,30
atípicos.
0,20
Desde un punto de vista inferencial, y aceptando
VARX
distribución N( , ) de los datos, que puede comprobarse con
el gráfico de probabilidad normal(“Q-Q plot”), o con los test de normalidad
(Shapiro y Wilks, Kolmogoroff-Smirnov-Lilliefors,...), podemos utilizar la media
aritmética y la desviación estándar muestral como estimadores puntuales de los
parámetros poblacionales , y . Otro estimador puntual de
es el valor
MEDA/0.675.
Fijado el nivel de significación, normalmente = 0.05, podemos:
calcular el intervalo de confianza para la media poblacional , al 100(1,
que vendrá dado por: x t1 / 2,n 1s / n , x t1 / 2,n 1s / n , siendo t1 / 2,n 1 el valor de la
t-Student con n-1 g.l. tal que F( t1
/ 2,n 1 )
=1
/ 2,
2
calcular el intervalo de confianza para , al 100(1- )% que vendrá dado por:
2
2
2
2
( n 1) s / 1 / 2,n 1 , ( n 1) s / / 2,n 1 siendo
/2 y
1 /2 los valores de la función de
distribución
2
con n-1 g.l., tal que F(
2
/2
)= / 2 y F(
2
1
/2 )
=1
realizar el contraste de hipótesis para la media:
hipótesis nula (H0) puede rechazarse tanto si
<
0
como si
/2, o
H0
H1
0
donde la
0
>
0
(región con 2
1
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
x
colas). El estadístico utilizado para el contraste es: tcal
0
que sigue una
s/ n
distribución t-Student con n-1 g.l., si H0 es cierta. Fijado el valor de (p.e. =
0.05), se decide en función del valor de t cal : si | tcal | t1 / 2,n 1 , se rechaza la
hipótesis nula y se acepta la hipótesis alternativa (H1); en caso contrario
( | t cal | t1 / 2,n 1 ) no hay motivos para rechazar H0. Utilizando probabilidades
asociadas (facilitadas por los programas estadísticos): si P <
se rechaza Ho, en
caso contrario (P > ) se acepta Ho. (“Si P es pequeña → corresponde a un suceso
raro → hipótesis de partida incorrecta”).
Este test para una media puede utilizarse para "comprobar la exactitud de un
método analítico para una muestra con un valor de referencia 0 " o para
“comprobar si la media de determinados valores es diferente un valor fijo (J.
Pozo-Bayón et al., Agric. Food Chem. 2009, 57, 10784-10792)”.
1.2 DOS GRUPOS DE DATOS INDEPENDIENTES
Datos: Disponemos de dos conjuntos de datos independientes: { x11,x12,x13, ..., x1n1}
y {x21, x22, x23, ..., x2n2}, formados por n1 y n2 observaciones, de una misma v.a. X,
procedentes de dos poblaciones W1 y W2.
Podemos
calcular:
los
valores
descriptivos
muestrales: x j y s j j=1,2, que serán estimadores, si
18,00
se puede definir como:
H0
1
2
H1
1
2
donde la hipótesis
14,00
12,00
10,00
A
B
grupo
20,00
95% IC Variable
existe normalidad, de los correspondientes parámetros
poblacionales j y
Para el tratamiento gráfico
j.
podemos utilizar los diagramas de cajas, o los gráficos
de barras de error con los intervalos de confianza para
la media, si existe normalidad.
Desde un punto de vista inferencial, y aceptando
distribuciones N( i, i) de los datos en cada población,
podemos estar interesados en:
obtener los intervalos de confianza para los
parámetros poblacionales j, y j, y también en hacer
algún contraste de hipótesis sobre dichos parámetros,
o
realizar el test para comparar las dos medias, que
Variable
16,00
15,00
10,00
5,00
A
B
grupo
nula (H0) puede ser rechazada tanto si 1< 2 como si 1> 2 (dos colas). Aceptando
muestras independientes y varianzas iguales ó no, el estadístico utilizado para el
contraste sigue una distribución t-Student con ciertos g.l. (n1 + n2 - 2 en el caso de
igualdad de varianzas). Fijado un valor para el nivel de significación, p. e. = 0.05,
se decide en función de las probabilidades asociadas, y si P <
se rechaza Ho, en
caso contrario (P > ) se acepta Ho.
Este contraste puede utilizarse para "comparar los resultados obtenidos por dos
laboratorios para una misma muestra de referencia",
“comparar las
concentraciones de un cierto compuesto en vinos elaborados con uvas de 2
variedades”, “comprobar si existen diferencias en la composición de quesos
elaborados a partir de leche de vaca o leche de cabra”, “comparar las
puntuaciones de un descriptor en quesos procedentes de 2 queserías” ...
2
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
realizar el test para comparar dos varianzas:
H0
H1
2
1
2
1
2
2
2
2
. Aceptando
distribuciones normales en los dos grupos, el estadístico utilizado es: Fcal
acepta s12
cierta. Si
2
2
s1 / s2 (se
2
s2 ), que sigue una distribución F-Snedecor con n1-1 y n2-2 g.l., si H0 es
Fcal
F1
,n1 1,n2 1
no hay motivos para rechazar H0. En caso contrario
habría que aceptar que las varianzas no son iguales. La mayoría de los programas
estadísticos proporcionan el resultado del test de Levene, para el anterior contraste,
utilizando un estadístico con distribución F-Snedecor y 1 y n1+n2-1 g.l. Si la
probabilidad asociada (P) es <
se rechaza Ho, en caso contrario (P > ) se acepta
Ho.
Con muestras independientes y no aceptando distribuciones normales, puede
utilizarse el test no paramétrico de Mann-Whitney. Si la probabilidad asociada (P)
es menor que se rechaza Ho.
Iglesias M.T., P.J. Martín-Álvarez, M.C. Polo, C. de Lorenzo, E. Pueyo. "Protein analysis of
honeys by Fast protein Liquid Chromatography. Application to the differentiation of floral
honeys and honeydew honeys". J. Agric. Food Chem. 2006, 54, 8322-8327
Statistical Analysis. The statistical methods used for data analysis were a two-sample t-test and
Mann-Whitney U test to determine if there were significant differences between both types of
honey samples and … The STATISTICA program….
Results and discussion
Table 3 shows the mean values and standard deviations of the percentages of peak areas in the
two groups of honeys and the results of the t test for comparison of the two means that coincide
with the obtained by means of the Mann-Whitney U test. It can be observed that the samples of
floral honeys have greater values in the variables P7 and P4 and smaller values in P5, as
compared to the samples of honeydew honeys.
1.3 DOS GRUPOS DE DATOS RELACIONADOS
Datos: disponemos de n parejas de valores de 2 variables procedentes de un misma
población W: { (x11 , x12), (x21 , x22), ..., (xn1 , xn2)}. A partir de estas n parejas,
podemos calcular las n diferencias entre cada par de valores observados en el mismo
individuo, es decir: { d1 = x11 - x12, d2 = x21 - x22 ,..., dn = xn1 - xn2}, así como el valor
2
medio y la desviación estándar de esta nueva variable d ( d y sd ).
3
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Aceptando que esta nueva variable sigue una N( d, d),
hipótesis para las dos medias:
tcal
d
sd / n
si | tcal | t1
H0
H1
1
2
d
1
2
d
0
,
0
el contraste de
utiliza el estadístico:
, que sigue una t-Student con n-1 g.l.. Fijado el nivel de significación ,
/ 2 ,n 1
se rechaza la hipótesis nula y se acepta la hipótesis alternativa
(H1); en caso contrario no hay motivos para rechazar H0. Si la probabilidad asociada
(P) es menor que se rechaza Ho.
Este contraste puede utilizarse para "comparar los resultados obtenidos con 2
métodos analíticos en n muestras", “comprobar si hay diferencias entre
concentraciones antes y después de un proceso”, “comparar las puntuaciones
asignadas por 13 jueces a cada una de 10 muestras de quesos antes y después
de un tratamiento” ......
En caso de no aceptar distribuciones normales, el test no paramétrico de
Wilcoxon puede utilizarse para comparar las dos medias en muestras
relacionadas. Si la probabilidad asociada (P) es menor que se rechaza Ho.
Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content
of red spanish wines: Comparison of a direct ELISA and an HPLC method for the
determination of histamine in wines". Food Res. Int., 2005, 38, 387-394
Statistical methods The statistical methods used for analysis were as follows: ...; correlation
analysis and t-test for related samples to compare HPLC and ELISA methods. STATISTICA
(Statsoft Inc., 1998) and SPSS (SPSS Inc., 2001) programs were used for data processing.
Results. … Comparison of the quantitative analysis of histamine by HPLC and ELISA
revealed a good correlation (r = 0.91) between both methods (Fig. 3), although the results of the
t-test for related samples revealed slightly higher results for ELISA (P < 0.05).
1.4 MÁS DE DOS GRUPOS DE DATOS INDEPENDIENTES
Datos: disponemos de k (k > 2) conjuntos de datos: { x1,1, x1,2, x1,3, ..., x1,n1} , { x2,1,
x2,2, x2,3, ..., x2,n2} ... {xk,1, xk,2, xk,3, ..., xk,nk}, con nj ( j = 1,2,...k ) observaciones de
una misma variable X, procedentes de k poblaciones Wj, y podemos calcular los k
valores medios ( x j ) y las k desviaciones estándar ( s j ), estimadores de los
correspondientes parámetros
4
j y
j
. Para el tratamiento gráfico se pueden utilizar
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
los histogramas, los diagramas de cajas y las barras de error. El contraste más
utilizado es el siguiente.
Test para comparar las k medias. Desde un punto de vista inferencial, y
aceptando distribuciones normales e igualdad de varianzas ( N ( j , ) ), para la
comparación de las k medias:
Fcal
H0
H1
i
j
i
j
no todas iguales
, se utiliza el estadístico:
SSentre /( k 1)
SSdentro /( n k ) , que sigue una F-Snedecor con k-1 y n-k g.l. (n= ni), si H0 es
cierta. Fijado el valor del nivel de significación , si Fcal
F1
,k 1,n k
se rechaza la
hipótesis nula H0 (la dispersión entre los grupos es mayor que la que existe dentro de
los grupos); en caso contrario no tenemos motivos para rechazarla. De manera
equivalente, si P < se rechaza H0 y se admite que hay diferencias significativas.
Este contraste puede utilizarse para “comparar las concentraciones de un cierto
compuesto en vinos elaborados con uvas de k>2 variedades”, “comprobar si
existen diferencias en la composición de quesos elaborados a partir de leche de
vaca, o leche de cabra o leche de oveja”, y en general para "comparar los k
valores medios obtenidos para k tratamientos", “comparar las puntuaciones de
un cierto atributo, asignadas a 12 quesos procedentes de 3 procesos de
elaboración, por 12 jueces” y se engloba dentro del tratamiento estadístico: Análisis
de la Varianza (ANOVA) de una vía.
Si una vez realizado el anterior contraste hay que aceptar que no todas las
medias poblaciones son iguales, se pueden utilizar los test de Schefee, de Tukey,
de Student-Newman-Keuls, LSD, ... para averiguar cuáles son las diferentes.
En caso de no aceptar normalidad de las poblaciones se puede utilizar el test no
paramétrico de Kruskal-Wallis.
2
2
2
...
Para comprobar si las k varianzas son iguales, ¿ H 0
1
2
k ? se puede
utilizar el test de Bartlett, el de Levene, o, si el tamaño de las muestras coincide, el
test de Cochran.
Cabezas, L., M.A. González-Viñas, C. Ballesteros,· P.J. Martín-Álvarez. “Application of Partial
Least Squares regression to predict sensory attributes of artisanal and industrial Manchego
cheeses”. Eur. Food Res. Technol., 2006, 222 (3-4), 223-228.
Statistical method: The statistical methods used for analysis were: one-way analysis of
variance to determine if there were significant differences between groups and Student–
Newman–Keuls test for means comparisons, using Statistica program ...
1.4.1 Análisis de la Varianza (ANOVA)
El objetivo fundamental del ANOVA, según Fisher, es descomponer la variabilidad de
un experimento, en componentes independientes, que puedan asignarse a causas
5
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
distintas. Según Scheffe, el ANOVA permite analizar medidas, que dependen de varios
factores, y que operan simultáneamente, para decidir cuáles tienen un efecto
significativo sobre la variable estudiada y cuáles no. Una parte de la variabilidad total
de la característica analizada podrá ser justificada por los factores estudiados; y la
parte no justificada se acepta que se debe al error y a otros posible factores no
controlados.
ANOVA de un factor. En el caso de un solo factor con k niveles fijos (o
tratamientos), el modelo matemático aceptado, es: xi, j
xi , j
(
(
) ei, j
j
n j j / n representa el valor de una media global,
número de medidas en el nivel j-ésimo,
j
ei, j
ei, j donde xi, j representa el valor i-ésimo de la variable analizada
j
en el nivel j-ésimo,
ésima,
i, j
j
n j el
j la media de la variable en la población j-
) serían k cantidades fijas representando el efecto del nivel j-
ésimo sobre la media global
, cumpliéndose
j
nj
j
0, y
ei, j
( xi, j
j)
los
errores, que aceptamos independientes y con distribución N (0, ) . Para comprobar
si el factor influye sobre la variable analizada, podríamos establecer las hipótesis:
H0
j 0 j 1,2,..., k
, equivalente a la anterior
H1 no todas las j son nulas
las medias son iguales, entonces todas las
j
H0
H1
i
j
i
j
no todas son iguales
; si todas
serían nulas, y el factor no tiene efecto
significativo sobre la variable observada. El estadístico para el contraste es el mismo
utilizado anteriormente ( Fcal
SS factor /(k 1)
~ Fk
SS error /(n k )
1,n k
), y los resultados se muestran en
forma de tabla (la tabla ANOVA).
Fuente de
Suma
Grados
Cuadrado
Valor de
Probabilida
Variación
Cuadrados de libertad
Medio
la Fcal
d asociada
MSS
MSS
/
MSS
SS a
Factor
P
k 1
a
a
w
SS
(
n
k
)
MSS
Error
w
w
SS t
Total
n 1
Si el valor de la probabilidad asociada (P) es < se rechaza H0 y se admite que el
factor influye.
En el caso de un solo factor con k niveles aleatorios, el modelo del análisis de la
a j ei, j donde se acepta que los efectos a j son v.a.
varianza viene dado por: xi, j
independientes con distribución N (0,
a
) , y los errores ei , j , son independientes y con
2
0 , es
distribución N (0, ) . Para este modelo interesa comprobar la hipótesis H 0
a
decir, no existe variación debida al factor. Para este contraste se utiliza el mismo
estadístico Fcal utilizado en el modelo de efectos fijos, que sigue una F-Snedecor con
k-1 y n-k g.l.
Simó, C., P.J. Martín-Alvarez, C. Barbas, A. Cifuentes. " Application of stepwise discriminant
analysis to classify commercial orange juices using chiral micellar electrokinetic
chromatography-laser induced fluorescence data of amino acids". Electrophoresis, 2004, 25,
2885 -2891
Statistical analysis. The statistical methods used for the data analysis were: ..; one-way
analysis of variance (ANOVA) to test the effect of the factor studied (processing); Scheffé test
for means comparisons; and ….
6
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Results:
ANOVA de 2 factores. En el caso de 2 factores, con niveles fijos, se acepta que las
diferencias observadas en la variable analizada X se deben: a los diferentes
niveles de actuación del factor A, a los diferentes niveles de actuación del
factor B, a la posible interacción entre ambos factores A y B, o a otras causas no
controladas, que incluiremos en el error experimental. El modelo matemático es
xi, j,k
)i, j ei, j,k con i =1,2,...,a;
j =1,2,...,b;
k=1,2,...,m
i
j (
repeticiones; y donde
i
es una cantidad fija, que representa el efecto del
i.
nivel i-ésimo del factor A,
j
es una cantidad fija, que representa el efecto
.j
(
del nivel j-ésimo del factor B,
)i, j
ij
i.
.j
es también una cantidad
fija, que representa el efecto de la interacción entre los niveles i-ésimo del factor A
y j-ésimo del B, y ei, j,k el error, una v.a., con distribución N(0, ) . Las posibles
hipótesis
H 03
H
3
1
para
contrastar
son
3:
H 01 ( )i, j 0
i, j ,
H11 no todos nulos
H 02
0
i
i
H12 no todos nulos
y
0 j , y los estadísticos utilizados siguen la distribución F-Snedecor, con
no todos nulos
j
diferentes grados de libertad. Los resultados se muestran en la correspondiente tabla
ANOVA:
Fuente de
Variación
Factor A
Factor B
Interacción
AB
Error
Total
Suma
cuadrados
Grados
de libertad
Cuadrado
Medio
Valor de
la Fcal
SS A
a 1
MSS A
MSS A / MSSw
SSB
MSS B
MSS B / MSS w
SS AB
b 1
(a 1) (b 1)
MSS AB
MSS AB / MSS w
SS w
a b (m 1)
MSS w
SS t
a b m 1
Probabilida
d asociada
PA
PB
PAB
Los estadísticos utilizados son:
1
Fcal
=MSS AB / MSSw para contrastar si existe interacción ( H 01 ),
2
Fcal
=MSS A / MSSw para comprobar el efecto del factor A ( H 02 ) y
3
Fcal
=MSSB / MSSw para comprobar si el factor B influye en la respuesta ( H 03 ).
Si PAB>
PA>
1
se acepta H 0 , y el modelo se dice que es aditivo, no hay interacción. Si
2
se acepta H 0 , y se dice que el factor A no influye en la variable analizada. Si se
7
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
3
cumple PB< hay que rechazar H 0 y se dice que el factor B si influye. Cuando no
existe interacción entre los factores la influencia de uno de ellos no dependerá de los
niveles del otro factor (en el gráfico de las medias las líneas serán paralelas).
Cuando sólo existe una observación por celda (m=1), el modelo es:
xi, j
ei, j . Esta técnica estadística se puede utilizar para comparar las
i
j
puntuaciones asignadas por 10 jueces a una cierta cualidad organoléptica en tres
diferentes vinos, con el fin de averiguar si hay diferencias entre las puntuaciones
asignadas por los jueces, o entre las puntuaciones de los 3 vinos.
Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic
compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal.
Chim. Acta, 2006, 563 (1-2), 116-125.
Statistical analysis. The statistical methods used for data analysis were: …; two way analysis of
variance (ANOVA) to test the effects of the two factors; Student–Newman–Keuls test for means
comparisons; and …
Results:
2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES
Datos: En este caso se dispone de un conjunto de n pares de observaciones de dos
variables X1, X2: { (x1,1 , x1,2), (x2,1 , x2,2), ..., (xn,1 , xn,2) }, procedentes de una cierta
población bivariante W. En esta situación podemos calcular los valores medios y
desviaciones estándar muestrales para cada variable, que serán estimadores de los
correspondientes parámetros poblacionales. Pero, al tener dos variables, podemos
calcular también, los valores muestrales de la covarianza y del coeficiente de
correlación:
s12 /( s1s2 ) ,
n
i 1
( xi ,1
x1 )( xi , 2
x2 ) /( n 1)
y
14,00
que tienen en cuenta la variación
12,00
metanol
r
s12
8
10,00
8,00
6,00
4,00
10,00
20,00
30,00
40,00
propanol
50,00
60,00
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
conjunta de las dos variables X1 y X2, y que serán estimadores de los correspondientes
parámetros poblacionales: 12 y . El tratamiento gráfico más utilizado es el gráfico,
o diagrama, de dispersión.
Aceptando distribución conjunta normal bivariante, podríamos conocer la región
de confianza al 100(1- )%, para ( 1, 2) mediante la inecuación matricial:
1
( x1
1 , x2
2)
1
12
12
2
x1
x2
1
2
2
2
siempre que se conozcan los valores de
1,
Esta región no coincide con el producto cartesiano de los correspondientes
2 y 12.
intervalos para cada media. Más interesante resulta la elipse de confianza definida
por:
( x1
x1 , x2
x2 )
s11 s12
s12 s22
1
x1
x2
x1 n( n 2)
F
x2 2( n 2 1)
, 2 ,n 2
, que
48
46
44
42
40
38
Fructosa
permite decidir si una observación ( x1 , x 2 ) procede o no
de una determinada población con distribución normal
bivariante (detección de puntos anómalos).
50
36
34
32
Para el estudio de dependencia entre las dos variables,
se recurre al Análisis de Correlación (cuando la
muestra ha sido obtenida de forma aleatoria) y/o al
Análisis de Regresión (lineal o no lineal), cuando aceptamos que los valores de una
de las variables no están sujetos a error, y estamos interesados en expresar la
relación de dependencia mediante un modelo matemático (X2 = f(X1) + ).
30
28
26
22
24
26
28
30
32
34
Glucosa
36
38
40
42
44
2.1 ANALISIS DE CORRELACION SIMPLE
Para el caso de variables cuantitativas, y aceptando distribución normal
bivariante, el coeficiente de correlación de Pearson, definido por:
n
r
i 1
n
i 1
( xi
( xi
x )( yi
x)
2 n
i 1
( yi
y)
y)
, mide la relación lineal entre las dos variables y es estimador
2
del coeficiente de correlación poblacional . Se puede:
calcular el intervalo de confianza para ( 1 , 2 ), y/o
realizar un test de hipótesis sobre para ver si puede aceptarse que es distinto
de 0 (Ho
= 0 ). Si la probabilidad asociada (P) es < se acepta
0.
En el caso de no aceptar normalidad en los datos se utiliza el coeficiente correlación
de Spearman, que utiliza los rangos de los datos, y el correspondiente test no
paramétrico para el contraste de hipótesis Ho
=0.
Como aplicación de esta técnica: correlación: entre parámetros del color y compuestos
fenólicos en vinos, entre descriptotes sensoriales y compuestos químicos, ...
Monagas M., P.J. Martín-Álvarez, B. Bartolomé, C. Gómez-Cordovés. "Statistical
interpretation of the color parameters of red wines in function of their phenolic composition
during aging in bottle". Eur. Food Res. Techn., 2006, 222: 702-709.
Statistical analysis: The statistical methods used for the data analysis were: two-way analysis of variance
(ANOVA) to test the influence of the two factors studied, “variety” and “aging time” (the interaction and
error terms were pooled); principal component analysis (PCA) from standardized variables to examine the
relationship between the 20 analyzed variables; and correlation and polynomial regression analysis to
describe the relationship between the color parameters and the phenolic components during aging in
bottle in the different wines…..
9
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Note. All the regression coefficients (a, b, c) presented are significantly different from zero (p<0.05); R2 = determination coefficient; s = residual standard deviation;
CV(%)=( s / y )100% residual standard deviation expressed as percetange of the mean value
Monagas M., P.J. Martín-Álvarez, C. Gómez-Cordovés, B. Bartolomé. "Time course of the colour of
young red wine from Vitis vinifera L. during aging in the bottle". International Journal of Food Science
and Technology, 2006, 41, 892-899.
Statistical analysis: The statistical methods used for the data analysis were: polynomial regression
analysis, to describe the evolution of the different colour parameters during wine ageing in bottle;
forward stepwise multiple regression analysis, to predict the CIELAB variables using the colorimetric
indices …
2.2 ANALISIS DE REGRESION LINEAL SIMPLE
En el caso de regresión lineal simple, se acepta que las dos variables X e Y están
relacionadas mediante el modelo teórico: yi
0
1 xi
i . Para este modelo
matemático, se aceptan las siguientes hipótesis: la variable dependiente Y, es una
v.a., sujeta a error, la variable independiente X toma valores fijos, y no es una v.a.,
o su error es despreciable frente al de la variable Y, y los errores i son
10
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
independientes y con distribución N(0, ) . El modelo teórico se estima, mediante el
2
procedimiento de mínimos cuadrados ( min ( yi
por el siguiente
0
1 xi ) ),
modelo: yˆ i b0 b1 xi , donde yˆ i es el valor esperado de Y (valor calculado o
predicho por el modelo), para un determinado valor xi de la variable X. Los
coeficientes de regresión
se calculan mediante las expresiones:
n
b1
n
( Xi
X )(Yi Y ) /
i 1
( Xi
X )2
y b0 Y
b1 X .
i 1
La precisión del ajuste de los datos al modelo, se basa en la siguiente
descomposición de la suma de los cuadrados de las desviaciones de los valores de la
n
variable Y respecto su valor medio:
( yi
y)
i 1
n
2
( yˆ i
i 1
y)
n
2
yˆ i )
( yi
i 1
2
, que
supone dividir la variabilidad total, en una parte explicada por el modelo de regresión, y
otra que aceptamos se debe al error ( SS(Y )tot SS(Y ) reg SS(Y ) res ), y que se presenta
en forma de la siguiente tabla, conocida como tabla ANOVA de la regresión:
Fuente de
Variación
Suma de
cuadrados
Grados
de
libertad
Cuadrado
Medio
Valor
de la Fcal
Mod.
Regresión
Residuo
Total
SS(Y ) reg
SS (Y ) res
SS (Y ) tot
1
MSSreg
MSS res
MSS reg / MSS res
El estadístico Fcal
n 2
n 1
Valor de
P
prob( F1,n
2
Fcal )
MSSreg / MSSres sigue una F-Snedecor con 1 y n-2 g.l., y puede
utilizarse para el contraste: H o
1
0; H1
1
0 (test de linealidad).
Fijado
,
aceptar la hipótesis nula (P > ), es aceptar un modelo constante para Y
( Yi
se rechaza la hipótesis nula. Este contraste es equivalente al
0
i ). Si P <
que veremos más tarde, basado en la t-Student con n-2 g.l..
Medidas de la precisión son:
el coeficiente de determinación:
2
R
SS (Y ) reg / SS (Y ) tot , que informa de la proporción de la variabilidad explicada por el
MSS res
SS (Y ) res /( n 2) , que
modelo, y la desviación estándar residual: s
informa sobre el error medio cometido por el ajuste. En el caso de disponer de
repeticiones es posible comprobar si el modelo tiene falta de ajuste, y si es así, habría
2
que probar otro modelo, por ejemplo el polinómico ( yi
0
1 xi
2 xi
i ).
El estudio de los residuos permite comprobar si se cumplen las hipótesis establecidas
para los errores: siguen distribución Normal, son homogéneos e independientes (test
Durbin-Watson).
Si el modelo se acepta como válido, se pueden calcular los siguientes intervalos de
confianza al 100(1 - )%: intervalo de confianza para 0, intervalo de confianza
para 1, y intervalo de confianza para el valor medio esperado E(Y| X=X0) que
permite definir las bandas de confianza para la línea teórica de regresión, al variar
X0, utilizando el valor t1 / 2,n 2 de la t-Student con n-2 g.l.
Fijado el valor de , también se pueden contrastar las siguientes hipótesis:
Ho
1
0
mediante el estadístico: tcal
b1
s
i
(Xi
X)
2
que sigue una t-
Student con n-2 g.l..
11
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Ho
o
0 mediante el estadístico:
tcal
b0
s
n (Xi
i
X)
2
, que sigue una t-Student
X i2
con n-2 g.l..
Fijado , si la probabilidad asociada (P) es <
se acepta que el parámetro es
distinto de cero ( i 0 ).
Como aplicación de esta técnica: calibrado lineal de un método analítico, regresión
lineal entre descriptotes sensoriales y compuestos químicos.
Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content of red spanish
wines: Comparison of a direct ELISA and an HPLC method for the determination of histamine in wines".
Food Res. Int., 2005, 38, 387-394
Statistical methods: The statistical methods used for analysis were as follows: regression analysis for the
calibration curves; ...
Results: Linear regression analysis of area versus concentration of biogenic amines in the standard solution,
using two replicates at five points in the range indicated in Table 2, was used. Regression parameters and
statistical properties can be found in Table 2. In order to judge the adequacy of the linear models, the F-ratio
for lack of fit was calculated (Massart, Vandeginste, Deming, Michotte, & Kaufman, 1988), and when
significant results were obtained, a second-degree polynomial regression was used. As can be seen in Table 2,
the regression lines obtained for all the amines were linear equations that passed through the origin, except for
putrescine, which corresponded to a second-degree polynomial equation. The values of the coefficient of
determination (R2 in Table 2) were higher than 0.99 and indicated that the fits were acceptable, with a
standard deviation of residuals, expressed as a percentage of the mean value of the response, ( s / y ) 12%
for the amines quantified. Table 2 also shows the mean values of the recovery results. Recovery has been
estimated as (the amount found in the spiked sample - the amount found in the sample)*100/the amount
added (Massart et al., 1988). The mean values correspond to the individual values obtained from the recovery
experiments and also to the values obtained for two more different wine samples. The mean values of
recovery obtained range from 88% for tyramine to 118% for methylamine.
Detection limits were estimated from the area corresponding to three times the system noise (IUPAC, 1978),
which was calculated as the mean of the area of the noise of seven injections of a 10% ethanol solution. The
values obtained (Table 1) range from 0.006 mg/l for ethylamine to 0.057 mg/l for putrescine.
Quirós, A., M. Ramos, B. Muguerza, M. A. Delgado, P.J. Martín-Álvarez, A. Aleixandre, and I. Recio.
"Determination of the Antihypertensive Peptide LHLPLP in Fermented Milk by High-Performance Liquid
Chromatography–Ion Trap Tandem Mass Spectrometry". Journal of Dairy Science, 2006, 89, 4527-35,
Statistical Methods: Linear and polynomial regression for the calibration curves and nonlinear
regression for studying the evolution of the concentration with the time of fermentation were calculated
with ……………
12
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
3. TRATAMIENTO ESTADÍSTICO DE DATOS MULTIVARIANTES.
El Análisis Multivariante puede definirse como el conjunto de métodos estadísticos
y matemáticos para analizar, describir e interpretar observaciones
multidimensionales. Como objetivos a conseguir mediante la utilización de estos
métodos se pueden citar los siguientes:
1) Reducción de los datos, es decir simplificar la dimensionalidad de los datos sin
perder información valiosa,
2) Buscar agrupamiento de las observaciones o de las variables basada en
alguna medida de semejanza o similitud,
3) Definir reglas de decisión que permitan asignar un individuo con ciertas
características a un grupo determinado,
4) Estudiar medidas de dependencia entre conjuntos de variables,
5) Predecir los valores de las variables a partir de la información aportada por otras,
mediante un modelo matemático,
6) Construir y contrastar hipótesis sobre algunos parámetros poblacionales.
Estos métodos pueden ser aplicados en cualquier campo de la Ciencia, y su utilización
tuvo un gran crecimiento durante la década de los ochenta como consecuencia: del
crecimiento de la utilización de las técnicas analíticas, de la aparición de los
microprocesadores, y de la implementación en programas informáticos. Como
limitación habría que indicar la necesidad de disponer de los programas de ordenador
que generalmente tienen un coste elevado. Como herramientas de trabajo estos
métodos utilizan: la Geometría algebraica, el Cálculo matricial, y el Cálculo
numérico.
3.1 MATRIZ DE DATOS
Para la aplicación de estos métodos multivariantes necesitamos, como substrato, una
tabla de datos donde se recoge la información correspondiente a n muestras, u
observaciones, sobre las cuales se han analizado p variables o características, es
decir disponemos de datos correspondientes a p variables (X1, X2,...,Xp) analizadas en
n muestras procedentes de una cierta población multivariante W.
Entre las variables recogidas en la tabla de datos se pueden distinguir dos tipos: las
variables cuantitativas que asignan un único valor a cada observación mediante una
escala de intervalo o de razón (pueden ser discretas o continuas), y las variables
cualitativas o nominales que permiten clasificar las observaciones en grupos
mediante una escala nominal. Dentro de las últimas están las variables binarias (o
dicotómicas), que solo pueden tomar dos valores. Las variables cualitativas se suelen
codificar numéricamente para su tratamiento posterior. Según esta clasificación
nuestra tabla de datos estará formada por ambos tipos de variables: cuantitativas y
cualitativas codificadas numéricamente.
13
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Con nuestra tabla de datos, o matriz de datos, podemos pensar en dos posibles
modelos geométricos:
a) las n observaciones como n puntos en el Espacio Euclídeo p-dimensional de
las p variables. Podríamos definir la matriz de distancias D(n,n) entre las n
observaciones, y pensar en elipsoides de concentración de las mismas en el
espacio, y
b) las p variables como vectores del espacio Euclídeo n-dimensional de las n
observaciones. Podríamos pensar en la matriz de correlación entre las variables a
partir de los cosenos entre los correspondientes vectores. De la proyección de un
vector en otro, se obtendría la idea de regresión de una variable en otra.
Con vistas a buscar agrupamiento entre las observaciones se definen medidas de
semejanza (similitud) y de desemejanza (distancia), relacionadas con la proximidad o
lejanía de las mismas. En el caso de variables cuantitativas se pueden definir


diversas distancias entre dos observaciones xi' ( xi ,1 ,..., xi , p ) y x 'j ( x j ,1 ,..., x j , p ) : la
distancia
di , j
k
Euclídea:
| xi ,k
di , j
k
( xi ,k
x j ,k ) 2 ,
la
distancia
ciudad
o
Manhattan:
x j ,k | , la de Chebychev: di , j max | xi ,k x j ,k | ,..., etc, siendo la distancia
Euclídea la más utilizada. Para variable cualitativas se utiliza como medida de
distancia
el
porcentaje
de
desacuerdo
entre
los
posibles
valores:
di , j
( N º de xi ,k
x j ,k ) / p
3.2 REPRESENTACION GRAFICA DE LOS DATOS
Con vistas a detectar posibles patrones en la tabla de datos se recurre a la
representación gráfica de las observaciones y de las variables mediante objetos
geométricos (puntos, líneas, polígonos, cuerpos, etc.). La semejanza entre los objetos
permitirá encontrar los patrones buscados. La mayor limitación estará en que la
representación será bidimensional, sobre una hoja de papel o pantalla del ordenador, y
por tanto solo aproximada a la realidad. Los métodos de representación bidimensional
más utilizados por los métodos multivariantes son:
metanol
marca
absorban
isoamili
metpro12
propanol
acetetil
1
2
3
4
5
metanol
acetetil
propanol
metpro12
isoamili
Métodos directos: En el caso
de p variables los se pueden
utilizar los diagramas de
dispersión matricial, y los
iconos
a
base
de
histogramas, de perfiles o de
estrellas, o de tela araña.
absorban
Métodos de aproximación mediante proyección:
En este apartado se incluyen las representaciones
gráficas más utilizadas en el tratamiento de datos
multivariantes. Se trata, en general, de definir
nuevas variables (componentes principales,
factores, variables canónicas,... ), cumpliendo
algún objetivo, y proyectar las muestras sobre
estas nuevas variables. La utilización de solo unas
pocas variables, permite una visión general de los
datos. Así en el caso de componentes principales (o factores) se trata de buscar una
nueva variable Y que recoja la máxima variación de la nube de puntos, y en el caso
de variables canónicas se trataría de buscar una nueva variable Y para lograr máxima
separación entre los valores medios de los grupos, en la proyección.
Métodos de aproximación mediante optimización: Consiste en buscar nuevas
variables (generalmente dos), con el objetivo de conservar, al máximo, las distancias
14
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
entre las observaciones. Esta técnica, conocida como representación mediante
mapas no lineales (“Non-Linear Mapping”), trata de minimizar la función:
ˆ
las distancias, entre cada dos muestras, en el
L
(di , j dˆi , j )2 , siendo d ij y d ij
i, j
espacio de las variables originales y en el espacio bidimensional de las nuevas
variables, respectivamente.
Representación gráfica de matrices cuadradas: La
mejor representación bidimensional de la matriz de
distancias entre muestras, o de la matriz de
correlaciones entre variables, es el dendrograma,
que informa de la similitud de la muestras o de la
variables, véase figura adjunta, y que es el resultado,
más importante, obtenido mediante la aplicación del
Análisis de Conglomerados.
3.3 CLASIFICACION DE LOS METODOS
A la hora de clasificar los métodos para el tratamiento de datos multivariantes se suele
hablar de métodos supervisados y no supervisados, según se utilice o no la
información de pertenencia de las observaciones a poblaciones o grupos definidos
previamente. Si tenemos en cuenta la procedencia de las observaciones y los grupos
de variables analizadas en las observaciones, podemos tener distintas matrices de
datos. Una clasificación de esta matrices de datos podría ser la siguiente:
a) Una única población y un solo grupo de variables Disponemos de una muestra
aleatoria de tamaño n, procedente de una única población W, de p variables, con
vector de medias

' ( 1 ,...,
p)
y matriz de covarianzas
11 ...
1p
... ... ...
p1 ...
pp
, que
representamos en la siguiente tabla de datos:
Variable
s
X1
X2
... Xp
x1,2
... x1,p
1 x1,1
x
x
... x2,p
Observ. 2
2,1
2,2
x3,2
... x3,p
3 x3,1
...
... ...
... ...
xn,2
... xn,p
n xn,1
Podemos
calcular
los
siguientes
valores
muestrales:
el vector de medias

x ' ( x1 , x 2 ,..., x p ) , y las matrices de covarianzas ( S = (sij) ), y de correlaciones ( R =
(rij)) ). Los tratamientos multivariantes para este tipo de matriz de datos, todos ellos
no supervisados, podrían ser:
- Análisis de Componentes Principales (PCA), y/o el Análisis Factorial (FA) con
vistas a reducir la dimensión de los datos y estudiar la interrelación entre variables y
entre observaciones, y
- Análisis de Conglomerados (CA) para buscar agrupamientos de la observaciones o
de las variables.
También, con vistas a la representación gráfica de las observaciones, es posible
utilizar la representación de mapas no lineales (''no linear mapping'') (LNM).
b) Varias poblaciones y un solo grupo de variables: En este caso se dispone de k
muestras, con tamaños ni, procedentes de k poblaciones multivariantes Wi en las

mismas p variables, con vectores de medias i y matrices de covarianzas i , que
representamos en la siguiente tabla de datos:
15
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Variables
X1
X2
x1,1,1 x1,2,1
x2,1,1 x2,2,1
... Xp
... x1,p,1
1
Observ 2
... x2,p,1
.
W1
... x3,p,1
3 x3,1,1 x3,2,1
...
... ...
... ...
... xn1,p,1
n1 xn1,1,1 xn1,2,1
--------------------------------------------------------------------------------------------------------------... x1,p,k
1 x1,1,k x1,2,k
... x2,p,k
Observ 2 x2,1,k x2,2,k
.
Wk
... x3,p,k
3 x3,1,k x3,2,k
...
... ...
... ...
... xnk,p,k
nk xnk,1,k xnk,2,k
Se pueden calcular los siguientes valores muestrales: los k vectores de medias
'
xi ( xi1 , xi 2 ,..., xip ) , las k matrices de covarianzas ( Sj ) y las k matrices de
correlaciones ( Rj ). Los métodos de tratamiento a utilizar para este tipo de matriz de
datos, todos ellos supervisados, es decir, utilizan la información de la pertenencia de
las muestras a los grupos de partida, podrían ser:
- Métodos de Clasificación Supervisada:
 Análisis Lineal Discriminante (DLA) ó Cuadrático (DQA), que son métodos
paramétricos que
aceptan distribuciones normales de las poblaciones y matrices
de covarianza iguales (DLA) o no (DQA))
 Método SIMCA, que utiliza el modelo factorial de componentes principales en
cada grupos.
 Método de los k vecinos más próximos (kNN), que es un método no
paramétrico.
Todos estos métodos permiten obtener reglas de clasificación para asignar nuevas
muestras a las poblaciones o grupos de partida,
 Análisis Canónico de variables (CVA), con vistas a obtener una
representación gráfica de las muestras, maximizando las diferencias entre los k
grupos, y
 Análisis Multivariante de la Varianza (MANOVA), para comprobar diferencias
entre los grupos.
A la matriz global de datos formada por las n = ni observaciones, también podemos
aplicarle los anteriores métodos no supervisados (PCA, FA y CA), siempre que no
utilicemos la información sobre la procedencia de las observaciones.
c) Una población y dos grupos de variables: Disponemos en este caso de una
muestra de tamaño n procedente de una población multivariante W de p+q variables,

con vector de medias , matriz de covarianzas
, que recoge la información de un
total de
p+q
variables analizadas en las mismas n observaciones, y que
representamos en la siguiente tabla de datos:
Observ.
16
1
2
Variables
X1
X2
x1,1
x1,2
x2,1
x2,2
...
...
...
Xp
x1,p
x2,p
Variables
Y1
Y2
y1,1
y1,2
y2,1
y2,2
.. Yq
. y1,q
..
. y2,q
..
.
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
x3,1
x3,2
... x3,p y3,1
y3,2
.. y3,q
3
. ...
...
... ...
...
...
..
... ...
. yn,q
xn,2
... xn,p yn,1
yn,2
..
n xn,1
Las variables Y's podrían ser características sensoriales de las. muestras, mientras
que las X's serían las características químicas de las mismas. El objetivo fundamental
sería estudiar la relación de dependencia entre ambos grupos de variables. Para cada
grupo de variables podemos calcular los correspondientes vectores de medias
( x1 ,..., x p ) y ( y1 ,..., y q ) , las matrices de covarianzas (Sx y Sy) y de correlaciones (Rx y
Ry), pero también las matrices de covarianza y correlaciones entre los dos grupos de
variables (Sxy y Rxy). La matriz completa de covarianzas sería:
correlaciones
R
Rx
Rxy
R yx
Ry
S
Sx
S xy
S yx
Sy
, y la de
. Los métodos de tratamiento a utilizar para este tipo de
matriz de datos, que se incluyen dentro de los métodos para el estudio de
dependencia entre los dos conjuntos de variables, podrían ser:
 Análisis de Correlación Canónica (ACC) para buscar dependencias entre
ambos grupos de variables
 Análisis de Regresión Multivariada que incluye: Regresión Lineal Múltiple
(MLR), Regresión por pasos sucesivos (SMLR), Regresión en Componentes
Principales (PCR), y la Regresión por mínimos cuadrados parciales (PLS), con
vistas a explicar las variables respuestas (variable Y's del segundo grupo) en
función de las variables predictoras (variable X's del primer grupo) mediante un
modelo matemático que permita predecir los valores de las variables respuesta.
A la matriz global de datos formada por las n observaciones podemos aplicarle
también los anteriores métodos no supervisados (PCA, FA y CA).
3.4 TRATAMIENTO PREVIO DE LOS DATOS.
Con vistas a detectar datos anómalos en las matrices de datos anteriores, y antes de
aplicar alguna de las distintas técnicas mencionadas, conviene obtener la información
descriptiva de todas las variables (valores: x , s, s / x , xmin , xmax ), y los valores mínimo y
máximo de los correspondientes datos estandarizados. Una simple inspección de
estos dos últimos valores permitiría detectar posibles datos anómalos. También, para
la detección de este tipo de datos, puede utilizarse el rango de valores admisibles:
Q1 1.5 (Q3 Q1) x Q1 1.5 (Q3 Q1) . La estandarización de las variables, para lograr
x
0 y s2
1 , suele ser utilizada antes de la aplicación de alguno de los métodos
multivariantes.
4. TRATAM. DE DATOS MULTIVARIANTES. METODOS NO SUPERVISADOS
4.1 ANALISIS DE COMPONENTES PRINCIPALES
El principal objetivo de esta técnica del Tratamiento de Datos Multivariantes, es
reducir la dimensionalidad de los datos sin perder información valiosa, a partir de
la interrelación de las variables analizadas. Se basa en transformar las variables
originales en otras nuevas, que llamaremos componentes principales, cumpliendo:
1) cada nueva variable es combinación lineal, normalizada, de las originales, es
2
1
decir: Yi a1,i X i a2,i X 2 ... a p,i X p ;
k ak ,i
2) las covarianzas entre cada par de estas nueva variables es cero
( cov(Yi , Y j ) 0
i j)
3) las nuevas variables tienen
( var(Y1 ) var(Y2 ) ... var(Y p ) )
varianzas
progresivamente
decrecientes
17
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
4) la suma de las varianzas de las p nuevas variables coincide con la varianza
total (VT) de las variables originales, es decir:
p
i 1
var(Yi )
p
i 1
var( X i )
VT
Se trata, por tanto, de una transformación que podemos representar en forma matricial
de la manera siguiente: Y( n, p ) X ( n, p ) A( p, p ) . Como resultado de la aplicación de esta
técnica tendremos dos nuevas matrices que recogen toda la información para un
posterior estudio: la matriz Y ( yi , j ) , de orden (n,p), con las coordenadas de las
observaciones en las nuevas variables, y la matriz A
(ai , j ) , de tamaño (p,p), que
tiene en cuenta la interrelación entre las variables originales así como su
contribución en la definición de las nuevas variables. Desde un punto de vista
geométrico, se trata de una rotación de los ejes de coordenadas, una vez centradas
las variables.
Determinación de los coeficientes a i,j. Los coeficientes se determinan mediante el
cálculo de los valores y vectores propios de la matriz de correlaciones R si las
variables están estandarizadas (La mayoría de los programas proceden a estandarizar

previamente las variables). En general, a j será el vector propio asociado con el jésimo mayor valor propio
j
y además se cumple que Var(Y j )
j
. La matriz A
tendrá como columnas los vectores propios asociados con los correspondientes
valores propios, ordenados de manera decreciente por su valor, y tiene la siguiente
propiedad: A 1 At , es decir es una matriz ortogonal. Esta propiedad permite
establecer la ecuación matricial: X ( n , p ) Y( n , p ) A(t p , p ) que será muy útil, como veremos
más adelante.
Reducción de la dimensionalidad. Teniendo en cuenta que los valores de las
varianzas son progresivamente decrecientes ( Var(Y j ) j ) y su suma es VT
( Var( j ) VT ), podemos considerar:
Y1 explica un 100( 1 /VT)% del total de la varianza de la matriz original de datos,
Y1 + Y2 explican conjuntamente, un 100(( 1 + 2 )/VT)% del total de la varianza
de la matriz original de datos, y en general,
Y1 + Y2 +...+ Yq explican conjuntamente, un 100(( 1 + 2 +...+ q )/VT)% del total
de la
varianza de la matriz original de
Varianza total explicada
datos.
En muchas de las aplicaciones, con estas q (q<<p)
Autovalores iniciales
primeras componentes principales podemos
% de la
Componente
Total
varianza
% acumulado
explicar un elevado porcentaje de la varianza total,
1
6,682
55,679
55,679
lo que equivale a considerar que hemos logrado
2
3,092
25,771
81,450
3
1,556
12,963
94,412
una reducción de la dimensión original de los
datos, sin perder más que una parte pequeña que
aceptaremos no es muy valiosa. Este nº q de componentes suele corresponder con
el número de valores propios >1.
Matricialmente tendremos: Y( n ,q )
X ( n , p ) A( p ,q ) donde estas q nuevas variables, están
incorrelacionadas, y explican un elevado porcentaje de VT.
Interpretación de las componentes principales. A partir
de la observación de la matriz de coeficientes (A(p,q)),
podemos descubrir agrupamientos de las variables
originales, según su contribución para definir las q nuevas
variables. La matriz de coeficientes A se puede transformar
18
Matriz de componentesa
hexol
m1but2
metanol
propanol
benol
m1but3
etxol
fenol2
terpin
cisol
linol
isol
1
,960
,952
,934
,928
,910
,902
,803
-,376
,547
,606
Componente
2
3
-,337
-,269
-,280
,399
-,502
,929
,855
,810
,760
,949
Método de extracción: Análisis de compon. princ.
a. 3 componentes extraídos
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
para lograr que sus coeficientes (los “loadings”) sean las correlaciones entre las
componentes principales y las variables originales. A partir de esta matriz resulta mas
fácil ver las variables que definen las componentes principales, y conocer el
agrupamiento de las mismas, utilizando el porcentaje explicado con las primeras q
primeras componentes.
2,00
VC
VC
1,00
PC2
Representación de las muestras. A partir de la
matriz Y, con las puntuaciones (coordenadas) de
las muestras (observaciones) en las componentes
principales, se puede obtener la representación
bidimensional de las muestras en el plano definido
por las dos primeras componentes principales. Esta
representación de las muestras en función de las dos
primeras componentes principales podría utilizarse
para: explorar o confirmar posibles agrupamiento
de las muestras, y para detectar posibles muestras
anómalas (''outliers'').
V+H+SO2
0,00
V+H
V+H+SO2
V+SO2
V+H
V+SO2
-1,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
PC1
4.2 ANALISIS FACTORIAL
El objetivo de este método no supervisado, debido a Pearson, es describir la
interdependencia entre las variables analizadas a partir de otras, no observadas,
llamadas factores. Se acepta que existen k variables (factores) Fi, no observadas,
que son responsables de las variables originales Xi. El planteamiento para el modelo
factorial ortogonal supone que cada variable original es combinación lineal de los
Xi
b1i F1 b2i F2 ... bqi Fq
factores no analizados, es decir:
donde {F1,
i
i,
F2,...,Fq} son los factores comunes, { 1 , 2 ,..., p} los específicos de cada una de las
p variables, y bij representa las saturaciones (contribuciones o “loadings” de los
factores). En el modelo se acepta que E ( Fi ) 0, E ( i ) 0 i , Cov ( Fi ) I , Cov ( i ) I ,
{F1, F2,...,Fq} y { 1 , 2 ,..., p} independientes. Se trata, por tanto, de una
transformación de los datos, que en forma matricial, se puede expresar de la siguiente
manera: X (*n , p ) F( n ,q ) B( q , p ) E( n , p ) , siendo X (*n , p ) la matriz de datos estandarizada.
Desde un punto de vista geométrico se trata de buscar un subespacio, sobre el que se

proyectan los n vectores fila x ' (puntos), correspondientes a las n observaciones de la

matriz X, para hacer mínima la suma de los módulos de los vectores ' (filas de la
matriz E). Una solución para este modelo factorial sería considerar como factores las
componentes principales obtenidas a partir de la matriz de correlaciones (para estar
estandarizadas), es decir, Fi = Yi , que se conoce como modelo factorial de
componentes principales. La solución en q componentes principales, cumple todos
t
F( n,q ) Y( n,q ) , B( q , p ) A( q , p ) y
los anteriores requisitos: basta con considerar:
*
X ( n, p )
t
Y( n ,q ) A( q , p )
E( n , p ) , que es el modelo factorial en componentes principales.
Esto es posible gracias a que la matriz A es una matriz ortogonal. Los resultados con
este modelo serían, por tanto, las matrices Y con las coordenadas de las muestras y
la matriz A con las contribuciones, o saturaciones, de las variables.
La interpretación de los factores se realiza, como antes, a partir de la observación
de la matriz B con las saturaciones (o "loadings"). Para una mejor definición de la
contribución de los factores en las variables, es posible realizar una rotación de los q
factores extraídos.
La representación de las muestras (observaciones), como puntos en el plano
definido por los dos primeros factores (rotados o no) informa de los posibles
agrupamiento de las muestras y de la presencia o no de muestras anómalas
(“outliers”).
19
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
4.3 ANALISIS DE CONGLOMERADOS
Es un método no supervisado que tiene como objetivo buscar agrupamientos
naturales entre las n observaciones (individuos) o entre las p variables de la tabla
de datos. En el caso de agrupamiento de las observaciones, cada una de ellas es
considerada como un punto en el espacio p-dimensional, con coordenadas dadas por
los p valores de las variables. Existen dos técnicas de agrupamiento: las jerárquicas
que ponen de manifiesto la similitud de las observaciones (o variables) entre sí, y que
pueden ser divisivas (se parte inicialmente de un solo grupo con todas las
observaciones), o aglomerativas (se parte inicialmente de tantos grupos como
observaciones), y las no jerárquicas que sólo informan de la pertenencia de las
observaciones a cada uno de los grupos.
Para la aplicación de esta técnica son necesario las siguientes consideraciones: a)
seleccionar una medida de semejanza entre los individuos (observaciones) o entre
las variables, según el tipo de datos, b) seleccionar el algoritmo para unir los
conglomerados, c) fijar el nº de conglomerados, que se desean formar, en el caso
de los métodos no jerárquicos para el agrupamiento de las observaciones, y d)
estandarización de las variables si son de distinta naturaleza.
 Métodos no jerárquicos. Fijado el número k de conglomerados ( C i ) que
queremos formar, estos métodos permiten obtener una partición de orden k del
conjunto de los n individuos ( W = {1,2,3,...,n} ), es decir:
W
C1
Ci
C2
Cj
...
Ck
i
j
.
Cada conglomerado C i estará formado por ni individuos, y tendrá un centroide
cuyas coordenadas serán los valores medios de las p variables en los ni individuos,
es decir: ci ( x1 , x2 ,..., x p ) . Para cada conglomerado podemos definir su dispersión
que viene dada como la suma de las distancias al cuadrado de los ni puntos al
d 2 ( j , ci ) . De esta forma es posible definir, para una
centroide, es decir: Ei
determinada partición (C1, C2, ..., Ck), la dispersión total, definida por:
DT (C1 , C2 ,...,Ck )
k
i 1
Ei . El objetivo de estas técnicas será buscar la partición de
W, de orden k, que minimice esta dispersión total. Uno de los algoritmos más
utilizado es el de las k-medias de McQueen, que consiste en: 1) asignar
aleatoriamente los n individuos a los k grupos, 2) calcular los centroides de
cada grupo, 3) asignar cada individuo al grupo con centroide más próximo, y
4) repetir los pasos 2) y 3) hasta lograr estabilidad. Aunque está garantizada
lograr la estabilidad en un número finito de pasos, este puede disminuirse si se
modifica el paso 3) recalculando los centroides después de cada asignación de
los individuos. Como resultado de la aplicación de esta técnica, los programas
de ordenador suelen proporcionar, además de la descripción de los k
conglomerados, los valores medios de las variables en cada uno de los k
conglomerados, y la comparación de dichos valores medios (ANOVA).
 Métodos jerárquicos aglomerativos. La utilización de estos métodos, válidos
tanto para agrupar observaciones como variables, permite conocer la interrelación
entre los individuos (o variables) mediante una representación gráfica bidimensional
llamada dendrograma. Los algoritmos para aplicar estos métodos, en el caso de
agrupamiento de observaciones, tienen en común los siguientes pasos: 1) se parte
de tantos conglomerados como individuos (C1={1}, C2={2}, ...,Cn={n}), y se
calcula la matriz de distancias, normalmente la Euclídea, entre ellos: D = (
d(Ci , Cj) ) = ( dij ) , 2) se buscan los dos conglomerados (Cp y Cq) con menor
distancia ( d(Cp , Cq ) = min d(Ci , Cj ) ), 3) se unen los conglomerados Cp y Cq
para formar un nuevo grupo y se calcula la nueva matriz de distancias entre
los grupos (D = ( d(Ci , Cj)) ), y 4) se repiten los pasos 2) y 3) hasta lograr un
único conglomerado formado por todos los n individuos.
En general, la
20
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).





matriz de distancias del primer paso, suele ser la distancia Euclídea. Las diversas
formas de definir la distancia entre dos conglomerados en el paso 3), dan lugar a
los distintos métodos de unión:
método del enlace sencillo ( d(Ci , Cj) = mín d(wi,wj) ; wi Ci, wj Cj )
método del enlace completo ( d(Ci , Cj) = máx d(wi,wj) ; wi Ci, wj Cj )
método del centroide ( d(Ci , Cj) = distancia entre los 2 centroides )
método del enlace en media ( d(Ci , Cj) = media { d(wi,wj) ; wi Ci, wj Cj } )
método de Ward que tiene en cuenta, dentro de cada grupo, la dispersión de las
x j ) 2 ). La unión de los
muestras, con respecto al centroide ( E p
j i ( xi , j
conglomerados Cp y Cq, del paso 3), se realiza si E ( p,q )
Ep
E q es mínima. Este
método de unión es muy utilizado.
Antes de la aplicación de estos métodos jerárquicos la matriz de datos suele ser
estandarizada para dar igual importancia a todas las variables. La secuencia de los
pasos del algoritmo, se recoge, de forma gráfica, en el dendrograma, que permite
observar los grupos obtenidos.
En el caso de agrupamiento de las variables, el algoritmo es similar, utilizando
como medida de distancia entre variables el valor 1 - el coeficiente de
correlación.
Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic
compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal.
Chim. Acta, 2006, 563 (1-2), 116-125.
Statistical analysis: The statistical methods used for data analysis were: cluster analysis (Ward’s
method from standardized variables), to discover natural groupings of the wine samples in
relation to the two study factors (technological procedure and ageing time); ….
Results: In an attempt to obtain a preliminary view of the main causes for the change in phenolic
compounds during wine ageing, cluster analysis was carried out on the data of the quantified
compounds of the 47 wines studied. Fig. 2 shows the dendrograma obtained. The squared
Euclidean distance was taken as a measure of the proximity between two samples and Ward’s
method was used as the linkage rule. The variables were standardized previously. As can be
observed in this figure, there are two large groups of wines, one corresponding to wines aged for
14 months and the other to the remaining wines. In this second group, the wines are also grouped,
to some extent, according to the time of ageing. As can be observed in Fig. 2, there was no
grouping according to the technological procedure used to manufacture the wines.
21
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
5. TRATAM. DE DATOS MULTIVARIANTES. METODOS SUPERVISADOS
La matriz de datos para la aplicación de estos métodos está formada por k matrices
con ni filas y p columnas, que corresponden a k muestras aleatorias, de tamaño ni,
procedentes de k poblaciones Wi, en las mismas p variables Xi, con vectores de

medias i y matrices de covarianzas i .
5.1 ANALISIS CANONICO DE VARIABLES (CVA)
Esta técnica multivariante, tiene como objetivo, obtener la mejor representación gráfica
q-dimensional, de las muestras, maximizando las diferencias entre los k grupos
estudiados, a partir de la información proporcionada por las p variables Xi analizadas
(q = min (p,k-1)). Para lograr este objetivo se obtienen q nuevas variables Yi,
llamadas
variables
canónicas,
que
son
combinación lineal de las originales, están
incorrelacionadas entre sí, y maximizan las
marca
diferencias entre los k grupos estudiados. Se
trata, por tanto, de transformar la matriz X con n =
ni filas y p columnas, en una mueva matriz con n
filas y q columnas ( q = mín (p,k-1) ), mediante la
transformación matricial Y(n,q) = X(n,p) A(p,q). La
representación de las n observaciones en el plano
definido por las dos primeras variables canónicas, es
el resultado principal de la aplicación de esta técnica
Función 1
multivariante. La distancia euclidea de las muestras
a los centroides de cada grupo podría utilizarse como una regla de asignación de las
muestras.
funciones discriminantes canónicas
6
3
1
2
1
2
Función 2
3
3
4
Centroide
0
-3
-6
4
-9
-15
-10
-5
0
5
10
15
5.2 METODOS DE CLASIFICACION SUPERVISADA
Dos son los objetivos fundamentales de estos métodos: a) encontrar reglas de
clasificación para lograr una diferenciación de los grupos, y b) utilizar dichas
reglas para asignar nuevas observaciones a alguno de los grupos estudiados.
Para ello se parte de la información proporcionada por p variables analizadas en las
muestras (observaciones) genuinas de los diferentes grupos. La matriz de datos de
partida, estará formada por las k matrices, con las muestras de entrenamiento,
indicada anteriormente. También se puede disponer de otra matriz de datos,
{x i ,1 , x i , 2 ,..., x i , p }i 1, 2,...,n , formada por nt muestras (grupo test), analizadas en las p
t
variables, a las que queremos aplicar las reglas de asignación obtenidas con el
conjunto de entrenamiento, para conocer su procedencia (podrían ser botellas de
whisky de la marca A, abiertas, y sometidas a inspección, para verificar su
autenticidad).
5.2.1 Análisis Discriminante
Dentro de los métodos de clasificación supervisada, destaca, por su amplia utilización
el Análisis Discriminante. Este método paramétrico, acepta que el vector de
variables aleatorias (X1, X2,..., Xp) sigue una distribución normal multivariante en

cada uno de los k grupos ( N ( i , i ) ), y minimiza la probabilidad de clasificación
errónea de las muestras del conjunto de entrenamiento (regla de tipo bayesiano). Si se

acepta que las matrices de covarianzas en los grupos son idénticas ( N ( i , ) ), el
Análisis Lineal Discriminante (ALD) calcula k funciones lineales de clasificación,
22
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
una para cada grupo, d i
ci
j p
j 1
, que
aij X j
i 1,...,k
Coeficientes de la función de clasificación
permitirán clasificar las muestras del conjunto de
entrenamiento con un elevado porcentaje de
clasificación correcta, si las p variables tienen un
elevado poder discriminante. La regla de asignación


para la muestra w' ( x1 , x2 ,..., x p ) , será: w W si

d i ( w)

max d j ( w)
marca
1
2
3
16,983
,055
5,583
2,895
-,271
2,116
1,511
-5,266
-4,767
,964
2,516
,874
4,069
7,384
6,675
1551,406
2559,752
2321,896
-641,801
-904,519
-776,472
Funciones discriminantes lineales de Fisher
metanol
acetetil
propanol
metpro12
isoamili
absorban
(Constante)
i
para j
4
1,004
1,364
-1,978
1,645
4,908
1557,173
-429,555
Resultados de la clasificación
1,..., k . Las
marca
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
Grupo de pertenencia pronosticado
2
3
4
18
0
0
0
0
12
0
0
0
0
15
0
0
0
0
8
100,0
,0
,0
,0
,0
100,0
,0
,0
,0
,0
100,0
,0
,0
,0
,0
100,0
18
0
0
0
0
12
0
0
0
0
15
0
0
0
0
8
100,0
,0
,0
,0
,0
100,0
,0
,0
,0
,0
100,0
,0
,0
,0
,0
100,0
1
Total
funciones de clasificación y la matriz de
clasificación de las muestras del conjunto de
entrenamiento, son los resultados más
importantes, incluidos en la mayoría de los
programas de ordenador, que tienen implementada esta técnica multivariante. El
Análisis Lineal Discriminante por pasos sucesivos permite seleccionar, en cada
paso, la variable Xi que más ayuda en la discriminación de los k grupos de muestras,
definiendo las funciones lineales de clasificación con las variables seleccionadas
(subconjunto de las p originales).
Original
Recuento
%
Validación cruzada
Recuento
%
18
12
15
8
100,0
100,0
100,0
100,0
18
12
15
8
100,0
100,0
100,0
100,0

Si las matrices de covarianzas son desiguales ( N ( i , i ) ), el Análisis Cuadrático
Discriminante (AQD) permite obtener k funciones cuadráticas para la clasificación
de las muestras (Martín-Álvarez et al 1988, 1991, Herranz et al 1989, 1990).
5.2.2 Método SIMCA
El método SIMCA calcula el modelo factorial de
componentes principales en cada grupo, y
asigna las muestras a los grupos según su
acoplamiento a los modelos teniendo en
cuenta el valor del estadístico F para la
asignación. Para la representación gráfica utiliza
los gráficos de Cooman.
5.2.3 Método kNN
El método de los k vecinos más próximos (kNN),
es un método no paramétrico de clasificación que
asigna cada muestra al grupo más
representado entre los k vecinos más próximos
(según la matriz de distancias euclideas)
Grupo 1
Grupo 2
3
k=9; 5 del 1 y 4
del 2
se asigna al 1
1
2
Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic compounds
in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal. Chim. Acta, 2006,
563 (1-2), 116-125.
Statistical analysis: The statistical methods used for data analysis were: …; and stepwise discriminant
analysis to select the variables most useful in differentiating the groups. ….
Results: In order to select the phenolic compounds most useful to differentiate the samples of wines aged on
lees (batches A, B, C, D, E and F), stepwise discriminant analysis was applied. Values of 4.0 and 3.9 were
used for F statistics to enter and to remove variables, respectively. Five of the phenolic compounds quantified
(see Table 4) were selected: cis-resveratrol, cis-p-coumaric acid, vanillic acid, (+) catechin and trans-caffeic
acid. A 100% correct assignment of the wines was obtained either by the standard or the leave-one-out cross
23
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
validation procedures applied to these selected compounds. Fig. 3 shows the wines on the plane defined by
the first two canonical variables, obtained with the five selected phenolic compounds. The population
canonical ellipses for the five types of wines for a 95% confidence limit are also shown in the figure. Again
the wines are grouped by time of ageing but cannot be differentiated according to the technological variable
used in their manufacture. This suggests that during storage, …..
6. TRATAM. DE DATOS MULTIVARIANTES. METODOS DE DEPENDENCIA
Disponemos de una muestra aleatoria de tamaño n, procedente de una población
multivariante W en p+q variables (X1, X2,..., Xp, Y1, Y2, ..., Yq), con vector de medias

matriz de covarianzas . Es decir, se dispone de la información de un total de
p+q variables analizadas en las mismas n observaciones.
6.1 ANALISIS DE CORRELACION CANONICA (ACC)
El objetivo de esta técnica multivariante es buscar dependencias lineales entre
ambos bloques de variables (bloque X y bloque Y). Para ello se calculan m nuevas
variables (m = min(p,q)), llamadas canónicas, en cada bloque (F1, F2, ..., Fm, S1,
S2, ..., Sm), de manera que estén máximamente correlacionadas entre sí (corr(F1,S1)
corr(F2,S2) ... corr(Fm,Sm)). Se trata, por tanto, de obtener las matrices A y B, que
permitan las siguientes transformaciones matriciales: F = XA y S = Y B. Los
resultados de aplicar esta técnica serían las matrices F, S, A y B, y los valores de las
correlaciones canónicas (corr(Fi,Si)). La observación de las sucesivas columnas
de las matrices A y B permitirán descubrir las variables más correlacionadas con cada
variable canónica. También es posible obtener la representación gráfica de las
sucesivas columnas de las matrices F y S (p.e. el diagrama de dispersión de F1 frente
a S1). Este método no puede ser utilizado para la predicción de los valores del bloque
Y.
6.2 MODELOS DE REGRESION MULTIVARIANTE
Los elementos a considerar a la hora de aplicar estas técnicas de regresión, son:
Variable respuesta, o variable dependiente Y (cada una de las variables
del bloque Y), y
Variables predictoras X1, X2,..., Xp. ( o variables independientes).
La finalidad de estas técnicas es modelar la variable respuesta Y, mediante un
modelo matemático: Y f ( X1 , X 2 ,..., X p ) . Para ello se dispone de un conjunto de n
muestras, conjunto de aprendizaje o calibración:
{( xi1 , xi 2 ,..., xip , yi )}i
1,...,n ,
para
estimar los parámetros de la función f ( X 1 , X 2 ,..., X p ) . En algunos casos, se dispone
24
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
también,
de
un
{( x j1 , x j 2 ,..., x jp , y j )}j
conjunto
1,...,a
de
a
muestras,
grupo
evaluación:
para validar el modelo estimado. Una vez validado el
modelo estimado, mediante el grupo de evaluación, o por validación interna, puede
aplicarse para la predicción del valor de la variable Y en las t muestras del grupo
test:
{( x j1 , x j 2 ,..., x jp ,
)}j
1,...,t .
Los datos del conjunto de calibración pueden haber sido seleccionados mediante un
diseño fijo de experimentos, cuando el objetivo fundamental es estimar los
coeficientes de regresión del modelo con vista a una posible optimización de la
respuesta, o mediante un diseño aleatorio, cuando sólo estamos interesados en
utilizar el modelo para realizar predicciones
6.2.1 Regresión lineal múltiple
En el caso de regresión lineal múltiple se acepta que los valores de la variable
dependiente
Y,
obedecen
al
modelo
lineal
de
primer
orden
yi
0
1 xi1
2 xi 2 ...
p xip
i , que tiene en cuenta, tanto los valores de las p
variables independientes X1, X2,..., Xp, como el error aleatorio de la determinación
analítica y de la posible contribución de otras variables no controladas. Para este
modelo matemático, se aceptan las siguientes hipótesis: 1) la variable dependiente
Y, es una v.a., sujeta a error, 2) las p variables Xi no son variables aleatorias, o su
error es despreciable frente al de Y, y 3) los errores (o residuos) i son
independientes y con distribución N (0, ) (lo que implica que Y ~ N (
La estimación de los parámetros
0
i xi
, ))
del modelo teórico, puede realizarse mediante el


1
procedimiento de mínimos cuadrados ( b ( X ' X ) X ' y , siendo X la matriz con los
valores de las p variables en las n muestras del conjunto de calibración y con una
primera columna, añadida, de unos), dando lugar al siguiente modelo estimado:
yˆi b0 b1xi1 b2 xi 2 ... b p xip . Como medida de precisión del ajuste se utiliza el
i
coeficiente de determinación múltiple R 2 , que informa de la proporción de la suma
de cuadrados de las desviaciones de Y respecto de su valor medio, explicada por el
modelo ( R 2 SSreg / SStot siendo SStot SSreg SSerror ),
y la desviación estándar
residual s, que informa del tamaño del error cometido ( s
n
i 1
( yi yˆi )2 /( n p 1)
). En el
caso de disponer de repeticiones, varios valores de Y para los mismos valores de las
variables X1, ..., Xp, es posible comprobar si el modelo tiene falta de ajuste mediante
la descomposición recogida en la correspondiente tabla ANOVA para la regresión
SStot SSreg SSerror SSreg SS puroerr SS faltaaj .
Para validar el modelo es preciso confirmar las hipótesis establecidas sobre los errores
i (si son homogéneos, independientes y siguen distribución Normal). En caso de
aceptar su validez, se podría obtener un valor para estimar el comportamiento en
predicción del modelo al aplicarlo a muestras no utilizadas para estimarlo, que puede
medirse mediante el error medio en predicción (RMSEP) y que se calcula a partir de
los n datos del conjunto de calibración mediante el procedimiento de validación interna
o "leave one out"
( RMSEP
n
i 1
( yi
yˆ ( i ) ) 2 / n siendo
yˆ(i ) el valor predicho para la
variable Y en la i-ésima observación al utilizar las n -1 restantes en la estimación del
modelo).
25
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Si el modelo es válido, es posible calcular intervalos de confianza para los parámetros
Como resultados más
i , así como realizar test de hipótesis sobre los mismos.
importantes que se pueden obtener mediante la aplicación de esta técnica, podemos
citar los siguientes:
los valores de los coeficientes de regresión (bi), las desviaciones estándar de los
mismos, los valores del estadístico t-Student para confirmar la hipótesis
H0
0 , las probabilidades asociadas a este contraste, y a veces, los intervalos
i
de confianza para los parámetros,
los valores del coeficiente de determinación R 2 , del coeficiente de correlación
múltiple R y de la desviación estándar residual (s) que informan de la precisión,
la descomposición de la variabilidad de los valores de la variable Y (tabla ANOVA),
y
la tabla con los valores observados, calculados con el modelo, y los residuos de la
variable Y.
Como resultado gráfico del ajuste suele utilizarse la representación gráfica de los
valores calculados ( yˆ i ) frente a los observados ( y i ) .
Si existe multicolinealidad entre las variables Xi, la matriz de inflación (X'X) será
casi singular, y su inversión afectará en las estimaciones e intervalos de confianza
para los parámetros, y en las predicciones. En este caso se pueden utilizar otros
procedimientos: el método de pasos sucesivos para selección de algunas de las p
variables, la regresión sesgada, la regresión en componentes principales o la
regresión por mínimos cuadrados parciales.
6.2.2 Diseño de Experimentos
El Diseño de Experimentos trata de cómo dirigir y planificar los experimentos, en
orden a extraer la máxima cantidad de información a partir de los datos adquiridos en
presencia de ruido, con el menor número de ensayos experimentales. La idea
fundamental es variar todos los factores importantes simultáneamente en un conjunto
de experimentos planificados, y conectar los resultados con la variable respuesta,
mediante un modelo matemático. El modelo estimado se utiliza para interpretar,
predecir y optimizar.
Los objetivos del diseño de experimentos, incluyen: 1) conocer los factores, que de
manera individual o en interacción con otros factores, tienen una influencia real en los
valores de las variables respuesta (fundamentalmente para el “screening” de los
factores), 2) los niveles de los factores que dan lugar a condiciones óptimas, y 3)
predecir los valores de las variables respuesta para ciertos niveles de los factores
(fundamentalmente para el modelado mediante superficie de respuesta).
Los términos empleados en el Diseño de Experimentos son: 1) los factores o
variables independientes (Fi), que se cree influyen en la variable respuesta (Y) de
un cierto experimento, son controladas por el experimentador, pueden ser de tipo
cualitativo o cuantitativo, y pueden tomar diferentes valores (niveles); 2) la variable
respuesta o dependiente (Y) que se pretende estudiar, cuyos valores se cree están
influidos por los niveles de los factores, y por otras causas que aceptaremos como
error experimental, y que son de tipo cuantitativo; 3) el modelo o superficie de
respuesta, que es la función matemática con la que se pretende modelizar la variable
respuesta analizada, en función de las variables predictoras o independientes, y con
parámetros (coeficientes) que hay que estimar; 4) la matriz de experimentos (E),
formada por tantas columnas como factores y tantas filas como experimentos a
realizar (n), donde figuran los valores reales de los factores en cada experimento; 5)
la matriz del diseño (D) con los valores codificados para los factores ( X i f ( Fi ) ) y
que tiene tantas columnas como factores y tantas filas como experimentos hay que
realizar; 6) la matriz del modelo (X) donde figuran los valores codificados que toman
26
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
las variables independientes, formada por tantas columnas como parámetros
(términos) tiene el modelo y tantas filas como experimentos hay que realizar.
Las fases o etapas del Diseño de Experimentos son: I: fase de diseño: para
definir los factores y sus niveles, las variables respuestas y los objetivos (cribado de
factores o modelo de superficie de respuesta); II: fase de análisis: para explorar,
ajustar los datos, revisión del ajuste, diagnósticos, interpretar el modelo, y refinado del
mismo; III: fase de utilización del modelo: para interpretar, seleccionar las mejores
condiciones, y para predicción.
Los diseños se pueden clasificar, teniendo en cuenta el modelo matemático fijado,
en:
1) diseños o modelos de primer orden que se utilizan el modelo lineal simple
y
k
0
i 1
,
x
i i
que incluyen solo términos lineales, con
k+1 parámetros
y
k
0
i 1
i
Xi
i j
(coeficientes),
ij
Xi X j
o
el
modelo
lineal
con
factores y
k
interacciones:
. Su objetivo será estimar los parámetros del modelo con la
máxima precisión posible y el menor número n de experimentos a realizar. El valor
mínimo de n será el número de coeficientes + 1. Entre los distintos tipo de matrices
de experiencias, para la estimación de los parámetros del modelo lineal de primer
orden, cabe destacar: las matrices de Hadamard y los planes factoriales a 2
niveles, completos o fraccionarios.
Se emplean con fines de cribado para
identificar los factores que dan lugar a cambios substanciales en la variable respuesta,
o que tienen un efecto significativo sobre la misma.
2) Los diseños o modelos de segundo grado que utilizan el modelo teórico
completo de segundo orden: y
términos lineales (
i
X i ), los
k
2
k
0
i 1
i
Xi
i j
ij
Xi X j
k
i 1
ii
X i2
, que tiene los k
términos correspondientes a las interacciones
( ij X i X j ) y los k términos cuadrados ( ii X i2 ). Entre los diseños de experimentos de
segundo grado cabe citar: los diseños factoriales completos 3k y los diseños
compuestos centrados, que los más utilizados, y que se emplean con fines de
modelado mediante superficie de respuesta.
Diseños para k
Niveles:
Objetivo (modelo):
variables:
Factorial completo 2k (k<5) 2 (o 3 si
Cribado
(variables contí. o categór.)
todas
(Efec. Princ. e Inter.)
cont.)
2
Cribado
Factorial fraccionado (k 5)
(Efec. Princ. e Inter.)
(variables contí. o categór.)
2
Cribado (Efec.Princ.)
Plackett-Burman (4 k 32)
(variables contí. o categór.)
5
Optimización (Ef. Prin,
Compuesto central (2 k 6)
Inter. y Cuad.)
(ortogonal o rotado) (var.
contí.)
Factorial completo 3k
y
3
Optimización (Ef. Prin,
Inter. y Cuad.)
Box-Behnken
(3 k 6)
(var.cont.)
4
Cribado
Para mezclas (k 3)
6
Optimización
(var. contí.)
Design:
Two-level
factorial
Full
Fractional factorial
Plackett-Burman
Central composite
Three-level
Full
factorial
Box-Behnken
Mixture:SimplexLattice
Mixture:
SimplexCentroid
27
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
7. BIBLIOGRAFIA
A.A. Afifi and S.P. Azen."Statistical analysis. A computer oriented ” Academic Press, Inc. (1979)
R.G. Brereton "Chemometrics applications of mathematics and statistics to ... ". Ellis Horwood
(1990)
R. Cela et al. "Avances en Qimiometría Práctica". Univ.Santiago de Compostela (1994).
C.M. Cuadras “Métodos de análisis multivariante” EUNIBAR (1981)
N.R. Draper and H.Smith "Applied regression analysys" John Wiley & Sons, Inc. (1981).
W.J. Krzanowski “Principles of multivariate analysis. ...” Oxford statistical science series; v.3,
(1988)
M. O’Mahoney “Sensory evaluation of food. Statistical methods and procedures”, Marcel Dekker
Inc.(1986)
A. Martín y J.D. Luna. "Bioestadística para las Ciencias de la Salud", Edic.Norma, Madrid
(1989).
P.J. Martín Álvarez "Quimiometría Alimentaria". Ediciones de la UAM (2000).
P.J. Martín-Álvarez, "PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL
PROGRAMA SPSS PARA WINDOWS. APLICACIONES EN EL ÁREA DE CIENCIA Y
TECNOLOGÍA DE ALIMENTOS". Ed.: CSIC, Colec. Biblioteca de Ciencias, nº 27. Madrid, 258
pags., 2006. ISBN: 84-00-08470-5.
P.J. Martín-Álvarez “Statistical Techniques for the Interpretation of Analytical Data”, Chapter 13,
pages 677-713 in “Wine Chemistry and Biochemistry”. M.Victoria Moreno-Arribas & M. Carmen
Polo Editors, Springer (2009). ISBN: 978-0-387-74116-1.
P.J. Martín-Álvarez “Guía práctica para la utilización del programa STATISTICA para Windows
(versión 7.1) “. P.J. Martín-Alvarez Ed, 2014. ISBN: 978-84-695-9934-1.
D.L. Massart, et al. “Chemometrics: A textbook” Elsevier (1990)
J.C.Miller and J.N. Miller "Statistics for analytical chemistry. Ellis Horwood Ltd (1984)
D.F. Morrison “Multivariate Statistical Methods” McGraw-Hill, Inc. (1976)
D. PEÑA. "Estadística: Modelos y métodos. 2. Modelos lineales y ...”. Alianza Editorial
S.A.(1992).
M.A.Sharaf, D.L. Illman and B.R.Kowalski. "Chemometrics". John Wiley&Sons, Inc.(1986).
28
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
8. Comandos del programa SPSS:
Con el SPSS, para contrastar la hipótesis Ho
= 0 = 0.4, elegir en la barra de menús el procedimiento
Analizar, Comparar medias, Prueba T para una muestra, y colocar el nombre de la variable en el cuadro de
Contrastar variables:, y el valor de referencia 0.4 en el cuadro Valor de prueba:, pulsar en Aceptar.
Para contrastar la hipótesis Ho
1 = 2 y conocer los valores descriptivos de la variable en los 2 grupos,
elegir Analizar, Comparar medias, Prueba T para muestras independientes, y colocar el nombre de la
variable en el cuadro Variable a contrastar, y el nombre de la variable de agrupamiento en el cuadro Variable
de agrupación, con los correspondientes valores en la ventana de Definir los grupos, pulsar en Continuar y en
Aceptar. Para contrastar la hipótesis Ho
1 =
2 en el caso de muestras relacionadas, utilizar Analizar,
Comparar medias, Prueba T para muestras relacionadas; seleccionar las dos variables y colocarlas en el
cuadro Variables relacionadas, y pulsar Aceptar.
Para contrastar la hipótesis de igualdad de k medias (Ho
1 = 2 = … = 6) y conocer los valores
descriptivos en cada uno de los grupos, utilizar Analizar, Comparar medias, ANOVA de un factor, y colocar
el nombre de la variable en el cuadro de Dependientes:, y el nombre de la variable de agrupamiento en el
cuadro Factor:. En la ventana de Opciones, elegir en Estadísticos: Descriptivos, Prueba de homogeneidad de
la varianza, Welch, y seleccionar Gráfico de las medias, pulsar Continuar. En la ventana Post Hoc elegir S-NK, y Continuar y Aceptar. También se puede utilizar el procedimiento Analizar, Modelo lineal general,
Univariante, y colocar el nombre de la variable en el cuadro Dependiente:, y la variable de agrupamiento en el
cuadro Factores fijos: y pulsar en Aceptar. En el caso de ANOVA de 2 factores se puede utilizar el
procedimiento Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar el
nombre de la variable en el cuadro Dependiente:, y los nombre de los factores en el cuadro Factores fijos: (o
Factores aleatorios:) y pulsar en Aceptar.
Para realizar el análisis de regresión lineal simple/múltiple, utilizar el procedimiento Analizar, Regresión,
Lineal, y colocar la/s variable/s independiente/s (xi) en el cuadro Independientes:, y la variable dependiente
(y) en el cuadro Dependiente: En la ventana Estadísticos... seleccionar Estimaciones e Intervalos de confianza
en Coeficientes de regresión, y Ajuste del modelo, pulse Continuar, para obtener los parámetros estimados y
los intervalos de confianza. Para obtener el gráfico de dispersión de los residuos tipificados frente a los valores
observados, y el gráfico de probabilidad normal de los residuos, hay que abrir la ventana Gráficos... y colocar
la variable DEPENDNT en el cuadro del eje X, y la variable ZRESID en el cuadro de la variable Y, y
seleccionar Gráfico de prob. normal en Gráficos de residuos tipificados, y pulsar Continuar. Para guardar,
como nuevas variables, los valores calculados y los residuos, hay que abrir la ventana Guardar... y seleccionar
No tipificados en Valores pronosticados, y No tipificados en Residuos, y pulsar Continuar. En la ventana
Opciones..., compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse
Continuar.
Para realizar el análisis de componentes principales (o el factorial) utilizar el comando Analizar,
Reducción de datos, análisis factorial, y colocar las nombres de las variables en el cuadro de Variables. En la
ventana Descriptivos: en Estadísticos elegir Univariados y Solución inicial; en Matriz de correlaciones elegir
Coeficientes y Nivel significación; pulsar Continuar. En la ventana de Extracción: en Método elegir
Componentes principales, en Analizar elegir Matriz de correlaciones, en Extraer elegir Aautovalores >1, y en
Mostrar elegir Solución factorial sin rotar y Gráfico de sedimentación; pulsar Continuar. En la ventana de
Rotación: en Método elegir Ninguno, y en Mostrar elegir Gráficos de saturaciones; pulsar Continuar. En la
ventana de Puntuaciones: señalar Guardar como variables y Método de regresión, pulsar Continuar. Por
último, en la ventana de Opciones: en Valores perdidos elegir excluir casos según lista, y en Formato
visualización de los coeficientes elegir Ordenar por tamaño y Suprimir valores absolutos menores que 0.25;
pulsar Continuar; y pulsar Aceptar en ventana principal.
Para el análisis de conglomerados utilizar el procedimiento Analizar, Clasificar, Conglomerados
jerárquicos. Colocar los nombre de las variables en el cuadro de Variables, en Conglomerar elegir casos, en
Etiquetar casos mediante elegir el nombre de la variable alfabética que se desea utilizar, y en Mostrar elegir
Estadísticos y gráficos. En la ventana de Estadísticos elegir Historial de conglomeración y Matriz de
distancias; Continuar. En la ventana de Gráficos elegir Dendrograma; en Témpanos elegir todos los
conglomerados, y en Orientación elegir Vertical. En la ventana de Método: en Método de conglomeración
elegir el Método de Ward; en Medida elegir Intervalo y Distancia euclídea al cuadrado, en Transformar
valores elegir Estandarizar: Puntuaciones Z por variable; pulsar Continuar y Aceptar.
Para aplicar el análisis lineal discriminante utilizar el procedimiento Analizar, Clasificar, Discriminante,
y colocar los nombres de las variables en el cuadro Independientes:, el nombre de la variable de agrupamiento
con sus valores, en el cuadro Variable de agrupación, y seleccionar Introducir independientes juntas, o Usar
método de inclusión por pasos.
29
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Comandos del programa STATGRAPHICS 5.1:
Tratamientos:
Procedimientos:
I.- Univariante
Un grupo de datos: Valores descriptivos, Descripción, Datos Numéricos, Análisis Unidimensional (Resultados:
Normalidad, Intervalos de confianza, Valores descriptivos, Intervalos de confianza, Contraste para la media,
Contraste para una media histograma, gráfico de cajas, gráfico de probabilidad). Analyze,Variable
Data,One-Variable Analysis en Statgraphics Centurion XV.
Dos grupos de datos:
Comparación, Dos muestras, Comparación de dos muestras (Resultados:
Contraste para dos medias Resumen estadístico, comparación: de medias, de desviaciones y de
independientes medianas, histogramas y grafico de cajas ). Analyze,Variable Data,Twosample comparisons, Independent samples, en Statgraphics Centurion XV.
Contraste para dos medias relacionadas Comparación, Dos Muestras, Comparación de Muestras Pareadas
(Resultados: Resumen estadístico, intervalos de confianza, contraste de
hipótesis, histogramas, y grafico de cajas, y gráfico de probabilidad
normal). Analyze,Variable Data,Two-sample comparisons, Paired samples,
en Statgraphics Centurion XV.
k>2 grupos de datos:
Comparación, Análisis de la Varianza, ANOVA Simple (Resultados: Tabla
ANOVA de un factor ANOVA, Tabla de Medias, Contrastes: múltiples, de varianzas, de KruskalWallis, y Gráficos de medias). Improve,Analyis of variance, One- way
ANOVA, en Statgraphics Centurion XV.
ANOVA dos factores con o sin Comparación, Análisis de la Varianza, ANOVA Factorial (Resultados:
interacción Tabla ANOVA (Opciones de análisis para controlar términos), Tabla de
Medias, Contrastes, gráfico de medias y de interacción). Improve,Analyis of
variance, Multifactor ANOVA, en Statgraphics Centurion XV.
II.- Bivariante
Regresión lineal simple Dependencia, Regresión simple (Resultados: Resumen regresión, ANOVA
con falta de ajuste, Intervalos de confianza, Tabla valores estimados, y
gráficos: del modelo ajustado, de observados y calculados, y de residuos).
Improve, Regression Analyis, One Factor, Linear Regression, en
Statgraphics Centurion XV
Regresión polinómica Dependencia, Regresión polinómica (Resultados: Resumen regresión,
ANOVA con falta de ajuste, Tabla valores estimados, y gráficos: del
modelo ajustado, de observados y calculados). Improve, Regression
Analysis, One Factor, Polynomial Regression, en Statgraphics Centurion
XV
Regresión no lineal Avanzado, Regresión avanzada, Regresión no lineal (Resultados:
Resumen regresión y gráfico del modelo ajustado). Improve, Regression
Analysis, Multiple Factors, NonLinear Regression, en Statgraphics
Centurion XV
III.- Multivariante
Análisis Componentes Principales Avanzado, Métodos Multivariables, Componentes Principales (Resultados:
Resumen, Pesos, Coordenadas, gráfico de sedimentación, de dispersión, de
componentes, biplot). Analyze,Variable Data,Multivariate Methods
Principal Components en Statgraphics Centurion XV.
Análisis Conglomerados Avanzado, Métodos Multivariables, Análisis Cluster (Resultados:
Resumen, Procedimiento de aglomeración, dendrograma y gráfico de
dispersión). Control, Classification Methods, Cluster Analysis en
Statgraphics Centurion XV.
Análisis Discriminante Avanzado, Métodos Multivariables, Análisis Discriminante (Resultados:
Resumen, Funciones de clasificación, Funciones discriminantes, Tabla de
clasificación, Resumen estadísticos por grupos, gráfico de dispersión para 2
variables, y gráfico de las funciones discriminantes). Control, Classification Methods, Discriminant Analysis, en Statgraphics Centurion XV.
Regresión lineal Múltiple Dependencia, Regresión múltiple (Resultados: Resumen análisis de
regresión, ANOVA, Intervalos de confianza, Informes con valores
estimados y residuos, y gráfico de observados frente a predichos).
Improve, Regression Analysis, Multiple Factors, Multiple Regression, en
Statgraphics Centurion XV
IV.- Diseño de experimentos
Avanzado, Diseño experimental, Crear diseño. Introducir valores variable
respuesta. Avanzado, Diseño experimental, Analizar diseño.Resultados:
Resumen, ANOVA, Coeficientes, Predicciones, Optimización, Gráfico de
Pareto, gráficos de superficie de respuesta. Improve,Experimental Design
Creation / Experimental Design Analysis, en Statgraphics Centurion XV.
Gráfico de Pareto estandarizado para vitE
Superficie de Respuesta estimada
A:tem
+
-
Rendimiento
AA
B:pres
AB
BB
0
2
4
6
8
Efectos estandarizados
30
23
19
15
11
7
3
320
280
240
-1
200
160
35 45 55
65 75 120 pres
tem
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Comandos del programa STATISTICA 7.1:
Tratamientos:
Procedimientos:
I.- Univariante
Un grupo de datos: Valores descriptivos, Statistics, Basic Statistics and Tables, t-test, single sample
Normalidad, Intervalos de confianza, (Resultados: Valores descriptivos, Intervalos de confianza,
Contraste para una media Contraste para la media, histograma, gráfico de cajas, gráfico
de probabilidad)
Dos grupos de datos:
Statistics, Basic Statistics and Tables, t-test, independent by
Contraste para dos medias independientes groups (Resultados: Resumen estadístico, comparación: de
medias, varianzas, histogramas y grafico de cajas )
Contraste para dos medias relacionadas Statistics, Basic Statistics and Tables, t-test, dependent
simples (Resultados: Resumen estadístico, contraste de
hipótesis, y grafico de cajas)
Más de 2 grupos de datos:
Statistics, Basic Statistics and Tables,Breakdown & one-way
ANOVA de un factor ANOVA, o Statistics, ANOVA, One-way ANOVA
(Resultados: Tabla ANOVA, Tabla de Medias, Contrastes
múltiples de medias, y Gráficos de medias)
ANOVA dos factores con o sin Statistics, ANOVA, Factorial ANOVA or Main effects
interacción ANOVA (Resultados: Tabla ANOVA, Tabla de Medias,
Contrastes, gráfico de medias y de interacción).
II.- Bivariante
Regresión lineal simple Statistics, Multiple regressión (Resultados: Resumen
regresión, Tabla ANOVA, Intervalos de confianza de los
coeficientes, Tabla valores estimados, y gráficos: del modelo
ajustado, de observados y calculados, y de residuos)
Regresión polinómica Statistics, Advanced Linear/Non linear Models, General
Regression Models, Polynomial Regression (Resultados:
Resumen regresión, ANOVA con falta de ajuste, Tabla valores
estimados, y gráficos: del modelo ajustado, de observados y
calculados, y de residuos)
Regresión no lineal Statistics, Advanced Linear/Non linear Models, Nonlinear
Estimation (Resultados: Resumen regresión y gráfico del
modelo ajustado)
III.- Multivariante
Análisis Componentes Principales Statistics, Multivariate Exploratory Techniques. Factor
Analysis (Resultados: Resumen, Loadings, Scores, Scree plot,
salvar scores)
Análisis Conglomerados Statistics, Multivariate Exploratory Techniques. Cluster
Analysis, Joining (Resultados: Dendrograma y matriz de
distancias)
Análisis Discriminante Statistics, Multivariate Exploratory Techniques.
Discriminant Analysis (Resultados: Resumen, Funciones de
clasificación, Funciones discriminantes, Tabla de
clasificación, Resumen estadísticos por grupos, gráfico de
dispersión para 2 variables, y gráfico de las funciones
discriminantes)
Regresión lineal Múltiple Statistics, Multiple regressión (Resultados: Resumen análisis
de regresión, ANOVA, Intervalos de confianza, Informes con
valores estimados y residuos, y gráfico de observados frente
a predichos, y gráfico de residuos)
IV.- Diseño de experimentos
Statistics, Industrial Statistics, Experimental Design. Analyze
Design. Resultados: Resumen, ANOVA, Coeficientes,
Gráfico de Pareto, Gráfico de efectos, gráficos de superficie de
respuesta, Predicciones, Optimización.
DV: VitE
Pareto Chart of Standardiz ed Effects; Variable: VitE
2 fac tors, 1 Block s, 10 Runs ; MS Residual=7.26911
DV: VitE
(1)T(L)
7.747344
T(Q)
6.193008
(2)P(L)
2.480731
1Lby 2L
P(Q)
1.670914
-.028251
p=.05
Standardized Effec t Estimate (Absolute Value)
31
Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM).
Tratam.
Estadísticos:
I.- Univariante
Un grupo de datos:
Valores descriptivos,
Normalidad, Int. de
confianza, Contraste
para una media
Dos grupos de datos:
Contraste para dos
medias
independientes
Procedimientos con
STATISTICA v7.1:
Statistics, Basic Statistics
and Tables, t-test, single
sample
Statistics, Basic Statistics
and Tables, t-test,
independent by groups
Statistics, Basic Statistics
and Tables, t-test,
Contraste para dos dependent simples
medias relacionadas
k>2 grupos de datos: Statistics, Basic Statistics
ANOVA de un factor and Tables,Breakdown &
one-way ANOVA, o
Statistics, ANOVA, Oneway ANOVA
ANOVA dos factores Statistics, ANOVA,
con o sin interacción Factorial ANOVA or Main
effects ANOVA
II.- Bivariante
Regresión lineal Statistics, Multiple
simple regressión
Proc. con
Statgraphics 5.1
Descripción, Datos
Numéricos, Análisis
Unidimensional
Analizar, Estadísticos
Descriptivos, Explorar y
Analizar,Comparar
medias, Prueba T para
una muestra
Analizar, Comparar
Comparación, Dos
muestras, Comparación de medias, Prueba T para
dos muestras)
muestras independientes
Analizar, Comparar
Comparación, Dos
Muestras, Comparación de medias, Prueba T para
Muestras Pareadas
muestras relacionadas
Comparación, Análisis de
la Varianza, ANOVA
Simple
Analizar, Comparar
medias, ANOVA de un
factor ó Analizar, Modelo
lineal general, univariante
Comparación, Análisis de
la Varianza, ANOVA
Fatorial
Analizar, Modelo lineal
general, Univariante
Dependencia, Regresión
simple. Avanzado,
Regresión Avanzada,
Modelos de Calibración
Regresión polinómica Statistics, Advanced
Dependencia, Regresión
Linear/Non linear Models, polinómica
General Regression
Models, Polynomial Regr.
Regresión no lineal Statistics, Advanced
Avanzado, Regresión
Linear/Non linear Models, avanzada, Regresión no
Nonlinear Estimation)
lineal
III.- Multivariante
Análisis Statistics, Multivariate
Avanzado, Métodos
Componentes Exploratory Techniques.
Multivariables,
Principales Factor Analysis
Componentes Principales
Análisis Statistics, Multivariate
Avanzado, Métodos
Conglomerados Exploratory Techniques.
Multivariables, Análisis
Cluster Analysis, Joining Cluster
Análisis Statistics, Multivariate
Avanzado, Métodos
Discriminante Exploratory Techniques.
Multivariables, Análisis
Discriminant Analysis
Discriminante
Regresión lineal Statistics, Multiple
Dependencia, Regresión
Múltiple regressión
múltiple
IV.Diseño
de Statistics, Industrial
1)Avanzado, Diseño
experimentos
Statistics, Experimental
experimental, Crear
Design. Analyze Design.
diseño. 2)Avanzado,
Diseño experimental,
Analizar diseño.
32
Proc.
con SPSS v.14:
Analizar, Regresión,
Lineal.
Analizar, Regresión,
Estimación Curvilínea.
Analizar, Regresión, No
Lineal.
Analizar, Reducción de
datos, análisis factorial.
Analizar, Clasificar,
Conglomerados
jerárquicos.
Analizar, Clasificar,
Discriminante.
Analizar, Regresión,
Lineal.