Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). CURSO DE POSTGRADO DEL CSIC: “Tendencias actuales de la investigación en Enología” Módulo: “Tratamiento estadístico de los datos” Dr. Pedro J. Martín-Álvarez, Instituto de Investigación en Ciencias de la Alimentación (CIAL, CSIC-UAM) Grupo: Biotecnología Enológica Aplicada Madrid, 20-24 de Abril de 2015 ÏNDICE 1.TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES............ 1.1 UN SOLO GRUPO DE DATOS ....................................................... 1.2 DOS GRUPOS DE DATOS INDEPENDIENTES ............................ 1.3 DOS GRUPOS DE DATOS RELACIONADOS ............................... 1.4 MAS DE DOS GRUPOS DE DATOS INDEPENDIENTES ....... 1.4.1 Análisis de la Varianza (ANOVA) ............................................ 2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES ........... 2.1 ANALISIS DE CORRELACION SIMPLE ....................................... 2.2 ANALISIS DE REGRESION LINEAL SIMPLE ............................. 3. TRATAMIENTO ESTADÍSTICO DATOS MULTIVARIANTES. ....... 3.1 MATRIZ DE DATOS ..................................................................... 3.2 REPRESENTACION GRAFICA DE LOS DATOS........................ 3.3 CLASIFICACION DE LOS METODOS......................................... 3.4 TRATAMIENTO PREVIO DE LOS DATOS ................................... 4. MÉTODOS ESTAD. DATOS MULTIV. NO SUPERVISADOS 4.1 ANALISIS DE COMPONENTES PRINCIPALES............................. 4.2 ANALISIS FACTORIAL .................................................................... 4.3 ANALISIS DE CONGLOMERADOS ....................................... 5. MÉTODOS ESTAD. DATOS MULTIV. SUPERVISADOS ................. 5.1 ANALISIS CANONICO DE VARIABLES (CVA) ............................... 5.2 METODOS DE CLASIFICACION SUPERVISADA .................... 5.2.1 Análisis discriminante ................................................................ 5.2.2 Método SIMCA …….................................................................. 5.2.3 Método kNN ………… ................................................................ 6. MÉTODOS ESTAD. DATOS MULTIV. DE DEPENDENCIA ............ 6.1 ANALISIS DE CORRELACION CANONICA (ACC) ......................... 6.2 MODELOS DE REGRESION MULTIVARIANTE ............................. 6.2.1 Regresión lineal múltiple............................................................ 6.2.2 Diseño de Experimentos ........................................................... 7. BIBLIOGRAFIA .................................................................................. 8. Comandos de los programas SPSS, Statgraphics 5.1 y Statistica 7.1 0 Pág. 1 1 2 3 4 5 8 9 10 13 13 14 15 17 17 17 19 20 22 22 22 22 23 23 24 24 24 25 26 28 29 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 1. TRATAMIENTO ESTADÍSTICO DE DATOS UNIVARIANTES 1.1 UN SOLO GRUPO DE DATOS Datos: disponemos de un conjunto de n datos (observaciones), {x1, x2, x3, ..., xn}, de una única variable aleatoria (v.a.) X, procedentes de una cierta población W. Podríamos calcular: Medidas de centralización (o de posición), que tienen en cuenta el valor de los datos en la muestra pero no dan idea del agrupamiento de los mismos, como n son: la moda, la media aritmética ( x x / n ) y la mediana que es mas robusta i 1i que la media. También las medias recortadas al 5% (eliminando el 5% de los datos extremos). Medidas de dispersión o variablididad, que dan idea sobre el agrupamiento de los datos observados en torno a los valores centrales, como son: el intervalo, 2 amplitud o recorrido ( xmax xmin ), la varianza muestral ( s ), la desviación n estándar (o típica) muestral ( s i 1 ( xi x ) 2 /(n 1) ), la desviación estándar relativa (o coeficiente de variación, DER s / x ), el intervalo intercuartílico (diferencia entre el primer y tercer cuartíl, IQ = Q3 - Q1), y la MEDA (mediana de las desviaciones entorno a la mediana, MEDA= Mediana |xi – Mediana|) más robusta que la desviación típica. Momentos y coeficientes de asimetría y apuntamiento, que describen aspectos relevantes de la distribución de frecuencias. Para la detección de datos anómalos o atípicos, se podría 0,70 utilizar el intervalo de valores admisibles que se define 9 como: Q1 1.5(Q3 Q1 ), Q3 1.5(Q3 Q1 ) . Una representación 0,60 gráfica muy utilizada es el diagrama de caja ("box plot"), 0,50 que incluye información sobre la mediana, los cuartíles Q1 y Q3, y los extremos del intervalo de valores admisibles (los 0,40 bigotes). Los datos que están fuera cabría pensar en que son 0,30 atípicos. 0,20 Desde un punto de vista inferencial, y aceptando VARX distribución N( , ) de los datos, que puede comprobarse con el gráfico de probabilidad normal(“Q-Q plot”), o con los test de normalidad (Shapiro y Wilks, Kolmogoroff-Smirnov-Lilliefors,...), podemos utilizar la media aritmética y la desviación estándar muestral como estimadores puntuales de los parámetros poblacionales , y . Otro estimador puntual de es el valor MEDA/0.675. Fijado el nivel de significación, normalmente = 0.05, podemos: calcular el intervalo de confianza para la media poblacional , al 100(1, que vendrá dado por: x t1 / 2,n 1s / n , x t1 / 2,n 1s / n , siendo t1 / 2,n 1 el valor de la t-Student con n-1 g.l. tal que F( t1 / 2,n 1 ) =1 / 2, 2 calcular el intervalo de confianza para , al 100(1- )% que vendrá dado por: 2 2 2 2 ( n 1) s / 1 / 2,n 1 , ( n 1) s / / 2,n 1 siendo /2 y 1 /2 los valores de la función de distribución 2 con n-1 g.l., tal que F( 2 /2 )= / 2 y F( 2 1 /2 ) =1 realizar el contraste de hipótesis para la media: hipótesis nula (H0) puede rechazarse tanto si < 0 como si /2, o H0 H1 0 donde la 0 > 0 (región con 2 1 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). x colas). El estadístico utilizado para el contraste es: tcal 0 que sigue una s/ n distribución t-Student con n-1 g.l., si H0 es cierta. Fijado el valor de (p.e. = 0.05), se decide en función del valor de t cal : si | tcal | t1 / 2,n 1 , se rechaza la hipótesis nula y se acepta la hipótesis alternativa (H1); en caso contrario ( | t cal | t1 / 2,n 1 ) no hay motivos para rechazar H0. Utilizando probabilidades asociadas (facilitadas por los programas estadísticos): si P < se rechaza Ho, en caso contrario (P > ) se acepta Ho. (“Si P es pequeña → corresponde a un suceso raro → hipótesis de partida incorrecta”). Este test para una media puede utilizarse para "comprobar la exactitud de un método analítico para una muestra con un valor de referencia 0 " o para “comprobar si la media de determinados valores es diferente un valor fijo (J. Pozo-Bayón et al., Agric. Food Chem. 2009, 57, 10784-10792)”. 1.2 DOS GRUPOS DE DATOS INDEPENDIENTES Datos: Disponemos de dos conjuntos de datos independientes: { x11,x12,x13, ..., x1n1} y {x21, x22, x23, ..., x2n2}, formados por n1 y n2 observaciones, de una misma v.a. X, procedentes de dos poblaciones W1 y W2. Podemos calcular: los valores descriptivos muestrales: x j y s j j=1,2, que serán estimadores, si 18,00 se puede definir como: H0 1 2 H1 1 2 donde la hipótesis 14,00 12,00 10,00 A B grupo 20,00 95% IC Variable existe normalidad, de los correspondientes parámetros poblacionales j y Para el tratamiento gráfico j. podemos utilizar los diagramas de cajas, o los gráficos de barras de error con los intervalos de confianza para la media, si existe normalidad. Desde un punto de vista inferencial, y aceptando distribuciones N( i, i) de los datos en cada población, podemos estar interesados en: obtener los intervalos de confianza para los parámetros poblacionales j, y j, y también en hacer algún contraste de hipótesis sobre dichos parámetros, o realizar el test para comparar las dos medias, que Variable 16,00 15,00 10,00 5,00 A B grupo nula (H0) puede ser rechazada tanto si 1< 2 como si 1> 2 (dos colas). Aceptando muestras independientes y varianzas iguales ó no, el estadístico utilizado para el contraste sigue una distribución t-Student con ciertos g.l. (n1 + n2 - 2 en el caso de igualdad de varianzas). Fijado un valor para el nivel de significación, p. e. = 0.05, se decide en función de las probabilidades asociadas, y si P < se rechaza Ho, en caso contrario (P > ) se acepta Ho. Este contraste puede utilizarse para "comparar los resultados obtenidos por dos laboratorios para una misma muestra de referencia", “comparar las concentraciones de un cierto compuesto en vinos elaborados con uvas de 2 variedades”, “comprobar si existen diferencias en la composición de quesos elaborados a partir de leche de vaca o leche de cabra”, “comparar las puntuaciones de un descriptor en quesos procedentes de 2 queserías” ... 2 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). realizar el test para comparar dos varianzas: H0 H1 2 1 2 1 2 2 2 2 . Aceptando distribuciones normales en los dos grupos, el estadístico utilizado es: Fcal acepta s12 cierta. Si 2 2 s1 / s2 (se 2 s2 ), que sigue una distribución F-Snedecor con n1-1 y n2-2 g.l., si H0 es Fcal F1 ,n1 1,n2 1 no hay motivos para rechazar H0. En caso contrario habría que aceptar que las varianzas no son iguales. La mayoría de los programas estadísticos proporcionan el resultado del test de Levene, para el anterior contraste, utilizando un estadístico con distribución F-Snedecor y 1 y n1+n2-1 g.l. Si la probabilidad asociada (P) es < se rechaza Ho, en caso contrario (P > ) se acepta Ho. Con muestras independientes y no aceptando distribuciones normales, puede utilizarse el test no paramétrico de Mann-Whitney. Si la probabilidad asociada (P) es menor que se rechaza Ho. Iglesias M.T., P.J. Martín-Álvarez, M.C. Polo, C. de Lorenzo, E. Pueyo. "Protein analysis of honeys by Fast protein Liquid Chromatography. Application to the differentiation of floral honeys and honeydew honeys". J. Agric. Food Chem. 2006, 54, 8322-8327 Statistical Analysis. The statistical methods used for data analysis were a two-sample t-test and Mann-Whitney U test to determine if there were significant differences between both types of honey samples and … The STATISTICA program…. Results and discussion Table 3 shows the mean values and standard deviations of the percentages of peak areas in the two groups of honeys and the results of the t test for comparison of the two means that coincide with the obtained by means of the Mann-Whitney U test. It can be observed that the samples of floral honeys have greater values in the variables P7 and P4 and smaller values in P5, as compared to the samples of honeydew honeys. 1.3 DOS GRUPOS DE DATOS RELACIONADOS Datos: disponemos de n parejas de valores de 2 variables procedentes de un misma población W: { (x11 , x12), (x21 , x22), ..., (xn1 , xn2)}. A partir de estas n parejas, podemos calcular las n diferencias entre cada par de valores observados en el mismo individuo, es decir: { d1 = x11 - x12, d2 = x21 - x22 ,..., dn = xn1 - xn2}, así como el valor 2 medio y la desviación estándar de esta nueva variable d ( d y sd ). 3 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Aceptando que esta nueva variable sigue una N( d, d), hipótesis para las dos medias: tcal d sd / n si | tcal | t1 H0 H1 1 2 d 1 2 d 0 , 0 el contraste de utiliza el estadístico: , que sigue una t-Student con n-1 g.l.. Fijado el nivel de significación , / 2 ,n 1 se rechaza la hipótesis nula y se acepta la hipótesis alternativa (H1); en caso contrario no hay motivos para rechazar H0. Si la probabilidad asociada (P) es menor que se rechaza Ho. Este contraste puede utilizarse para "comparar los resultados obtenidos con 2 métodos analíticos en n muestras", “comprobar si hay diferencias entre concentraciones antes y después de un proceso”, “comparar las puntuaciones asignadas por 13 jueces a cada una de 10 muestras de quesos antes y después de un tratamiento” ...... En caso de no aceptar distribuciones normales, el test no paramétrico de Wilcoxon puede utilizarse para comparar las dos medias en muestras relacionadas. Si la probabilidad asociada (P) es menor que se rechaza Ho. Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content of red spanish wines: Comparison of a direct ELISA and an HPLC method for the determination of histamine in wines". Food Res. Int., 2005, 38, 387-394 Statistical methods The statistical methods used for analysis were as follows: ...; correlation analysis and t-test for related samples to compare HPLC and ELISA methods. STATISTICA (Statsoft Inc., 1998) and SPSS (SPSS Inc., 2001) programs were used for data processing. Results. … Comparison of the quantitative analysis of histamine by HPLC and ELISA revealed a good correlation (r = 0.91) between both methods (Fig. 3), although the results of the t-test for related samples revealed slightly higher results for ELISA (P < 0.05). 1.4 MÁS DE DOS GRUPOS DE DATOS INDEPENDIENTES Datos: disponemos de k (k > 2) conjuntos de datos: { x1,1, x1,2, x1,3, ..., x1,n1} , { x2,1, x2,2, x2,3, ..., x2,n2} ... {xk,1, xk,2, xk,3, ..., xk,nk}, con nj ( j = 1,2,...k ) observaciones de una misma variable X, procedentes de k poblaciones Wj, y podemos calcular los k valores medios ( x j ) y las k desviaciones estándar ( s j ), estimadores de los correspondientes parámetros 4 j y j . Para el tratamiento gráfico se pueden utilizar Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). los histogramas, los diagramas de cajas y las barras de error. El contraste más utilizado es el siguiente. Test para comparar las k medias. Desde un punto de vista inferencial, y aceptando distribuciones normales e igualdad de varianzas ( N ( j , ) ), para la comparación de las k medias: Fcal H0 H1 i j i j no todas iguales , se utiliza el estadístico: SSentre /( k 1) SSdentro /( n k ) , que sigue una F-Snedecor con k-1 y n-k g.l. (n= ni), si H0 es cierta. Fijado el valor del nivel de significación , si Fcal F1 ,k 1,n k se rechaza la hipótesis nula H0 (la dispersión entre los grupos es mayor que la que existe dentro de los grupos); en caso contrario no tenemos motivos para rechazarla. De manera equivalente, si P < se rechaza H0 y se admite que hay diferencias significativas. Este contraste puede utilizarse para “comparar las concentraciones de un cierto compuesto en vinos elaborados con uvas de k>2 variedades”, “comprobar si existen diferencias en la composición de quesos elaborados a partir de leche de vaca, o leche de cabra o leche de oveja”, y en general para "comparar los k valores medios obtenidos para k tratamientos", “comparar las puntuaciones de un cierto atributo, asignadas a 12 quesos procedentes de 3 procesos de elaboración, por 12 jueces” y se engloba dentro del tratamiento estadístico: Análisis de la Varianza (ANOVA) de una vía. Si una vez realizado el anterior contraste hay que aceptar que no todas las medias poblaciones son iguales, se pueden utilizar los test de Schefee, de Tukey, de Student-Newman-Keuls, LSD, ... para averiguar cuáles son las diferentes. En caso de no aceptar normalidad de las poblaciones se puede utilizar el test no paramétrico de Kruskal-Wallis. 2 2 2 ... Para comprobar si las k varianzas son iguales, ¿ H 0 1 2 k ? se puede utilizar el test de Bartlett, el de Levene, o, si el tamaño de las muestras coincide, el test de Cochran. Cabezas, L., M.A. González-Viñas, C. Ballesteros,· P.J. Martín-Álvarez. “Application of Partial Least Squares regression to predict sensory attributes of artisanal and industrial Manchego cheeses”. Eur. Food Res. Technol., 2006, 222 (3-4), 223-228. Statistical method: The statistical methods used for analysis were: one-way analysis of variance to determine if there were significant differences between groups and Student– Newman–Keuls test for means comparisons, using Statistica program ... 1.4.1 Análisis de la Varianza (ANOVA) El objetivo fundamental del ANOVA, según Fisher, es descomponer la variabilidad de un experimento, en componentes independientes, que puedan asignarse a causas 5 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). distintas. Según Scheffe, el ANOVA permite analizar medidas, que dependen de varios factores, y que operan simultáneamente, para decidir cuáles tienen un efecto significativo sobre la variable estudiada y cuáles no. Una parte de la variabilidad total de la característica analizada podrá ser justificada por los factores estudiados; y la parte no justificada se acepta que se debe al error y a otros posible factores no controlados. ANOVA de un factor. En el caso de un solo factor con k niveles fijos (o tratamientos), el modelo matemático aceptado, es: xi, j xi , j ( ( ) ei, j j n j j / n representa el valor de una media global, número de medidas en el nivel j-ésimo, j ei, j ei, j donde xi, j representa el valor i-ésimo de la variable analizada j en el nivel j-ésimo, ésima, i, j j n j el j la media de la variable en la población j- ) serían k cantidades fijas representando el efecto del nivel j- ésimo sobre la media global , cumpliéndose j nj j 0, y ei, j ( xi, j j) los errores, que aceptamos independientes y con distribución N (0, ) . Para comprobar si el factor influye sobre la variable analizada, podríamos establecer las hipótesis: H0 j 0 j 1,2,..., k , equivalente a la anterior H1 no todas las j son nulas las medias son iguales, entonces todas las j H0 H1 i j i j no todas son iguales ; si todas serían nulas, y el factor no tiene efecto significativo sobre la variable observada. El estadístico para el contraste es el mismo utilizado anteriormente ( Fcal SS factor /(k 1) ~ Fk SS error /(n k ) 1,n k ), y los resultados se muestran en forma de tabla (la tabla ANOVA). Fuente de Suma Grados Cuadrado Valor de Probabilida Variación Cuadrados de libertad Medio la Fcal d asociada MSS MSS / MSS SS a Factor P k 1 a a w SS ( n k ) MSS Error w w SS t Total n 1 Si el valor de la probabilidad asociada (P) es < se rechaza H0 y se admite que el factor influye. En el caso de un solo factor con k niveles aleatorios, el modelo del análisis de la a j ei, j donde se acepta que los efectos a j son v.a. varianza viene dado por: xi, j independientes con distribución N (0, a ) , y los errores ei , j , son independientes y con 2 0 , es distribución N (0, ) . Para este modelo interesa comprobar la hipótesis H 0 a decir, no existe variación debida al factor. Para este contraste se utiliza el mismo estadístico Fcal utilizado en el modelo de efectos fijos, que sigue una F-Snedecor con k-1 y n-k g.l. Simó, C., P.J. Martín-Alvarez, C. Barbas, A. Cifuentes. " Application of stepwise discriminant analysis to classify commercial orange juices using chiral micellar electrokinetic chromatography-laser induced fluorescence data of amino acids". Electrophoresis, 2004, 25, 2885 -2891 Statistical analysis. The statistical methods used for the data analysis were: ..; one-way analysis of variance (ANOVA) to test the effect of the factor studied (processing); Scheffé test for means comparisons; and …. 6 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Results: ANOVA de 2 factores. En el caso de 2 factores, con niveles fijos, se acepta que las diferencias observadas en la variable analizada X se deben: a los diferentes niveles de actuación del factor A, a los diferentes niveles de actuación del factor B, a la posible interacción entre ambos factores A y B, o a otras causas no controladas, que incluiremos en el error experimental. El modelo matemático es xi, j,k )i, j ei, j,k con i =1,2,...,a; j =1,2,...,b; k=1,2,...,m i j ( repeticiones; y donde i es una cantidad fija, que representa el efecto del i. nivel i-ésimo del factor A, j es una cantidad fija, que representa el efecto .j ( del nivel j-ésimo del factor B, )i, j ij i. .j es también una cantidad fija, que representa el efecto de la interacción entre los niveles i-ésimo del factor A y j-ésimo del B, y ei, j,k el error, una v.a., con distribución N(0, ) . Las posibles hipótesis H 03 H 3 1 para contrastar son 3: H 01 ( )i, j 0 i, j , H11 no todos nulos H 02 0 i i H12 no todos nulos y 0 j , y los estadísticos utilizados siguen la distribución F-Snedecor, con no todos nulos j diferentes grados de libertad. Los resultados se muestran en la correspondiente tabla ANOVA: Fuente de Variación Factor A Factor B Interacción AB Error Total Suma cuadrados Grados de libertad Cuadrado Medio Valor de la Fcal SS A a 1 MSS A MSS A / MSSw SSB MSS B MSS B / MSS w SS AB b 1 (a 1) (b 1) MSS AB MSS AB / MSS w SS w a b (m 1) MSS w SS t a b m 1 Probabilida d asociada PA PB PAB Los estadísticos utilizados son: 1 Fcal =MSS AB / MSSw para contrastar si existe interacción ( H 01 ), 2 Fcal =MSS A / MSSw para comprobar el efecto del factor A ( H 02 ) y 3 Fcal =MSSB / MSSw para comprobar si el factor B influye en la respuesta ( H 03 ). Si PAB> PA> 1 se acepta H 0 , y el modelo se dice que es aditivo, no hay interacción. Si 2 se acepta H 0 , y se dice que el factor A no influye en la variable analizada. Si se 7 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 3 cumple PB< hay que rechazar H 0 y se dice que el factor B si influye. Cuando no existe interacción entre los factores la influencia de uno de ellos no dependerá de los niveles del otro factor (en el gráfico de las medias las líneas serán paralelas). Cuando sólo existe una observación por celda (m=1), el modelo es: xi, j ei, j . Esta técnica estadística se puede utilizar para comparar las i j puntuaciones asignadas por 10 jueces a una cierta cualidad organoléptica en tres diferentes vinos, con el fin de averiguar si hay diferencias entre las puntuaciones asignadas por los jueces, o entre las puntuaciones de los 3 vinos. Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal. Chim. Acta, 2006, 563 (1-2), 116-125. Statistical analysis. The statistical methods used for data analysis were: …; two way analysis of variance (ANOVA) to test the effects of the two factors; Student–Newman–Keuls test for means comparisons; and … Results: 2. TRATAMIENTO ESTADÍSTICO DE DATOS BIVARIANTES Datos: En este caso se dispone de un conjunto de n pares de observaciones de dos variables X1, X2: { (x1,1 , x1,2), (x2,1 , x2,2), ..., (xn,1 , xn,2) }, procedentes de una cierta población bivariante W. En esta situación podemos calcular los valores medios y desviaciones estándar muestrales para cada variable, que serán estimadores de los correspondientes parámetros poblacionales. Pero, al tener dos variables, podemos calcular también, los valores muestrales de la covarianza y del coeficiente de correlación: s12 /( s1s2 ) , n i 1 ( xi ,1 x1 )( xi , 2 x2 ) /( n 1) y 14,00 que tienen en cuenta la variación 12,00 metanol r s12 8 10,00 8,00 6,00 4,00 10,00 20,00 30,00 40,00 propanol 50,00 60,00 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). conjunta de las dos variables X1 y X2, y que serán estimadores de los correspondientes parámetros poblacionales: 12 y . El tratamiento gráfico más utilizado es el gráfico, o diagrama, de dispersión. Aceptando distribución conjunta normal bivariante, podríamos conocer la región de confianza al 100(1- )%, para ( 1, 2) mediante la inecuación matricial: 1 ( x1 1 , x2 2) 1 12 12 2 x1 x2 1 2 2 2 siempre que se conozcan los valores de 1, Esta región no coincide con el producto cartesiano de los correspondientes 2 y 12. intervalos para cada media. Más interesante resulta la elipse de confianza definida por: ( x1 x1 , x2 x2 ) s11 s12 s12 s22 1 x1 x2 x1 n( n 2) F x2 2( n 2 1) , 2 ,n 2 , que 48 46 44 42 40 38 Fructosa permite decidir si una observación ( x1 , x 2 ) procede o no de una determinada población con distribución normal bivariante (detección de puntos anómalos). 50 36 34 32 Para el estudio de dependencia entre las dos variables, se recurre al Análisis de Correlación (cuando la muestra ha sido obtenida de forma aleatoria) y/o al Análisis de Regresión (lineal o no lineal), cuando aceptamos que los valores de una de las variables no están sujetos a error, y estamos interesados en expresar la relación de dependencia mediante un modelo matemático (X2 = f(X1) + ). 30 28 26 22 24 26 28 30 32 34 Glucosa 36 38 40 42 44 2.1 ANALISIS DE CORRELACION SIMPLE Para el caso de variables cuantitativas, y aceptando distribución normal bivariante, el coeficiente de correlación de Pearson, definido por: n r i 1 n i 1 ( xi ( xi x )( yi x) 2 n i 1 ( yi y) y) , mide la relación lineal entre las dos variables y es estimador 2 del coeficiente de correlación poblacional . Se puede: calcular el intervalo de confianza para ( 1 , 2 ), y/o realizar un test de hipótesis sobre para ver si puede aceptarse que es distinto de 0 (Ho = 0 ). Si la probabilidad asociada (P) es < se acepta 0. En el caso de no aceptar normalidad en los datos se utiliza el coeficiente correlación de Spearman, que utiliza los rangos de los datos, y el correspondiente test no paramétrico para el contraste de hipótesis Ho =0. Como aplicación de esta técnica: correlación: entre parámetros del color y compuestos fenólicos en vinos, entre descriptotes sensoriales y compuestos químicos, ... Monagas M., P.J. Martín-Álvarez, B. Bartolomé, C. Gómez-Cordovés. "Statistical interpretation of the color parameters of red wines in function of their phenolic composition during aging in bottle". Eur. Food Res. Techn., 2006, 222: 702-709. Statistical analysis: The statistical methods used for the data analysis were: two-way analysis of variance (ANOVA) to test the influence of the two factors studied, “variety” and “aging time” (the interaction and error terms were pooled); principal component analysis (PCA) from standardized variables to examine the relationship between the 20 analyzed variables; and correlation and polynomial regression analysis to describe the relationship between the color parameters and the phenolic components during aging in bottle in the different wines….. 9 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Note. All the regression coefficients (a, b, c) presented are significantly different from zero (p<0.05); R2 = determination coefficient; s = residual standard deviation; CV(%)=( s / y )100% residual standard deviation expressed as percetange of the mean value Monagas M., P.J. Martín-Álvarez, C. Gómez-Cordovés, B. Bartolomé. "Time course of the colour of young red wine from Vitis vinifera L. during aging in the bottle". International Journal of Food Science and Technology, 2006, 41, 892-899. Statistical analysis: The statistical methods used for the data analysis were: polynomial regression analysis, to describe the evolution of the different colour parameters during wine ageing in bottle; forward stepwise multiple regression analysis, to predict the CIELAB variables using the colorimetric indices … 2.2 ANALISIS DE REGRESION LINEAL SIMPLE En el caso de regresión lineal simple, se acepta que las dos variables X e Y están relacionadas mediante el modelo teórico: yi 0 1 xi i . Para este modelo matemático, se aceptan las siguientes hipótesis: la variable dependiente Y, es una v.a., sujeta a error, la variable independiente X toma valores fijos, y no es una v.a., o su error es despreciable frente al de la variable Y, y los errores i son 10 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). independientes y con distribución N(0, ) . El modelo teórico se estima, mediante el 2 procedimiento de mínimos cuadrados ( min ( yi por el siguiente 0 1 xi ) ), modelo: yˆ i b0 b1 xi , donde yˆ i es el valor esperado de Y (valor calculado o predicho por el modelo), para un determinado valor xi de la variable X. Los coeficientes de regresión se calculan mediante las expresiones: n b1 n ( Xi X )(Yi Y ) / i 1 ( Xi X )2 y b0 Y b1 X . i 1 La precisión del ajuste de los datos al modelo, se basa en la siguiente descomposición de la suma de los cuadrados de las desviaciones de los valores de la n variable Y respecto su valor medio: ( yi y) i 1 n 2 ( yˆ i i 1 y) n 2 yˆ i ) ( yi i 1 2 , que supone dividir la variabilidad total, en una parte explicada por el modelo de regresión, y otra que aceptamos se debe al error ( SS(Y )tot SS(Y ) reg SS(Y ) res ), y que se presenta en forma de la siguiente tabla, conocida como tabla ANOVA de la regresión: Fuente de Variación Suma de cuadrados Grados de libertad Cuadrado Medio Valor de la Fcal Mod. Regresión Residuo Total SS(Y ) reg SS (Y ) res SS (Y ) tot 1 MSSreg MSS res MSS reg / MSS res El estadístico Fcal n 2 n 1 Valor de P prob( F1,n 2 Fcal ) MSSreg / MSSres sigue una F-Snedecor con 1 y n-2 g.l., y puede utilizarse para el contraste: H o 1 0; H1 1 0 (test de linealidad). Fijado , aceptar la hipótesis nula (P > ), es aceptar un modelo constante para Y ( Yi se rechaza la hipótesis nula. Este contraste es equivalente al 0 i ). Si P < que veremos más tarde, basado en la t-Student con n-2 g.l.. Medidas de la precisión son: el coeficiente de determinación: 2 R SS (Y ) reg / SS (Y ) tot , que informa de la proporción de la variabilidad explicada por el MSS res SS (Y ) res /( n 2) , que modelo, y la desviación estándar residual: s informa sobre el error medio cometido por el ajuste. En el caso de disponer de repeticiones es posible comprobar si el modelo tiene falta de ajuste, y si es así, habría 2 que probar otro modelo, por ejemplo el polinómico ( yi 0 1 xi 2 xi i ). El estudio de los residuos permite comprobar si se cumplen las hipótesis establecidas para los errores: siguen distribución Normal, son homogéneos e independientes (test Durbin-Watson). Si el modelo se acepta como válido, se pueden calcular los siguientes intervalos de confianza al 100(1 - )%: intervalo de confianza para 0, intervalo de confianza para 1, y intervalo de confianza para el valor medio esperado E(Y| X=X0) que permite definir las bandas de confianza para la línea teórica de regresión, al variar X0, utilizando el valor t1 / 2,n 2 de la t-Student con n-2 g.l. Fijado el valor de , también se pueden contrastar las siguientes hipótesis: Ho 1 0 mediante el estadístico: tcal b1 s i (Xi X) 2 que sigue una t- Student con n-2 g.l.. 11 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Ho o 0 mediante el estadístico: tcal b0 s n (Xi i X) 2 , que sigue una t-Student X i2 con n-2 g.l.. Fijado , si la probabilidad asociada (P) es < se acepta que el parámetro es distinto de cero ( i 0 ). Como aplicación de esta técnica: calibrado lineal de un método analítico, regresión lineal entre descriptotes sensoriales y compuestos químicos. Marcobal, A., M.C. Polo, P.J. Martín-Álvarez, M.V. Moreno-Arribas. "Biogenic amine content of red spanish wines: Comparison of a direct ELISA and an HPLC method for the determination of histamine in wines". Food Res. Int., 2005, 38, 387-394 Statistical methods: The statistical methods used for analysis were as follows: regression analysis for the calibration curves; ... Results: Linear regression analysis of area versus concentration of biogenic amines in the standard solution, using two replicates at five points in the range indicated in Table 2, was used. Regression parameters and statistical properties can be found in Table 2. In order to judge the adequacy of the linear models, the F-ratio for lack of fit was calculated (Massart, Vandeginste, Deming, Michotte, & Kaufman, 1988), and when significant results were obtained, a second-degree polynomial regression was used. As can be seen in Table 2, the regression lines obtained for all the amines were linear equations that passed through the origin, except for putrescine, which corresponded to a second-degree polynomial equation. The values of the coefficient of determination (R2 in Table 2) were higher than 0.99 and indicated that the fits were acceptable, with a standard deviation of residuals, expressed as a percentage of the mean value of the response, ( s / y ) 12% for the amines quantified. Table 2 also shows the mean values of the recovery results. Recovery has been estimated as (the amount found in the spiked sample - the amount found in the sample)*100/the amount added (Massart et al., 1988). The mean values correspond to the individual values obtained from the recovery experiments and also to the values obtained for two more different wine samples. The mean values of recovery obtained range from 88% for tyramine to 118% for methylamine. Detection limits were estimated from the area corresponding to three times the system noise (IUPAC, 1978), which was calculated as the mean of the area of the noise of seven injections of a 10% ethanol solution. The values obtained (Table 1) range from 0.006 mg/l for ethylamine to 0.057 mg/l for putrescine. Quirós, A., M. Ramos, B. Muguerza, M. A. Delgado, P.J. Martín-Álvarez, A. Aleixandre, and I. Recio. "Determination of the Antihypertensive Peptide LHLPLP in Fermented Milk by High-Performance Liquid Chromatography–Ion Trap Tandem Mass Spectrometry". Journal of Dairy Science, 2006, 89, 4527-35, Statistical Methods: Linear and polynomial regression for the calibration curves and nonlinear regression for studying the evolution of the concentration with the time of fermentation were calculated with …………… 12 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 3. TRATAMIENTO ESTADÍSTICO DE DATOS MULTIVARIANTES. El Análisis Multivariante puede definirse como el conjunto de métodos estadísticos y matemáticos para analizar, describir e interpretar observaciones multidimensionales. Como objetivos a conseguir mediante la utilización de estos métodos se pueden citar los siguientes: 1) Reducción de los datos, es decir simplificar la dimensionalidad de los datos sin perder información valiosa, 2) Buscar agrupamiento de las observaciones o de las variables basada en alguna medida de semejanza o similitud, 3) Definir reglas de decisión que permitan asignar un individuo con ciertas características a un grupo determinado, 4) Estudiar medidas de dependencia entre conjuntos de variables, 5) Predecir los valores de las variables a partir de la información aportada por otras, mediante un modelo matemático, 6) Construir y contrastar hipótesis sobre algunos parámetros poblacionales. Estos métodos pueden ser aplicados en cualquier campo de la Ciencia, y su utilización tuvo un gran crecimiento durante la década de los ochenta como consecuencia: del crecimiento de la utilización de las técnicas analíticas, de la aparición de los microprocesadores, y de la implementación en programas informáticos. Como limitación habría que indicar la necesidad de disponer de los programas de ordenador que generalmente tienen un coste elevado. Como herramientas de trabajo estos métodos utilizan: la Geometría algebraica, el Cálculo matricial, y el Cálculo numérico. 3.1 MATRIZ DE DATOS Para la aplicación de estos métodos multivariantes necesitamos, como substrato, una tabla de datos donde se recoge la información correspondiente a n muestras, u observaciones, sobre las cuales se han analizado p variables o características, es decir disponemos de datos correspondientes a p variables (X1, X2,...,Xp) analizadas en n muestras procedentes de una cierta población multivariante W. Entre las variables recogidas en la tabla de datos se pueden distinguir dos tipos: las variables cuantitativas que asignan un único valor a cada observación mediante una escala de intervalo o de razón (pueden ser discretas o continuas), y las variables cualitativas o nominales que permiten clasificar las observaciones en grupos mediante una escala nominal. Dentro de las últimas están las variables binarias (o dicotómicas), que solo pueden tomar dos valores. Las variables cualitativas se suelen codificar numéricamente para su tratamiento posterior. Según esta clasificación nuestra tabla de datos estará formada por ambos tipos de variables: cuantitativas y cualitativas codificadas numéricamente. 13 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Con nuestra tabla de datos, o matriz de datos, podemos pensar en dos posibles modelos geométricos: a) las n observaciones como n puntos en el Espacio Euclídeo p-dimensional de las p variables. Podríamos definir la matriz de distancias D(n,n) entre las n observaciones, y pensar en elipsoides de concentración de las mismas en el espacio, y b) las p variables como vectores del espacio Euclídeo n-dimensional de las n observaciones. Podríamos pensar en la matriz de correlación entre las variables a partir de los cosenos entre los correspondientes vectores. De la proyección de un vector en otro, se obtendría la idea de regresión de una variable en otra. Con vistas a buscar agrupamiento entre las observaciones se definen medidas de semejanza (similitud) y de desemejanza (distancia), relacionadas con la proximidad o lejanía de las mismas. En el caso de variables cuantitativas se pueden definir diversas distancias entre dos observaciones xi' ( xi ,1 ,..., xi , p ) y x 'j ( x j ,1 ,..., x j , p ) : la distancia di , j k Euclídea: | xi ,k di , j k ( xi ,k x j ,k ) 2 , la distancia ciudad o Manhattan: x j ,k | , la de Chebychev: di , j max | xi ,k x j ,k | ,..., etc, siendo la distancia Euclídea la más utilizada. Para variable cualitativas se utiliza como medida de distancia el porcentaje de desacuerdo entre los posibles valores: di , j ( N º de xi ,k x j ,k ) / p 3.2 REPRESENTACION GRAFICA DE LOS DATOS Con vistas a detectar posibles patrones en la tabla de datos se recurre a la representación gráfica de las observaciones y de las variables mediante objetos geométricos (puntos, líneas, polígonos, cuerpos, etc.). La semejanza entre los objetos permitirá encontrar los patrones buscados. La mayor limitación estará en que la representación será bidimensional, sobre una hoja de papel o pantalla del ordenador, y por tanto solo aproximada a la realidad. Los métodos de representación bidimensional más utilizados por los métodos multivariantes son: metanol marca absorban isoamili metpro12 propanol acetetil 1 2 3 4 5 metanol acetetil propanol metpro12 isoamili Métodos directos: En el caso de p variables los se pueden utilizar los diagramas de dispersión matricial, y los iconos a base de histogramas, de perfiles o de estrellas, o de tela araña. absorban Métodos de aproximación mediante proyección: En este apartado se incluyen las representaciones gráficas más utilizadas en el tratamiento de datos multivariantes. Se trata, en general, de definir nuevas variables (componentes principales, factores, variables canónicas,... ), cumpliendo algún objetivo, y proyectar las muestras sobre estas nuevas variables. La utilización de solo unas pocas variables, permite una visión general de los datos. Así en el caso de componentes principales (o factores) se trata de buscar una nueva variable Y que recoja la máxima variación de la nube de puntos, y en el caso de variables canónicas se trataría de buscar una nueva variable Y para lograr máxima separación entre los valores medios de los grupos, en la proyección. Métodos de aproximación mediante optimización: Consiste en buscar nuevas variables (generalmente dos), con el objetivo de conservar, al máximo, las distancias 14 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). entre las observaciones. Esta técnica, conocida como representación mediante mapas no lineales (“Non-Linear Mapping”), trata de minimizar la función: ˆ las distancias, entre cada dos muestras, en el L (di , j dˆi , j )2 , siendo d ij y d ij i, j espacio de las variables originales y en el espacio bidimensional de las nuevas variables, respectivamente. Representación gráfica de matrices cuadradas: La mejor representación bidimensional de la matriz de distancias entre muestras, o de la matriz de correlaciones entre variables, es el dendrograma, que informa de la similitud de la muestras o de la variables, véase figura adjunta, y que es el resultado, más importante, obtenido mediante la aplicación del Análisis de Conglomerados. 3.3 CLASIFICACION DE LOS METODOS A la hora de clasificar los métodos para el tratamiento de datos multivariantes se suele hablar de métodos supervisados y no supervisados, según se utilice o no la información de pertenencia de las observaciones a poblaciones o grupos definidos previamente. Si tenemos en cuenta la procedencia de las observaciones y los grupos de variables analizadas en las observaciones, podemos tener distintas matrices de datos. Una clasificación de esta matrices de datos podría ser la siguiente: a) Una única población y un solo grupo de variables Disponemos de una muestra aleatoria de tamaño n, procedente de una única población W, de p variables, con vector de medias ' ( 1 ,..., p) y matriz de covarianzas 11 ... 1p ... ... ... p1 ... pp , que representamos en la siguiente tabla de datos: Variable s X1 X2 ... Xp x1,2 ... x1,p 1 x1,1 x x ... x2,p Observ. 2 2,1 2,2 x3,2 ... x3,p 3 x3,1 ... ... ... ... ... xn,2 ... xn,p n xn,1 Podemos calcular los siguientes valores muestrales: el vector de medias x ' ( x1 , x 2 ,..., x p ) , y las matrices de covarianzas ( S = (sij) ), y de correlaciones ( R = (rij)) ). Los tratamientos multivariantes para este tipo de matriz de datos, todos ellos no supervisados, podrían ser: - Análisis de Componentes Principales (PCA), y/o el Análisis Factorial (FA) con vistas a reducir la dimensión de los datos y estudiar la interrelación entre variables y entre observaciones, y - Análisis de Conglomerados (CA) para buscar agrupamientos de la observaciones o de las variables. También, con vistas a la representación gráfica de las observaciones, es posible utilizar la representación de mapas no lineales (''no linear mapping'') (LNM). b) Varias poblaciones y un solo grupo de variables: En este caso se dispone de k muestras, con tamaños ni, procedentes de k poblaciones multivariantes Wi en las mismas p variables, con vectores de medias i y matrices de covarianzas i , que representamos en la siguiente tabla de datos: 15 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Variables X1 X2 x1,1,1 x1,2,1 x2,1,1 x2,2,1 ... Xp ... x1,p,1 1 Observ 2 ... x2,p,1 . W1 ... x3,p,1 3 x3,1,1 x3,2,1 ... ... ... ... ... ... xn1,p,1 n1 xn1,1,1 xn1,2,1 --------------------------------------------------------------------------------------------------------------... x1,p,k 1 x1,1,k x1,2,k ... x2,p,k Observ 2 x2,1,k x2,2,k . Wk ... x3,p,k 3 x3,1,k x3,2,k ... ... ... ... ... ... xnk,p,k nk xnk,1,k xnk,2,k Se pueden calcular los siguientes valores muestrales: los k vectores de medias ' xi ( xi1 , xi 2 ,..., xip ) , las k matrices de covarianzas ( Sj ) y las k matrices de correlaciones ( Rj ). Los métodos de tratamiento a utilizar para este tipo de matriz de datos, todos ellos supervisados, es decir, utilizan la información de la pertenencia de las muestras a los grupos de partida, podrían ser: - Métodos de Clasificación Supervisada: Análisis Lineal Discriminante (DLA) ó Cuadrático (DQA), que son métodos paramétricos que aceptan distribuciones normales de las poblaciones y matrices de covarianza iguales (DLA) o no (DQA)) Método SIMCA, que utiliza el modelo factorial de componentes principales en cada grupos. Método de los k vecinos más próximos (kNN), que es un método no paramétrico. Todos estos métodos permiten obtener reglas de clasificación para asignar nuevas muestras a las poblaciones o grupos de partida, Análisis Canónico de variables (CVA), con vistas a obtener una representación gráfica de las muestras, maximizando las diferencias entre los k grupos, y Análisis Multivariante de la Varianza (MANOVA), para comprobar diferencias entre los grupos. A la matriz global de datos formada por las n = ni observaciones, también podemos aplicarle los anteriores métodos no supervisados (PCA, FA y CA), siempre que no utilicemos la información sobre la procedencia de las observaciones. c) Una población y dos grupos de variables: Disponemos en este caso de una muestra de tamaño n procedente de una población multivariante W de p+q variables, con vector de medias , matriz de covarianzas , que recoge la información de un total de p+q variables analizadas en las mismas n observaciones, y que representamos en la siguiente tabla de datos: Observ. 16 1 2 Variables X1 X2 x1,1 x1,2 x2,1 x2,2 ... ... ... Xp x1,p x2,p Variables Y1 Y2 y1,1 y1,2 y2,1 y2,2 .. Yq . y1,q .. . y2,q .. . Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). x3,1 x3,2 ... x3,p y3,1 y3,2 .. y3,q 3 . ... ... ... ... ... ... .. ... ... . yn,q xn,2 ... xn,p yn,1 yn,2 .. n xn,1 Las variables Y's podrían ser características sensoriales de las. muestras, mientras que las X's serían las características químicas de las mismas. El objetivo fundamental sería estudiar la relación de dependencia entre ambos grupos de variables. Para cada grupo de variables podemos calcular los correspondientes vectores de medias ( x1 ,..., x p ) y ( y1 ,..., y q ) , las matrices de covarianzas (Sx y Sy) y de correlaciones (Rx y Ry), pero también las matrices de covarianza y correlaciones entre los dos grupos de variables (Sxy y Rxy). La matriz completa de covarianzas sería: correlaciones R Rx Rxy R yx Ry S Sx S xy S yx Sy , y la de . Los métodos de tratamiento a utilizar para este tipo de matriz de datos, que se incluyen dentro de los métodos para el estudio de dependencia entre los dos conjuntos de variables, podrían ser: Análisis de Correlación Canónica (ACC) para buscar dependencias entre ambos grupos de variables Análisis de Regresión Multivariada que incluye: Regresión Lineal Múltiple (MLR), Regresión por pasos sucesivos (SMLR), Regresión en Componentes Principales (PCR), y la Regresión por mínimos cuadrados parciales (PLS), con vistas a explicar las variables respuestas (variable Y's del segundo grupo) en función de las variables predictoras (variable X's del primer grupo) mediante un modelo matemático que permita predecir los valores de las variables respuesta. A la matriz global de datos formada por las n observaciones podemos aplicarle también los anteriores métodos no supervisados (PCA, FA y CA). 3.4 TRATAMIENTO PREVIO DE LOS DATOS. Con vistas a detectar datos anómalos en las matrices de datos anteriores, y antes de aplicar alguna de las distintas técnicas mencionadas, conviene obtener la información descriptiva de todas las variables (valores: x , s, s / x , xmin , xmax ), y los valores mínimo y máximo de los correspondientes datos estandarizados. Una simple inspección de estos dos últimos valores permitiría detectar posibles datos anómalos. También, para la detección de este tipo de datos, puede utilizarse el rango de valores admisibles: Q1 1.5 (Q3 Q1) x Q1 1.5 (Q3 Q1) . La estandarización de las variables, para lograr x 0 y s2 1 , suele ser utilizada antes de la aplicación de alguno de los métodos multivariantes. 4. TRATAM. DE DATOS MULTIVARIANTES. METODOS NO SUPERVISADOS 4.1 ANALISIS DE COMPONENTES PRINCIPALES El principal objetivo de esta técnica del Tratamiento de Datos Multivariantes, es reducir la dimensionalidad de los datos sin perder información valiosa, a partir de la interrelación de las variables analizadas. Se basa en transformar las variables originales en otras nuevas, que llamaremos componentes principales, cumpliendo: 1) cada nueva variable es combinación lineal, normalizada, de las originales, es 2 1 decir: Yi a1,i X i a2,i X 2 ... a p,i X p ; k ak ,i 2) las covarianzas entre cada par de estas nueva variables es cero ( cov(Yi , Y j ) 0 i j) 3) las nuevas variables tienen ( var(Y1 ) var(Y2 ) ... var(Y p ) ) varianzas progresivamente decrecientes 17 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 4) la suma de las varianzas de las p nuevas variables coincide con la varianza total (VT) de las variables originales, es decir: p i 1 var(Yi ) p i 1 var( X i ) VT Se trata, por tanto, de una transformación que podemos representar en forma matricial de la manera siguiente: Y( n, p ) X ( n, p ) A( p, p ) . Como resultado de la aplicación de esta técnica tendremos dos nuevas matrices que recogen toda la información para un posterior estudio: la matriz Y ( yi , j ) , de orden (n,p), con las coordenadas de las observaciones en las nuevas variables, y la matriz A (ai , j ) , de tamaño (p,p), que tiene en cuenta la interrelación entre las variables originales así como su contribución en la definición de las nuevas variables. Desde un punto de vista geométrico, se trata de una rotación de los ejes de coordenadas, una vez centradas las variables. Determinación de los coeficientes a i,j. Los coeficientes se determinan mediante el cálculo de los valores y vectores propios de la matriz de correlaciones R si las variables están estandarizadas (La mayoría de los programas proceden a estandarizar previamente las variables). En general, a j será el vector propio asociado con el jésimo mayor valor propio j y además se cumple que Var(Y j ) j . La matriz A tendrá como columnas los vectores propios asociados con los correspondientes valores propios, ordenados de manera decreciente por su valor, y tiene la siguiente propiedad: A 1 At , es decir es una matriz ortogonal. Esta propiedad permite establecer la ecuación matricial: X ( n , p ) Y( n , p ) A(t p , p ) que será muy útil, como veremos más adelante. Reducción de la dimensionalidad. Teniendo en cuenta que los valores de las varianzas son progresivamente decrecientes ( Var(Y j ) j ) y su suma es VT ( Var( j ) VT ), podemos considerar: Y1 explica un 100( 1 /VT)% del total de la varianza de la matriz original de datos, Y1 + Y2 explican conjuntamente, un 100(( 1 + 2 )/VT)% del total de la varianza de la matriz original de datos, y en general, Y1 + Y2 +...+ Yq explican conjuntamente, un 100(( 1 + 2 +...+ q )/VT)% del total de la varianza de la matriz original de Varianza total explicada datos. En muchas de las aplicaciones, con estas q (q<<p) Autovalores iniciales primeras componentes principales podemos % de la Componente Total varianza % acumulado explicar un elevado porcentaje de la varianza total, 1 6,682 55,679 55,679 lo que equivale a considerar que hemos logrado 2 3,092 25,771 81,450 3 1,556 12,963 94,412 una reducción de la dimensión original de los datos, sin perder más que una parte pequeña que aceptaremos no es muy valiosa. Este nº q de componentes suele corresponder con el número de valores propios >1. Matricialmente tendremos: Y( n ,q ) X ( n , p ) A( p ,q ) donde estas q nuevas variables, están incorrelacionadas, y explican un elevado porcentaje de VT. Interpretación de las componentes principales. A partir de la observación de la matriz de coeficientes (A(p,q)), podemos descubrir agrupamientos de las variables originales, según su contribución para definir las q nuevas variables. La matriz de coeficientes A se puede transformar 18 Matriz de componentesa hexol m1but2 metanol propanol benol m1but3 etxol fenol2 terpin cisol linol isol 1 ,960 ,952 ,934 ,928 ,910 ,902 ,803 -,376 ,547 ,606 Componente 2 3 -,337 -,269 -,280 ,399 -,502 ,929 ,855 ,810 ,760 ,949 Método de extracción: Análisis de compon. princ. a. 3 componentes extraídos Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). para lograr que sus coeficientes (los “loadings”) sean las correlaciones entre las componentes principales y las variables originales. A partir de esta matriz resulta mas fácil ver las variables que definen las componentes principales, y conocer el agrupamiento de las mismas, utilizando el porcentaje explicado con las primeras q primeras componentes. 2,00 VC VC 1,00 PC2 Representación de las muestras. A partir de la matriz Y, con las puntuaciones (coordenadas) de las muestras (observaciones) en las componentes principales, se puede obtener la representación bidimensional de las muestras en el plano definido por las dos primeras componentes principales. Esta representación de las muestras en función de las dos primeras componentes principales podría utilizarse para: explorar o confirmar posibles agrupamiento de las muestras, y para detectar posibles muestras anómalas (''outliers''). V+H+SO2 0,00 V+H V+H+SO2 V+SO2 V+H V+SO2 -1,00 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 PC1 4.2 ANALISIS FACTORIAL El objetivo de este método no supervisado, debido a Pearson, es describir la interdependencia entre las variables analizadas a partir de otras, no observadas, llamadas factores. Se acepta que existen k variables (factores) Fi, no observadas, que son responsables de las variables originales Xi. El planteamiento para el modelo factorial ortogonal supone que cada variable original es combinación lineal de los Xi b1i F1 b2i F2 ... bqi Fq factores no analizados, es decir: donde {F1, i i, F2,...,Fq} son los factores comunes, { 1 , 2 ,..., p} los específicos de cada una de las p variables, y bij representa las saturaciones (contribuciones o “loadings” de los factores). En el modelo se acepta que E ( Fi ) 0, E ( i ) 0 i , Cov ( Fi ) I , Cov ( i ) I , {F1, F2,...,Fq} y { 1 , 2 ,..., p} independientes. Se trata, por tanto, de una transformación de los datos, que en forma matricial, se puede expresar de la siguiente manera: X (*n , p ) F( n ,q ) B( q , p ) E( n , p ) , siendo X (*n , p ) la matriz de datos estandarizada. Desde un punto de vista geométrico se trata de buscar un subespacio, sobre el que se proyectan los n vectores fila x ' (puntos), correspondientes a las n observaciones de la matriz X, para hacer mínima la suma de los módulos de los vectores ' (filas de la matriz E). Una solución para este modelo factorial sería considerar como factores las componentes principales obtenidas a partir de la matriz de correlaciones (para estar estandarizadas), es decir, Fi = Yi , que se conoce como modelo factorial de componentes principales. La solución en q componentes principales, cumple todos t F( n,q ) Y( n,q ) , B( q , p ) A( q , p ) y los anteriores requisitos: basta con considerar: * X ( n, p ) t Y( n ,q ) A( q , p ) E( n , p ) , que es el modelo factorial en componentes principales. Esto es posible gracias a que la matriz A es una matriz ortogonal. Los resultados con este modelo serían, por tanto, las matrices Y con las coordenadas de las muestras y la matriz A con las contribuciones, o saturaciones, de las variables. La interpretación de los factores se realiza, como antes, a partir de la observación de la matriz B con las saturaciones (o "loadings"). Para una mejor definición de la contribución de los factores en las variables, es posible realizar una rotación de los q factores extraídos. La representación de las muestras (observaciones), como puntos en el plano definido por los dos primeros factores (rotados o no) informa de los posibles agrupamiento de las muestras y de la presencia o no de muestras anómalas (“outliers”). 19 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 4.3 ANALISIS DE CONGLOMERADOS Es un método no supervisado que tiene como objetivo buscar agrupamientos naturales entre las n observaciones (individuos) o entre las p variables de la tabla de datos. En el caso de agrupamiento de las observaciones, cada una de ellas es considerada como un punto en el espacio p-dimensional, con coordenadas dadas por los p valores de las variables. Existen dos técnicas de agrupamiento: las jerárquicas que ponen de manifiesto la similitud de las observaciones (o variables) entre sí, y que pueden ser divisivas (se parte inicialmente de un solo grupo con todas las observaciones), o aglomerativas (se parte inicialmente de tantos grupos como observaciones), y las no jerárquicas que sólo informan de la pertenencia de las observaciones a cada uno de los grupos. Para la aplicación de esta técnica son necesario las siguientes consideraciones: a) seleccionar una medida de semejanza entre los individuos (observaciones) o entre las variables, según el tipo de datos, b) seleccionar el algoritmo para unir los conglomerados, c) fijar el nº de conglomerados, que se desean formar, en el caso de los métodos no jerárquicos para el agrupamiento de las observaciones, y d) estandarización de las variables si son de distinta naturaleza. Métodos no jerárquicos. Fijado el número k de conglomerados ( C i ) que queremos formar, estos métodos permiten obtener una partición de orden k del conjunto de los n individuos ( W = {1,2,3,...,n} ), es decir: W C1 Ci C2 Cj ... Ck i j . Cada conglomerado C i estará formado por ni individuos, y tendrá un centroide cuyas coordenadas serán los valores medios de las p variables en los ni individuos, es decir: ci ( x1 , x2 ,..., x p ) . Para cada conglomerado podemos definir su dispersión que viene dada como la suma de las distancias al cuadrado de los ni puntos al d 2 ( j , ci ) . De esta forma es posible definir, para una centroide, es decir: Ei determinada partición (C1, C2, ..., Ck), la dispersión total, definida por: DT (C1 , C2 ,...,Ck ) k i 1 Ei . El objetivo de estas técnicas será buscar la partición de W, de orden k, que minimice esta dispersión total. Uno de los algoritmos más utilizado es el de las k-medias de McQueen, que consiste en: 1) asignar aleatoriamente los n individuos a los k grupos, 2) calcular los centroides de cada grupo, 3) asignar cada individuo al grupo con centroide más próximo, y 4) repetir los pasos 2) y 3) hasta lograr estabilidad. Aunque está garantizada lograr la estabilidad en un número finito de pasos, este puede disminuirse si se modifica el paso 3) recalculando los centroides después de cada asignación de los individuos. Como resultado de la aplicación de esta técnica, los programas de ordenador suelen proporcionar, además de la descripción de los k conglomerados, los valores medios de las variables en cada uno de los k conglomerados, y la comparación de dichos valores medios (ANOVA). Métodos jerárquicos aglomerativos. La utilización de estos métodos, válidos tanto para agrupar observaciones como variables, permite conocer la interrelación entre los individuos (o variables) mediante una representación gráfica bidimensional llamada dendrograma. Los algoritmos para aplicar estos métodos, en el caso de agrupamiento de observaciones, tienen en común los siguientes pasos: 1) se parte de tantos conglomerados como individuos (C1={1}, C2={2}, ...,Cn={n}), y se calcula la matriz de distancias, normalmente la Euclídea, entre ellos: D = ( d(Ci , Cj) ) = ( dij ) , 2) se buscan los dos conglomerados (Cp y Cq) con menor distancia ( d(Cp , Cq ) = min d(Ci , Cj ) ), 3) se unen los conglomerados Cp y Cq para formar un nuevo grupo y se calcula la nueva matriz de distancias entre los grupos (D = ( d(Ci , Cj)) ), y 4) se repiten los pasos 2) y 3) hasta lograr un único conglomerado formado por todos los n individuos. En general, la 20 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). matriz de distancias del primer paso, suele ser la distancia Euclídea. Las diversas formas de definir la distancia entre dos conglomerados en el paso 3), dan lugar a los distintos métodos de unión: método del enlace sencillo ( d(Ci , Cj) = mín d(wi,wj) ; wi Ci, wj Cj ) método del enlace completo ( d(Ci , Cj) = máx d(wi,wj) ; wi Ci, wj Cj ) método del centroide ( d(Ci , Cj) = distancia entre los 2 centroides ) método del enlace en media ( d(Ci , Cj) = media { d(wi,wj) ; wi Ci, wj Cj } ) método de Ward que tiene en cuenta, dentro de cada grupo, la dispersión de las x j ) 2 ). La unión de los muestras, con respecto al centroide ( E p j i ( xi , j conglomerados Cp y Cq, del paso 3), se realiza si E ( p,q ) Ep E q es mínima. Este método de unión es muy utilizado. Antes de la aplicación de estos métodos jerárquicos la matriz de datos suele ser estandarizada para dar igual importancia a todas las variables. La secuencia de los pasos del algoritmo, se recoge, de forma gráfica, en el dendrograma, que permite observar los grupos obtenidos. En el caso de agrupamiento de las variables, el algoritmo es similar, utilizando como medida de distancia entre variables el valor 1 - el coeficiente de correlación. Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal. Chim. Acta, 2006, 563 (1-2), 116-125. Statistical analysis: The statistical methods used for data analysis were: cluster analysis (Ward’s method from standardized variables), to discover natural groupings of the wine samples in relation to the two study factors (technological procedure and ageing time); …. Results: In an attempt to obtain a preliminary view of the main causes for the change in phenolic compounds during wine ageing, cluster analysis was carried out on the data of the quantified compounds of the 47 wines studied. Fig. 2 shows the dendrograma obtained. The squared Euclidean distance was taken as a measure of the proximity between two samples and Ward’s method was used as the linkage rule. The variables were standardized previously. As can be observed in this figure, there are two large groups of wines, one corresponding to wines aged for 14 months and the other to the remaining wines. In this second group, the wines are also grouped, to some extent, according to the time of ageing. As can be observed in Fig. 2, there was no grouping according to the technological procedure used to manufacture the wines. 21 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 5. TRATAM. DE DATOS MULTIVARIANTES. METODOS SUPERVISADOS La matriz de datos para la aplicación de estos métodos está formada por k matrices con ni filas y p columnas, que corresponden a k muestras aleatorias, de tamaño ni, procedentes de k poblaciones Wi, en las mismas p variables Xi, con vectores de medias i y matrices de covarianzas i . 5.1 ANALISIS CANONICO DE VARIABLES (CVA) Esta técnica multivariante, tiene como objetivo, obtener la mejor representación gráfica q-dimensional, de las muestras, maximizando las diferencias entre los k grupos estudiados, a partir de la información proporcionada por las p variables Xi analizadas (q = min (p,k-1)). Para lograr este objetivo se obtienen q nuevas variables Yi, llamadas variables canónicas, que son combinación lineal de las originales, están incorrelacionadas entre sí, y maximizan las marca diferencias entre los k grupos estudiados. Se trata, por tanto, de transformar la matriz X con n = ni filas y p columnas, en una mueva matriz con n filas y q columnas ( q = mín (p,k-1) ), mediante la transformación matricial Y(n,q) = X(n,p) A(p,q). La representación de las n observaciones en el plano definido por las dos primeras variables canónicas, es el resultado principal de la aplicación de esta técnica Función 1 multivariante. La distancia euclidea de las muestras a los centroides de cada grupo podría utilizarse como una regla de asignación de las muestras. funciones discriminantes canónicas 6 3 1 2 1 2 Función 2 3 3 4 Centroide 0 -3 -6 4 -9 -15 -10 -5 0 5 10 15 5.2 METODOS DE CLASIFICACION SUPERVISADA Dos son los objetivos fundamentales de estos métodos: a) encontrar reglas de clasificación para lograr una diferenciación de los grupos, y b) utilizar dichas reglas para asignar nuevas observaciones a alguno de los grupos estudiados. Para ello se parte de la información proporcionada por p variables analizadas en las muestras (observaciones) genuinas de los diferentes grupos. La matriz de datos de partida, estará formada por las k matrices, con las muestras de entrenamiento, indicada anteriormente. También se puede disponer de otra matriz de datos, {x i ,1 , x i , 2 ,..., x i , p }i 1, 2,...,n , formada por nt muestras (grupo test), analizadas en las p t variables, a las que queremos aplicar las reglas de asignación obtenidas con el conjunto de entrenamiento, para conocer su procedencia (podrían ser botellas de whisky de la marca A, abiertas, y sometidas a inspección, para verificar su autenticidad). 5.2.1 Análisis Discriminante Dentro de los métodos de clasificación supervisada, destaca, por su amplia utilización el Análisis Discriminante. Este método paramétrico, acepta que el vector de variables aleatorias (X1, X2,..., Xp) sigue una distribución normal multivariante en cada uno de los k grupos ( N ( i , i ) ), y minimiza la probabilidad de clasificación errónea de las muestras del conjunto de entrenamiento (regla de tipo bayesiano). Si se acepta que las matrices de covarianzas en los grupos son idénticas ( N ( i , ) ), el Análisis Lineal Discriminante (ALD) calcula k funciones lineales de clasificación, 22 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). una para cada grupo, d i ci j p j 1 , que aij X j i 1,...,k Coeficientes de la función de clasificación permitirán clasificar las muestras del conjunto de entrenamiento con un elevado porcentaje de clasificación correcta, si las p variables tienen un elevado poder discriminante. La regla de asignación para la muestra w' ( x1 , x2 ,..., x p ) , será: w W si d i ( w) max d j ( w) marca 1 2 3 16,983 ,055 5,583 2,895 -,271 2,116 1,511 -5,266 -4,767 ,964 2,516 ,874 4,069 7,384 6,675 1551,406 2559,752 2321,896 -641,801 -904,519 -776,472 Funciones discriminantes lineales de Fisher metanol acetetil propanol metpro12 isoamili absorban (Constante) i para j 4 1,004 1,364 -1,978 1,645 4,908 1557,173 -429,555 Resultados de la clasificación 1,..., k . Las marca 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Grupo de pertenencia pronosticado 2 3 4 18 0 0 0 0 12 0 0 0 0 15 0 0 0 0 8 100,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0 18 0 0 0 0 12 0 0 0 0 15 0 0 0 0 8 100,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0 1 Total funciones de clasificación y la matriz de clasificación de las muestras del conjunto de entrenamiento, son los resultados más importantes, incluidos en la mayoría de los programas de ordenador, que tienen implementada esta técnica multivariante. El Análisis Lineal Discriminante por pasos sucesivos permite seleccionar, en cada paso, la variable Xi que más ayuda en la discriminación de los k grupos de muestras, definiendo las funciones lineales de clasificación con las variables seleccionadas (subconjunto de las p originales). Original Recuento % Validación cruzada Recuento % 18 12 15 8 100,0 100,0 100,0 100,0 18 12 15 8 100,0 100,0 100,0 100,0 Si las matrices de covarianzas son desiguales ( N ( i , i ) ), el Análisis Cuadrático Discriminante (AQD) permite obtener k funciones cuadráticas para la clasificación de las muestras (Martín-Álvarez et al 1988, 1991, Herranz et al 1989, 1990). 5.2.2 Método SIMCA El método SIMCA calcula el modelo factorial de componentes principales en cada grupo, y asigna las muestras a los grupos según su acoplamiento a los modelos teniendo en cuenta el valor del estadístico F para la asignación. Para la representación gráfica utiliza los gráficos de Cooman. 5.2.3 Método kNN El método de los k vecinos más próximos (kNN), es un método no paramétrico de clasificación que asigna cada muestra al grupo más representado entre los k vecinos más próximos (según la matriz de distancias euclideas) Grupo 1 Grupo 2 3 k=9; 5 del 1 y 4 del 2 se asigna al 1 1 2 Hernández, T., I. Estrella, D. Carlavilla, P.J. Martín-Álvarez, M.V. Moreno-Arribas.“Phenolic compounds in red wine subjected to industrial malolactic fermentation and ageing on lees”. Anal. Chim. Acta, 2006, 563 (1-2), 116-125. Statistical analysis: The statistical methods used for data analysis were: …; and stepwise discriminant analysis to select the variables most useful in differentiating the groups. …. Results: In order to select the phenolic compounds most useful to differentiate the samples of wines aged on lees (batches A, B, C, D, E and F), stepwise discriminant analysis was applied. Values of 4.0 and 3.9 were used for F statistics to enter and to remove variables, respectively. Five of the phenolic compounds quantified (see Table 4) were selected: cis-resveratrol, cis-p-coumaric acid, vanillic acid, (+) catechin and trans-caffeic acid. A 100% correct assignment of the wines was obtained either by the standard or the leave-one-out cross 23 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). validation procedures applied to these selected compounds. Fig. 3 shows the wines on the plane defined by the first two canonical variables, obtained with the five selected phenolic compounds. The population canonical ellipses for the five types of wines for a 95% confidence limit are also shown in the figure. Again the wines are grouped by time of ageing but cannot be differentiated according to the technological variable used in their manufacture. This suggests that during storage, ….. 6. TRATAM. DE DATOS MULTIVARIANTES. METODOS DE DEPENDENCIA Disponemos de una muestra aleatoria de tamaño n, procedente de una población multivariante W en p+q variables (X1, X2,..., Xp, Y1, Y2, ..., Yq), con vector de medias matriz de covarianzas . Es decir, se dispone de la información de un total de p+q variables analizadas en las mismas n observaciones. 6.1 ANALISIS DE CORRELACION CANONICA (ACC) El objetivo de esta técnica multivariante es buscar dependencias lineales entre ambos bloques de variables (bloque X y bloque Y). Para ello se calculan m nuevas variables (m = min(p,q)), llamadas canónicas, en cada bloque (F1, F2, ..., Fm, S1, S2, ..., Sm), de manera que estén máximamente correlacionadas entre sí (corr(F1,S1) corr(F2,S2) ... corr(Fm,Sm)). Se trata, por tanto, de obtener las matrices A y B, que permitan las siguientes transformaciones matriciales: F = XA y S = Y B. Los resultados de aplicar esta técnica serían las matrices F, S, A y B, y los valores de las correlaciones canónicas (corr(Fi,Si)). La observación de las sucesivas columnas de las matrices A y B permitirán descubrir las variables más correlacionadas con cada variable canónica. También es posible obtener la representación gráfica de las sucesivas columnas de las matrices F y S (p.e. el diagrama de dispersión de F1 frente a S1). Este método no puede ser utilizado para la predicción de los valores del bloque Y. 6.2 MODELOS DE REGRESION MULTIVARIANTE Los elementos a considerar a la hora de aplicar estas técnicas de regresión, son: Variable respuesta, o variable dependiente Y (cada una de las variables del bloque Y), y Variables predictoras X1, X2,..., Xp. ( o variables independientes). La finalidad de estas técnicas es modelar la variable respuesta Y, mediante un modelo matemático: Y f ( X1 , X 2 ,..., X p ) . Para ello se dispone de un conjunto de n muestras, conjunto de aprendizaje o calibración: {( xi1 , xi 2 ,..., xip , yi )}i 1,...,n , para estimar los parámetros de la función f ( X 1 , X 2 ,..., X p ) . En algunos casos, se dispone 24 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). también, de un {( x j1 , x j 2 ,..., x jp , y j )}j conjunto 1,...,a de a muestras, grupo evaluación: para validar el modelo estimado. Una vez validado el modelo estimado, mediante el grupo de evaluación, o por validación interna, puede aplicarse para la predicción del valor de la variable Y en las t muestras del grupo test: {( x j1 , x j 2 ,..., x jp , )}j 1,...,t . Los datos del conjunto de calibración pueden haber sido seleccionados mediante un diseño fijo de experimentos, cuando el objetivo fundamental es estimar los coeficientes de regresión del modelo con vista a una posible optimización de la respuesta, o mediante un diseño aleatorio, cuando sólo estamos interesados en utilizar el modelo para realizar predicciones 6.2.1 Regresión lineal múltiple En el caso de regresión lineal múltiple se acepta que los valores de la variable dependiente Y, obedecen al modelo lineal de primer orden yi 0 1 xi1 2 xi 2 ... p xip i , que tiene en cuenta, tanto los valores de las p variables independientes X1, X2,..., Xp, como el error aleatorio de la determinación analítica y de la posible contribución de otras variables no controladas. Para este modelo matemático, se aceptan las siguientes hipótesis: 1) la variable dependiente Y, es una v.a., sujeta a error, 2) las p variables Xi no son variables aleatorias, o su error es despreciable frente al de Y, y 3) los errores (o residuos) i son independientes y con distribución N (0, ) (lo que implica que Y ~ N ( La estimación de los parámetros 0 i xi , )) del modelo teórico, puede realizarse mediante el 1 procedimiento de mínimos cuadrados ( b ( X ' X ) X ' y , siendo X la matriz con los valores de las p variables en las n muestras del conjunto de calibración y con una primera columna, añadida, de unos), dando lugar al siguiente modelo estimado: yˆi b0 b1xi1 b2 xi 2 ... b p xip . Como medida de precisión del ajuste se utiliza el i coeficiente de determinación múltiple R 2 , que informa de la proporción de la suma de cuadrados de las desviaciones de Y respecto de su valor medio, explicada por el modelo ( R 2 SSreg / SStot siendo SStot SSreg SSerror ), y la desviación estándar residual s, que informa del tamaño del error cometido ( s n i 1 ( yi yˆi )2 /( n p 1) ). En el caso de disponer de repeticiones, varios valores de Y para los mismos valores de las variables X1, ..., Xp, es posible comprobar si el modelo tiene falta de ajuste mediante la descomposición recogida en la correspondiente tabla ANOVA para la regresión SStot SSreg SSerror SSreg SS puroerr SS faltaaj . Para validar el modelo es preciso confirmar las hipótesis establecidas sobre los errores i (si son homogéneos, independientes y siguen distribución Normal). En caso de aceptar su validez, se podría obtener un valor para estimar el comportamiento en predicción del modelo al aplicarlo a muestras no utilizadas para estimarlo, que puede medirse mediante el error medio en predicción (RMSEP) y que se calcula a partir de los n datos del conjunto de calibración mediante el procedimiento de validación interna o "leave one out" ( RMSEP n i 1 ( yi yˆ ( i ) ) 2 / n siendo yˆ(i ) el valor predicho para la variable Y en la i-ésima observación al utilizar las n -1 restantes en la estimación del modelo). 25 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Si el modelo es válido, es posible calcular intervalos de confianza para los parámetros Como resultados más i , así como realizar test de hipótesis sobre los mismos. importantes que se pueden obtener mediante la aplicación de esta técnica, podemos citar los siguientes: los valores de los coeficientes de regresión (bi), las desviaciones estándar de los mismos, los valores del estadístico t-Student para confirmar la hipótesis H0 0 , las probabilidades asociadas a este contraste, y a veces, los intervalos i de confianza para los parámetros, los valores del coeficiente de determinación R 2 , del coeficiente de correlación múltiple R y de la desviación estándar residual (s) que informan de la precisión, la descomposición de la variabilidad de los valores de la variable Y (tabla ANOVA), y la tabla con los valores observados, calculados con el modelo, y los residuos de la variable Y. Como resultado gráfico del ajuste suele utilizarse la representación gráfica de los valores calculados ( yˆ i ) frente a los observados ( y i ) . Si existe multicolinealidad entre las variables Xi, la matriz de inflación (X'X) será casi singular, y su inversión afectará en las estimaciones e intervalos de confianza para los parámetros, y en las predicciones. En este caso se pueden utilizar otros procedimientos: el método de pasos sucesivos para selección de algunas de las p variables, la regresión sesgada, la regresión en componentes principales o la regresión por mínimos cuadrados parciales. 6.2.2 Diseño de Experimentos El Diseño de Experimentos trata de cómo dirigir y planificar los experimentos, en orden a extraer la máxima cantidad de información a partir de los datos adquiridos en presencia de ruido, con el menor número de ensayos experimentales. La idea fundamental es variar todos los factores importantes simultáneamente en un conjunto de experimentos planificados, y conectar los resultados con la variable respuesta, mediante un modelo matemático. El modelo estimado se utiliza para interpretar, predecir y optimizar. Los objetivos del diseño de experimentos, incluyen: 1) conocer los factores, que de manera individual o en interacción con otros factores, tienen una influencia real en los valores de las variables respuesta (fundamentalmente para el “screening” de los factores), 2) los niveles de los factores que dan lugar a condiciones óptimas, y 3) predecir los valores de las variables respuesta para ciertos niveles de los factores (fundamentalmente para el modelado mediante superficie de respuesta). Los términos empleados en el Diseño de Experimentos son: 1) los factores o variables independientes (Fi), que se cree influyen en la variable respuesta (Y) de un cierto experimento, son controladas por el experimentador, pueden ser de tipo cualitativo o cuantitativo, y pueden tomar diferentes valores (niveles); 2) la variable respuesta o dependiente (Y) que se pretende estudiar, cuyos valores se cree están influidos por los niveles de los factores, y por otras causas que aceptaremos como error experimental, y que son de tipo cuantitativo; 3) el modelo o superficie de respuesta, que es la función matemática con la que se pretende modelizar la variable respuesta analizada, en función de las variables predictoras o independientes, y con parámetros (coeficientes) que hay que estimar; 4) la matriz de experimentos (E), formada por tantas columnas como factores y tantas filas como experimentos a realizar (n), donde figuran los valores reales de los factores en cada experimento; 5) la matriz del diseño (D) con los valores codificados para los factores ( X i f ( Fi ) ) y que tiene tantas columnas como factores y tantas filas como experimentos hay que realizar; 6) la matriz del modelo (X) donde figuran los valores codificados que toman 26 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). las variables independientes, formada por tantas columnas como parámetros (términos) tiene el modelo y tantas filas como experimentos hay que realizar. Las fases o etapas del Diseño de Experimentos son: I: fase de diseño: para definir los factores y sus niveles, las variables respuestas y los objetivos (cribado de factores o modelo de superficie de respuesta); II: fase de análisis: para explorar, ajustar los datos, revisión del ajuste, diagnósticos, interpretar el modelo, y refinado del mismo; III: fase de utilización del modelo: para interpretar, seleccionar las mejores condiciones, y para predicción. Los diseños se pueden clasificar, teniendo en cuenta el modelo matemático fijado, en: 1) diseños o modelos de primer orden que se utilizan el modelo lineal simple y k 0 i 1 , x i i que incluyen solo términos lineales, con k+1 parámetros y k 0 i 1 i Xi i j (coeficientes), ij Xi X j o el modelo lineal con factores y k interacciones: . Su objetivo será estimar los parámetros del modelo con la máxima precisión posible y el menor número n de experimentos a realizar. El valor mínimo de n será el número de coeficientes + 1. Entre los distintos tipo de matrices de experiencias, para la estimación de los parámetros del modelo lineal de primer orden, cabe destacar: las matrices de Hadamard y los planes factoriales a 2 niveles, completos o fraccionarios. Se emplean con fines de cribado para identificar los factores que dan lugar a cambios substanciales en la variable respuesta, o que tienen un efecto significativo sobre la misma. 2) Los diseños o modelos de segundo grado que utilizan el modelo teórico completo de segundo orden: y términos lineales ( i X i ), los k 2 k 0 i 1 i Xi i j ij Xi X j k i 1 ii X i2 , que tiene los k términos correspondientes a las interacciones ( ij X i X j ) y los k términos cuadrados ( ii X i2 ). Entre los diseños de experimentos de segundo grado cabe citar: los diseños factoriales completos 3k y los diseños compuestos centrados, que los más utilizados, y que se emplean con fines de modelado mediante superficie de respuesta. Diseños para k Niveles: Objetivo (modelo): variables: Factorial completo 2k (k<5) 2 (o 3 si Cribado (variables contí. o categór.) todas (Efec. Princ. e Inter.) cont.) 2 Cribado Factorial fraccionado (k 5) (Efec. Princ. e Inter.) (variables contí. o categór.) 2 Cribado (Efec.Princ.) Plackett-Burman (4 k 32) (variables contí. o categór.) 5 Optimización (Ef. Prin, Compuesto central (2 k 6) Inter. y Cuad.) (ortogonal o rotado) (var. contí.) Factorial completo 3k y 3 Optimización (Ef. Prin, Inter. y Cuad.) Box-Behnken (3 k 6) (var.cont.) 4 Cribado Para mezclas (k 3) 6 Optimización (var. contí.) Design: Two-level factorial Full Fractional factorial Plackett-Burman Central composite Three-level Full factorial Box-Behnken Mixture:SimplexLattice Mixture: SimplexCentroid 27 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 7. BIBLIOGRAFIA A.A. Afifi and S.P. Azen."Statistical analysis. A computer oriented ” Academic Press, Inc. (1979) R.G. Brereton "Chemometrics applications of mathematics and statistics to ... ". Ellis Horwood (1990) R. Cela et al. "Avances en Qimiometría Práctica". Univ.Santiago de Compostela (1994). C.M. Cuadras “Métodos de análisis multivariante” EUNIBAR (1981) N.R. Draper and H.Smith "Applied regression analysys" John Wiley & Sons, Inc. (1981). W.J. Krzanowski “Principles of multivariate analysis. ...” Oxford statistical science series; v.3, (1988) M. O’Mahoney “Sensory evaluation of food. Statistical methods and procedures”, Marcel Dekker Inc.(1986) A. Martín y J.D. Luna. "Bioestadística para las Ciencias de la Salud", Edic.Norma, Madrid (1989). P.J. Martín Álvarez "Quimiometría Alimentaria". Ediciones de la UAM (2000). P.J. Martín-Álvarez, "PRÁCTICAS DE TRATAMIENTO ESTADÍSTICO DE DATOS CON EL PROGRAMA SPSS PARA WINDOWS. APLICACIONES EN EL ÁREA DE CIENCIA Y TECNOLOGÍA DE ALIMENTOS". Ed.: CSIC, Colec. Biblioteca de Ciencias, nº 27. Madrid, 258 pags., 2006. ISBN: 84-00-08470-5. P.J. Martín-Álvarez “Statistical Techniques for the Interpretation of Analytical Data”, Chapter 13, pages 677-713 in “Wine Chemistry and Biochemistry”. M.Victoria Moreno-Arribas & M. Carmen Polo Editors, Springer (2009). ISBN: 978-0-387-74116-1. P.J. Martín-Álvarez “Guía práctica para la utilización del programa STATISTICA para Windows (versión 7.1) “. P.J. Martín-Alvarez Ed, 2014. ISBN: 978-84-695-9934-1. D.L. Massart, et al. “Chemometrics: A textbook” Elsevier (1990) J.C.Miller and J.N. Miller "Statistics for analytical chemistry. Ellis Horwood Ltd (1984) D.F. Morrison “Multivariate Statistical Methods” McGraw-Hill, Inc. (1976) D. PEÑA. "Estadística: Modelos y métodos. 2. Modelos lineales y ...”. Alianza Editorial S.A.(1992). M.A.Sharaf, D.L. Illman and B.R.Kowalski. "Chemometrics". John Wiley&Sons, Inc.(1986). 28 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). 8. Comandos del programa SPSS: Con el SPSS, para contrastar la hipótesis Ho = 0 = 0.4, elegir en la barra de menús el procedimiento Analizar, Comparar medias, Prueba T para una muestra, y colocar el nombre de la variable en el cuadro de Contrastar variables:, y el valor de referencia 0.4 en el cuadro Valor de prueba:, pulsar en Aceptar. Para contrastar la hipótesis Ho 1 = 2 y conocer los valores descriptivos de la variable en los 2 grupos, elegir Analizar, Comparar medias, Prueba T para muestras independientes, y colocar el nombre de la variable en el cuadro Variable a contrastar, y el nombre de la variable de agrupamiento en el cuadro Variable de agrupación, con los correspondientes valores en la ventana de Definir los grupos, pulsar en Continuar y en Aceptar. Para contrastar la hipótesis Ho 1 = 2 en el caso de muestras relacionadas, utilizar Analizar, Comparar medias, Prueba T para muestras relacionadas; seleccionar las dos variables y colocarlas en el cuadro Variables relacionadas, y pulsar Aceptar. Para contrastar la hipótesis de igualdad de k medias (Ho 1 = 2 = … = 6) y conocer los valores descriptivos en cada uno de los grupos, utilizar Analizar, Comparar medias, ANOVA de un factor, y colocar el nombre de la variable en el cuadro de Dependientes:, y el nombre de la variable de agrupamiento en el cuadro Factor:. En la ventana de Opciones, elegir en Estadísticos: Descriptivos, Prueba de homogeneidad de la varianza, Welch, y seleccionar Gráfico de las medias, pulsar Continuar. En la ventana Post Hoc elegir S-NK, y Continuar y Aceptar. También se puede utilizar el procedimiento Analizar, Modelo lineal general, Univariante, y colocar el nombre de la variable en el cuadro Dependiente:, y la variable de agrupamiento en el cuadro Factores fijos: y pulsar en Aceptar. En el caso de ANOVA de 2 factores se puede utilizar el procedimiento Analizar, Modelo lineal general, Univariante, y en la ventana de este comando colocar el nombre de la variable en el cuadro Dependiente:, y los nombre de los factores en el cuadro Factores fijos: (o Factores aleatorios:) y pulsar en Aceptar. Para realizar el análisis de regresión lineal simple/múltiple, utilizar el procedimiento Analizar, Regresión, Lineal, y colocar la/s variable/s independiente/s (xi) en el cuadro Independientes:, y la variable dependiente (y) en el cuadro Dependiente: En la ventana Estadísticos... seleccionar Estimaciones e Intervalos de confianza en Coeficientes de regresión, y Ajuste del modelo, pulse Continuar, para obtener los parámetros estimados y los intervalos de confianza. Para obtener el gráfico de dispersión de los residuos tipificados frente a los valores observados, y el gráfico de probabilidad normal de los residuos, hay que abrir la ventana Gráficos... y colocar la variable DEPENDNT en el cuadro del eje X, y la variable ZRESID en el cuadro de la variable Y, y seleccionar Gráfico de prob. normal en Gráficos de residuos tipificados, y pulsar Continuar. Para guardar, como nuevas variables, los valores calculados y los residuos, hay que abrir la ventana Guardar... y seleccionar No tipificados en Valores pronosticados, y No tipificados en Residuos, y pulsar Continuar. En la ventana Opciones..., compruebe que está seleccionado Incluir constante en la ecuación del modelo teórico, y pulse Continuar. Para realizar el análisis de componentes principales (o el factorial) utilizar el comando Analizar, Reducción de datos, análisis factorial, y colocar las nombres de las variables en el cuadro de Variables. En la ventana Descriptivos: en Estadísticos elegir Univariados y Solución inicial; en Matriz de correlaciones elegir Coeficientes y Nivel significación; pulsar Continuar. En la ventana de Extracción: en Método elegir Componentes principales, en Analizar elegir Matriz de correlaciones, en Extraer elegir Aautovalores >1, y en Mostrar elegir Solución factorial sin rotar y Gráfico de sedimentación; pulsar Continuar. En la ventana de Rotación: en Método elegir Ninguno, y en Mostrar elegir Gráficos de saturaciones; pulsar Continuar. En la ventana de Puntuaciones: señalar Guardar como variables y Método de regresión, pulsar Continuar. Por último, en la ventana de Opciones: en Valores perdidos elegir excluir casos según lista, y en Formato visualización de los coeficientes elegir Ordenar por tamaño y Suprimir valores absolutos menores que 0.25; pulsar Continuar; y pulsar Aceptar en ventana principal. Para el análisis de conglomerados utilizar el procedimiento Analizar, Clasificar, Conglomerados jerárquicos. Colocar los nombre de las variables en el cuadro de Variables, en Conglomerar elegir casos, en Etiquetar casos mediante elegir el nombre de la variable alfabética que se desea utilizar, y en Mostrar elegir Estadísticos y gráficos. En la ventana de Estadísticos elegir Historial de conglomeración y Matriz de distancias; Continuar. En la ventana de Gráficos elegir Dendrograma; en Témpanos elegir todos los conglomerados, y en Orientación elegir Vertical. En la ventana de Método: en Método de conglomeración elegir el Método de Ward; en Medida elegir Intervalo y Distancia euclídea al cuadrado, en Transformar valores elegir Estandarizar: Puntuaciones Z por variable; pulsar Continuar y Aceptar. Para aplicar el análisis lineal discriminante utilizar el procedimiento Analizar, Clasificar, Discriminante, y colocar los nombres de las variables en el cuadro Independientes:, el nombre de la variable de agrupamiento con sus valores, en el cuadro Variable de agrupación, y seleccionar Introducir independientes juntas, o Usar método de inclusión por pasos. 29 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Comandos del programa STATGRAPHICS 5.1: Tratamientos: Procedimientos: I.- Univariante Un grupo de datos: Valores descriptivos, Descripción, Datos Numéricos, Análisis Unidimensional (Resultados: Normalidad, Intervalos de confianza, Valores descriptivos, Intervalos de confianza, Contraste para la media, Contraste para una media histograma, gráfico de cajas, gráfico de probabilidad). Analyze,Variable Data,One-Variable Analysis en Statgraphics Centurion XV. Dos grupos de datos: Comparación, Dos muestras, Comparación de dos muestras (Resultados: Contraste para dos medias Resumen estadístico, comparación: de medias, de desviaciones y de independientes medianas, histogramas y grafico de cajas ). Analyze,Variable Data,Twosample comparisons, Independent samples, en Statgraphics Centurion XV. Contraste para dos medias relacionadas Comparación, Dos Muestras, Comparación de Muestras Pareadas (Resultados: Resumen estadístico, intervalos de confianza, contraste de hipótesis, histogramas, y grafico de cajas, y gráfico de probabilidad normal). Analyze,Variable Data,Two-sample comparisons, Paired samples, en Statgraphics Centurion XV. k>2 grupos de datos: Comparación, Análisis de la Varianza, ANOVA Simple (Resultados: Tabla ANOVA de un factor ANOVA, Tabla de Medias, Contrastes: múltiples, de varianzas, de KruskalWallis, y Gráficos de medias). Improve,Analyis of variance, One- way ANOVA, en Statgraphics Centurion XV. ANOVA dos factores con o sin Comparación, Análisis de la Varianza, ANOVA Factorial (Resultados: interacción Tabla ANOVA (Opciones de análisis para controlar términos), Tabla de Medias, Contrastes, gráfico de medias y de interacción). Improve,Analyis of variance, Multifactor ANOVA, en Statgraphics Centurion XV. II.- Bivariante Regresión lineal simple Dependencia, Regresión simple (Resultados: Resumen regresión, ANOVA con falta de ajuste, Intervalos de confianza, Tabla valores estimados, y gráficos: del modelo ajustado, de observados y calculados, y de residuos). Improve, Regression Analyis, One Factor, Linear Regression, en Statgraphics Centurion XV Regresión polinómica Dependencia, Regresión polinómica (Resultados: Resumen regresión, ANOVA con falta de ajuste, Tabla valores estimados, y gráficos: del modelo ajustado, de observados y calculados). Improve, Regression Analysis, One Factor, Polynomial Regression, en Statgraphics Centurion XV Regresión no lineal Avanzado, Regresión avanzada, Regresión no lineal (Resultados: Resumen regresión y gráfico del modelo ajustado). Improve, Regression Analysis, Multiple Factors, NonLinear Regression, en Statgraphics Centurion XV III.- Multivariante Análisis Componentes Principales Avanzado, Métodos Multivariables, Componentes Principales (Resultados: Resumen, Pesos, Coordenadas, gráfico de sedimentación, de dispersión, de componentes, biplot). Analyze,Variable Data,Multivariate Methods Principal Components en Statgraphics Centurion XV. Análisis Conglomerados Avanzado, Métodos Multivariables, Análisis Cluster (Resultados: Resumen, Procedimiento de aglomeración, dendrograma y gráfico de dispersión). Control, Classification Methods, Cluster Analysis en Statgraphics Centurion XV. Análisis Discriminante Avanzado, Métodos Multivariables, Análisis Discriminante (Resultados: Resumen, Funciones de clasificación, Funciones discriminantes, Tabla de clasificación, Resumen estadísticos por grupos, gráfico de dispersión para 2 variables, y gráfico de las funciones discriminantes). Control, Classification Methods, Discriminant Analysis, en Statgraphics Centurion XV. Regresión lineal Múltiple Dependencia, Regresión múltiple (Resultados: Resumen análisis de regresión, ANOVA, Intervalos de confianza, Informes con valores estimados y residuos, y gráfico de observados frente a predichos). Improve, Regression Analysis, Multiple Factors, Multiple Regression, en Statgraphics Centurion XV IV.- Diseño de experimentos Avanzado, Diseño experimental, Crear diseño. Introducir valores variable respuesta. Avanzado, Diseño experimental, Analizar diseño.Resultados: Resumen, ANOVA, Coeficientes, Predicciones, Optimización, Gráfico de Pareto, gráficos de superficie de respuesta. Improve,Experimental Design Creation / Experimental Design Analysis, en Statgraphics Centurion XV. Gráfico de Pareto estandarizado para vitE Superficie de Respuesta estimada A:tem + - Rendimiento AA B:pres AB BB 0 2 4 6 8 Efectos estandarizados 30 23 19 15 11 7 3 320 280 240 -1 200 160 35 45 55 65 75 120 pres tem Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Comandos del programa STATISTICA 7.1: Tratamientos: Procedimientos: I.- Univariante Un grupo de datos: Valores descriptivos, Statistics, Basic Statistics and Tables, t-test, single sample Normalidad, Intervalos de confianza, (Resultados: Valores descriptivos, Intervalos de confianza, Contraste para una media Contraste para la media, histograma, gráfico de cajas, gráfico de probabilidad) Dos grupos de datos: Statistics, Basic Statistics and Tables, t-test, independent by Contraste para dos medias independientes groups (Resultados: Resumen estadístico, comparación: de medias, varianzas, histogramas y grafico de cajas ) Contraste para dos medias relacionadas Statistics, Basic Statistics and Tables, t-test, dependent simples (Resultados: Resumen estadístico, contraste de hipótesis, y grafico de cajas) Más de 2 grupos de datos: Statistics, Basic Statistics and Tables,Breakdown & one-way ANOVA de un factor ANOVA, o Statistics, ANOVA, One-way ANOVA (Resultados: Tabla ANOVA, Tabla de Medias, Contrastes múltiples de medias, y Gráficos de medias) ANOVA dos factores con o sin Statistics, ANOVA, Factorial ANOVA or Main effects interacción ANOVA (Resultados: Tabla ANOVA, Tabla de Medias, Contrastes, gráfico de medias y de interacción). II.- Bivariante Regresión lineal simple Statistics, Multiple regressión (Resultados: Resumen regresión, Tabla ANOVA, Intervalos de confianza de los coeficientes, Tabla valores estimados, y gráficos: del modelo ajustado, de observados y calculados, y de residuos) Regresión polinómica Statistics, Advanced Linear/Non linear Models, General Regression Models, Polynomial Regression (Resultados: Resumen regresión, ANOVA con falta de ajuste, Tabla valores estimados, y gráficos: del modelo ajustado, de observados y calculados, y de residuos) Regresión no lineal Statistics, Advanced Linear/Non linear Models, Nonlinear Estimation (Resultados: Resumen regresión y gráfico del modelo ajustado) III.- Multivariante Análisis Componentes Principales Statistics, Multivariate Exploratory Techniques. Factor Analysis (Resultados: Resumen, Loadings, Scores, Scree plot, salvar scores) Análisis Conglomerados Statistics, Multivariate Exploratory Techniques. Cluster Analysis, Joining (Resultados: Dendrograma y matriz de distancias) Análisis Discriminante Statistics, Multivariate Exploratory Techniques. Discriminant Analysis (Resultados: Resumen, Funciones de clasificación, Funciones discriminantes, Tabla de clasificación, Resumen estadísticos por grupos, gráfico de dispersión para 2 variables, y gráfico de las funciones discriminantes) Regresión lineal Múltiple Statistics, Multiple regressión (Resultados: Resumen análisis de regresión, ANOVA, Intervalos de confianza, Informes con valores estimados y residuos, y gráfico de observados frente a predichos, y gráfico de residuos) IV.- Diseño de experimentos Statistics, Industrial Statistics, Experimental Design. Analyze Design. Resultados: Resumen, ANOVA, Coeficientes, Gráfico de Pareto, Gráfico de efectos, gráficos de superficie de respuesta, Predicciones, Optimización. DV: VitE Pareto Chart of Standardiz ed Effects; Variable: VitE 2 fac tors, 1 Block s, 10 Runs ; MS Residual=7.26911 DV: VitE (1)T(L) 7.747344 T(Q) 6.193008 (2)P(L) 2.480731 1Lby 2L P(Q) 1.670914 -.028251 p=.05 Standardized Effec t Estimate (Absolute Value) 31 Tratamiento estadístico de los datos. Dr. Pedro J. Martin Álvarez (CIAL, CSIS-UAM). Tratam. Estadísticos: I.- Univariante Un grupo de datos: Valores descriptivos, Normalidad, Int. de confianza, Contraste para una media Dos grupos de datos: Contraste para dos medias independientes Procedimientos con STATISTICA v7.1: Statistics, Basic Statistics and Tables, t-test, single sample Statistics, Basic Statistics and Tables, t-test, independent by groups Statistics, Basic Statistics and Tables, t-test, Contraste para dos dependent simples medias relacionadas k>2 grupos de datos: Statistics, Basic Statistics ANOVA de un factor and Tables,Breakdown & one-way ANOVA, o Statistics, ANOVA, Oneway ANOVA ANOVA dos factores Statistics, ANOVA, con o sin interacción Factorial ANOVA or Main effects ANOVA II.- Bivariante Regresión lineal Statistics, Multiple simple regressión Proc. con Statgraphics 5.1 Descripción, Datos Numéricos, Análisis Unidimensional Analizar, Estadísticos Descriptivos, Explorar y Analizar,Comparar medias, Prueba T para una muestra Analizar, Comparar Comparación, Dos muestras, Comparación de medias, Prueba T para dos muestras) muestras independientes Analizar, Comparar Comparación, Dos Muestras, Comparación de medias, Prueba T para Muestras Pareadas muestras relacionadas Comparación, Análisis de la Varianza, ANOVA Simple Analizar, Comparar medias, ANOVA de un factor ó Analizar, Modelo lineal general, univariante Comparación, Análisis de la Varianza, ANOVA Fatorial Analizar, Modelo lineal general, Univariante Dependencia, Regresión simple. Avanzado, Regresión Avanzada, Modelos de Calibración Regresión polinómica Statistics, Advanced Dependencia, Regresión Linear/Non linear Models, polinómica General Regression Models, Polynomial Regr. Regresión no lineal Statistics, Advanced Avanzado, Regresión Linear/Non linear Models, avanzada, Regresión no Nonlinear Estimation) lineal III.- Multivariante Análisis Statistics, Multivariate Avanzado, Métodos Componentes Exploratory Techniques. Multivariables, Principales Factor Analysis Componentes Principales Análisis Statistics, Multivariate Avanzado, Métodos Conglomerados Exploratory Techniques. Multivariables, Análisis Cluster Analysis, Joining Cluster Análisis Statistics, Multivariate Avanzado, Métodos Discriminante Exploratory Techniques. Multivariables, Análisis Discriminant Analysis Discriminante Regresión lineal Statistics, Multiple Dependencia, Regresión Múltiple regressión múltiple IV.Diseño de Statistics, Industrial 1)Avanzado, Diseño experimentos Statistics, Experimental experimental, Crear Design. Analyze Design. diseño. 2)Avanzado, Diseño experimental, Analizar diseño. 32 Proc. con SPSS v.14: Analizar, Regresión, Lineal. Analizar, Regresión, Estimación Curvilínea. Analizar, Regresión, No Lineal. Analizar, Reducción de datos, análisis factorial. Analizar, Clasificar, Conglomerados jerárquicos. Analizar, Clasificar, Discriminante. Analizar, Regresión, Lineal.
© Copyright 2024 ExpyDoc