ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 0.- INTRODUCCIÓN - El fenómeno de la variabilidad. - El papel de la Estadística. - Fases de la Estadística: - Estadística Descriptiva: Descripción de la variabilidad. - Cálculo de Probabilidades: Modelado de la variabilidad. - Inferencia Estadística. Tema 0. Introducción 1 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EL FENÓMENO DE LA VARIABILIDAD En la naturaleza nos encontramos con multitud de procesos, fenómenos, experimentos, etc. cuya característica esencial es la incertidumbre sobre su resultado porque existen causas de variabilidad no controlables, que llamamos “azar”. Esta ince rtidumbre se traduce en la presencia de variabilidad entre los resultados de las distintas realizaciones bajo condiciones controlables idénticas. Todos los procesos de interés del ámbito de la Ingeniería Industrial están afectados por la presencia de variabilidad: Procesos de fabricación, Servicios, Economía, Investigación e innovación, … Ejemplos: La duración de lámparas aparentemente idénticas es variable. El consumo energético de motores aparentemente idénticos es variable. El tiempo para resolver una avería en la distribución eléctrica es variable. La demanda de un producto en un establecimiento comercial es variable. La dureza de un espécimen fabricado con un nuevo material Tema 0. Introducción 2 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EL PAPEL DE LA ESTADÍSTICA La variabilidad no se comporta de manera arbitraria e impredecible, sino que se somete a patrones que se pueden estudiar y conocer mediante el uso de técnicas estadísticas. La Estadística es una colección de herramientas diseñadas para medir, describir, modelar y explicar la variabilidad. La Estadística nos ayudará a comprender y manejar adecuadamente la variabilidad: Reducir la variabilidad en procesos de fabricación y servicios (mejora de la calidad). - Conseguir que los productos fabricados no se alejen de los estándares previstos. Menos del 1% de arandelas con diámetro fuera de 3±cm. Menos del 2% de lámparas que duren menos de 5000 h. - Conseguir que los servicios satisfagan criterios de calidad preestablecidos. Ninguna avería eléctrica no restablecida en las primeras 10 horas. Prever la demanda de un producto (evitar costes y aumentar de beneficios). - Establecer el plan de aprovisionamiento para un producto alimenticio perecedero. - Evitar stocks excesivos en un producto de temporada. Establecer la posición de los factores controlables que optimizan el valor de una característica crítica de interés (innovación). - Condiciones de fabricación que maximizan el rendimiento de un proceso químico. - Composición de una cerámica para conseguir un determinado nivel de dureza. - Características del sistema de airbag para minimizar las lesiones cervicales. Tema 0. Introducción 3 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL FASES DE LA ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA: descripción de datos Los fenómenos sometidos a variabilidad deben ser observados y los resultados anotados deben ser estudiados para empezar a comprender dichos fenómenos. La Estadística Descriptiva proporciona herramientas para explorar, describir, analizar, resumir y sintetizar la información registrada sobre los procesos en los que está presente la variabilidad. CÁLCULO DE PROBABILIDADES: modelos matemáticos teóricos y sus propiedades El Cálculo de Probabilidades tiene por objeti vo construir un escenario de posibles modelos matemáticos para los procesos sometidos a variabilidad y estudia sus propiedades. Diseña una amplia colección de éstos que pueden utilizarse como modelos subyacentes capaces de explicar el comportamiento aleatorio de los diversos procesos sometidos a variabilidad. Estudia las propiedades de estos modelos matemáticos mediante razonamientos deductivos ESTADÍSTICA INFERENCIAL: a partir de los datos decide sobre el modelo subyacente apropiado Colección de técnicas (estimación de parámetr os y contraste de hipótesis) para realizar razonamientos inductivos sobre los fenómenos con variabilidad. Utiliza la información experimental proporcionada por sucesivas repeticiones del fenómeno aleatorio objeto de estudio. Mediante estos razonamientos se proponen y validan modelos matemáticos coherentes con lo encontrado en la fase descriptiva para poder utilizar las propiedades que tienen dichos modelos y que hemos estudiado en el Cálculo de Probabilidades. Tema 0. Introducción 4 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 1.- DESCRIPCIÓN DE DATOS - La Estadística Descriptiva - Población y muestra. - Variables estadísticas. Datos. - Tabulación de datos. Tema 1. Descripción de datos 5 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL LA ESTADÍSTICA DESCRIPTIVA La Estadística Descriptiva es una colección de t écnicas numéricas y gráficas que tiene por objetivo describir la variabilidad que contienen los datos tomados en un estudio estadístico. Describir significa Analizar, Resumir (Sintetizar) y Presentar adecuadamente los resultados. El objetivo último de la Estadística Descriptiva es conseguir que dejemos de ver el conjunto de datos como un agregado de números o mediciones individuales, para pasar a tener una concepción global de los mismos. DATOS Tema 1. Descripción de datos INFORMACIÓN 6 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL POBLACIÓN Y MUESTRA Población (Universo): Conjunto de “individuos” sobre los que se va a realizar el estudio estadístico. En cada estudio estadístico deberá estar bien delimitada en el tiempo, en el espacio. En muchas ocasiones es un concepto abstracto que reúne de una forma ideal el conjunto de todas las realizaciones posibles del experimento aleatorio en todas las posibles condiciones experimentales. Realizar el experimento consiste de forma general en observar uno de estos individuos. Individuos (Unidades estadísticas): Cada uno de los elementos que forman la población. Censo: Relación exhaustiva de todos los elementos de una población (cuando exista). Las poblaciones de interés estadístico en Ingeniería con frecuencia son de tamaño infinito y/o abstractas. Ejemplos de poblaciones: Poblaciones humanas (u otros seres vivos): - Habitantes de una ciudad, región, país, ... - Pinos de una determinada especie y una determinada área geográfica. Conjuntos de objetos (existentes o hipotéticos): - Piezas fabricadas el día D por la fábrica F. - Coches marca X fabricados en España en 2010. - Pilas de 1,5 V fabricadas por la casa C. - Artículos que producirá cierta máquina. - Piezas de tela que se fabricarán con una composición nueva que se quiere experimentar. - Ladrillos producidos bajo cocción a determinada temperatura experimental. Otros entes: - Mineral proporcionado por un determinado proveedor a una fundición - Futuros clientes demandantes de un nuevo servicio Tema 1. Descripción de datos 7 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL - Conjunto de todos los posibles e hipotéticos lan zamientos que podríamos realizar de una moneda, de un dado, dardo, de un tipo de proyectil … - Conjunto de todos los valores posibles de todos las condiciones que afectan al tiempo de funcionamiento de un aparato, componente, sistema … Lo fundamental es que las variables de interés se comportan sobre todos individuos de la población de acuerdo a un modelo probabilístico concreto. Este modelo subyacente por lo general será desconocido y obtendremos información sobre él a partir de los valores obervados sobre unos cuantos individuos, representantes de la población, que componen lo que llamaremos una muestra. Muestra: Conjunto de elementos extraidos de la población con el que se va a trabajar en el estudio estadístico (medir variables, estudiar características, etc.) Casos: Cada individuo de la muestra. Obtención de la muestra: Exhaustiva: Bases de datos con “todos” los individuos de la población finita. Cada vez es más frecuente gracias a las nuevas tecnologías. Ejemplos: Padrón municipal, clientes de una compañía, visitas a una web, … Muestreo: La muestra se obtiene mediante algún proceso de selección de individuos de la pobl. Ejemplos: Encuesta telefónica a 5.000 personas sobre uso de las TIC. Seleccionamos una pieza fabricada cada media hora en un proceso industrial … Diseño de experimentos: Muestra formada por especímenes creados a propósito de una población hipotética. Ejemplos: cuatro ladrillos fabricados bajo cada combinación de Temperatura del horno (100ºC, 150ºC, 200ºC) y de Tiempo de cocción (15 min.,30 min.) . Tema 1. Descripción de datos 8 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL POBLACIÓN x x x x x x x x x x xx x xx INDIVIDUOS x MUESTRA x x CASOS A ESTUDIAR Lo más habitual es trabajar con una muestra “pequeña” en relación con el tamaño de la población. Necesidad del muestreo: Poblaciones infinitas. Limitaciones sobre el coste del estudio estadístico. Limitaciones temporales: Presentación de resultados antes de determinada fecha. Estudios destructivos: p. e. Resistencia de envases de vidrio a la explosión. Características de una muestra: Estudio descriptivo: Cualquier muestra. Estudio inferencial: Muestra “representativa”. Aleatoriedad (Permite extrapolar los resultados) Tamaño (Precisión de los resultados). Tema 1. Descripción de datos 9 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL VARIABLE ALEATORIA Característica de interés sujeta a variabilidad, observable en cada individuo de la población a estudiar. - Su variabilidad se debe a variables no controlables por el experimentador y obedece a un determinado modelo probabilístico generalmente desconocido. Llamamos “azar” a nuestra propia incapacidad para controlar todas las variables que influyen en el resultado y decimos que la variable aleatoria “depende del azar”. Notación: Letras mayúsculas X, Y, Z, T, ..., X1, ..., Xn. Ejemplos: - Población de piezas fabricadas en la factoría F el día D en la línea L: Longitud (cm), Resistencia a la torsión, Peso específico, … - Población de coches de determinada marca, modelo y año de fabricación: Consumo (l/100 Km), Tiempo de aceleración de 0 a 100 Km/h (seg), … - Población de averías en redes de distribución eléctrica: Tiempo de acceso, Tiempo de reposición, Estado de la atmósfera, Zona donde se produce la avería, … - Población de trabajadores de la Factoría F: Sexo: (V, H), Edad (años), Nivel de Estudios, Salario, … Estudios univariantes: Tratan una sola variable. El objetivo es describir el comportamiento de cada variable por separado. Estudios multivariantes: Tratan varias características observadas simultáneamente sobre cada individuo o unidad experimental. El objetivo es analizar las relaciones entre las variables. Tema 1. Descripción de datos 10 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL MEDICIÓN DE VARIABLES. ESCALAS DE MEDIDA: Escala nominal: Para cada dos valores de la variable s obre dos individuos de la población, sólo podemos decir: x = y ó x y. Ejemplos: Sexo (V, H), Procedencia de artículos (Europeo, japonés, chino, ...) Escala ordinal: Los valores de la variable admiten una ordenación natural: x1 x2 ... xn ... Ejemplos: Grado de satisfacción con un producto alimenticio (muy malo, malo, regular, bueno, muy bueno), Titulación académica: (Sin estudios, estudios primarios, estudios secundarios, estudios superiores). Escala de intervalo: Los valores son representables en un eje (la recta real) con sentido de la distancia. El origen (cero) puede ser arbitrario, por lo que la razón entre dos valores no tiene porqué tener sentido. Se fija una unidad de medida que puede ser arbitraria, pero que su significado permanece invariable a lo largo del eje. y-x = z-t x y z t Ejemplos: Longitud, Temperatura, Tiempo, Edad, Número de averías, … Escala de razón o proporción: Escala de intervalo con existencia de un origen natural ( cero). La razón entre dos valores de la variable cobra sentido. y = 2x, z = 3x 0 x y z Ejemplos: La mayoría de las variables que se miden en escala de intervalo, realmente lo son en escala de razón o proporción. Una excepción son las escalas de Temperatura Centígrada o Farenheit. Tema 1. Descripción de datos 11 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TIPOS DE VARIABLES: Variables cualitativas o atributos: Sus valores o categorías sólo expresan la posesión de una u otra característica. Escala nominal: Categorías no ordenables. Ejemplos: - Estado civil: Soltero casado, divorciado, viudo, ... - Origen de artículos: Europeo, americano, japonés, ... Escala ordinal: Categorías ordenables de manera natural: Ejemplos: - Pronóstico de un enfermo: Muy grave, grave, leve, ... - Opinión sobre un asunto: Muy a favor, a favor, indiferente, en contra, muy en contra. - Calidad de productos alimenticios: Extra, Primera, Segunda, ... Variables cuantitativas o numéricas: Sus valores son números reales. Siempre se miden en escala de intervalo o de razón. - Variables discretas: Toman un conjunto de valores aislados, finito o numerable, habitualmente los números naturales. Ejemplos: Variables de tipo “contador”: Nº de llam adas a una central telefónica, Nº de artículos defectuosos por lote. - Variables continuas: Toman valores en un intervalo de la recta real de forma continua: Ejemplos: Longitud (m), Tiempo (s), Temperatura (ºC), Rendimiento (%), Acidez (pH). Tema 1. Descripción de datos 12 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DATOS Datos: Valores de las variables en estudio medidos sobre los individuos o casos de la muestra. Generalmente se arreglan en forma matricial: Casos 1 2 ... i ... n Variables X1 x11 x21 ... xi1 ... xn1 X2 x12 x22 ... xi2 ... xn2 … ... ... ... ... Xj x1j x2j ... xij ... xnj … Xp ... x1p ... x2p ... ... xip ... ... xnp Matriz n x p n = número de individuos de la muestra o casos. p = número de variables en estudio xij = valor de la variable X número i de la muestra, i=1,2, ..., n, j = 1, 2, ..., p. j sobre el caso Depuración de los datos. En cualquier conjunto de datos suele haber errores: Errores de medición. Interpretación incorrecta del cuestionario. Errores de transcripción y tecleado de los datos. Observaciones anómalas (individuos de otra población, elementos atípicos, …). Previamente a cualquier análisis debemos cerciorarnos de que no hay errores en los datos que puedan llevarnos a conclusiones incorrectas. Las técnicas de la Estadística Descriptiva también permiten realizar esta depuración. Tema 1. Descripción de datos 13 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: DATOS DE AUTOMÓVILES (Cardata) MPG CYL DISPL HP ACCEL YEAR WEIGHT ORIG MAKE MODEL PRICE 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Tema 1. Descripción de datos Miles per gallon (Consumo de combustible) Cylinders (Número de cilindros) Displacement in cu. in. (cilindrada del motor) Engine horsepower (potencia del motor) Seconds from 0 to 60 (tiempo de aceleración) Model Year (Año del modelo) Weigtt in lbs. (Peso) Origin (1=U.S.A., 2=EUROPE, 3=JAPAN) Manufacturer (fabricante) Model Current book value (Precio) MPG CYL DISPL 43,1 4 90 36,1 4 98 32,8 4 78 39,4 4 85 36,1 4 91 19,9 8 260 19,4 8 318 20,2 8 302 19,2 6 231 20,5 6 200 20,2 6 200 25,1 4 140 20,5 6 225 19,4 6 232 20,6 6 231 20,8 6 200 18,6 6 225 18,1 6 258 19,2 8 305 17,7 6 231 18 1 8 302 HP ACCEL YEAR 48 21,5 78 66 14,4 78 52 19,4 78 70 18,6 78 60 16,4 78 110 15,5 78 140 13,2 78 139 12,8 78 105 19,2 78 95 18,2 78 85 15,8 78 88 15,4 78 100 17,2 78 90 17,2 78 105 15,8 78 85 16,7 78 110 18,7 78 120 15,1 78 145 13,2 78 165 13,4 78 139 11 2 78 WEIGHT ORIG MAKE MODEL 1985 2 Volkswagen Rabbit Dl 1800 1 Ford Fiesta 1985 3 Mazda GLC Deluxe 2070 3 Datsun B210 GX 1800 3 Honda Civic CVCC 3365 1 Oldsmobile Cutlass 3735 1 Dodge Diplomat 3570 1 Mercury Monarch 3535 1 Pontiac Phoenix 3155 1 Chevrolet Malibu 2965 1 Ford Fairmont A 2720 1 Ford Fairmont M 3430 1 Plymouth Volare 3210 1 AMC Concord 3380 1 Buick Century 3070 1 Mercury Zephyr 3620 1 Dodge Aspen 3410 1 AMC Concord D1 3425 1 Chevrolet MonteCarlo 3445 1 Buick RegalTurbo 3205 1 Ford Futura PRICE 2400 1900 2200 2725 2250 3300 3125 2850 2800 3275 2375 2275 2700 2300 3300 2425 2700 2425 3900 4400 2525 14 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: DATOS DE PROFESIONALES DE UNA COMPAÑÍA INFORMÁTICA (Salary) EXPRNC EDUC MGT SALARY Años de experiencia Formación Académica (1=High School; 2=College; 3=Advanced Degree) Desempeño de un cargo de responsabilidad (1=SI, 0=NO) Retribuciones brutas anuales (en U.S. $) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Tema 1. Descripción de datos EXPRNC 1 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 6 6 6 6 7 8 8 8 8 10 10 EDUC 1 3 3 2 3 2 2 1 3 2 1 2 3 1 3 3 2 2 3 1 1 3 2 2 1 2 1 3 1 1 2 MGT 1 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0 0 0 1 0 1 0 1 1 0 1 1 0 0 0 SALARY 13876 11608 18701 11283 11767 20872 11772 10535 12195 12313 14975 21371 19800 11417 20263 13231 12884 13245 13677 15965 12336 21352 13839 22884 16978 14803 17404 22184 13548 14467 15942 15 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: DATOS DE AUTOPISTAS (Minnesota 1973) (Highway) RATE LEN ADT TRKS SLIM LWID SHLD ITG SIGS ACTP LANE TYPE 1973 accident rate per million vehicle miles. Length of the segment in miles. Average daily traffic count in thousands (estimated) Truck volume as a percent of the total volume. Speed limit Lane width in feet. Width in feet of outer shoulder on the roadway. Number of freeway-type interchanges per mile in the segment. Number of signalized interchanges per mile in the segment. Number of acces points per mile in the segment. Total number of lanes of traffic in both directions. Type of highway (FAI=Federal aid interstate; PA=Principal arterial; MA=Major arterial; MC=Major collectors) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tema 1. Descripción de datos RATE 4,58 2,86 3,02 2,29 1,61 6,87 3,85 6,12 3,29 5,88 4,2 4,61 4,8 3,85 2,69 1,99 2,01 4,22 2,76 2,55 LEN 4,99 16,11 9,75 10,65 20,01 5,97 8,57 5,24 15,79 8,26 7,03 13,28 5,4 2,96 11,75 8,86 9,78 5,49 8,63 20,31 ADT TRKS SLIM LWID SHLD 69 8 55 12 10 73 8 60 12 10 49 10 60 12 10 61 13 65 12 10 28 12 70 12 10 30 6 55 12 10 46 8 55 12 8 25 9 55 12 10 43 12 50 12 4 23 7 50 12 5 23 6 60 12 10 20 9 50 12 2 18 14 50 12 8 21 8 60 12 10 27 7 55 12 10 22 9 60 12 10 19 9 60 12 10 9 11 50 12 6 12 8 55 13 6 12 7 60 12 10 ITG 1,2 1,43 1,54 0,94 0,65 0,34 0,47 0,38 0,95 0,12 0,29 0,15 0 0,34 0,26 0,68 0,2 0,18 0,14 0,05 SIGS ACTP LANE TYPE 0 4,6 8 FAI 0 4,4 4 FAI 0 4,7 4 FAI 0 3,8 6 FAI 0 2,2 4 FAI 1,84 24,8 4 PA 0,7 11 4 PA 0,38 18,5 4 PA 1,39 7,5 4 PA 1,21 8,2 4 PA 1,85 5,4 4 PA 1,21 11,2 4 PA 0,56 15,2 2 PA 0 5,4 4 PA 0,6 7,9 4 PA 0 3,2 4 PA 0,1 11 4 PA 0,18 8,9 2 PA 0 12,4 2 PA 0,99 7,8 4 PA 16 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TABULACIÓN DE DATOS. TABLAS DE FRECUENCIAS Es el primer paso en el análisis descriptivo de los datos. Tablas de frecuencias para variables cualitativas o atributos y variables discretas: xi A1 A2 ... Ap Distribución de frecuencias ni fi Ni n1 f1 N1 n2 f2 N2 ... ... ... np fp Np=n n 1 Fi F1 F2 ... Fp=1 p n i 1 n i p f i 1 i 1 Escala nominal: Sólo son de interés ni y fi . ni = frecuencia absoluta de la categoría Ai (nº de individuos de la muestra con la característica Ai). fi = ni/n = frecuencia relativa de la categoría Ai. (Se puede expresar en porcentaje) Escala ordinal: Se añaden las frecuencias acumuladas Ni y Fi . Ni = frecuencia absoluta acumulada hasta la categoría Ai, incluyendo la propia categoría Ai. Fi = Ni/n = frecuencia relativa acumulada hasta la categoría Ai, incluyendo la propia categoría Ai. Es obligatorio conservar en la tabla el orden natural de las categorías: A1<A2<…<Ap. Variables discretas: Si toman un número no muy elevado de valores diferentes, p. ej. 0, 1, 2, 3, .., se tabulan igual que las variables medidas en escala ordinal, siendo de interés ni ,fi , Ni y Fi . En los tres casos el soporte de la variable es un conjunto de valores aislados (puntos en las variables discretas), posibles todos ellos. Tema 1. Descripción de datos 17 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLOS Tabla de Frecuencia para ORIG (Cardata) Clase Valor 1 1 (USA) 2 2 (Europe) 3 3 (Japan) Frecuencia 85 26 44 155 Frecuencia Relativa 0,5484 0,1677 0,2839 1 Frecuencia Acumulada 85 111 155 Frecuencia Rel. acum. 0,5484 0,7161 1,0000 Tabla de Frecuencia para EDUC (Salary) Clase Valor 1 1 (H.School) 2 2 (College) 3 3 (Ad. Deg.) Frecuencia 14 19 13 Frecuencia Relativa 0,3043 0,4130 0,2826 46 1 Frecuencia Acumulada 14 33 46 Frecuencia Rel. acum. 0,3043 0,7174 1,0000 Tabla de Frecuencia para CYL (Cardata) Clase 1 2 3 4 5 Tema 1. Descripción de datos Valor 3 4 5 6 8 Frecuencia 1 104 3 30 17 155 Frecuencia Relativa 0,0065 0,6710 0,0194 0,1935 0,1097 1 Frecuencia Acumulada 1 105 108 138 155 Frecuencia Rel. acum. 0,0065 0,6774 0,6968 0,8903 1,0000 18 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Tablas de frecuencias para variables continuas: datos agrupados. Los valores observados serán diferentes unos de otros (si se mide con precisión suficiente), pero … los valores exactos no se pueden obtener en la práctica y cada punto observable representa todo el intervalo de valores que por redondeo (a mm, Km, ºC, mg…) se aglutinan en él. Los datos se pueden tabular agrupándolos en clases o intervalos. El protagonismo en la distribución de frecuencias lo toman los intervalos de valores. (a, b) = soporte de la variable. a = a0 <a1< … <ak = b rejilla de puntos que delimitan los intervalos de clase. ai-1, ai = extremos de clase. Distribución de frecuencias mi=(ai-1+ai)/2 = marca de clase. Clase mi ni fi Ni Fi ai-ai-1, = amplitud de clase. a0-a1 m1 n1 f1 N1 F1 ni = frecuencia absoluta de la clase a1-a2 m2 n2 f2 N2 F2 fi = ni/n = frecuencia relativa ... ... ... ... ... Ni = frecuencia absoluta acumulada ak-1-ak mk nk fk Nk=n Fk=1 Fi = Ni/n = frecuencia relativa acum. n 1 También se emplea la agrupación en clases para ta bular datos de una variable discreta con un rango muy amplio de valores diferentes. Elección de las clases: Elegir un número razonable de clases “significativas”. Se recomienda usar clases de igual amplitud. Las clases deben definirse con precisión (intervalos abiertos a la derecha y cerrados a la izquierda, o viceversa) para poder clasificar sin ambigüedad las observaciones en uno de los intervalos sólamente. Tema 1. Descripción de datos 19 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLOS Tabla de Frecuencias para MPG (Cardata) Clase 1 2 3 4 5 6 7 Límite Inferior 15,0 20,0 25,0 30,0 35,0 40,0 45,0 Límite Frecuencia Frecuencia Frecuencia Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum. 20,0 17,5 23 0,1494 23 0,1494 25,0 22,5 29 0,1883 52 0,3377 30,0 27,5 32 0,2078 84 0,5455 35,0 32,5 37 0,2403 121 0,7857 40,0 37,5 24 0,1558 145 0,9416 45,0 42,5 8 0,0519 153 0,9935 50,0 47,5 1 0,0065 154 1,0000 154 1 Tabla de Frecuencias para RATE (Highway) Clase 1 2 3 4 5 6 7 8 Tema 1. Descripción de datos Límite Inferior 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 Límite Frecuencia Frecuencia Frecuencia Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum. 2,5 2,0 8 0,2051 8 0,2051 3,5 3,0 13 0,3333 21 0,5385 4,5 4,0 7 0,1795 28 0,7179 5,5 5,0 3 0,0769 31 0,7949 6,5 6,0 3 0,0769 34 0,8718 7,5 7,0 2 0,0513 36 0,9231 8,5 8,0 1 0,0256 37 0,9487 9,5 9,0 2 0,0513 39 1,0000 39 1 20 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 2.- REPRESENTACIÓN GRÁFICA - Diagramas de barras y sectores. - Diagramas de Pareto. - Histogramas y polígonos de frecuencias. - Diagramas acumulativos. - Representación de datos temporales. Tema 2. Representación Gráfica 21 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL REPRESENTACIONES GRÁFICAS DE DISTRIBUCIONES DE FRECUENCIAS El objetivo es graficar la información numérica contenida en la tabla de frecuencias. Para cada tipo de variable existen representaciones apropiadas que son variaciones de la misma idea. VARIABLES CUALITATIVAS O ATRIBUTOS Diagrama de sectores: Sobre un círculo se representan sectores asociados a cada valor de la variable. Los sectores son proporcionales a las frecuencias (absolutas o relativas). Se usa preferentemente para variables medidas en escala nominal, pero también para la ordinal. En el caso ordinal hay que mantener el orden natural de las categorías de la variable. EJEMPLOS: Diagrama de sectores de ORIG (Cardata) y de TYPE (Highway) Escala Nominal Escala Ordinal Diagrama de Sectores de TYPE_1 5,13% 12,82% Diagrama de Sectores de ORIG 28,39% ORIG 1 2 3 TYPE_1 1FAI 2PA 3MA 4MC 33,33% 54,84% 16,77% Tema 2. Representación Gráfica 48,72% 22 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Diagramas de Barras: Sobre un eje simbólico se representan los valores de la variable. Sobre cada valor se levanta un rectángulo (barra) cuya altura representa la frecuencia. Se pueden hacer con frecuencias absolutas o relativas. Las frecuencias relativas permiten la comparación de muestras diferentes. Se usan tanto para variables medidas en escala nominal como ordinal. En el caso ordinal hay que mantener el orden natural de las categorías de la variable. EJEMPLOS: Diagrama de barras de ORIG (Cardata) y de TYPE (Highway) Escala Nominal Escala Ordinal Diagrama de Barras de TYPE_1 60 50 50 40 40 porcentaje porcentaje Diagrama de Barras de ORIG 30 20 30 20 10 10 0 0 1 Tema 2. Representación Gráfica 2 3 1FAI 2PA 3MA 4MC 23 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Diagramas de Pareto: Diagrama de barras con las categorías de la variable ordenadas de mayor a menor frecuencia. Sólo para atributos nominales. (Los ordinales sólo admiten la ordenación natural de las categorías.) Las clases menos significativas se pueden agrupar como “OTROS”, que se colocará en último lugar. Herramienta importante en “Control Estadístico de la Calidad” para estudiar variables como: -Causa de fallos, defectos, paradas, … -Tipo de fallo, defecto, … Muy frecuentemente ocurre la siguiente situación: - Unas pocas clases acaparan casi toda la frecuencia y son las que merecen mayor atención. - El resto de clases pueden ser muchas, pero apenas tienen interés. El análisis de Pareto indica las prioridades de actuación. EJEMPLO: Defectos en libros en una imprenta Frec. Relativa 0,43 0,29 0,14 0,09 0,04 0,01 1,00 150 85,71 120 frequency TIPOS Frecuencia Corte de las hojas 60 Mala impresión 40 Tinta irregular 20 Encuadernación 12 Portada 6 Lomo 2 TOTAL 140 94,29 98,57 100,00 71,43 90 60 42,86 30 0 Corte Tema 2. Representación Gráfica Impr. Tinta Enc. Port Lomo 24 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Accidentes en jornada de trabajo con baja según naturaleza de la lesión. Castilla y León, 1988. Orden Frec. LESIONES Fracturas, luxaciones, torceduras, esguinces y distensiones contusiones y aplastamientos otras heridas traumatismos superficiales amputaciones y perdida del globo ocular, cuerpos extraños en los ojos y conjuntivitis lumbalgias y hernias discales quemaduras conmociones y traumatismos internos lesiones multiples infartos, derrames cerebrales y otras patologias no traumáticas envenenamientos e intoxicaciones, exposicion al medio ambiente y asfixias efectos de la electricidad y radiaciones 1 10045 2 6824 3 5478 4 2293 5 2054 6 1871 7 614 8 541 9 338 10 62 11 60 12 45 Frec. Porcent. Porcent. Acum. Acum. 10045 33.23 33.23 16869 22.58 55.81 22347 18.12 73.94 24640 7.59 81.52 26694 6.80 88.32 28565 6.19 94.51 29179 2.03 96.54 29720 1.08 98.33 30058 1.01 99.45 30120 0.21 99.65 30180 0.20 99.85 30225 0.15 100.00 Gráfica de Pareto para LESIONES (X 10000,0) 4 frecuencia 3 73,94 2 1 81,52 88,32 94,51 100,00 55,81 33,23 0 1 Tema 2. Representación Gráfica 2 3 4 5 6 Otros 25 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Análisis de Pareto en la fabricación de tarjetas de circuitos impresos. CÓDIGO DE DEFECTOS 1 SOLD. INSUFICIENTE 2 SOLD. JUNTAS FRIAS 3 SOLD. ABIERTA/DEWE 4 COMP. INADEC.1 5 SOLD. SALPICADURA/W 6 MARCA PRUEBA EC 7 MARCA PRUEBA BLANCA 8 TARJ. EN BRUTO ENVOLT. RE 9 COMP. PIEZA EXTRA 10 COMP. DAÑADO 11 COMP. FALTANTE2 12 ALAMBRADO INCORR. S 13 ESTAMP. ID. OPERADOR 14 ESTAMP. FALTANTE 15 SOLD. ESCASA 16 TARJ. EN BRUTO DAÑADA FREC FR. ACUM. 40 40 20 60 7 67 6 73 5 78 3 81 3 84 3 87 2 89 2 91 2 93 1 94 1 95 1 96 1 97 1 98 % 40,8163 20,4082 7,14286 6,12245 5,10204 3,06122 3,06122 3,06122 2,04082 2,04082 2,04082 1,02041 1,02041 1,02041 1,02041 1,02041 % ACUM 40,8163 61,2245 68,3673 74,4898 79,5918 82,6531 85,7143 88,7755 90,8163 92,8571 94,898 95,9184 96,9388 97,9592 98,9796 100 Diagrama de Control de Disconformidades 100 frequency 80 61,22 60 40 68,37 74,49 79,59 82,65 85,71 88,78 94,90 95,92 90,82 92,86 96,94 97,96 98,98100,00 80 40 20 20 0 0 2 61,22 60 40,82 1 100,00 100 3 4 5 Tema 2. Representación Gráfica 8 7 6 11 10 9 16 15 14 13 12 68,37 74,49 82,65 85,71 88,78 79,59 5 8 7 6 40,82 1 2 3 4 Other 26 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL VARIABLES CUANTITATIVAS DISCRETAS Diagramas de BARRAS (VARILLAS) Se levantan barras o varillas sobre los valores de la variable según su frecuencia. La varilla (anchura cero sobre el eje) hace alusión al carácter discreto de la variable. Se pueden hacer con frecuencias absolutas o relativas. Las frecuencias relativas facilitan la comparación de muestras. EJEMPLO: Averías registradas en periodos de una semana en una cadena de montaje. frequency ----------------------------------Rel. Cumul. Cum.Rel. Value Freq. Freq. Freq. Freq. ----------------------------------0 49 0,4118 49 0,4118 1 30 0,2521 79 0,6639 2 20 0,1681 99 0,8319 3 9 0,0756 108 0,9076 4 5 0,0420 113 0,9496 5 3 0,0252 116 0,9748 6 2 0,0168 118 0,9916 7 0 0,0000 118 0,9916 8 1 0,0084 119 1,0000 ---------------------------------- Tema 2. Representación Gráfica 50 40 30 20 10 0 -1 0 1 2 3 4 5 6 NUMERO DE AVERÍAS 7 8 9 27 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL VARIABLES CUANTITATIVAS CONTINUAS HISTOGRAMA (datos agrupados) Se levantan rectángulos sobre las clases en que han sido agrupados los valores de la variable. Los rectángulos tienen que ser adyacentes para reflejar la continuidad de la variable. La frecuencia se representa a través del área de cada rectángulo. El área bajo el histograma es 1 si son frecuencias relativas, o n si son absolutas. Para comparar muestras hay que usar frecuencias relativas. El aspecto del histograma depende tanto del número de clases como de la posición de éstas. Es conveniente usar clases de igual longitud. De esta manera, la frecuencia también se verá representada por la altura de los rectángulos, lo cual facilita la representación e interpretación. Para elegir el número de clases y su posición, conviene probar varias posibilidades y elegir la que proporcione una representación más razonable. El histograma refleja la densidad de aparición de observaciones sobre el soporte de la variable. El histograma pone de manifiesto las características de cada conjunto de datos: - Localización. - Dispersión. - Simetría o asimetría. - Unimodalidad o multimodalidad. - Observaciones atípicas, etc. Tomando una muestra representativa, cada vez más grande, y haciendo tender a 0 la amplitud de las clases, aparece en el límite una curva que va a reflejar el modelo de la población. Es una herramienta importante en el control de calidad. Tema 2. Representación Gráfica 28 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Fichero Cardata. Variable WEIGHT Tabla de Frecuencias para WEIGHT Límite Clase Inferior 1 1500,0 2 1750,0 3 2000,0 4 2250,0 5 2500,0 6 2750,0 7 3000,0 8 3250,0 9 3500,0 10 3750,0 11 4000,0 12 4250,0 Límite Superior 1750,0 2000,0 2250,0 2500,0 2750,0 3000,0 3250,0 3500,0 3750,0 4000,0 4250,0 4500,0 Punto Frecuencia Frecuencia Frecuencia Medio Frecuencia Relativa Acumulada Rel. Acum. 1625,0 0 0,0000 0 0,0000 1875,0 22 0,1419 22 0,1419 2125,0 29 0,1871 51 0,3290 2375,0 16 0,1032 67 0,4323 2625,0 26 0,1677 93 0,6000 2875,0 19 0,1226 112 0,7226 3125,0 14 0,0903 126 0,8129 3375,0 13 0,0839 139 0,8968 3625,0 8 0,0516 147 0,9484 3875,0 5 0,0323 152 0,9806 4125,0 2 0,0129 154 0,9935 4375,0 1 0,0065 155 1,0000 30 frecuencia 25 20 15 10 5 0 1500 Tema 2. Representación Gráfica 2000 2500 3000 WEIGHT 3500 4000 4500 29 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: ELECCIÓN DEL NÚMERO DE CLASES EJEMPLO: Fichero Cardata. Variable ACCEL (ORIGIN=1) Explicar el efecto de aumentar o disminuir el número de clases. ¿Cuál te parece la elección más adecuada? 40 24 20 frecuencia frecuencia 30 20 16 12 8 10 4 0 0 10 13 16 19 22 25 10 13 16 ACCEL 22 25 19 22 25 ACCEL 15 8 12 6 frecuencia frecuencia 19 9 6 4 2 3 0 0 10 13 16 19 ACCEL Tema 2. Representación Gráfica 22 25 10 13 16 ACCEL 30 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Fichero Salary. Variable SALARY 20 12 16 10 8 frecuencia frecuencia Explicar el efecto de aumentar o disminuir el número de clases. ¿Cuál te parece la elección más adecuada? 12 8 6 4 4 2 0 0 1 1,5 2 2,5 SALARY 3 (X 10000,0) 1 1,8 2,2 SALARY 8 2,6 3 (X 10000,0) 5 4 frecuencia 6 frecuencia 1,4 4 2 3 2 1 0 0 1 1,4 1,8 2,2 SALARY Tema 2. Representación Gráfica 2,6 3 (X 10000,0) 1 1,4 1,8 2,2 SALARY 2,6 3 (X 10000,0) 31 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Aplicación del Histograma en Control Estadístico de la Calidad El valor objetivo para la longitud de las piezas fabricadas en un proceso es 3cm. Los límites de especificación son 3±0,03. (LIE=Límite Inferior de Especificación, LSE=Límite Superior de Especificación). Explicar la situación de los procesos siguientes: 20 LIE LSE 12 8 4 LSE 12 8 4 0 0 2,96 30 2,97 2,98 2,99 3 3,01 LONGITUD DE PIEZAS LIE 25 3,02 3,03 3,04 2,96 15 LSE 20 15 10 2,98 3 LONGITUD DE PIEZAS LIE 12 porcentaje porcentaje LIE 16 porcentaje porcentaje 16 20 3,02 3,04 LSE 9 6 3 5 0 0 2,96 2,97 2,98 Tema 2. Representación Gráfica 2,99 3 3,01 LONGITUD DE PIEZAS 3,02 3,03 3,04 2,95 2,97 2,99 3,01 LONGITUD DE PIEZAS 3,03 3,05 32 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Asociar los histogramas con las situaciones descritas debajo. 12 40 10 porcentaje porcentaje 30 8 6 4 20 10 2 0 0 2,97 2,98 2,99 3 3,01 3,02 3,03 3,04 3,05 0 3,06 20 24 16 20 porcentaje porcentaje 2,96 12 8 4 20 30 40 50 60 16 12 8 4 0 0 2,96 2,98 3 3,02 3,04 2,96 20 12 16 10 porcentaje porcentaje 10 12 8 4 2,97 2,98 2,99 3 3,01 3,02 3,03 3,04 8 6 4 2 0 0 2,96 2,97 2,98 2,99 3 3,01 3,02 3,03 3,04 0 0,2 0,4 0,6 0,8 1 1.-Tiempos de vi da de un dis positivo. 2.-Números al azar en un i ntervalo. 3- Medi da (longitud, peso,…) de artículos de un pr oceso industrial. 4.-Mezcla de dos pobl aciones. 5.- Medida de artículos de un pr oceso industrial con datos atípicos. 6.- Medida de artículos de un proceso industrial después de una inspección de calidad. Tema 2. Representación Gráfica 33 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL POLÍGONO DE FRECUENCIAS SOBRE EL HISTOGRAMA Se traza un polígono uniendo los valores del histograma en las marcas de clase. Si las clases son de igual amplitud, los extremos del polígono se unen con los puntos correspondientes a las marcas de clase de las que serían la anterior y la posterior a las utilizadas para agrupar los datos. Si se hace con frecuencias relativas y clases de igual amplitud, el área bajo el polígono es 1. Es una versión suavizada del histograma, en un intento de aproximar el modelo poblacional que surgiría con muchas observaciones y clases de amplitud tendiendo a 0. 40 porcentaje 30 20 10 0 7,5 10 12,5 15 20 15 17,5 ACCEL 20 22,5 25 45 50 27,5 25 porcentaje 20 15 10 5 0 10 25 30 35 40 55 MPG Tema 2. Representación Gráfica 34 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL HISTOGRAMAS AJUSTADOS POR MODELOS Cardata. Var. ACCEL (ORIG.=1) (Modelo normal) Cardata. Variable PRICE (Modelo lognormal) 30 50 40 20 frecuencia frecuencia 25 15 10 30 20 10 5 0 0 10 13 16 19 22 0 25 3 6 9 PRICE ACCEL 12 15 18 (X 1000,0) Datos de Autopistas. Var. ACTP (Modelo gamma) 15 frecuencia 12 9 6 3 0 0 10 20 30 40 50 60 ACTP Tema 2. Representación Gráfica 35 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL 24 30 20 25 16 20 frecuencia frecuencia Ejemplo: Aumento del tamaño muestral (50, 100, 200, 500, 2000, 10000) y del número de clases. 12 8 15 10 5 4 0 0 0 1 2 3 4 5 6 7 0 8 60 6 8 80 40 frecuencia frecuencia 4 100 50 30 20 60 40 20 10 0 0 0 2 4 6 0 8 300 1000 250 800 200 frecuencia frecuencia 2 150 100 2 4 6 8 600 400 200 50 0 0 0 2 Tema 2. Representación Gráfica 4 6 8 0 2 4 6 8 36 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DIAGRAMAS ACUMULATIVOS. Histograma acumulativo y Polígono de frecuencias acumuladas: Es una representación gráfica de la frecuencia acumulada hasta cada valor x del soporte de la variable. Tiene especial interés para variables continuas con datos agrupados. Sobre cada intervalo se levanta una barra de altura igual a la frecuencia acumulada hasta ese intervalo incluyéndole. Uniendo los extremos de estas barras se obtiene el polígono. Se puede hacer con frecuencias absolutas y relativas. Si se hace con frecuencias relativas es una función que empieza en 0 y acaba en 1. 100 100 80 80 porcentaje porcentaje Ejemplos: Diagramas acumulativos para las variables TRKS y (Highway) MPG (Cardata) 60 40 60 40 20 20 0 0 0 4 Tema 2. Representación Gráfica 8 TRKS 12 16 0 10 20 30 MPG 40 50 60 37 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL SERIES TEMPORALES En las descripciones de variables que hemos estudi ado hasta ahora el orden en que se han realizado las observaciones no ha sido tenido en cuenta. Se suponía que las observaciones podían ser intercambiadas de orden sin alterar la información que contenían sobre la variable. Hay situaciones en las que el orden de las obse rvaciones indica una secuenciación temporal de las mismas. Si además la variable presenta cierta “inercia” o correlación entre observaciones próximas en el tiempo, no se puede obviar esta circunstancia en la descripción y análisis de los datos. Para estas variables será de interés describir y analizar la evolución de la variable en el tiempo. Esta evolución puede reflejar: Tendencias Comportamientos cíclicos, Comportamientos estacionales, Variabilidad aleatoria, etc. Los conjuntos de datos de esta naturaleza se llaman series temporales (o cronológicas) y para su descripción y análisis existen técnicas estadísticas específicas. El análisis más elemental lo proporcionan los diagramas bidimensionales que representan a la variable frente al tiempo o el orden de observación. Tema 2. Representación Gráfica 38 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLOS DE SERIES TEMPORALES: EJEMPLO:Número mensual de viajeros, en miles, que utilizan líneas aéreas internacionales . (144 datos) 700 700 600 600 500 500 400 400 300 300 200 200 100 100 0 JAN 1949 JAN 1951 JAN 1953 JAN 1955 JAN 1957 JAN 1959 JAN 1950 JAN 1952 JAN 1954 JAN 1956 JAN 1958 JAN 1960 0 Tema 2. Representación Gráfica 39 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL 3 al final de cada mes. Millones de metros cúbicos EJEMPLO: Agua embalsada en los pantanos españoles en millones de m Datos bimensuales. Fuente: I.N.E., Boletín mensual. Años 1951-1983. 40000 40000 35000 35000 30000 30000 25000 25000 20000 20000 15000 15000 10000 10000 5000 5000 0 -5000 1951 0 -5000 1954 1957 1960 1963 1966 1969 1972 1975 1978 1981 Años 1951-1983 Tema 2. Representación Gráfica 40 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 3.- DESCRIPCIÓN NUMÉRICA - Estadísticos. - Medidas de posición. - Medidas de dispersión. - Medidas de forma: simetría y apuntamiento. - Diagramas de cajas. - Transformaciones de variables. Pafnutiy Lvovich Chebyshev Tema 3. Descripción numérica 41 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DESCRIPCIÓN NUMÉRICA DE VARIABLES CUANTITATIVAS. Las representaciones gráficas ponen de manifiesto distintas tipologías de distribuciones de frecuencias de variables cuantitativas atendiendo a aspectos como: - Posición de la distribución: Zona o punto central en torno al cual se aglutinan los valores de la variable. - Dispersión de la distribución respecto a la zona central. - Forma de la distribución, incluyendo aspectos como: - Simetría o asimetría respecto a la zona central (Skewness). - Apuntamiento: Peso de las colas en relación con la parte central de la distribución (Kurtosis). - Otros aspectos: Unimodalidad o multimodalidad (mezcla de datos de poblaciones diferentes), existencia de “lagunas”, posibles valores atípicos, ... Interés de los resúmenes numéricos: - Unos pocos números resumen las características fundamentales de la distribución. - Complemento natural de la descripción gráfica. - Facilitan la comparación de muestras con modelos de referencia y la comparación entre muestras. Determinados valores calculados a partir de los datos de la muestra expresan numéricamente características importantes de las distribuciones de frecuencias citadas anteriormente. - Estadístico: Cualquier función de la muestra (se utilizan diversos estadísticos para cuantificar diferentes aspectos de la distribución de frecuencias: centralidad, dispersión, apuntamiento…). - Cuando la muestra es representativa, los estadísticos muestrales son aproximaciones naturales de los parámetros poblacionales correspondientes que se definirán de manera análoga más adelante. Tema 3. Descripción numérica 42 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL GNIFICADO DE LOS ASPECTOS POSICIÓN, DISPERSIÓN Y FORMA DE UNA DISTRIBUCIÓN Distribuciones que difieren sólo en la posición Distribuciones que difieren sólo en la dispersión 0.4 0.6 0.3 0.4 0.2 0.2 0.1 0 0 -5 2.5 2 -3 -1 1 3 Simetría y asimetría 5 -8 -4 0 Apuntamiento 4 8 1 0.75 Muy apuntada Poco apuntada 1.5 0.5 Normal 1 0.25 0.5 0 0 -3 Tema 3. Descripción numérica -2 -1 0 1 2 3 43 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL MEDIDAS DE POSICIÓN (TENDENCIA CENTRAL) Media: X = Promedio de las observaciones (centro de gravedad de la distribución de frecuencias). - Muestra sin tabular x1, x2,..., xn: - Muestra tabulada: X 1 n n xi . i 1 1 n k k i 1 k i 1 k i 1 i 1 - Variable discreta (con observaciones repetidas): X - Variable continua (datos agrupados): X n1 ni mi f i mi . (mi = marca de clase) ni xi f i xi . Mediana: Me. Punto que parte la muestra ordenada en dos mitades (50% a cada lado): - Si n es impar: Observación central en la muestra ordenada. - Si n es par: Promedio de las dos observaciones centrales en la muestra ordenada. n=7 n=8 La mediana tiene sentido también para variables cualitativas ordinales. Moda: Mo. Punto donde se alcanza el máximo de la distribución de frecuencias. Para variables continuas con datos agrupados, hablaremos de intervalo modal. Podemos encontrar distribuciones con varias modas locales: bimodales o multimodales. La Moda tiene sentido también para variables cualitativas ordinales y categóricas. Tema 3. Descripción numérica 44 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL OBTENCIÓN GRÁFICA DE LA MEDIANA CON DATOS AGRUPADOS Histograma de frecuencias Polígono de frecuencias acumuladas 0.24 0.2 frec. 0.16 0.5 frec. 0.12 0.08 0.5 0.04 0 0.5 0 1.5 Tema 3. Descripción numérica 2 2.5 3 3.5 4 4.5 Me 45 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL POSICIÓN RELATIVA DE MEDIA, MEDIANA Y MODA. Distribución con asimetría positiva CA>0 Distribución Simétrica f(x) Moda Mediana Media Tema 3. Descripción numérica Distribución con asimetría negativa CA<0 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 Moda Mediana Media Media Mediana Moda 46 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ELECCIÓN DE LA MEDIDA DE TENDENCIA CENTRAL ADECUADA La elección de una medida de posición óptima no tiene una solución universal. Depende del criterio de comparación. Media y mediana representan el centro de la distribución según criterios diferentes: n La Media es la solución del problema de mínimos cuadrados: (x i 1 n La Mediana es la solución del problema de mínimas distancias: x i 1 n X ) min ( xi x ) 2 2 i x i 1 n i Me min xi x x i 1 -Eficiencia: Para datos “normales”, la media es más efic iente que la mediana. La media utiliza “todas las observaciones”. La mediana sólo las centrales. -Robustez: Estabilidad frente a la presencia de observaciones atípicas. La Media es poco robusta: una sola observación errónea puede cambiar mucho la media. La Mediana es más robusta: se necesitan muchas observaciones erróneas para producir cambios importantes en la mediana -La idea de posición se traslada al contexto de variables cualitativas (con escalas menos precisas): La moda se puede usar incluso con variables cualitativas nominales. La mediana se puede definir con variables cualitativas ordinales. La media sólo tiene sentido para variables numéricas. -Distribuciones simétricas y asimétricas. En una distribución simétrica y unimodal las tres medidas coinciden. En el caso de asimetría puede haber grandes diferencias. La Mediana puede reflejar mejor la posición de la zona central. Tema 3. Descripción numérica 47 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL OTRAS MEDIDAS DE POSICIÓN CUANTILES: xp: p-cuantil (0 p 1) Definición: Punto que parte la distribución de frecuencias en dos trozos: a la izquierda deja una proporción p a la derecha deja una proporción 1-p. Cálculo: Si np no es entero: Observación que ocupa el lugar [np]+1 en la muestra ordenada. Si np es entero: Promedio de las observaciones en lugares [np] y [np]+1 en la muestra ordenada. Cuantiles de especial interés: Cuartiles: - Primer Cuartil: Q 1= 0.25-cuantil. - Mediana (segundo cuartil): Me=0,50-cuantil. - Tercer Cuartil: Q 3= 0.75-cuantil. Percentiles: - Percentil 100p = p-cuantil: (p = 0.01, 0.02, …, 0.99): Punto que parte la distribución de frecuencias en dos trozos, a la izquierda 100p% y a la derecha 100(1-p)%. Mínimo=X(1): Observación más pequeña de la muestra. Máximo=X(n): Observación más grande de la muestra. Tema 3. Descripción numérica 48 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL MEDIDAS DE DISPERSIÓN Varianza: Promedio de las desviaciones cuadráticas en torno a la media. n -Muestra sin tabular: x1, x2, ..., xn, S ( xi X ) Expresión abreviada S 2 1 n 2 2 i 1 1 n n xi2 X 2 i 1 k -Muestra tabulada de una variable discreta (con valores repetidos): S 2 ( xi X )2 f i . -Muestra tabulada de una variable continua (datos agrupados): S 2 ( mi X )2 f i . Desviación típica: S 1 n n (x i 1 i X )2 . i 1 k i 1 Se mide en las mismas unidades que la variable. Recorrido: R = X(n) X(1): MáximoMínimo. Rango Intercuartílico: RIQ = Q3Q1. S CV Coeficiente de Variación: X - Sólo para variables positivas. - Relativiza la dispersión en función de la magnitud (escala) de las observaciones. - No tiene unidades. - Facilita la comparación. 2 Cuasivarianza (Varianza corregida) y cuasi desv. típica: Sc 1 n 1 n (x X ) i 1 i 2 , Sc 1 n 1 n (x X ) i 1 2 i Se verá su interés en la Estadística Inferencial. Tema 3. Descripción numérica 49 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL RELACIÓN MEDIA-DESVIACIÓN TÍPICA: DESIGUALDAD DE CHEBYSHEV fr xi X kS 1 1 22 1 1 2 3 1 1 2 4 1 1 2 5 1 1 2 6 fr X X 2 S 1 fr X X 3S fr X X 4 S fr X X 5S fr X X 6S 1 ,k 0 2 k fr xi X kS 1 ,k 0 2 k Ilustración de la Desigualdad de Chebyshev 0.7500, k 2 0.8888, k 3 0.9375, k 4 0.9600, k 5 0.9722, k 6 X-4S X-3S X-2S X-S X X+S X+2S X+3S X+4S Tema 3. Descripción numérica 50 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejercicio: Una panadería fabrica panes que se venden como unidades de 250 gramos. Los límites de especificación del fabricante son 25510 gramos. Se toma una muestra de 200 unidades y resulta: X 254 ,5 gr . S 2 ,25 gr . Responder a las siguientes preguntas: 1.- ¿Cuál es la proporción de unidades fraudulentas en la muestra como máximo? 2.- ¿Qué proporción de la muestra como máximo no cumple las especificaciones? Resuélvase el problema en cada una de las situaciones siguientes: a) No se conoce el aspecto de la distribución. b) La distribución presenta un aspecto simétrico. Ejercicio: En el fichero de datos de partes de averías de una empresa de suministro eléctrico, se obtiene a partir de los datos del año 1997 los siguientes valores de la media y desviación típica para la variable tiempo de acceso al lugar de la avería: X 33,1min . S 30 ,6min . Hallar la proporción máxima de clientes que pueden haber sufrido tiempos de acceso superiores a 6 horas. Tema 3. Descripción numérica 51 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica. Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión. Comprobar que las distribuciones unimodales se reconocen mejor. DISTR1 Average 50,7611 Median 52,1207 Std. Dev. 28,1797 Q1 25,3621 Q3 74,543 DISTR2 13,2301 8,47915 14,1507 3,52832 17,7168 DISTR3 24,1104 21,1166 15,0 13,5156 31,1129 DISTR4 50,0 49,3649 12,1 44,0525 55,2831 150 60 300 120 50 250 90 40 200 30 150 20 100 10 50 60 30 0 20 40 60 80 100 DISTR6 86,7699 91,5209 14,1507 82,2832 96,4717 120 80 20 40 60 80 0 0 100 20 40 60 80 100 0 120 300 180 160 100 250 150 80 200 120 60 150 90 40 100 60 20 50 30 0 0 0 0 20 40 60 VAR 5 Tema 3. Descripción numérica 80 100 0 20 40 60 VAR 6 40 80 100 60 80 100 VAR 4 200 40 20 VAR 3 VAR 2 80 DISTR8 50,0 50,1535 15,0 39,8085 60,0592 160 0 0 VAR 1 120 DISTR7 49,1235 47,9288 42,5122 2,51195 97,5952 40 0 0 DISTR5 50,0 50,4052 25,0 26,2216 73,4258 0 0 20 40 60 VAR 7 80 100 0 20 40 60 80 100 VAR 8 52 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica. Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión. Comprobar que las distribuciones unimodales se reconocen mejor. DISTR1 Average 50,7611 Median 52,1207 Std. Dev. 28,1797 Q1 25,3621 Q3 74,543 DISTR2 13,2301 8,47915 14,1507 3,52832 17,7168 DISTR3 24,1104 21,1166 15,0 13,5156 31,1129 DISTR4 50,0 49,3649 12,1 44,0525 55,2831 150 60 300 120 50 250 90 40 200 30 150 20 100 10 50 60 30 0 20 40 60 80 100 DISTR6 86,7699 91,5209 14,1507 82,2832 96,4717 120 80 20 40 60 80 0 0 100 20 40 60 80 100 0 120 300 180 160 100 250 150 80 200 120 60 150 90 40 100 60 20 50 30 0 0 0 0 20 40 60 VAR 5 Tema 3. Descripción numérica 80 100 0 20 40 60 VAR 6 40 80 100 60 80 100 VAR 4 200 40 20 VAR 3 VAR 2 80 DISTR8 50,0 50,1535 15,0 39,8085 60,0592 160 0 0 VAR 1 120 DISTR7 49,1235 47,9288 42,5122 2,51195 97,5952 40 0 0 DISTR5 50,0 50,4052 25,0 26,2216 73,4258 0 0 20 40 60 VAR 7 80 100 0 20 40 60 80 100 VAR 8 52 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica. Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión. Comprobar que las distribuciones unimodales se reconocen mejor. DISTR1 Average 50,7611 Median 52,1207 Std. Dev. 28,1797 Q1 25,3621 Q3 74,543 DISTR2 13,2301 8,47915 14,1507 3,52832 17,7168 DISTR3 24,1104 21,1166 15,0 13,5156 31,1129 DISTR4 50,0 49,3649 12,1 44,0525 55,2831 150 60 300 120 50 250 90 40 200 30 150 20 100 10 50 60 30 0 20 40 60 80 100 DISTR6 86,7699 91,5209 14,1507 82,2832 96,4717 120 80 20 40 60 80 0 0 100 20 40 60 80 100 0 120 300 180 160 100 250 150 80 200 120 60 150 90 40 100 60 20 50 30 0 0 0 0 20 40 60 VAR 5 Tema 3. Descripción numérica 80 100 0 20 40 60 VAR 6 40 80 100 60 80 100 VAR 4 200 40 20 VAR 3 VAR 2 80 DISTR8 50,0 50,1535 15,0 39,8085 60,0592 160 0 0 VAR 1 120 DISTR7 49,1235 47,9288 42,5122 2,51195 97,5952 40 0 0 DISTR5 50,0 50,4052 25,0 26,2216 73,4258 0 0 20 40 60 VAR 7 80 100 0 20 40 60 80 100 VAR 8 52 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica. Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión. Comprobar que las distribuciones unimodales se reconocen mejor. DISTR1 Average 50,7611 Median 52,1207 Std. Dev. 28,1797 Q1 25,3621 Q3 74,543 DISTR2 13,2301 8,47915 14,1507 3,52832 17,7168 DISTR3 24,1104 21,1166 15,0 13,5156 31,1129 DISTR4 50,0 49,3649 12,1 44,0525 55,2831 150 60 300 120 50 250 90 40 200 30 150 20 100 10 50 60 30 0 20 40 60 80 100 DISTR6 86,7699 91,5209 14,1507 82,2832 96,4717 120 80 20 40 60 80 0 0 100 20 40 60 80 100 0 120 300 180 160 100 250 150 80 200 120 60 150 90 40 100 60 20 50 30 0 0 0 0 20 40 60 VAR 5 Tema 3. Descripción numérica 80 100 0 20 40 60 VAR 6 40 80 100 60 80 100 VAR 4 200 40 20 VAR 3 VAR 2 80 DISTR8 50,0 50,1535 15,0 39,8085 60,0592 160 0 0 VAR 1 120 DISTR7 49,1235 47,9288 42,5122 2,51195 97,5952 40 0 0 DISTR5 50,0 50,4052 25,0 26,2216 73,4258 0 0 20 40 60 VAR 7 80 100 0 20 40 60 80 100 VAR 8 52 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica. Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión. Comprobar que las distribuciones unimodales se reconocen mejor. DISTR1 Average 50,7611 Median 52,1207 Std. Dev. 28,1797 Q1 25,3621 Q3 74,543 DISTR2 13,2301 8,47915 14,1507 3,52832 17,7168 DISTR3 24,1104 21,1166 15,0 13,5156 31,1129 DISTR4 50,0 49,3649 12,1 44,0525 55,2831 150 60 300 120 50 250 90 40 200 30 150 20 100 10 50 60 30 0 20 40 60 80 100 DISTR6 86,7699 91,5209 14,1507 82,2832 96,4717 120 80 20 40 60 80 0 0 100 20 40 60 80 100 0 120 300 180 160 100 250 150 80 200 120 60 150 90 40 100 60 20 50 30 0 0 0 0 20 40 60 VAR 5 Tema 3. Descripción numérica 80 100 0 20 40 60 VAR 6 40 80 100 60 80 100 VAR 4 200 40 20 VAR 3 VAR 2 80 DISTR8 50,0 50,1535 15,0 39,8085 60,0592 160 0 0 VAR 1 120 DISTR7 49,1235 47,9288 42,5122 2,51195 97,5952 40 0 0 DISTR5 50,0 50,4052 25,0 26,2216 73,4258 0 0 20 40 60 VAR 7 80 100 0 20 40 60 80 100 VAR 8 52 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TIPIFICACIÓN y ESTANDARIZACIÓN DE VARIABLES: Consiste en centrar la variable en el origen y escalarla en unidades de desviación típica: x1, x2, ..., xn muestra. Media z1, z2, ..., zn muestra tipificada: X y Desviación típica S. x X zi i ,i 1,2,...n Media 0 y Desviación Típica 1. S Características de una muestra tipificada: - Una muestra tipificada tiene media 0 y desviación típica 1: Z 0; SZ 1 - Una variable tipificada no tiene unidades. Los valores representan el número de desviaciones típicas que se alejan de la media y en qué dirección (a través del signo). - La estandarización facilita la comparación de la forma de las distribuciones, ya que elimina los factores posición y dispersión. - La desigualdad de Chebyshev nos dice que 1 0.7500 , k 2 22 1 fr 3 Z 3 1 2 0.8888 , k 3 3 1 fr 4 Z 4 1 2 0.9375, k 4 4 1 fr 5 Z 5 1 2 0.9600 , k 5 5 1 fr 6 Z 6 1 2 0.9722 , k 6 6 fr 2 Z 2 1 Tema 3. Descripción numérica 53 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL MEDIDAS DE FORMA DE UNA DISTRIBUCIÓN ASIMETRÍA o SKEWNESS: Coeficiente de asimetría muestral: x1, x2, ..., xn muestra. X , S : Media y Desviación típica. z1, z2, ..., zn muestra tipificada Coeficiente de asimetría: CA 1 n n (x i 1 i S X )3 3 1 n n z i 1 3 i Interpretación: Distribución simétrica (colas iguales): CA 0 Distribución asimétrica positiva (cola derecha más pesada): CA>0 Distribución asimétrica negativa (cola izquierda más pesada): CA<0. Justificación: La función x3 es impar y por lo tanto Si la distribución es simétrica (aprox.) los sumandos zi3 positivos y negativos se compensan. Si la cola derecha es más pesada, los valores zi3 positivos pesarán más que los negativos. Si la cola izquierda es más pesada, los valores zi3 negativos pesarán más que los positivos. Ejemplos: Las variables que son el resultado de sumar muchas causas independientes y de contribución pequeña, presentan distribuciones simétricas. Los tiempos de espera, tiempos de vida, etc. presentan habitualmente fuerte asimetría positiva. Tema 3. Descripción numérica 54 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL APUNTAMIENTO o KURTOSIS: Coeficiente de apuntamiento o kurtosis Medida de la importancia de las colas de la distribución. x1, x2, ..., xn muestra. X , S : Media y Desviación típica. z1, z2, ..., zn muestra tipificada Coeficiente de apuntamiento o kurtosis: CK 1 n n (x i 1 i S X )4 4 - Interpretación: Distribución normal: (Mesocúrtica) CK 3 Distribución más apuntada: (Leptocúrtica) CK>3 Distribución menos apuntada: (Platicúrtica) CK<3. 1 n n z i 1 4 i Justificación: La función x4 crece muy rápidamente a partir de x=1, por tanto, al calcular el momento de orden 4 de los datos tipificados, el resultado está muy influenciado por las observaciones más alejadas: Si la distribución tipificada tiene colas pesadas, (observaciones z i muy alejadas de la parte 4 central) esas observaciones aportarán sumandos zi muy grandes. Si la distribución no tiene colas, los sumandos zi4 serán pequeños. Si la distribución no es simétrica, la interpretación del coeficiente de kurtosis se hace complicada. Algunos autores y programas utilizan CK3, con lo que el elemento de comparación es el 0. En control de calidad, las distribuciones muy apuntadas presentan problemas de artículos fuera de los límites de especificación con más frecuencias que las normales. Tema 3. Descripción numérica 55 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración del significado de asimetría y apuntamiento o kurtosis. Todas las distribuciones representadas tienen media 0 y desviación típica 1. Ordena las distribuciones según el grado de asimetría. Varias de ellas tienen coeficientes similares. Indica qué variables tendrían asimetría claramente positiva o negativa, o próxima a 0. Separa las distribuciones aproximadamente simétricas y unimodales y ordénalas por el grado de apuntamiento. 80 100 80 240 120 200 100 160 80 120 60 80 40 40 20 60 60 40 40 20 20 0 0 -5 -3 -1 1 3 0 -5 5 -3 -1 1 3 5 0 -5 -3 VAR 2 VAR 1 160 -1 1 3 5 120 240 100 100 200 80 80 160 60 120 40 80 -3 -1 1 VAR 5 Tema 3. Descripción numérica 3 5 1 3 5 20 40 40 0 -5 -1 60 40 0 -3 VAR 4 120 80 -5 VAR 3 20 0 0 -5 -3 -1 1 VAR 6 3 5 -5 -3 -1 1 VAR 7 3 5 -5 -3 -1 1 3 5 VAR 8 56 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: Ilustración del significado de asimetría y apuntamiento o kurtosis. Todas las distribuciones representadas tienen media 0 y desviación típica 1. Ordena las distribuciones según el grado de asimetría. Varias de ellas tienen coeficientes similares. Indica qué variables tendrían asimetría claramente positiva o negativa, o próxima a 0. Separa las distribuciones aproximadamente simétricas y unimodales y ordénalas por el grado de apuntamiento. asim. positiva moderada asim. positiva extrema asimétricas simétricas 80 100 80 240 120 200 100 160 80 120 60 80 40 40 20 60 60 40 40 20 20 0 0 -5 -3 -1 1 3 -5 5 -3 -1 160 1 3 5 0 -5 -3 VAR 2 mínimo VAR 1 2º mayor 0 -1 1 3 5 120 240 100 100 200 80 80 160 60 120 40 80 -3 -1 1 3 VAR 5 5 1 3 5 20 40 40 0 -5 -1 60 40 0 -3 VAR 4 120 80 -5 VAR 3 20 0 0 -5 -3 -1 1 3 VAR 6 asim. negativa moderada mayor (máximo) 5 -5 -3 -1 1 3 5 -5 -3 -1 1 3 5 VAR 8 VAR 7 asim. negativa extrema 3º mayor apuntamiento Tema 3. Descripción numérica 56 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DIAGRAMAS DE CAJA: BOX-PLOTS. Resumen “rápido” de una distribución de frecuencias de una muestra utilizando cinco estadísticos: los cuartiles: Q1, Me, Q3 y las observaciones extremas: Máximo y Mínimo. Se completa con unos límites (LI, LS), (inferior y superior): Datos fuera de (LI, LS) son posibles datos anómalos (outliers), errores de medición o de tecleado, etc. Límite inferior: Límite superior: LI = Q11.5(Q3Q1) LS = Q3+1.5(Q3Q1) Para datos normales, fr(LI, LS)99%. Caja: Q1, Me, Q3. (contiene el 50% de datos) Patas: mínxi: xiLI, máxxi: xiLS. (cada pata contiene el 25% de los datos) El box-plot aporta información rápida sobre posición, dispersión y forma de la distribución. 0 2 4 6 RATE Tema 3. Descripción numérica 8 10 6 8 10 12 14 16 TRKS 57 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Frequency Tabulation for SALARY -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------1 10000,0 12500,0 11250,0 9 0,1957 9 0,1957 2 12500,0 15000,0 13750,0 11 0,2391 20 0,4348 3 15000,0 17500,0 16250,0 7 0,1522 27 0,5870 4 17500,0 20000,0 18750,0 6 0,1304 33 0,7174 5 20000,0 22500,0 21250,0 5 0,1087 38 0,8261 6 22500,0 25000,0 23750,0 4 0,0870 42 0,9130 7 25000,0 27500,0 26250,0 3 0,0652 45 0,9783 8 27500,0 30000,0 28750,0 1 0,0217 46 1,0000 Percentiles Summary Statistics 12 10 1,0% = 10535,0 5,0% = 11417,0 10,0% = 11767,0 25,0% = 13245,0 30,0% = 13677,0 40,0% = 14861,0 50,0% = 16436,0 60,0% = 17949,0 70,0% = 19800,0 75,0% = 20872,0 90,0% = 24170,0 95,0% = 25685,0 99,0% = 27837,0 Average = 17270,2 Median = 16436,0 Variance = 2,22466E7 Standard deviation = 4716,63 Minimum = 10535,0 Maximum = 27837,0 Range = 17302,0 Lower quartile = 13245,0 Upper quartile = 20872,0 Interquartile range = 7627,0 Skewness = 0,518932 Kurtosis = -0,784589 8 6 4 2 0 1 1,8 2,2 2,6 SALARY 1 Tema 3. Descripción numérica 1,4 1,4 1,8 2,2 SALARY 2,6 3 (X 10000) 3 (X 100 58 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Frequency Tabulation for WEIGHT (Cardata) -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------1 1750,0 2000,0 1875,0 22 0,1419 22 0,1419 2 2000,0 2250,0 2125,0 29 0,1871 51 0,3290 3 2250,0 2500,0 2375,0 16 0,1032 67 0,4323 4 2500,0 2750,0 2625,0 26 0,1677 93 0,6000 5 2750,0 3000,0 2875,0 19 0,1226 112 0,7226 6 3000,0 3250,0 3125,0 14 0,0903 126 0,8129 7 3250,0 3500,0 3375,0 13 0,0839 139 0,8968 8 3500,0 3750,0 3625,0 8 0,0516 147 0,9484 9 3750,0 4000,0 3875,0 5 0,0323 152 0,9806 10 4000,0 4250,0 4125,0 2 0,0129 154 0,9935 11 4250,0 4500,0 4375,0 1 0,0065 155 1,0000 Percentiles Summary Statistics 1,0% = 1760,0 5,0% = 1875,0 10,0% = 1975,0 25,0% = 2144,0 30,0% = 2205,0 40,0% = 2400,0 50,0% = 2620,0 60,0% = 2767,5 70,0% = 2950,0 75,0% = 3070,0 90,0% = 3530,0 95,0% = 3830,0 99,0% = 4080,0 Count = 155 Average = 2673,02 Median = 2620,0 Variance = 361374,0 Standard deviation = 601,144 Minimum = 1755,0 Maximum = 4360,0 Range = 2605,0 Lower quartile = 2144,0 Upper quartile = 3070,0 Interquartile range = 926,0 Skewness = 0,545929 Kurtosis = -0,520033 30 25 20 15 10 5 0 1750 2000 2250 2500 2750 3000 3250 3500 3750 4000 4250 4500 WEIGHT 1750 Tema 3. Descripción numérica 2250 2750 3250 WEIGHT 3750 4250 4750 59 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS media 0,05939 0,06047 -0,06722 0,02525 0,06011 -0,04799 30 30 20 10 10 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -EXPONENCIAL 40 20 10 0 D.T. 1,04678 1,04115 0,83109 0,87335 0,95499 1,00638 Skewness Kurtosis 0,04216 -0,10087 -0,04259 -1,20470 1,27951 1,46917 -1,46087 2,79646 1,29590 2,01373 -0,25662 1,53852 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 NORMAL GAMMA 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 DOBLE EXPONENCIAL Box-and-Whisker Plot percentage percentage 30 RIQ 1,41807 1,78006 1,07816 1,10832 1,24452 1,01170 40 36 32 28 24 20 16 12 8 4 0 percentage 20 0 rango 5,62290 3,44756 4,19515 5,63447 5,10518 7,63452 percentage 40 percentage 40 mediana 0,06996 0,04452 -0,32299 0,30059 -0,16929 0,00136 percentage VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 -5 -4 -3 -2 -1 0 1 2 3 4 5 EXPONENCIAL Tema 3. Descripción numérica -5 -4 -3 -2 -1 0 1 2 3 4 5 UNIFORME -5 -4 -3 -2 -1 0 1 2 3 4 5 60 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS media 0,05939 0,06047 -0,06722 0,02525 0,06011 -0,04799 30 20 4 10 0 20 0 -EXPONENCIAL 40 D.T. 1,04678 1,04115 0,83109 0,87335 0,95499 1,00638 Skewness Kurtosis 0,04216 -0,10087 -0,04259 -1,20470 1,27951 1,46917 -1,46087 2,79646 1,29590 2,01373 -0,25662 1,53852 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 NORMAL GAMMA 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 DOBLE EXPONENCIAL Box-and-Whisker Plot percentage percentage 30 20 10 0 40 36 32 28 24 20 16 12 8 4 0 10 -5 -4 -3 -2 -1 0 1 2 3 4 5 RIQ 1,41807 1,78006 1,07816 1,10832 1,24452 1,01170 percentage 30 rango 5,62290 3,44756 4,19515 5,63447 5,10518 7,63452 percentage 40 percentage 40 mediana 0,06996 0,04452 -0,32299 0,30059 -0,16929 0,00136 percentage VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 -5 -4 -3 -2 -1 0 1 2 3 4 5 EXPONENCIAL Tema 3. Descripción numérica 4 -5 -4 -3 -2 -1 0 1 2 3 4 5 UNIFORME -5 -4 -3 -2 -1 0 1 2 3 4 5 60 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS media 0,05939 0,06047 -0,06722 0,02525 0,06011 -0,04799 40 40 20 10 10 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -EXPONENCIAL 40 3 40 36 32 28 24 20 16 12 8 4 0 D.T. 1,04678 1,04115 0,83109 0,87335 0,95499 1,00638 Skewness Kurtosis 0,04216 -0,10087 -0,04259 -1,20470 1,27951 1,46917 -1,46087 2,79646 1,29590 2,01373 -0,25662 1,53852 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 NORMAL GAMMA 40 35 30 25 20 15 10 5 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 DOBLE EXPONENCIAL Box-and-Whisker Plot percentage percentage 30 20 10 0 5 30 RIQ 1,41807 1,78006 1,07816 1,10832 1,24452 1,01170 percentage 4 20 0 rango 5,62290 3,44756 4,19515 5,63447 5,10518 7,63452 percentage percentage 30 mediana 0,06996 0,04452 -0,32299 0,30059 -0,16929 0,00136 percentage VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 -5 -4 -3 -2 -1 0 1 2 3 4 5 EXPONENCIAL Tema 3. Descripción numérica 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 UNIFORME -5 -4 -3 -2 -1 0 1 2 3 4 5 60 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS media 0,05939 0,06047 -0,06722 0,02525 0,06011 -0,04799 40 40 20 10 10 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 -EXPONENCIAL 40 3 20 10 -5 -4 -3 -2 -1 0 1 2 3 4 5 EXPONENCIAL Tema 3. Descripción numérica 40 36 32 28 24 20 16 12 8 4 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 40 35 30 25 20 15 10 5 0 D.T. 1,04678 1,04115 0,83109 0,87335 0,95499 1,00638 Skewness Kurtosis 0,04216 -0,10087 -0,04259 -1,20470 1,27951 1,46917 -1,46087 2,79646 1,29590 2,01373 -0,25662 1,53852 40 35 30 25 20 15 10 5 0 1 -5 -4 -3 -2 -1 0 1 2 3 4 5 NORMAL GAMMA percentage percentage 30 0 5 30 RIQ 1,41807 1,78006 1,07816 1,10832 1,24452 1,01170 percentage 4 20 0 rango 5,62290 3,44756 4,19515 5,63447 5,10518 7,63452 percentage percentage 30 mediana 0,06996 0,04452 -0,32299 0,30059 -0,16929 0,00136 percentage VAR1 VAR2 VAR3 VAR4 VAR5 VAR6 6 -5 -4 -3 -2 -1 0 1 2 3 4 5 DOBLE EXPONENCIAL Box-and-Whisker Plot 1 2 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 UNIFORME 6 -5 -4 -3 -2 -1 0 1 2 3 4 5 60 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TRANSFORMACIONES DE VARIABLES Transformaciones lineales: Y=aX+b Son simples cambios de localización y escala. Se usan para eliminar cifras no significativas y expresar los datos en unidades más sencillas de interpretar. Conservan la estructura (forma) original de los datos (simetría y puntos raros). Los estadísticos se transforman de manera sencilla: Si a>0, entonces: Media Mediana Cuantiles Y aX b Varianza MeY aMe X b Desv. Típica S Y2 a 2 S X2 Asimetria CAY CAX S Y aS X Kurtosis CK Y CK X y p ax p b Datos agrupados en clases de igual longitud: clases transformadas tienen la misma longitud. Longitud: Ingresos: Temper atura: Peso: metros centímetros: Y=100X miles millones: Y=X/1000 ºC ºF: Y=32+1.8X gramos error respecto a un valor p0 : Y=X-p0 Transformaciones no lineales (monótonas): Y=h(X) Cambian la estructura (forma) original de los datos. Se usan para promover simetría integrar puntos atípicos de las colas. Las más usadas son: Y= log X; Y=1/X; Y=X1/2; Y=X2. Los estadísticos no se transforman de manera sencilla: Ej: log( X ) log( X ) Datos agrupados en clases iguales: Las clases transformadas no tienen la misma longitud. Acidez: Concentración de H+ pH: Consumo de combustible: litros/100 Km. Km/litro: Tema 3. Descripción numérica Y=log10X. Y=100/X 61 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLOS: Variable ACTP (Highway) 12 18 10 15 8 12 6 9 6 4 3 2 0 0 0 10 20 30 40 50 60 40 50 60 0 1 2 ACTP 0 10 20 30 0 1 Variable MPG (Cardata) ) 40 40 30 30 5 2 3 4 5 20 20 10 10 0 0 4 10 20 30 40 6 50 15 20 25 30 MPG 35 40 45 50 8 10 12 14 16 235,2146/MPG=litros/100Km MPG 10 Tema 3. Descripción numérica 4 log(ACTP) ACTP 3 log(ACTP) 5 7 9 11 13 15 17 235,2146/MPG=litros/100Km 62 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL 30 25 EJEMPLO: Población de las comarcas catalanas. Comarca Población Log10.| Comarca Población Log10. Alta Ribagorça 4 0,602 | Berguedà 41 1,613 Pallars Sobirà 5 0,699 | Garrotxa 45 1,653 Val d’Aran 6 0,778 | Montsià 54 1,732 Priorat 10 1,000 | Baix Ebre 64 1,806 Solsonès 11 1,041 | Alt Penedès 67 1,826 Cernanya 12 1,079 | Garraf 72 1,857 Terra Alta 13 1,114 | Anoia 80 1,903 Pallars Jussà 14 1,146 | Baix Empordà 84 1,924 Segarra 17 1,230 | Alt Empordà 85 1,929 Conca de Barberà 18 1,255 | Selva 91 1,959 Alt Urgell 19 1,279 | Osona 115 2,061 Garrigues 20 1,301 | Gironès 122 2,086 Pla de l’Estany 21 1,322 | Baix Camp 124 2,093 Ribera d’Ebre 24 1,380 | Tarragonès 149 2,173 Ripollès 28 1,447 | Bages 150 2,176 Pla d’Urgell 29 1,462 | Segrià 159 2,201 Urgell 30 1,477 | Vallès Oriental 240 2,380 Baix Penedès 33 1,519 | Maresme 270 2,431 Alt Camp 34 1,531 | Baix Llobregat 583 2,766 Noguera 36 1,556 | Vallès Occid. 621 2,793 20 15 10 5 0 0 200 400 600 800 Población 0 200 400 600 800 Población 12 10 8 6 4 2 0 0 0,5 1 1,5 2 2,5 3 LOG10(Población) 0 0,5 1 1,5 2 2,5 3 LOG10(Población) Tema 3. Descripción numérica 63 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL 30 25 EJEMPLO: Población de las comarcas catalanas. Comarca Población Log10.| Comarca Población Log10. Alta Ribagorça 4 0,602 | Berguedà 41 1,613 Pallars Sobirà 5 0,699 | Garrotxa 45 1,653 Val d’Aran 6 0,778 | Montsià 54 1,732 Priorat 10 1,000 | Baix Ebre 64 1,806 Solsonès 11 1,041 | Alt Penedès 67 1,826 Cernanya 12 1,079 | Garraf 72 1,857 Terra Alta 13 1,114 | Anoia 80 1,903 Pallars Jussà 14 1,146 | Baix Empordà 84 1,924 Segarra 17 1,230 | Alt Empordà 85 1,929 Conca de Barberà 18 1,255 | Selva 91 1,959 Alt Urgell 19 1,279 | Osona 115 2,061 Garrigues 20 1,301 | Gironès 122 2,086 Pla de l’Estany 21 1,322 | Baix Camp 124 2,093 Ribera d’Ebre 24 1,380 | Tarragonès 149 2,173 Ripollès 28 1,447 | Bages 150 2,176 Pla d’Urgell 29 1,462 | Segrià 159 2,201 Urgell 30 1,477 | Vallès Oriental 240 2,380 Baix Penedès 33 1,519 | Maresme 270 2,431 Alt Camp 34 1,531 | Baix Llobregat 583 2,766 Noguera 36 1,556 | Vallès Occid. 621 2,793 20 15 10 5 0 0 200 400 600 800 Población 0 200 400 600 800 Población 12 10 8 6 4 2 0 0 0,5 1 1,5 2 2,5 3 LOG10(Población) 0 0,5 1 1,5 2 2,5 3 LOG10(Población) Tema 3. Descripción numérica 63 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 4.- DESCRIPCION DE DATOS BIVARIANTES. ASOCIACIÓN - Tabulación de datos bivariantes. - Asociación entre variables cualitativas. - Representaciones gráficas. - Asociación entre atributos y variables numéricas: Comparación de grupos mediante box-plots. - Asociación entre variables cuantitativas: Regresión y Correlación. (Se verá más adelante) Tema 4. Descripción de datos bivariantes. Asociación. 64 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DESCRIPCIÓN DE DATOS BIVARIANTES En la mayoría de los problemas de interés interviene más de una variable y se dispone de un conjunto de datos bivariantes o multivariantes. EJEMPLOS: Datos de Automóviles (Cardata). Datos Compañía Informática (Salary). Datos de Autopistas (Highway). Las descripciones univariantes de las variables que intervienen en estos problemas dan información incompleta de los mismos. El mayor interés está en el estudio de la asociación (relaciones) entre las distintas variables. Descubrir la existencia de cierto tipo de relaci ón entre una variable Y y otra variable X, puede permitir a veces atribuir parte de la variabilidad de la primera a la variabilidad de esta última. Las técnicas estadísticas para estudiar la asociación entre variables tienen importantes aplicaciones a la vigilancia y control de los procesos industriales y de servicios: Identificar las causas asignables de la variabilidad de las características de calidad de productos y servicios permite controlar y reducir la variabilidad. Las técnicas descriptivas para medir la asociación entre variables varían según el tipo de variables a estudiar. Tema 4. Descripción de datos bivariantes. Asociación. 65 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL 1. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS O ATRIBUTOS: ANALISIS DE TABLAS DE CONTINGENCIA O COMPAR ACIÓN DE GRUPOS RESPECTO A UNA VARIABLE CUALITATIVA. En el fichero de DATOS DE PROFESIONALES INFORMÁTICOS se quiere saber si el desempeño de puestos de responsabilidad (MGT) está asociado al nivel de formación (EDUC). 2. ASOCIACIÓN ENTRE UNA VAR. NUMÉRICA Y UNA CUALITATIVA: COMPARACIÓN DE GRUPOS RESPECTO A UNA VARIABLE CUANTITATIVA. En el fichero de DATOS DE AUTOMÓVILES se quiere conocer si existen diferencias en el peso de los vehículos (WEIGHT) según el origen (ORIGIN). En el fichero de DATOS DE PROFESIONALES INFORMÁTICOS se quiere estudiar cómo repercute el desempeño de un cargo de responsabilidad (MGT) sobre las retribuciones (SALARY). En el fichero de DATOS DE AUTOPISTAS se quiere es tudiar si existen diferencias en la tasa de accidentes (RATE) según el tipo de autopista (TYPE) 3. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: REGRESIÓN Y CORRELACIÓN. En el fichero de DATOS DE AUTOMÓVILES se quiere estudiar la relación entre consumo de combustible (MPG) y peso (WEIGHT). En el fichero de DATOS DE PROFESIONALES INFORMÁTICOS se quiere estudiar la relación entre retribuciones (SALARY) y experiencia (EXPRNC). En el fichero de DATOS DE AUTOPISTAS se quiere es tudiar la incidencia que tiene el límite de velocidad (SLIM) sobre la tasa de accidentes (RATE). Tema 4. Descripción de datos bivariantes. Asociación. 66 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TABULACIÓN DE DATOS BIVARIANTES. DISTRIBUCIÓN CONJUNTA Y MARGINALES X e Y variables que toman un número “pequeño” de valores o categorías: Categorías “naturales” en el caso de Var. Cualitativas o Var. Discretas (con pocos valores). Intervalos de clase (datos agrupados) en caso de Var. Continuas (o discretas con muchos valores). Categorías de la variable X: A1, A2, …, Ar. Categorías de la variable Y: B1, B2, …, Bc. Arreglo matricial de las frecuencias. Tablas de contingencia: Datos originales Caso 1 2 … … n-1 n X Ai A2 … … Ar A3 Frecuencias Absolutas Y Bj B1 … … Distribución conjunta nij = Número de casos con X=Ai e Y=Bj i=1, …, r, j=1, …, c Bc B4 c r j 1 i 1 r c r c i 1 j 1 ni . nij ; n. j nij ; nij ni . n. j n Tema 4. Descripción de datos bivariantes. Asociación. i 1 j 1 Y X A1 … Ai … Ar B1 n11 … ni1 … nr1 n.1 … … … … … … … Bj n1j … nij … nrj n.j … … … … … … … Bc n1c … nic … nrc n.c n1. … ni. … nr. n Distribuciones marginales ni. = Número de casos con X=Ai , i=1, …, r n.j = Número de casos con Y=Bj , j=1, …, c 67 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TABULACIÓN DE DATOS BIVARIANTES. DISTRIBUCIÓN CONJUNTA Y MARGINALES Frecuencias Absolutas Y X A1 … Ai … Ar B1 n11 … ni1 … nr1 n.1 … … … … … … … Bj n1j … nij … nrj n.j … … … … … … … Bc n1c … nic … nrc n.c Frecuencias Relativas n1. … ni. … nr. n Distribución conjunta f ij nij n , i 1,...r , j 1,..., c. Y X A1 … Ai … Ar B1 f11 … fi1 … fr1 f.1 … … … … … … … Bj f1j … fij … frj f.j … … … … … … … Bc f1c … fic … frc f.c f1. … fi. … fr. 1 Distribuciones marginales r c f i 1 j 1 Tema 4. Descripción de datos bivariantes. Asociación. ij r c i 1 j 1 f i. f . j 1 c ni . f i. f ij , i 1,...r n j 1 r n. j f. j f ij , j 1,..., c. n i 1 68 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIONES de FRECUENCIA CONDICIONADAS Distribuciones de Y condicionada por X Frecuencias Condicionadas Y X A1 … Ai … Ar B1 f1/1 … f1/i … f1/r … … … … … … Bj fj/1 … fj/i … fj/r … … … … … … Bc fc/1 … fc/i … fc/r f j/i 1 … 1 … 1 La tabla se lee por filas: Familia de r distribuciones condicionadas de la variable Y a cada valor de X=Ai, i=1,…,r. Distribución de Frecuencias de Y condicionada por X=Ai f ij B j n ij fr A i ni. f i. Y X Ai j 1,..., c i 1,..., r fj/i= frecuencia relativa de Bj condicionada por Ai = frecuencia relativa de los casos con Y=Bj entre los que tienen X=Ai. Tema 4. Descripción de datos bivariantes. Asociación. 69 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIONES de FRECUENCIA CONDICIONADAS Distribuciones de X condicionada por Y Frecuencias Condicionadas Y X A1 … Ai … Ar B1 f1/1 … fi/1 … fr/1 … … … … … … Bj f1/j … fi/j … fr/j … … … … … … Bc f1/c … fi/c … fr/c 1 … 1 … 1 fi / j La tabla se lee por columnas: Familia de c distribuciones condicionadas de la variable X a cada valor de Y=Bj, j=1,…,c. Distribución de Frecuencias de X condicionada por Y=Bj X f ij n ij Ai fr B j n. j f . j Y Bj j 1,..., c i 1,..., r fi/j= frecuencia relativa de Ai condicionada por Bj = frecuencia relativa de los casos con X=Ai entre los que tienen Y=Bj. Tema 4. Descripción de datos bivariantes. Asociación. 70 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS Asociación o Dependencia: Distribuciones condicionadas muy diferentes entre sí. (tanto Y/X como X/Y) EJEMPLO: X=Línea de fabricación (L1, L2, L3); Y= Tipo de defecto (D1, D2, D3) Frecuencias Absolutas Frecuencias Relativas Distrib. Condicionadas Y/X D1 D2 D3 Tot D1 D2 D3 Tot D1 D2 D3 L1 7 39 7 53 L1 0,03 0,19 0,03 0,26 L1 0,13 0,74 0,13 1,00 L2 55 8 12 75 L2 0,27 0,04 0,06 0,37 L2 0,73 0,11 0,16 1,00 L3 10 4 59 73 L3 0,05 0,02 0,29 0,36 L3 0,14 0,05 0,81 1,00 Tot 72 51 78 201 Marg 0,36 0,25 0,39 1,00 Tot 0,36 0,25 0,39 1,00 Las distribuciones condicionadas son muy diferentes. Las variables muestran una fuerte dependencia. Independencia: Distribuciones condicionadas muy parecidas entre sí. (tanto Y/X como X/Y) fi / j f ij f. j f i. i 1,..., r j 1,..., c f ij f i . f . j i 1,..., r j 1,..., c EJEMPLO: X=Género (Varón, Mujer); Y= Calificación en Estadística (Susp, Aprob, Notable o más) Frecuencias Absolutas Frecuencias Relativas Distrib. Condicionadas Y/X S A N Tot S A N Tot S A N V 31 45 14 90 V 0,21 0,30 0,09 0,60 V 0,34 0,50 0,16 1,00 M 21 29 10 60 M 0,14 0,19 0,07 0,40 M 0,35 0,48 0,17 1,00 Marg 0,35 0,49 0,16 1,00 Tot 52 74 24 150 Tot 0,35 0,49 0,16 1,00 Las distribuciones condicionadas son prácticamente iguales. Tema 4. Descripción de datos bivariantes. Asociación. 71 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Estudio realizado sobre una muestra de 200 trabajadores de una empresa para determinar en qué medida el hábito de fumar es tá asociado con el absentismo laboral. Sólo se consideran bajas no ocasionadas por accidentes laborales. X = Hábito de fumar (F = Fumador, NF = No Fumador). Variable cualitativa nominal. Y = Absentismo: (B = Bajo, M = Medio, A = Alto). Variable cualitativa ordinal. DISTRIBUCIÓN CONJUNTA Y DISTRIBUCIONES MARGINALES Frecuencias Absolutas Frecuencias Relativas Y Y X B M A X B M A F 50 22 8 80 F 0.25 0.11 0.04 0.4 NF 110 8 2 120 NF 0.55 0.04 0.01 0.6 160 30 10 200 0.80 0.15 0.05 1 DISTRIBUCIONES CONDICIONADAS Distribuciones de X/Y Distribuciones de Y/X Y Y X B M A X B M A F 0.3125 0.7333 0.8 F 0.625 0.275 0.10 1 NF 0.6875 0.2666 0.2 NF 0.9166 0.0666 0.0166 1 1 1 1 Las distribuciones condicionadas son muy heterogéneas e indican la existencia de una asociación importante: Entre los fumadores el nivel de absentismo es globalmente mayor. En este caso es más interesante estudiar Y/X. (Y es la var. dependiente y X la independiente) Tema 4. Descripción de datos bivariantes. Asociación. 72 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL REPRESENTACIÓN GRÁFICA Diagrama de Barras Múltiple Mosaico ABSENTISMO SEGÚN HÁBITO DE FUMAR ABSENTISMO SEGÚN HÁBITO DE FUMAR BAJO MEDIO ALTO 60 BAJO MEDIO ALTO porcentaje 50 40 30 20 10 0 FUMADOR NO FUMADOR FUMADOR NO FUMADOR Perfiles de las filas HÁBITO DE FUMAR SEGÚN ABSENTISMO HÁBITO DE FUMAR SEGÚN ABSENTISMO FUMADOR NO FUMADOR 60 FUMADOR NO FUMADOR porcentaje 50 40 30 20 10 0 BAJO MEDIO ALTO BAJO MEDIO ALTO Perfiles de las columnas Tema 4. Descripción de datos bivariantes. Asociación. 73 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Una empresa tiene 600 clientes clasificados en categorías según dos criterios, TIPO de cliente (mayorista, minorista y detalle) y ZONA de residencia (norte, centro y sur). Frecuencias absolutas Norte Centro nij Mayorista 150 50 Minorista 40 110 Detalle 60 30 Total = n.j 250 190 Sur 20 50 90 160 Frecuencias relativas Norte Centro Sur fij Mayorista 0,25 0,08 0,03 Minorista 0,07 0,18 0,08 Detalle 0,10 0,05 0,15 Total = f.j 0,4167 0,3167 0,2667 = Total ni. 220 200 180 600 = Total fi. 0,3667 0,3333 0,3000 1,0000 Frecuencias condicionadas de las filas fj / i Mayorista Minorista Detalle Marginal = f.j Norte 0,6818 0,2000 0,3333 0,4167 Centro 0,2273 0,5500 0,1667 0,3167 Sur Total 0,0909 1 0,2500 1 0,5000 1 0,2667 1 Frecuencias condicionales de las columnas fi / j Mayorista Minorista Detalle Total Norte 0,6000 0,1600 0,2400 1,0000 Centro 0,2632 0,5789 0,1579 1,0000 Sur Marginal = fi. 0,1250 0,3667 0,3125 0,3333 0,5625 0,3000 1,0000 1,0000 Se observa una fuerte asociación: La distribución del TIPO depende fuertemente de la ZONA Tema 4. Descripción de datos bivariantes. Asociación. 74 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL DISTRIBUCIÓN DE ZONA SEGÚN TIPO DISTRIBUCIÓN DE ZONA SEGÚN TIPO 25 Norte Centro Sur 20 porcentaje Norte Centro Sur 15 10 5 0 Mayorista Minorista Detalle Mayorista Minorista Detalle Perfiles de las filas DISTRIBUCIÓN DE TIPO SEGÚN ZONA DISTRIBUCIÓN DE TIPO SEGÚN ZONA 25 Mayorista Minorista Detalle 20 porcentaje Mayorista Minorista Detalle 15 10 5 0 Norte Centro Sur Norte Centro Sur Perfiles de las columnas Tema 4. Descripción de datos bivariantes. Asociación. 75 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Estudio de la asociación entre MGT y EDUC (Salary) Frecuencias Absolutas 0 1 Total 1 9 5 14 2 12 7 19 3 5 8 13 Total 26 20 46 Frecuencias relativas (porcentajes) 0 1 Total 1 19,57% 10,87% 30,43% 2 26,09% 15,22% 41,30% 3 10,87% 17,39% 28,26% Total 56,52% 43,48% 100,00% Condicionadas MGT por EDUC 0 1 Total 1 64,29% 35,71% 100% 2 63,16% 36,84% 100% 3 38,46% 61,54% 100% Marginal 56,52% 43,48% 100% Condicionadas EDUC por MGT 0 1 Marginal 1 34,62% 25,00% 30,43% 2 46,15% 35,00% 41,30% 3 19,23% 40,00% 28,26% Total 100% 100% 100% Hay una ligera asociación entre MGT y EDUC: MGT=1 abunda más en EDUC=3. ¿Dónde se dan las diferencias más relevantes? Tema 4. Descripción de datos bivariantes. Asociación. 76 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EDUC según MGT MGT según EDUC 30 25 20 15 10 20 0 0 MGT 1 1 Perfil de cada MGT MGT según EDUC 1 2 Tema 4. Descripción de datos bivariantes. Asociación. - 10 5 + - 15 5 0 MGT 0 1 25 porcentaje porcentaje 30 EDUC 1 2 3 2 EDUC 3 Perfil de cada nivel Educ EDUC 0 1 3 MGT 1 2 3 EDUC según MGT 0 1 77 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ASOCIACIÓN ENTRE VARIABLES CUANTITATIVA Y CUALITATIVA Diagrama de Cajas Múltiple: Representación gráfica para valorar la asociación. Ejemplo: SALARY (cuantitativa) frente a MGT y EDUC (cualitativas). Fichero Salary. 0x2 0 0x3 MGT EDUC MGTxEDUC 0x1 1 2 1x1 1x2 1 3 1x3 1 1,3 1,6 1,9 2,2 2,5 SALARY 2,8 (X 10000) 1 1,3 1,6 1,9 2,2 2,5 SALARY 2,8 (X 10000) 1 1,3 1,6 1,9 SALARY 2,2 2,5 2,8 (X 10000) Se observan diferencias importantes en SALARY según MGT y EDUC. Ejemplo: RATE y ADT (cuantitativas) frente a LANE (discreta) 2 LANE LANE 2 4 4 0 2 4 RATE 6 8 10 0 20 40 ADT 60 80 No se observan diferencias importantes en RATE según LANE (2 y 4). Hay diferencias importantes en ADT según LANE (2 y 4). Tema 4. Descripción de datos bivariantes. Asociación. 78 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL FAI FAI PA PA TYPE TYPE Ejemplo: RATE y ADT (cuantitativas) frente a TYPE (cualitativa ordinal). Fichero Highway. MA MC MA MC 0 2 4 RATE 6 8 10 0 20 40 ADT 60 80 Ejemplo: Varios ejemplos con variables del fichero Cardata. 78 79 YEAR ORIGIN 1 2 81 3 82 0 4 8 12 PRICE 16 (X 1000) 2 3 1700 0 4 15 25 8 12 35 45 PRICE 16 (X 1000) 1 ORIGIN 1 ORIGIN 80 2 3 2200 2700 3200 WEIGHT 3700 4200 4700 Tema 4. Descripción de datos bivariantes. Asociación. MPG 55 79 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: REGRESIÓN Y CORRELACIÓN La representación gráfica exploratoria más importante es le diagrama de dispersión. 26 ACCEL 23 20 17 14 11 15 25 35 MPG 45 55 Cuando la “nube de puntos” presente un aspecto lineal, veremos herramientas estadísticas para: Medir la intensidad de la asociación y Describir la tendencia mediante una ecuación lineal entre las variables. Recta de Regresión: HORSEPOWER = 46,8351 + 0,273046*DISPL Coeficiente de correlación: 0,817339 Coeficiente de correlación: -0,000948166 (X 1000) 16 150 45 120 90 60 MPG 12 PRICE HORSEPOWER 180 8 0 0 100 200 300 400 DISPLACEMENT Tema 4. Descripción de datos bivariantes. Asociación. 35 25 4 30 0 Recta de regresión: MPG = 55,8971 - 0,0101428*WEIGHT Coeficiente de correlación: -0,829081 55 Recta de Regresión: PRICE = 4617,19 - 0,258836*MPG 15 15 25 35 MPG 45 55 1700 2200 2700 3200 3700 4200 4700 WEIGHT 80 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 5.- PROBABILIDAD - Noción de modelo probabilístico. - Experimento aleatorio. Variable aleatoria. Terminología. - Probabilidad. - Reglas básicas del cálculo de probabilidades: reglas de la adición, probabilidad condicionada y regla de Bayes. Tema 5. Probabilidad 81 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL NOCIÓN DE MODELO PROBABILÍSTICO La Estadística Descriptiva nos ha permitido constatar la presencia de variabilidad en multitud de procesos de interés en el área de Ingeniería, mostrándonos además que variabilidad o aleatoriedad no significa caos total. Hemos observado patrones comunes a muchas situaciones que en principio no tenían nada en común. Estos patrones de regularidad obedecen a modelos matemáticos subyacentes a las poblaciones y las variables en estudio. Estos modelos se llaman indistintamente modelos de probabilidad, modelos probabilísticos, distribuciones de probabilidad, ... EJEMPLO: Los histogramas siguientes muestran diámetros interiores de arandelas fabricadas con el propósito de que dichos diámetros midieran 1 cm. Inicialmente, se tomaron 3 muestras de 20 arandelas, luego 3 de 100 y finalmente otras 3 de 1000. Diámetros interiores de 20 arandelas Diámetros interiores de 20 arandelas 0.4 0.5 0.6 0.5 0.4 0.3 Diámetros interiores de 20 arandelas 0.4 0.3 fr. fr. 0.2 fr. 0.3 0.2 0.2 0.1 0.1 0 0.1 0 97 98 Tema 5. Probabilidad 99 100 101 102 103 (X 0.01) 0 97 98 99 100 101 102 103 (X 0.01) 97 98 99 100 101 102 103 (X 0.01) 82 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Diámetros interiores de 100 arandelas Diámetros interiores de 100 arandelas Diámetros interiores de 100 arandelas 0.2 0.2 0.2 0.16 0.16 0.16 0.12 0.12 fr. 0.12 fr. fr. 0.08 0.08 0.08 0.04 0.04 0.04 0 0 0 97 98 99 100 101 102 103 97 98 99 100 101 102 (X 0.01) 103 97 98 99 100 101 102 (X 0.01) (X 0.01) Diametros interiores de 1000 arandelas Diámetros interiores de 1000 arandelas 0.12 0.12 0.1 0.1 0.08 0.08 103 Diámetros interiores de 1000 arandelas 0.1 0.08 0.06 fr. fr. 0.06 fr. 0.06 0.04 0.04 0.04 0.02 0.02 0 0 96 98 Tema 5. Probabilidad 100 102 104 (X 0.01) 0.02 0 96 98 100 102 104 (X 0.01) 96 98 100 102 104 (X 0.01) 83 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: En cierto proceso de fabricación de artículos, éstos son catalogados como Defectuosos o Aceptables. Si se extraen muestras de artículos, es imposible predecir el número de artículos que se van a obtener de cada tipo, pero para muestras grandes y representativas se va perfilando una tasa de defectos parecida para todas las muestras. Los gráficos siguientes muestran los resultados de tres muestras de 20 artículos y luego de 100. Muestra de 20 artículos Muestra de 20 artículos 18 18 18 15 15 15 12 12 12 9 9 9 6 6 6 3 3 3 0 0 0 Aceptable Aceptable Defectuoso Muestra de 200 artículos Tema 5. Probabilidad Muestra de 20 artículos Defectuoso Aceptable Muestra de 200 artículos Muestra de 200 artículos 200 200 200 160 160 160 120 120 120 80 80 80 40 40 40 0 0 0 Aceptable Defectuoso Aceptable Defectuoso Defectuoso Aceptable Defectuoso 84 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EJEMPLO: Los gráficos siguientes muestran datos procedentes de dos problemas tan dispares como el estudio de diámetros de cojinetes y la longitud de fémur en fetos. A pesar de la diferente naturaleza de ambos problemas, parecen presentar pautas de comportamiento comunes. Longitudes de fémur en fetos de cierta edad. muestra de 1000 fetos Diametros de cojinetes muestra de 1000 unidades 0.12 0.12 0.1 0.1 0.08 0.08 0.06 frec.0.06 0.04 0.04 0.02 0.02 0 0 4.97 Tema 5. Probabilidad 4.99 5.01 5.03 5.05 7.5 8.5 9.5 10.5 11.5 12.5 13.5 85 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL EXPERIMENTO ALEATORIO. VARIABLE ALEATORIA. TERMINOLOGÍA. Experimento aleatorio: Se denomina genéricamente como experimento aleatorio a cualquier experimento cuyo resultado es imposible conocer antes de cada repetición bajo condiciones controlables idénticas. En este tipo de experiment os resulta imposible controlar completamente todas las variables que influyen en el resultado y resumimos diciendo que éste “depende del azar” o “es aleatorio”. (Ejemplos: Lanzar un dado y observar el resultado. Elegir un coche recién fabricado y observar los defectos que presenta. Seleccionar una lámpara de una cadena de producción y observar su duración…) Variable aleatoria: Cualquier característica asociada a un experimento aleatorio. (Ejemplos: duración de la lámpara, resultado del dado, nº de defectos del coche…) Cuando sólo estemos analizando una característica o variable de un exper imento aleatorio, identificaremos el exp. aleatorio con la variable aleatoria y nos referiremos indistintamente a cualquiera de ellos. Ejemplos de experimentos aleatorios (y de variables): - Juegos del azar cotidianos: Loterías, quinielas, ruletas ... - Procesos de producción: Longitudes de piezas, duraciones de máquina s, número de defectos en lotes de artículos ... - Problemas biomédicos: Aplicación de un tratam iento a un paciente para estudiar s u evolución posterior; medimos sus constantes vitales antes y después ... - Problemas macroeconómicos: Evolución de la tasa de desempleo, del I.P.C., del déficit público ... - Problemas microeconómicos: Demanda de un artículo en un establecimiento, número de clientes, volumen de ventas de un comercio... - Problemas sociológicos: Intención de voto, edad, sexo, nivel de es tudios, ingresos... dentro de difer entes poblaciones o colectivos Tema 5. Probabilidad 86 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Espacio muestral: Se denomina espacio muestral y se denot ará en adelante por E al conjunto de resultados posibles al realizar un experimento aleatorio. Al realizar el experimento, resulta un punto de este espacio muestral y sólo uno. Este conjunto tiene que estar definido sin ambigüedad en cada experimento aleatorio que queramos estudiar. Ejemplos: Lanzamiento de una moneda: = E C,X. Sorteo del cupón de la O.N.C.E.: = E 00000, 00001,...., 99998, 99999. Tomar N artículos y contar los Defectuosos: E=0, 1, ..., N. Llamadas telefónicas que se reciben en un día en una central: E=0, 1, 2, 3 .... 0,) Duración de una lámpara: = E Longitud (en cm) de piezas producidas en serie: E=(a , b ) Suceso: Cada punto del espacio muestral es un Suceso Elemental. Más en general, se denomina suceso a cualquier conjunto de resultados (puntos) del Espacio Muestral. Se notan con mayúsculas: A, B, C... Ejemplos de sucesos: - Obtener C en el lanzamiento de una moneda (Suceso elemental) - {Obtener Rojo y Par} en una tirada de ruleta. - Obtener un número múltiplo de 10 en el sorteo de la O.N.C.E. - Obtener más de 3 artículos defectuosos en una muestra de 100 artículos - Duración menor de 100 horas en el funcionamiento de una lámpara. - Obtener una pieza de longitud menor que 3 cm en un proceso de fabricación - Obtener un individuo de más de 35 años que no fume en un estudio sociológico. Tema 5. Probabilidad 87 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Sucesos elementales: Los formados por un solo punto del espacio muestral. Sucesos compuestos: Son aquéllos formados por más de un punto del espacio muestral. Suceso imposible: Se denota por (conj. vacío) y representa a un suceso que nunca puede ocurrir. Suceso seguro: Es otra forma de denominar al propio espacio muestral, E, que siempre ocurre. Sucesos incompatibles: Aquéllos que no se pueden dar simultáneamente y que se representan mediante conjuntos disjuntos. AB=. Suceso elemental * Suceso compuesto ** * * * ** * * * E B A Sucesos incompatibles Tema 5. Probabilidad 88 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL La expresión de los sucesos en términos conjuntistas nos permite realizar representaciones sencillas mediante diagramas de Venn, así como utilizar la s operaciones habituales entre conjuntos (unión intersección y complementación) y sus propiedades: AB significa que se dan simultáneamente A y B. A veces se suprime el signo y se escribe AB A B significa que se da al menos uno de los dos sucesos A o B. A (Complementario de A) significa que no ocurre A. A E A E A AB B AB Tema 5. Probabilidad 89 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL PROBABILIDAD Asociada de una manera natural a la idea de experimento aleatorio, está la idea de probabilidad como medida de la incertidumbre previa sobre la ocurrencia de los distintos sucesos de un experimento aleatorio. En el lenguaje coloquial, usamos el término probabilidad para designar las oportunidades relativas de unos sucesos respecto a otros, a la hora de ocurrir. Pero estas nociones intuitivas requieren una formalización matemática para poder trabajar. Definición: Una probabilidad sobre un experimento aleatorio es cualquier asignación de números a los sucesos de dicho experimento, satisfaciendo las siguientes condiciones: Regla 1.- A cualquier suceso A se le asigna un número P(A)0. Regla 2.- La probabilidad del suceso seguro es P(E)=1. Regla 3.- La probabilidad es aditiva: si tenemos una colección de sucesos A1, ..., An, ... disjuntos dos a dos, entonces se tiene : P An P ( An ). n1 n1 Tema 5. Probabilidad 90 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL REGLAS DE LA ADICIÓN A partir de las tres reglas iniciales anteri ores, escribiendo los sucesos como uniones de otros sucesos más sencillos, surgen los siguientes resultados: P( A) 1 P ( A) Probabilidad del complementario: En particular, el suceso imposible verifica, P() 0 Relación de inclusión: Si A y B son sucesos satisfaciendo AB, entonces se tiene: P( A) P( B), P( B A) P( B A) P( B) P( A). Probabilidad de la unión de dos sucesos: Si A y B son sucesos cualesquiera, P ( A B ) P ( A) P ( B ) P ( A B ) Tema 5. Probabilidad 91 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Si además A y B son sucesos incompatibles, se tiene: P ( A B) P ( A ) P( B) Probabilidad de la unión de tres sucesos: Si A, B y C son sucesos cualesquiera, P ( A B C ) P ( A ) P ( B) P ( C ) P ( A B) P ( A C ) P( B C ) P ( A B C ) que si son sucesos disjuntos dos a dos se convierte en P( A B C ) P ( A) P ( B) P ( C ) Probabilidad de la unión de n sucesos: si A1, ..., An son sucesos cualesquiera, P( A1 ... An ) Tema 5. Probabilidad n n n i 1 i j i j k P( Ai ) P( Ai A j ) P( Ai A j Ak )... ( 1)n 1 P( A1 ... An ) 92 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Las piezas producidas por una planta industrial pueden tener tres tipos de defectos: A, B y C. Se sabe que un 10% de las piezas producidas presentan el defecto A; un 8% el B; un 5% el C; un 2% A y B; un 0.5% A y C; un 1% B y C; y un 0.2% presentan los tres defectos. Se elige al azar una pieza. Calcular: a) Probabilidad de que no tenga ningún defecto. b) Probabilidad de que tenga a lo sumo un defecto. c) Probabilidad de que tenga exactamente dos defectos. Solución: La situación planteada se refleja en el siguiente diagrama de Venn. B A E ABC ABC ABC ABC ABC C ABC ABC Tema 5. Probabilidad ABC 93 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Los datos que se dan en el enunciado del problema son: P(A)=0.1, P(B)=0.08, P(C)=0.05 P(AB)=0.02, P(AC)=0.005, P(BC)=0.01, P(ABC)=0.002 Aplicando las reglas de la adición, podemos probabilizar cada una de las ocho zonas disjuntas que se muestran en el gráfico y que son intersecciones de tres de los sucesos A, B, C o sus complementarios. Las probabilidades de estos sucesos son: P( A B C ) 0.002, P( A B C ) 0.008, P( A B C ) 0.003, P( A B C ) 0.018 P( A B C ) 0.037, P( A B C ) 0.077, P( A B C ) 0.052 P( A B C ) 0.803 Tema 5. Probabilidad 94 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL A partir de aquí, cualquier suceso del espacio se probabiliza usando la Regla 3 (aditividad) de la probabilidad: a) P( A B C ) 0.803 b) P ( A B C) ( A B C) ( A B C) ( A B C) 0.077 0.052 0.037 0.803 0.969. c) P ( A B C ) ( A B C ) ( A B C ) 0.008 0.003 0.018 0.029 Tema 5. Probabilidad 95 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL PROBABILIDAD CONDICIONADA Cuando tenemos información parcial sobre el resultado del experimento, en términos de que el resultado está dentro de un suceso B (Ejemplo: al lanzar dos dados, la suma es mayor que 5), lo razonable es incorporar esa información y reasignar probabilidades. Algunos sucesos que en principio podían ocurrir ahora son imposibles (ejemplo: doble 1) otros ahora se convierten en seguros (si con tienen a B), otros cambian sus posibilidades, etc… Esta reasignación la denotaremos por P(./B) (Probabilidad condicionada a B). Ejemplo: siguiendo el gráfico, si sabemos que B ha ocurrido, la nueva asignación de probabilidades deberá cumplir, entre otras cosas, P A B 0, P C B 1, P D B P( D), etc. A C E B D B debe pasar a ser el suceso seguro p(B/B)=1 Los sucesos elementales, {e}, que no están en B pasan a ser imposibles p({e}/B)=0 …y dentro de B se mantienen prob. proporcionales a las originales: p({e}/B) = p({e})/p(B) Tema 5. Probabilidad 96 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Definición: Si E es un experimento aleatorio y A, B son sucesos cualesquiera con P(B)>0, se define la probabilidad de A condicionada a B como: P( A B) . P AB P( B) 1.- La probabilidad condicionada satisface las Reglas 1, 2 y 3 de la probabilidad. 2.- La probabilidad condicionada que acabamos de definir realmente incorpora al modelo la información de que B ha ocurrido. Ejemplo: En el ejemplo anterior sobre piezas pueden tener tres tipos de defectos A, B y C. producidas por una planta industrial que a) Hallar la probabilidad de que una pieza no tenga el defecto B, sabiendo que tiene el defecto A. P(A B) 0.02 P B 1 P B 1 1 0.8 A A P( A ) 0.1 b) Hallar la probabilidad de que una pieza que se sa be que no tiene ninguno de los defectos A y B, tenga el defecto C. 0.037 P ( A B C ) P ( A B C ) P( A B C ) P C 0.044. A B 1 P( A B) 1 01 . 0.08 002 P( A B) P( A B) Tema 5. Probabilidad 97 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL REGLAS DE LA MULTIPLICACIÓN Si A y B son sucesos de un espacio muestral E con P(A)>0, P(B)>0, entonces: A, P( A B) P( A) P B B P( A B) P( B) P A En general, salvo las indeterminaciones causadas por las divisiones por 0, se tiene: A . ... P An P( A1 A2 ... An ) P( A1 ) P A2 P 3 A1 A1 A2 A1 A2 ... An 1 INDEPENDENCIA Un suceso A es independiente de otro B, con p(B)>0 si la información de que ha ocurrido B no altera la probabilidad de A: B P( A) P A Tema 5. Probabilidad 98 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Una reescritura de la definición anterior permite incluir el caso p(B)=0, y ofrece una nueva regla de multiplicación, esta vez para sucesos independientes P ( A B) P ( A) P( B). Si A es independiente de B, B es independiente de A, por lo que en lo sucesivo hablaremos de “dos sucesos independientes, A y B”. Ejercicio: Comprobar que si dos sucesos A y B s on independientes, también lo son sus complementarios y cada uno de ellos con el complementario del otro. Es importante notar que la independencia entre sucesos es una propiedad de la probabilidad y no de los sucesos. Por ello no podemos dar una caracterización de la independencia que se pueda representar mediante diagramas de Venn. El concepto de independencia se generaliza a n sucesos: A1, A2, ..., An son sucesos independientes si cumplen P( Ai1 Ai2 ... Air ) P( Ai1 ) P Ai2 ....P Air , i1 ,...ir 1,2,...n,r 2,3,..., n Tema 5. Probabilidad . 99 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un depósito de agua tiene dos dispositivos de seguridad, A y B, que impiden la llegada de más agua cuando ésta alcanza cierto nivel. Ambos dispositivos funcionan independientemente (en paralelo), estimándose que el dispositivo A funciona el 90% de las ocasiones y el B el 70%. Calcular: a) La seguridad del doble dispositivo en conjunto. b) Probabilidad de que sólo funcione uno de los dispositivos. Solución: Llamaremos A al suceo “salta el dispositivo A” y B a “salta el dispositivo B” a) La seguridad del dispositivo en conjunto es la probabilidad de que funcione alguno de los dos dispositivos (AB), es decir P(A B) P(A ) P(B) P(A B) P(A) P(B) P(A )P(B) 0.9 0.7 0.63 0.97 b) P (A B) (A B) P(A ) P(A B) P(B) P(A B) 0.9 0.63 0.7 0.63 0.34 Tema 5. Probabilidad 100 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL REGLA DE LAS PROBABILIDADES TOTALES E B A1 A2 A3 ... An n A1, A2, ..., An sucesos que forman una partición de E: A i E, Ai A j si i j. i 1 En determinados experimentos aleatorios pode mos distinguir “fases” o etapas sucesivas, de forma que el resultado de cada fase determina las probabilidades en la fase siguiente. Se conocen las probabilidades en cada fase: - P(Ai), i=1, 2, ... (probabilidades a priori en la fase 1) - P(B/Ai), i=1, 2, ... (probabilidades condicionadas en la fase 2 conocido el resultado 1)) Combinando las dos reglas anteriores, se pueden obtener a partir de ellas: - P(B) (probabilidad incondicional en la fase 2) - P(Ai/B), i=1, 2, ... (probabilidades a posteriori en la fase 1 conocida la fase 2). Tema 5. Probabilidad 101 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Regla de las Probabilidades Totales: P( B) P( Aj B) P( Aj ) P B Aj j j Regla de Bayes: P( Ai ) P B Ai P ( Ai B ) Ai P . B P( Aj B) B P A P ( ) j j Aj j Ejemplo: Tres máquinas (fase 1), A, B y C, fabrican la misma pieza con una producción aceptable (fase2) del 70%, 80% y 90% respectivamente. Del total de la producción, el 40% corresponde a la máquina A, el 45% a la B y el 15% a la C. a) Hallar la probabilidad de que una pieza elegida al azar sea aceptable. b) Hallar la probabilidad de que una pieza defectuosa proceda de la máquina A. Solución: Utilizaremos las notaciones siguientes para los sucesos: A=piezas producidas por la máquina A; B=piezas producidas por la máquina B C=piezas producidas por la máquina C y D=piezas defectuosas. Datos: P(A)=0.4 P(B)=0.45 P(C)=0.15, P D A 0.7, P D B 0.8, P D C 0.9. Tema 5. Probabilidad 102 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Fase 1: máquina de procedencia A, B o C conocemos p(A)=0.4 P(B)=0.45 P(C)=0.15 Fase 2: Defectuosa o No Defectuosa D, D (probabilidades a priori 1) Conocemos P D A 0.7, P D B 0.8, P D C 0.9. (probabilidades condicionadas 2/1) a) Aplicando la regla de las Probabilidades Totales: P( D) P ( A) P D A P ( B ) P D B P ( C) P D C 0.4 0.7 0.45 0.8 015 . 0.9 0.775 (probabilidad incondicional fase 2) b) Aplicando la Regla de Bayes: P( A) P D A 0.4 0.3 P AD 0.53333 D D D . 01 . P( A) P A P( B) P B P( C) P C 0.4 0.3 0.45 0.2 015 (probabilidad a posteriori fase 1 / fase 2) Análogamente, se tiene: Tema 5. Probabilidad 0.015 09 D 00..225 0.4, P C 0.06666 D 0.225 PB 103 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 6.- VARIABLES ALEATORIAS p2 - Variables aleatorias discretas. - Variables aleatorias continuas. - Parámetros poblacionales. - Desigualdad de Chebychev, tipificación, P(A) p1 pn p3 independencia, combinaciones lineales de variables aleatorias. a1 Tema 6. Variables aleatorias. a2 a3 ... A an ... 104 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL VARIABLES ALEATORIAS DISCRETAS La característica esencial de las variables aleatorias (v.a.) discretas es el papel crucial que juegan los sucesos elementales o conjuntos unipuntuales en la construcción de los modelos probabilísticos asociados a las mismas. Si denotamos por X a la v.a. E Soporte ( X ) a1 ,..., an ,... pi P ai P ( X ai ), i 1,2,..., n,..., pi 0, pi 1. i P ( X A) P ( A) P ai P ai pi ai A ai A ai A - Existen infinitos modelos posibles para probabilizar cada v.a. discreta. - La determinación del verdadero modelo por el que se rige una v.a. discreta concreta es competencia de la Estadística Inferencial. - En Cálculo de Probabilidades nos es dado el modelo y trabajamos con él. - Observar el paralelismo entre las distribuciones de probabilidades discretas y las distribuciones de frecuencias para variables cualitativas y variables numéricas discretas vistas en Est. Descript. - El modelo probabilístico aparece como límite de la distribución de frecuencias. Tema 6. Variables aleatorias. 105 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Por información estadística de años anteriores, se conoce que en cierta ciudad y durante el mes de julio la variable aleatoria X = número de cortes parciales de suministro eléctrico por día sigue la distribución de probabilidades: e 1010 k P( X k ) , k 0,1,2,... k! a) Obtener la probabilidad de que determinado día se produzcan más de 21 cortes. e 1010k P( X 21) 1 0.999 0.001. k! k 22 b) Obtener la probabilidad de que se hayan producido exactamente 10 cortes sabiendo que se han producido menos de 15. e 10 1010 P( X 10) 0.126 ! P( X 10 14 10 0.137. ) X 15 P( X 15) e 10 10 k 0.917 k! k 0 Tema 6. Variables aleatorias. 106 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL El modelo uniforme discreto. Las v.a. con soporte finito son un caso particular de las v.a. discretas. Si, además, los posibles valores de la v.a. son todos equiprobables, tenemos: Sop( X ) E a1 ,..., a n pi P ( X ai ) Pai 1n , i 1,2,..., n n( A) Casos favorables P ( A) P a i P a i 1n n Casos posibles ai A ai A ai A - La Regla de Laplace resulta ser una aplicación inmediata del modelo discreto general. Ejemplo: Un lote de 100 artículos contiene 10 defectuosos y los demás aceptables. a) Se elige uno al azar, cuál es la probabilidad de que sea defectuoso. Sea el suceso Ai se obtiene un defectuoso en la i-ésima extracción, i=1, 2. Al realizar la extracción al azar, todos los artículos tienen la misma probabilidad de ser elegidos: 10 0.1 100 b) Se eligen dos al azar y sin remplazamiento, cuál es la probabilidad de que ambos sean defectuosos. 10 9 P ( A1 A2 ) P ( A1 ) P A2 0.009 A 1 100 99 P( A1) Tema 6. Variables aleatorias. 107 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL VARIABLES ALEATORIAS CONTINUAS - Son las que toman valores de forma continua en un intervalo de la recta real. - Aquí los puntos juegan un papel irrelevante, cediendo el protagonismo a los intervalos. - En una v.a. continua, los puntos individuales son, en teoría, observables con probabilidad 0. - La probabilización de las v.a. continuas se realiza por medio del área encerrada bajo curvas que representan la densidad o frecuencia de aparición de observaciones en cada región de la recta. Función de densidad Función de densidad: f ( x ) 0, x P ( A) f ( x)dx 1 f ( x ) dx A P(A) Función de distribución: F ( x) p( X x) x f(x) f ( x)dx A - En Probabilidad estudiamos características y propiedades de diferentes modelos. - Observa el paralelismo entre las distribuciones de probabilidades continuas (fun. de densidad), y las distribuciones de frecuencias para variables continuas, representadas a través de los histogramas. Tema 6. Variables aleatorias. 108 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Modelo uniforme. Se llama distribución uniforme continua a la ley de probabilidad dada por una densidad constante sobre un intervalo (a, b). 1 b a f ( x) 0 x ( a , b) x ( a , b) Bajo este modelo la probabilidad de cada intervalo depende sólo de su amplitud, y no de su posición dentro de (a,b). Es la versión continua de la Regla de Laplace, ya que refleja la equiprobabilidad de las distintas regiones infinitesimales del intervalo (a, b): f(x) P( A) Casos favorables longitud ( A) Casos posibles longitud ( E ) 1 longitud ( A) dx ba ba A 1 ba P(A) a Tema 6. Variables aleatorias. A b 109 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL PARÁMETROS POBLACIONALES - El comportamiento probabilístico de una v.a. está dado por su distribución de probabilidades. - Unas pocas medidas numéricas o parámetros poblacionales resumen los aspectos más importantes de dicha distribución de probabilidades: posición, dispersión, forma, etc. - Facilitan la comparación entre modelos (distribuciones). - El desarrollo de estos resúmenes numéricos es comp letamente paralelo al hecho en Est. Descriptiva, cambiando aquí la muestra por la población, i.e., cambiando frecuencias por probabilidades. Media o Esperanza Matemática. Se representa con =EX y es el promedio ponderado de los valores del soporte de la variable teniendo en cuenta la probabilidad o la densidad de aparición de cada uno de ellos. Corresponde a la idea de centro de gravedad de la distriucíon. Recorrido o soporte de X: Probabilidad o densidad: Esperanza matemática: Tema 6. Variables aleatorias. Caso discreto x1x2...xn.... pi P( X xi ), i 1,2,... EX xi pi i Caso continuo (a,b) intervalo de la recta real. f ( x) 0 EX x f ( x) dx 110 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: El número de llamadas que llegan diariamente a cierta centralita telefónica en el intervalo de tiempo de un minuto siguiente a las 10.00 horas es una v.a. X cuya ley de probabilidad esta dada por: k 3 3 P( X k ) e , k 0,1,2,... (Distribución de Poisson). k! Entonces, el número medio de llamadas que llegan en dicho intervalo es: e 3 3 k 3k 1 3j 3 3 EX kP ( X k ) k 3e 3e 3e 3 e 3 3. k! k 0 k 0 k 1 ( k 1)! j0 j! Distribucion de probabilidades discreta Funcion de probabilidad Distribución de probabilidades continua Función de densidad 0.24 0.2 0.16 prob. f(x) 0.12 0.08 0.04 0 Tema 6. Variables aleatorias. =3 0 3 6 9 12 Número de llamadas en un minuto 15 -3 -1 1 3 Desviación del corte respecto al valor objetivo 111 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Esperanza matemática de una función de una v.a. Si calcular la esperanza matemática de la v.a. Y=h(X), probabilidades de Y: Caso discreto Recorrido o soporte de X: x1x2...xn.... pi P ( X x i ), i 1,2,... Probabilidad o densidad: Esperanza matemática: X es una v.a. y h: una función, para Eh(X), no hace falta calcular la ley de Caso continuo (a,b) intervalo de la recta real. f ( x) 0 Eh( X ) h( xi ) pi Eh( X ) h( x) f ( x)dx i Varianza y desviación típica: medidas de la dispersión de la distribución de probabilidades en torno a la media. Recorrido o soporte de X: Probabilidad o densidad: Caso discreto x1x2...xn.... pi P( X xi ),i 1,2,... Caso continuo (a,b) intervalo de la recta real f ( x) 0 Varianza: Var ( X ) 2 E ( X ) 2 ( xi ) pi Desviación típica: DT(X)= Tema 6. Variables aleatorias. 2 2 i 2 2 ( x ) f ( x )dx (x i i ) pi 2 2 ( x ) f ( x )dx 112 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL - La varianza se mide en las unidades de la v.a. al cuadrado, la desviación típica en las de la variable. - La siguiente expresión es útil en algunas ocasiones: 2 E ( X 2 ) ( EX ) 2 Desigualdad de Chebyshev. Si X es una v.a. con =EX y =DT(X), entonces para cada k>0, la versión poblacional es: P X k 1 P X k 1 1 , 2 k k 2 2 , P X k P X k k 1 k2 2 2 . Ejemplo: En un proceso de fabricación de piezas, la longitud es una v. a. con =3 cm y =0.0015 cm. Los límites de especificación son LIE=2.99 cm, LSE=3.01 cm. ¿ Qué proporción de piezas como mínimo cumple las especificaciones?. Solución: P X ( LIE , LSE ) P(2.99 X 3.01) P (0.01 X 3 0.01) 0.01 1 P X 3 0.01) P X 3 1 0.01 2 0.0015 0.0015 1 0.0225 0.9775. 1 0.00015 .01 2 El 97.75% de las piezas están dentro de los límites de especificación. Tema 6. Variables aleatorias. 113 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Tipificación o estandarización de variables X v.a. EX , ( X ) var iable tipificada : Z X EZ 0, ( Z ) 1 Independencia de variables aleatorias X1 y X2, son independientes si lo son cualesquiera dos sucesos relacionados con cada una de ellas: P( X 1 A) ( X 2 B) P( X 1 A) P( X 2 B), para cualesquiera A y B. De forma análoga, la definición se generaliza a n variables aleatorias. Combinaciones lineales de variables aleatorias Dadas las variables aleatorias X1, X2, ..., Xn, cualquier operación realizada con ellas es una nueva v.a. Nos interesan en particular las combinaciones lineales, y saber calcular sus medias y varianzas: n n i 1 i 1 E ( a0 ai X i ) a0 ai EX i En el caso de la varianza, si X1, X2, ..., Xn son v.a. independientes, entonces: n n i 1 i 1 Var ( a0 ai X i ) ai2Var ( X i ) Tema 6. Variables aleatorias. 114 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 7.- LA DISTRIBUCIÓN NORMAL - Introducción. - Características numéricas. - La normal estándar. - Combinaciones lineales de v.a. normales. - Efecto límite central. Tema 7. La distribución normal. 115 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTRODUCCIÓN - Es la distribución continua más importante. Introducida por Gauss (1797). - Aparece, entre otras, asociado a variables que miden características de interés de productos fabricados en serie: El proceso de producción está programado para que la característica en cuestión de cada artículo tome un valor ideal , pero distintas causas no controlables (variaciones imperceptibles en la materia prima, en la tensión eléctrica, en las condiciones ambientales,...) hacen que el valor real de la característica no sea precisamente , sino un valor más o menos próximo. - La justificación teórica del uso del modelo normal es el denominado “efecto límite central”. Histograma de frecuencias ajustado por una densidad normal 100 Ejemplo: A la derecha se muestran mediante un histograma las longitudes de 500 piezas elegidas al azar de la población de piezas producidas en una planta metalúrgica. El valor ideal de la longitud es 3 cm (media de la población) y la desviación típica 0.01 cm. En el gráfico se incluye también el ajuste de los datos a una distribución normal. 80 60 frecuencia 40 20 0 2.96 Tema 7. La distribución normal. 2.98 3.00 3.02 Longitud de piezas 3.04 116 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Definición: Se dice que una variable aleatoria X sigue la distribución normal de parámetros ( ), R, >0, y se representa, XN(), si la distribución de probabilidades de X está dada por la función de densidad f ( x) Funciones de densidad de leyes normales con distintas medias y varianza común 1 2 e 21 x 2 , x . N(0,1) Funciones de densidad de leyes normales N(0,1) N(1,1) con media común y distintas varianzas N(0,2) N(0,3) N(2,1) 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 -5 -3 -1 1 X Tema 7. La distribución normal. 3 5 -10 -6 -2 2 6 10 X 117 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Características numéricas de la distribución normal. Media: EX=, Mediana = Moda = Desviación típica: DT(X) = , Varianza: Var(X) = 2. Coeficiente de Asimetría=0 (independiente de y de ). Coeficiente de apuntamiento o Kurtosis = 3 (independiente de y de ). Tipificación de variables normales: Normal típica o estándar es la distribución normal de media 0 y desviación típica 1, es decir N(0,1), cuya densidad es 12 x 2 1 f ( x) e , x . 2 Para calcular probabilidades bajo la curva normal estándar es de gran utilidad el manejo de la función de probabilidad acumulada (función de distribución), denotada habitualmente como (x): ( x) P( X x) x Tema 7. La distribución normal. 1 2 e 12 t 2 dt P ( N (0,1) x), x 118 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Esta función está tabulada y permite de forma sencilla calcular la probabilidad de cualquier intervalo: P ( a X b ) P ( X b ) p ( X a ) (b ) ( a ) Nótese que la tabla sólo contiene los valores de (x) para x>0. Para x<0 basta tener en cuenta que la simetría de la ley normal implica que (-x) =(x). Función de densidad Funcion de distribución 1 F(x) f(x) (b) P(a,b)= (b)- (a) P(a,b) (a) a Tema 7. La distribución normal. b 0 a b 119 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL - Si X es una v.a. N(0,1) entonces: Y = X, para R, >0, se distribuye YN() - Recíprocamente, si Y es una v.a. con distribución N(), entonces se cumple que Y- N( 0, 1) . - Los resultados anteriores nos permiten calcular proba bilidades asociadas a cualquier normal a partir de las tablas de la ley normal estándar. a - X - b - b - a - P(a < X < b) P Ejemplo: Se sabe que la densidad X de ciertos ladrillos cuando se hornean a 125ºC es una variable aleatoria normal con media 3.85 gr/cm3 y desviación típica 0.05 gr/cm3. Si los límites de tolerancia son (3.75 gr/cm3 , 4.00 gr/cm3), hallar el porcentaje de ladrillos que se salen de dicho intervalo. Solución: 3.75 - 3.85 X - 4 - 3.85 4 - 3.85 3.75 - 3.85 P(3.75 < X < 4) P (3) ( 2) 0.9759 0.05 0.05 0.05 0.05 es decir, el 2.41% de la producción. Tema 7. La distribución normal. 120 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Se sabe que los diámetros X de ciertas bolas de acero siguen una ley normal. Se estima que el 5% de las bolas superan 5.01 mm y, por tanto, son defectuosas por ser demasiado grandes. Análogamente, se estima que el 2.5% de las bolas tienen un diámetro por debajo de 4.99 mm y son defectuosas por ser demasiado pequeñas. Obtener la media y la distribución de X. Solución: Por los datos del problema sabemos que: X 5.01 P( X 5.01) P 0.05 X 4.99 P( X 4.99) P 0.025 A partir de las tablas de la distribución normal obtenemos las ecuaciones: 5.01 . 165 4.99 . 196 Resolviendo estas ecuaciones, obtenemos: =5.00086 mm y mm . Tema 7. La distribución normal. 121 ESTADÍSTICA GRADO EN INGENIERÍA MECÁNICA GRADO EN INGENIERÍA QUÍMICA Una simple comprobación nos proporciona las probabilidades de los siguientes intervalos de frecuente aparición en Cálculo de Probabilidades y en Estadística. Si X es una v.a. N(), se tiene: P X 0.6826 P 2 X 2 0.9545 P 196 . X 196 . 0.95 P 3 X 3 0.9973 P 165 . X 165 . 0.90 P 2.58 X 2.58 0.99 Ejercicio: comparar con las acotaciones obtenidas a partir de la desigualdad de Chebyshev. Combinaciones lineales de variables normales. Una propiedad característica de la normalidad es las transformaciones lineales de normales independientes resultan normales: Si X1, ..., Xn son v.a. independientes con distribuciones números reales cualesquiera, se tiene que Xi N ( i , i ), i 1,..., n , y a0 , a1 ,..., an son a0 a1 X1 ... an Xn N ( , ) donde a0 a11 ... an n y 2 a12 12 ... an2 n2 a12 12 an2 n2 Si X1, ..., Xn son v.a. dependientes, una combinación lineal puede no resultar Normal Tema 7. La distribución normal. 115 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución Binomial: Es frecuente que nuestro interés se centre en conocer cuántos Éxitos han ocurrido en un número determinado de ensayos: - Número de artículos defectuosos en una muestra de n artículos. - Número de clientes que adquieren un producto de entre los n que entraron en el establecimiento. - Número de siniestros entre los suscriptores de una póliza de seguro de vida. El comportamiento probabilístico de todas estas variables es el de la variable X= Número de Éxitos en n ensayos. Definición: Se dice que una variable aleatoria X sigue la distribución binomial de parámetros n y p, con n número natural y 0 < p < 1, y se representa X b ( n , p ) si su distribución de probabilidades es: n P ( X k ) p k (1 p ) nk , k 0,1, 2, ..., n. k Notar que: a) La probabilidad de cualquier secuencia de n ensayos con k veces E y n-k veces F es, por la independencia de los ensayos, P ( E , E , F , E , F ,..., E ) ppqpq... p p k q n k b) El número de secuencias distintas de E y n n! = . k k! (n k)! Tema 8. El proceso de Bernoulli y sus distribuciones asociadas F que se pueden formar con k E’s y n-k F’s es 130 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL En particular, si X 1, ..., X n son v.a. independientes con distribución Xi N ( i , i ), i 1,..., n , se tiene: n n n 2 X i N i , i , i 1 i 1 i 1 por lo que se dice que la ley normal es reproductiva respecto a los parámetros y . Si, además, X1, ..., Xn son v.a. independientes e igualmente distribuidas X i N , , i 1,..., n : n n X i 1 i N n , n 2 , o bien Xi n i 1 n N ( 0,1) . De especial interés en Estadística es el estudio de la distribución del promedio de variables normales independientes e igualmente distribuidas: X X i N , , o bien n i 1 1 n Tema 7. La distribución normal. n n X N ( 0,1) . 123 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Una máquina automática llena cajas de detergente en polvo. El contenido envasado por caja es una v.a. con ley N(4 Kg, 0.0125 Kg), con independencia entre las distintas cajas. Las cajas se empaquetan en lotes de 4 cajas. Hallar la probabilidad de que un lote contenga menos de 15.950 Kg. Solución: Llamemos Xi al contenido de la caja i, i=1,...,4, e Y= X1+...+ X4 al contenido total del lote. Sabemos que la distribución de la v.a. Y es N(16 Kg, 0.025 Kg), De manera que Y - 15.95 - 16 P(Y < 15.95) P 2 1 2 0.02275 . 0.025 El efecto límite central. Con el nombre de “efecto límite central” se cono ce el hecho de que cuando una variable X es el resultado de la contribución de muchas causas X i i 1,..., n , que actúan independientemente y que cada una de ellas tiene una contribución pequeña en el valor final de la variable, el modelo normal suele ser un patrón razonable para el comportamiento de dicha variable. La justificación matemática de este hecho se sustenta en el siguiente resultado que es uno de los más importantes del Cálculo de Probabilidades: Tema 7. La distribución normal. 124 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Teorema Central del Límite (TCL): Explica porqué la Normal aparece tanto en la naturaleza. La idea es que si una variable es el resultado de muchos pequeños efectos aleatorios cualesquiera que se acumulan, su distribución se parece a una Normal; tanto más cuanto mayor es el nº de efectos. Ejemplo: errores de medida, talla de individuos, calibre de ejes … Existen muchas versiones del TCL. Una de las más sencillas es ésta: Si X1, ..., Xn son v.a. independientes con medias i y varianzas i2 < M i 1,..., n , cuando n n n n aprox . 2 X i N i , i . i 1 i 1 i 1 En particular, si X1, ..., Xn son v.a.i.i.d. con media y varianza comunes , 2 : n n X i 1 aprox . i N n , n ; escrito de otra forma: Xi n aprox . i 1 n N ( 0,1) . La calidad de la aproximación es función del número n de variables que sumamos, pero también de las distribuciones de los sum andos. Cuanto más próximas a la normal estén estas distribuciones, podremos justificar la aproximación con valores más pequeños de n. En particular, sabemos que si las distribuciones de los sumandos son normales, la normalidad se tiene de forma exacta para cualquier n. El T.C.L se puede expresar también en términos de los promedios de las variables: Xn Tema 7. La distribución normal. 1 n n X i 1 N , aprox . i n , o bien X n aprox . N ( 0,1) . n 125 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un aparato electrónico funciona con la energía que le suministra una batería que cuando se agota es sustituida instantáneamente por otra idéntica y así sucesivamente. Las distintas baterías tienen un funcionamiento independiente unas de otras. Se desconoce la ley de vida de las baterías, pero se estima que la vida media es de 8 horas con una desviación típica de 2 horas. Obtener aproximadamente la probabilidad de que con 100 baterías se pueda mantener funcionando el aparato electrónico durante un mes (30 días o 720 horas). Solución: Llamemos Xi a la duración de la batería i, i=1,...,100, e Y= X1+...+ X100 a la duración total de las 100 baterías. Aplicando el TCL se tiene que 100 Y X i N 800,2 100 i 1 aprox . con lo que la probabilidad pedida es , aproximadamente, Y - 720 - 800 P(Y > 720) P 1 4 4 1 . 400 Tema 7. La distribución normal. 126 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 8.- EL PROCESO DE BERNOULLI Y SUS DISTRIBUCIONES ASOCIADAS - Introducción. - Distribución de Bernoulli. - Distribución Binomial. - Distribución Geométrica. - Distribución de Pascal. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 127 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL INTRODUCCIÓN - Multitud de fenómenos aleatorios de interés están basados en la repetición sucesivas veces y en idénticas condiciones de un experimento aleatorio elemental con dos posibles resultados que se suelen llamar Éxito y Fracaso. Este modelo se conoce como Proceso de Bernoulli. - Sirve para modelar numerosas situaciones como, por ejemplo: Muestreo de piezas que salen de una cadena de producción y que se catalogan como Defect uosas o Aceptables. Llegadas de clientes a un establecimiento comercial que pueden Adquirir o No adquirir determinado producto o servicio. Tomadores de determinada póliza de seguro de vida que pueden Fallecer o No fallecer en un año. Lanzamiento de una moneda sucesivas veces. Definición: Un Proceso de Bernoulli es la realización sucesiva de un experimento aleatorio con las siguientes características: 1.-El experimento aleatorio, denominado ensayo de Bernoulli, tiene dos posibles resultados {E, F}. 2.-La probabilidad de Éxito p (y la de Fracaso 1-p = q) permanece constante a lo largo del proceso. 3.-Los ensayos son independientes unos de otros. Los resultados o trayectorias del proceso son sucesiones de Éxitos y Fracasos del tipo, E, E, F, E, F, F, F, E, E,... Tema 8. El proceso de Bernoulli y sus distribuciones asociadas Nº Éxitos 4 3 2 1 012 345 Ensayos 128 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución de Bernoulli: La distribución de Bernoulli surge de asociar una variable X a cada ensayo de modo que 1 X 0 si sale E si sale F Definición: Se dice que X sigue la distribución de Bernoulli de parámetro p (0 < p < 1) y se representa X B ( p ) si su distribución de probabilidades es: P ( X = 1) = p , P ( X = 0 ) = 1 - p . x 1 x En otras palabras: P ( X x ) p (1 p ) , x 0,1 Características numéricas de la Distribución de Bernoulli: Media: = EX = p. Varianza: 2 = Var(X) = p (1-p). Desviación Típica: = DT(X) = p (1 p ) . Nótese que la varianza es máxima cuando p = q = 1/2. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 129 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución Binomial: Es frecuente que nuestro interés se centre en conocer cuántos Éxitos han ocurrido en un número determinado de ensayos: - Número de artículos defectuosos en una muestra de n artículos. - Número de clientes que adquieren un producto de entre los n que entraron en el establecimiento. - Número de siniestros entre los suscriptores de una póliza de seguro de vida. El comportamiento probabilístico de todas estas variables es el de la variable X= Número de Éxitos en n ensayos. Definición: Se dice que una variable aleatoria X sigue la distribución binomial de parámetros n y p, con n número natural y 0 < p < 1, y se representa X b ( n , p ) si su distribución de probabilidades es: n P ( X k ) p k (1 p ) nk , k 0,1, 2, ..., n. k Notar que: a) La probabilidad de cualquier secuencia de n ensayos con k veces E y n-k veces F es, por la independencia de los ensayos, P ( E , E , F , E , F ,..., E ) ppqpq... p p k q n k b) El número de secuencias distintas de E y F que se pueden formar con k E’s y n-k F’s es n n! = . k k! (n k)! Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 130 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL He aquí la distribución binomial para n=10 y varios valores de p. b(10,0.5) b(10,0.2) b(10,0.7) 0.3 0.25 0.4 0.25 0.2 0.3 0.2 0.2 pr. pr. pr. 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0 0 0 1 2 3 4 5 6 7 8 9 10 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Características numéricas de la distribución binomial: Media: = EX = np. Varianza: 2 = Var(X) = np(1-p). Desviación Típica: = DT(X) = np (1 p ) . Nótese que la varianza es máxima cuando p = q = 1/2. La distribución binomial es simétrica para p= 0.5. Si p<0.5 presenta asimetría positiva y si p>0.5 presenta asimetría negativa. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 131 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Cálculo de Probabilidades: Para valores pequeños de n (n = 1, 2,..., 10), haremos el cálculo directamente. Para valores grandes de n utilizaremos distintas aproximaciones que estudiaremos más adelante. Ejemplo: Supongamos que la probabilidad de que cierta secretaria cometa algún error de tipografía es 0.4 para cada página, y que hay independencia en la elaboración de páginas distintas. Se pide: a) Hallar la probabilidad de que un escrito de 5 páginas no contenga errores de tipografía. b) Hallar la probabilidad de que en dicho escrito haya al menos 3 páginas con errores. Solución: Recorrer página por página el escrito para ver si está o no libre de errores de tipografía, es un Proceso de Bernoulli con p = 0.4. Si definimos la variable aleatoria X = número de páginas con errores en el escrito de 5 páginas, se tiene que X b ( n , p ) = b ( 5 , 0 . 4 ) . Por consiguiente, las probabilidades pedidas son: 5 a ) P (X = 0) = 0.400.65 0.65 0.0778. 0 5 5 5 b) P (X 3) = 1 - P(X 2) = 1 - 0.400.65 - 0.410.64 - 0.420.63 = 1 - 0.6826 0.3174. 0 1 2 Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 132 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aproximación binomial-normal: Para valores de n suficientemente grandes, las probabilidades binomiales se pueden aproximar por medio de la distribución normal. Esta aproximación consiste en lo siguiente: Si X es una v.a. con distribución binomial, Xb(n,p) y n es grande, (npq>5), entonces X np aprox . N ( 0, 1) npq Esta aproximación se basa en que la distribución bi nomial se puede escribir como suma de variables de Bernoulli independientes. En efecto, si Xb(n,p) entonces se puede considerar que X n X i 1 i ,con X 1 ,..., X n v .a .i.i.d . B ( p ) y aplicar el Teorema Central del Límite teniendo en cuenta que EXi = p, (Xi) = pq Así, para obtener probabilidades acerca de la distribución binomial, utilizamos el razonamiento siguiente: a - np X - np b - np b - np a - np . P( a < X < b) P npq npq npq npq npq Para valores pequeños de p ó q será viable la utilización de otra aproximación (aproximación binomial-Poisson) que, de alguna manera, es complementaria de la aproximación binomial-normal. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 133 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Corrección por continuidad: Al aproximar una distribución discreta por una c ontinua obtenemos las mismas aproximaciones para probabilidades como P(a X b) y P(a < X < b) que pueden ser diferentes al ser X discreta y también obtendríamos P(X = a) = 0 para los elementos del espacio muestral. Para evitar estos problemas se emplea la denomin ada corrección por continuidad que consiste en asignar al valor entero a el intervalo (a - 0.5, a + 0.5). Como la distribución binomial asigna probabilidades positivas a los números enteros se trata de restar o sumar 0.5 a los extremos de los intervalos según que sean extremos abiertos o cerrados para que los valores enteros en el intervalo sean los mismos antes y después de hacer la corrección. Así, por ejemplo: a 0.5 np X np a 0.5 np a 0.5 np a 0.5 np P ( X a) Pa 0.5 X a 0.5 P npq npq npq npq npq a 0.5 np X np b 0.5 np b 0.5 np a 0.5 np P(a X b) Pa 0.5 X b 0.5 P npq npq npq npq npq a 0.5 np X np b 0.5 np b 0.5 np a 0.5 np P (a X b) Pa 0.5 X b 0.5 P npq npq npq npq npq La corrección por continuidad mejora las aproximaci ones y es conveniente utilizarla, especialmente para valores de n no muy elevados. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 134 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: La tasa de artículos defectuosos producidos por una cadena de producción es del 2%. a) Hallar la probabilidad de que en una muestra de 500 artículos extraídos al azar e independientemente haya más de 20 defectuosos. b) Hallar el tamaño que tiene que tener una muestra para que la probabilidad de que haya al menos 10 artículos defectuosos sea mayor que 0.95. Solución: El muestreo de artículos en la cadena de producción se puede asimilar a un Proceso de Bernoulli de parámetro p = 0.02. Por tanto, la variable aleatoria X = Número de artículos defectuosos en una muestra de tamaño n sigue una distribución binomial, b(n,p), con p = 0.02. a) En este caso X b ( 500 , 0 . 02 ), npq 9 . 8 5 luego usando la aproximación binomial-normal X np 20 0.5 10 1 20 0.5 10 1 (3.35) 0.0004. P( X 20) P( X 20 0.5) P npq 9 .8 9 .8 b) El tamaño de la muestra, n, es la incógnita en esta ocasión y, por tanto, no sabemos de antemano si npq >5. La forma de proceder en estos casos es utilizar la aproximación, obtener el valor de n y ver posteriormente si estaba justificado o no el uso de dicha aproximación. Buscamos n tal que X np 10 0.5 0.02n 1 10 0.5 0.02n 0.95 P ( X 10) P ( X 10 0.5) P npq 0.0196n 0.0196n 10 0.5 0.02n 0.05. 0.0196n Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 135 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Del interior de las tablas de la normal típica, obtenemos 10 0.5 0.02n 1.65. 0.0196n Planteamos una ecuación con la igualdad, y con ello obtenemos el tamaño de muestra mínimo que garantiza la probabilidad 0.95 pedida. Con valores de n superiores también se supera, por supuesto, la probabilidad 0.95. 10 0.5 0.02n 2 1.65 2 0.0196 n 0.0004 n 2 0.433361n 90.25 0 802.11 0.4333361 0.4333612 4 0.0004 90.25 n 281.29 . 2 0.0004 Una simple comprobación nos muestra que la solución del problema es n>802.11, es decir, n803. La otra solución de la ecuación corresponde a la solución de la inecuación con el valor +1.65 en el lado derecho. Para finalizar debemos hacer la comprobación: npq = 15.7388 > 5, lo que valida la aproximación. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 136 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un comerciante recibe artículos de un proveedor quien le anuncia que la tasa de artículos defectuosos es inferior al 3%, cantidad que, de ser cierta, el comerciante considera razonable. Para cerciorarse de la validez de la afirmación del proveedor, el comerciante somete a un control exhaustivo una muestra de 200 artículos elegidos al azar e independientemente y adopta la siguiente regla de decisión: Si aparecen 5 ó más artículos defectuosos en la muestra, cancela el pedido; en caso contrario confirma el pedido. a) Hallar la probabilidad de que un lote correcto (tasa<3%) sea rechazado por el control. b) Hallar la probabilidad de no rechazar un lote con un tasa del 4% de defectuosos. Solución: La inspección artículo por artículo es un proceso de Bernoulli con p = tasa de defectos. La variable aleatoria de interés es: X = Número de artículos defectuosos entre 200 inspeccionados. Sabemos que su distribución de probabilidades es X b ( n , p ) b ( 200 , p ). a) Pongámonos en el caso extremo p = 0.03. En caso de que p < 0.03, la probabilidad pedida será menor que la que obtengamos en el supuesto p = 0.03. Es decir, vamos a obtener el máximo de las probabilidades de rechazar el lote para los distintos valores de p que no cumplen las especificaciones del proveedor. Por tanto , X b ( n , p ) b ( 200 , 0 . 03 ), npq 5 . 82 5 y está justificado el uso de la aproximación binomial-normal para obtener la probabilidad pedida: X np 5 0.5 6 1 5 0.5 6 1 ( 0.6217) 0.73. P ( X 5) P ( X 5 0.5) P npq 5.82 5.82 Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 137 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL b) Supongamos ahora que la tasa de defectos fuese del 4%, entonces tenemos que X b ( n , p ) b ( 200 , 0 . 04 ), npq 7 . 68 5 y por tanto: X np 4 0.5 8 4 0.5 8 (1.26) 0.104. P ( X 4) P ( X 4 0.5) P npq 7.68 7.68 Este problema se puede enmarcar dentro de lo que llamaremos Contraste de Hipótesis que estudiaremos más adelante. Se han establecido dos hipótesis sobre el modelo de probabilidad desconocido para la población de artículos: Una es que se cumplen las especificaciones del fabricante (p0.03) y la otra alternativa es que no se cumplen (p>0.03). Para decidir sobre cuál de ellas es la válida se construye una regla de decisión basada en la información obtenida a partir de una muestra aleatoria de artículos de la población. En este caso, la regla de decisión es: Creemos las especificaciones del fabricante siempre que salgan menos de 5 artículos defectuosos en una muestra de 200; si, por el contrario, salen 5 o más, concluimos que el fabricante está equivocado. Lógicamente, cualquier regla de decisión de esta naturaleza, puede estar sujeta a dos tipos de errores: Creer las especificaciones del fabricante cuando no sean correctas (apartado b) y no creerlas cuando sean correctas (apartado a). La calidad de una regla de decisión estadística dependerá, lógicamente, de que las probabilidades de cometer estos errores sean lo más pequeñas que sea posible. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 138 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución Geométrica: En ocasiones, nuestro interés en un Proceso de Bernoulli radica en conocer cuántos ensayos transcurren hasta que se produce el primer Éxito: - Número de artículos inspeccionados hasta que aparece el primer Defectuoso. - Número de declaraciones auditadas por un inspector hasta que aparece la primera fraudulenta. - Número de clientes que se informan de determinado producto hasta que uno lo adquiere. En general, se trata de estudiar la variable aleatoria X = Número de ensayos realizados hasta que aparece el primer Éxito. Definición: Se dice que una variable aleatoria X sigue la distribución geométrica de parámetro p, con 0 < p < 1, y se representa X g ( p ) si su distribución de probabilidades es: P ( X k ) PF , F ,, F , E q q q p q k 1 p, para k 1, 2,... La independencia entre los ensayos hace que también tengan distribución g ( p ) las variables Y = Número de ensayos realizados desde el ensayo nº i hasta que aparece el primer E Z= Número de ensayos que transcurren desde el Éxito nº i hasta el nº i+1, Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 139 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Falta de memoria de la ley geométrica. Definición: Se dice que una v.a. X tiene la propiedad de “falta de memoria” (o “pérdida de memoria”) si cumple P X kn La ley geométrica tiene esta propiedad ya que X k P X k n P X kn X k P X k P X n i 1 i k n 1 i 1 i k 1 q q qkn q n P X n k q p p Puede demostrarse además que es la única ley con espacio muestral k= 1, 2,… que tiene esta propiedad. La interpretación es clara: La probabilidad de que transcurran n ensayos sin aparecer un Éxito no cambia con la información de que en los k ensayos precedentes tampoco había aparecido el Éxito. El motivo es, obviamente, la independencia entre los ensayos. Características numéricas de la Distribución geométrica: Media: = EX = 1/p. Varianza: 2 = Var(X) = q/p2. 2 Desviación Típica: = DT(X) = q p . Nótese que la media es inversamente proporcional a la probabilidad de Éxito. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 140 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución de Pascal: Una generalización natural de la ley geométrica surge de estudiar cuántos ensayos transcurren hasta que se produce el Éxito número r: - Número de artículos inspeccionados hasta que aparecen r Defectuosos. - Número de declaraciones de I.V.A. auditadas por un inspector hasta que aparecen r fraudulentas. - Nº de clientes que se informan de un producto hasta que se adquieren las r unidades disponibles. En general, se trata de estudiar la variable aleatoria X = Número de ensayos realizados hasta que aparece el r-ésimo Éxito. Definición: Se dice que una variable aleatoria X sigue la distribución de Pascal de parámetros r y p, con r entero positivo y 0 < p < 1, y se representa X P (r, p ) si su distribución de probabilidades es: k 1 r P( X k ) p (1 p ) k r , k r , r 1, r 2,... r 1 La independencia entre los ensayos hace que también tengan distribución P(r, p) las variables Y = Número de ensayos realizados desde el ensayo nº i hasta que aparece r-ésimo E Z= Número de ensayos que transcurren desde el Éxito nº i hasta el nº i+r. Además obviamente g(p) es equivalente a P(1, p). Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 141 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Cálculo de Probabilidades: Las probabilidades de la distribución de Pascal no s on fáciles de obtener directamente pero se pueden obtener a partir de una distribución binomial como sigue: Supongamos que tenemos una v.a. X con distribución de Pascal, XP(r,p), es decir, X se puede representar en un proceso de Bernoulli como X = Número de ensayos hasta el r-ésimo Éxito. Supongamos que deseamos obtener la probabilidad P ( X n) k 1 r p (1 p ) k r . k n 1 r 1 Una forma alternativa a resolver dicho sumatorio es definir la variable aleatoria Y = Número de Éxitos en n ensayos Que, como sabemos, tiene distribución binomial b(n,p). Como es equivalente decir que el Éxito número r tarda más de n ensayos en ocurrir, P(X > n), y que decir que en n ensayos ocurren como mucho r-1 Éxitos, P(Y r-1), tenemos que n k P( X n ) P(Y r 1) p (1 p ) n k k 0 k r 1 con lo que podemos utilizar todos los procedimientos disponibles para la distribución binomial a la hora de calcular probabilidades para la distribución de Pascal. Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 142 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Características numéricas de la Distribución de Pascal: Media: = EX = r/p. Varianza: 2 = Var(X) = rq/p2. 2 Desviación Típica: = DT(X) = rq p . Media y varianza son el resultado de multiplicar por r la media y la varianza de la distribución geométrica. El número medio de ensayos hasta el éxito r es proporcional al número de éxitos buscado. Ejemplo: En cierta factoría de montaje en serie se estima que el 30% de los días de trabajo se produce algún paro parcial por averías menores y se supone que hay independencia entre lo que ocurre en días distintos. Cada vez que se acumulan tres días con paros parciales, la empresa decide hacer un paro total para poner a punto el sistema. Obtener la probabilidad de que transcurran más de 10 días sin producirse un paro total. Solución: Analizar día a día si se ha producido o no algún paro parcial es un Proceso de Bernoulli de parámetro p = 0.3. Si definimos la v.a. X = Número de días que transcurren hasta el tercero con paros parciales, tenemos que esta variable sigue la distribución de Pascal P(3,0.3). Si consideramos Y = Número de Éxitos en 10 ensayos, tenemos que Y sigue la ley b(10,0.3) y la probabilidad pedida es 10 P ( X 10) P (Y 2) 0.3k 0.710k 0.3828. k 0 k 2 Tema 8. El proceso de Bernoulli y sus distribuciones asociadas 143 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL TEMA 9.- EL PROCESO DE POISSON Y SUS DISTRIBUCIONES ASOCIADAS - El proceso de Poisson - Distribución de Poisson. - Distribución exponencial. - Distribución Gamma. Tema 9. El proceso de Poisson y sus distribuciones asociadas 144 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL El proceso de Poisson El Proceso de Poisson se puede contemplar como una generalización por continuidad del Proceso de Bernoulli. Un Proceso de Bernoulli se puede entender como la aparición a lo largo del tiempo de sucesos (Éxitos) que pueden ocurrir solo en tiempos que son múltiplos de una cantidad fija. La generalización por continuidad consiste en permitir que los sucesos ocurran de manera continua a lo largo del tiempo. Sucesos 4 3 2 1 0 x1 x2 x3 x4 ... Tiempo Aunque el soporte más común del Proceso de Poisson es el tiempo, el modelo sirve en general para la aparición de sucesos sobre otros soportes continuos como la longitud, superficie, volumen... Ejemplos de fenómenos aleatorios que se pueden modelar como un proceso de Poisson: - Llegada de llamadas a una centralita telefónica a lo largo de un periodo de tiempo. - Ocurrencia de accidentes de tráfico en un cruce de carreteras durante un periodo de tiempo. - Emisión de partículas a lo largo del tiempo por un cuerpo radiactivo. - Aparición de defectos de aislamiento en un cable eléctrico a lo largo de su longitud. - Aparición de agujeros en láminas metálicas de poco espesor a lo largo de su superficie. - Aparición de partículas en suspensión en una solución acuosa a lo largo de su volumen, etc. Tema 9. El proceso de Poisson y sus distribuciones asociadas 145 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Definición: Un Proceso de Poisson es la aparición aleatoria de sucesos a lo largo del tiempo obedeciendo a las siguientes pautas: 1.- En un intervalo de tiempo de longitud diferencial t, t+t) sólo se puede producir a lo sumo un suceso. 2.- El número medio de sucesos por unidad de tiempo, , denominado tasa del proceso, se mantiene constante a lo largo del tiempo. 3.- El número de sucesos que ocurren en intervalos de tiempo disjuntos son variables aleatorias independientes. El Proceso de Poisson lleva asociadas diversas distribuciones de probabilidades correspondientes a diversas variables de interés: Número de sucesos ocurridos en un intervalo de tiempo, Tiempo de espera del primer suceso, Tiempo de espera del r-ésimo suceso. Distribución de Poisson: Definición: Se dice que una variable aleatoria X sigue la distribución de Poisson de parámetro > 0), y se representa X ( ) si su distribución de probabilidades es: e k P( X k ) , k 0,1, 2, 3,... k! Para valores se dispone de una tabla con las probabilidades acumuladas. Tema 9. El proceso de Poisson y sus distribuciones asociadas 146 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL De este modo, X = Nº de sucesos ocurridos en un intervalo de tiempo de longitud t es una variable aleatoria con distribución de Poisson cuyo parámetro es la tasa del proceso por la longitud del intervalo: X ( t ) . En un intervalo de tiempo de longitud unitaria, la distribución del número de sucesos ocurridos es de Poisson con parámetro igual a la tasa del proceso. Los gráficos siguientes muestran distintas distribuciones de Poisson para diferentes valores del parámetro . Distribución de Poisson (5) Distribución de Poisson (1) Distribución de Poisson (0.1) 0.18 0.4 1 Distribución de Poisson (25) 0.08 0.15 0.8 0.06 0.3 0.12 0.6 pr. 0.09 pr. 0.2 pr. pr. 0.04 0.4 0.06 0.02 0.1 0.2 0.03 0 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 Tema 9. El proceso de Poisson y sus distribuciones asociadas 7 8 9 10 0 0 5 10 15 20 25 0 10 20 30 40 50 147 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Las llamadas que llegan a cierta centralita telefónica en determinado periodo de tiempo siguen un Proceso de Poisson de tasa 180 llamadas a la hora. La capacidad de la central telefónica permite atender un máximo de 5 llamadas por minuto. Calcular: a) La probabilidad de que en un minuto se reciban más llamadas de las que se pueden atender. b) La probabilidad de que en dos minutos se produzcan exactamente 4 llamadas. c) El número medio de minutos por hora en que la centralita podrá atender todas las llamadas. d) La probabilidad de que no se produzca saturación en ningún minuto a lo largo de una hora. Solución: En un proceso de Poisson el número de sucesos que se producen en un intervalo de tiempo sigue la ley de Poisson con parámetro igual a la tasa del proceso ( = 180 llamadas/hora = 3 llamadas/minuto) por la longitud del intervalo. a) X = Número de llamadas que se producen en un minuto. X(t) = (31)=(3). e 3 3k P( X 5) 1 P( X 5) 1 1 0. 916 0. 084 ! k k 0 5 b) X = Número de llamadas en un intervalo de 2 minutos. X(t) = (32)=(6). e 6 6 4 0.134 P( X 4) 4! c) Cada minuto, observamos si se produce saturación o no (E = No saturación, F = Saturación). Si X = Número de minutos de una hora en los que no se satura la centralita, X b(n,p) = b(60,0.916) EX = np = 600.916 = 54.96. 60 60 0 d) Con la variable X anterior, P( X 60) 60 0.916 0.084 0.005 . Tema 9. El proceso de Poisson y sus distribuciones asociadas 148 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Características numéricas de la Distribución de Poisson: Media: = EX = . Varianza: 2 = Var(X) = . Desviación Típica: = DT(X) = . Aproximación binomial-Poisson Las condiciones ideales de utilización de la apr oximación binomial-Poisson son, de alguna manera, complementarias a las que permiten utilizar la aproximación binomial-normal: Si X es una v. a. con distribución binomial, “moderado” 1 < np < 10, entonces se tiene: Xb(n,p) con n grande, p pequeño (p < 0.1) y np X b ( n, p ) ( ) con np. La aproximación es igualmente aplicable para valores grandes de p (p > 0.9). Se trata simplemente de intercambiar el papel del Éxito y el Fracaso. Tema 9. El proceso de Poisson y sus distribuciones asociadas 149 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Un auditor sospecha que en un conjunto muy grande de facturas, aproximadamente el 5% son fraudulentas. a) Se extrae al azar una muestra de 50 facturas. Obtener la probabilidad de que haya más de 5 fraudulentas. b) Calcular de qué tamaño tiene que ser una muestra de facturas para que la probabilidad de contener al menos 3 facturas fraudulentas sea superior a 0.85. Solución: Supongamos que se trata de un muestreo con reemplazamiento. Así pues, la inspección factura a factura es un Proceso de Bernoulli con probabilidad de Éxito p = 0.05. a) Sea X = Número de facturas fraudulentas en una muestra de 50 facturas. Xb(50,0.05). Como n=50 es grande, p=0.05 < 0.1 y 1<np = 2.5<10, podemos aproximar por Poisson: 5 50 e 2.5 2.5 k k 50 k P( X 5) 1 P( X 5) 1 0.05 0.95 1 1 0.958 0.042. k ! k k 0 k 0 5 b) Sea X = Número de facturas fraudulentas en una muestra de n facturas. Por las condiciones del problema, n deberá de ser un valor alto, lo cual hace pensar en utilizar de nuevo la aproximación binomial-Poisson. Ahora tenemos que utilizar las tablas a la inversa para obtener el valor de que hace que una variable aleatoria () satisfaga P(X3) 0.85. A partir de ahí, obtenemos la solución del problema utilizando que = np, es decir, n = /p. Buscaremos el menor valor de que satisface la condición pedida, lo cual nos proporciona el tamaño de muestra menor que hace que P(X3) 0.85, o, lo que es lo mismo, que P(X≤2)≤0.15. Así, encontramos que para =5, X(5) satisface P(X≤2)=0.125. Por lo tanto n 5/0.05=100. Tema 9. El proceso de Poisson y sus distribuciones asociadas 150 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Aproximación Poisson-normal Para valores de suficientemente grandes, la distribución de Poisson se puede aproximar por medio de la distribución normal. Esta aproximación consiste en lo siguiente: Si X es una v.a. con distribución de Poisson, X() y >5 (criterio orientativo) se tiene X aprox. N ( 0,1) Esta aproximación se basa en que la distribución de Poisson se puede escribir como suma de variables de Poisson independientes. En efecto, si X() entonces se puede considerar que n X X i , con X 1 , ..., X n v. a. i. i. d . n y aplicar el Teorema Central del Límite teniendo en i 1 cuenta que EXi n , ( Xi ) n. De este modo, para obtener probabilidades acerca razonamiento siguiente: de la distribución de Poisson, utilizamos el a-λ b-λ a-λ X-λ b-λ P( a < X < b) P . Φ Φ λ λ λ λ λ Análogamente a lo explicado en relación a la ap roximación binomial-normal, es conveniente también ahora utilizar la corrección por continuidad en los mismos términos que los descritos entonces. Tema 9. El proceso de Poisson y sus distribuciones asociadas 151 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Cuadro resumen de aproximaciones n grande, p<0.1 (p>0.9) , 1<np<10 b(n,p) λ = np μ=np μ= λ npq>5 σ=(npq)1/2 σ=(λ)1/2 λ>5 N(μ, σ) Tema 9. El proceso de Poisson y sus distribuciones asociadas Poisson(λ) 152 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: En la fabricación de determinado cable para redes eléctricas de media tensión se producen defectos de aislamiento según un proceso de Poisson de tasa = 0.5 defectos/Kilómetro. a) Obtener la probabilidad de que un rollo de cable de 5.83 Km de longitud no contenga defectos. b) Obtener la probabilidad de que una instalación de 200 Km de longitud contenga más de 75 defectos de aislamiento. Solución: a) Sea X = Nº de defectos en 5.83 Km de cable X(tasa x longitud)=(0.5 x 5.83)=(2.915), de donde P( X 0 ) e 2.915 2. 9150 e 2.915 0. 00542. 0! b) Sea X = Nº de defectos en 200 Km de cable X(tasa • longitud)=(0.5 • 200)=(100), lo que permite hacer uso de la aproximación normal: X 100 75.5 100 75.5 100 P(X 75) P(X 75.5) P 1 (2.45) 0.99286 . 10 100 100 Tema 9. El proceso de Poisson y sus distribuciones asociadas 153 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución Exponencial: En ocasiones, nuestro interés en un Proceso de Poisson radica en conocer el comportamiento probabilístico del tiempo transcurrido hasta que se produce el primer suceso: tiempo de espera hasta que se produce la primera llamada en una centralita telefónica, tiempo de espera hasta que llega un cliente a un banco, tiempo que tarda en producirse una avería en una máquina, longitud de carretera recorrida hasta que aparece un bache, superficie de un bosque recorrida hasta que se encuentra la primera planta de determinada especie, etc. En general, se trata de estudiar la variable aleatoria X = Tiempo de espera hasta que aparece el primer suceso. Esta variable aleatoria toma valores positivos, x > 0, y su distribución de probabilidades, denominada distribución exponencial, se define a continuación: Definición: Se dice que una variable aleatoria X sigu e la distribución exponencial de parámetro , con > 0, y se representa X exp( ) x para x 0. si su distribución de probabilidades está dada por la densidad: f ( x ) e Es interesante notar que, si definimos las variables aleatorias: Y = Tiempo de espera desde el instante t0 hasta el próximo suceso Z= Tiempo de espera entre el suceso nº i y el nº i+1, entonces Y exp( ) y Z exp( ) . Tema 9. El proceso de Poisson y sus distribuciones asociadas 154 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Falta de memoria de la distribución exponencial La ley exponencial es la única ley continua con valo res positivos que tiene la propiedad de “falta de memoria”. Veámoslo: si Xexp(), entonces se tiene: λx dx λe λ(t s) P X t s t s e X t s P e λs PX s . X t P X t e λt λx dx λe t La probabilidad de que transcurran s unidades de tiempo sin aparecer un suceso no se ve modificada por la información de que en las t unidades de tiempo precedentes no haya aparecido ningún suceso. Características numéricas de la Distribución exponencial: Densidades exponenciales exp() Media: = EX = 1/ Varianza: 2 = Var(X) = 1/2 . Desviación Típica: = DT(X) =.1/ 2 1.6 1.2 f(x) Nótese que la media es inversamente proporcional a la tasa de sucesos del proceso. 0.8 0.4 0 0 Tema 9. El proceso de Poisson y sus distribuciones asociadas 1 2 3 4 5 6 7 8 9 10 155 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: La duración de un cinescopio de televisión en horas es una v.a. X con función de densidad fX(t)=ce-ct para t0, siendo c un parámetro que depende del fabricante. a) Calcular la probabilidad de que un cinescopio dure al menos 200 horas. b) Sabiendo que un cinescopio ha durado 300 horas, calcular la probabilidad de que dure al menos 200 horas más. c) Hallar la vida media de un cinescopio y su desviación típica. d) El parámetro de cierto fabricante es c=1/10000. Obtener la duración del periodo de garantía (sustitución del cinescopio) que puede ofrecer a sus clientes si el margen de ganancias con que trabaja no le permite sustituir más del 10% de los aparatos vendidos. Solución: Sea X v.a. la duración de un cinescopio. a) PX 200 f (t )dt e 200 c 200 PX 500 e 500 c X 500 300 c e 200 c PX 200 b) P X 300 PX 300 e c) EX=1/c, Var(X)=1/c2, (X)=1/c. d) Buscamos el tiempo t0 tal que PX t o 0.1 : PX t0 1 e t0 /10000 0.1, t0 10000 ln 0.9 1053.6 horas. Tema 9. El proceso de Poisson y sus distribuciones asociadas 156 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Distribución Gamma (o de Erlang-r): Una generalización natural de la ley exponencial surge de estudiar el tiempo que transcurre hasta que aparece el suceso número r: Tiempo de espera hasta que se producen r llamadas en una centralit a telefónica, tiempo de espera hasta que llegan r clientes a un banco, tiempo que tarda en producirse la r-ésima avería de una máquina, longitud de carretera recorrida hasta que aparecen r baches, superficie de un bosque recorrida hasta que se encuentra la r-ésima planta de determinada especie, etc. En general, se trata de estudiar la variable aleatoria X = Tiempo de espera transcurrido hasta que aparece el r-ésimo suceso. Esta variable aleatoria toma valores positivos, gamma de parámetros (r,) y denotada (r,). Definición: Se dice que una variable aleatoria X sigue la distribución gamma de parámetros r, , con r un número natural positivo, y > 0, y se representa por x > 0, según una función de densidad denominada Densidades gamma con común (r,), =1 0.4 0.3 X ( r, ) si su distribución de probabilidades está dada por la densidad: f ( x) r λ x r 1e λ x , para (r 1)! f(x) 0.2 0.1 x 0. Tema 9. El proceso de Poisson y sus distribuciones asociadas 0 0 3 6 9 12 15 157 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Esta distribución de probabilidades aparece como modelo de numerosas variables aleatorias de interés en diversos campos. En particular, para valores de r naturales, la ley gamma es el modelo probabilístico del tiempo de espera del r-ésimo suceso en un Proceso de Poisson. Análogamente a lo que ocurría con la distribución exponencial, si definimos las variables aleatorias: Y = Tiempo de espera desde el instante t0 hasta que aparece el r-ésimo suceso posterior Z= Tiempo de espera entre el suceso nº i y el suceso nº i+r, se tiene que Y ( r, ) y Z (r, ) . Características numéricas de la Distribución gamma Media: = EX = r/. Varianza: 2 = Var(X) = r/2 . Desviación Típica: = DT(X) = r / 2 . Nótese que la media y la varianza son el resulta do de multiplicar por r, número de sucesos buscados, la media y la varianza de la distribución exponencial. Tema 9. El proceso de Poisson y sus distribuciones asociadas 158 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Cálculo de probabilidades Las probabilidades de la distribución gamma se pueden obtener como probabilidades de una distribución de Poisson utilizando el siguiente razonamiento: Sea X(r,), y supongamos que deseamos obtener la probabilidad λr P( X x) t r 1e λt dt. . (r 1)! x X se puede representar como el tiempo que transcurre hasta que se produce el suceso nº r en un Proceso de Poisson de tasa . Una forma alternativa para resolver la integral anterior es definir la variable aleatoria Y = Número de sucesos en el intervalo (0, x), que sabemos Y (x), y que satisface P(X > x)=P(Y r-1), pues que el suceso número r tarde más de x unidades de tiempo en ocurrir es equivalente a que en el intervalo de tiempo (0, x) ocurran como mucho r-1 sucesos. Así P( X x ) P(Y r 1) r 1 e x ( x ) k k 0 k! Esta relación anterior presenta la ventaja de permitir la utilización de las Tablas de distribución de Poisson así como la aproximación de ésta por la ley normal. Tema 9. El proceso de Poisson y sus distribuciones asociadas 159 ESTADÍSTICA GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL Ejemplo: Las averías de un dispositivo de seguridad se producen según un Proceso de Poisson de tasa 0.2 averías / día, sustituyéndose inmediatamente por otro idéntico. a) Obtener la probabilidad de que la 5ª avería tarde más de un mes en producirse. b) Si al comenzar un año se dispone de un total de 100 dispositivos, obtener la probabilidad de que sean suficientes para que el dispositivo de seguridad esté activo todo el año. Solución: a) Definimos las siguientes variables aleatorias: X = Tiempo de espera de la 5ª avería. X(r,)=(5,0.2) Y = Nº de averías en un mes. Y(t)=(0.230)=(6) Así, se tiene que P(X>30)=P(Y4)=0.285 b) Definimos las siguientes variables aleatorias: X = Tiempo de espera de la 100ª avería. X(r,)=(100,0.2) Y = Nº de averías en un año. Y(t)=(0.2365)=(73) Por tanto, P(X>365)=P(Y99)=P(Y<99.5)= Y - 99.5 - 73 99.5 - 73 P (3.10) 0.9990 73 73 Tema 9. El proceso de Poisson y sus distribuciones asociadas 160
© Copyright 2024 ExpyDoc