CENTRO DE BACHILLERATO TECNOLÓGICO INDUSTRIAL Y DE SERVICIOS No. 50 PROBABILIDAD Y ESTADÍSTICA Se sugiere al aspirante que trabaje arduamente en el desarrollo de las actividades de aprendizaje, busque en otras fuentes de información, además del presente material, busque la retroalimentación del profesor y recuerda que para llegar a la meta necesitaras constancia y dedicación al 100% a tus estudios de bachillerato. abril 1 2015 CUADERNILLO DE TRABAJO Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) PROBABILIDAD Competencia: Conocer y aplicar los axiomas y teoremas de probabilidad en la solución de problemas. INTRODUCCIÓN Sin tener en cuenta la profesión que se haya elegido, algo sí es seguro, en algún momento se han de tomar decisiones. Con mucha frecuencia esto tendrá que hacerse sin conocer todas las consecuencias de tales decisiones. Por ejemplo, los inversionistas deben decidir sobre la conveniencia de invertir en una acción en particular, con base en sus expectativas sobre rendimientos futuros. Los empresarios al decidir comercializar un producto enfrentan la incertidumbre sobre la posibilidad de éxito. En cada caso, como sucede con la mayoría de los asuntos comerciales, se han de tomar decisiones sin toda la información pertinente. Todo esfuerzo por reducir el nivel de incertidumbre en el proceso de toma de decisiones incrementa enormemente la probabilidad de que se tomen decisiones más inteligentes y bien informadas. El propósito de esta unidad es ilustrar las formas en las cuales puede medirse la posibilidad o probabilidad de ocurrencia de eventos futuros. 2.1 TÉCNICAS DE CONTEO En este tema se presentarán cuatro métodos, combinaciones, permutaciones, escogencia múltiple y multiplicación, para determinar sin enumeración directa el número de resultados posibles de un experimento particular o el número de elementos de un conjunto particular. 2.1.1 Principio fundamental del conteo Si un evento puede realizarse de n1 maneras diferentes, y si, continuando el procedimiento, un segundo evento puede realizarse de n2 maneras diferentes, y si, después de efectuados, un tercer evento puede realizarse de n3 maneras diferentes, y así sucesivamente, entonces el número de maneras en que los eventos pueden realizarse en el orden indicado es el producto: n1 n2 n3 (II.1) Ejemplo 2.1 Supongamos que una placa de automóvil consta de dos letras distintas seguidas de tres dígitos de los cuales el primero no es cero. ¿Cuántas placas diferentes pueden grabarse? 1 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Solución: La primer letra puede colocarse de 26 maneras diferentes (supuesto el alfabeto de 26 letras), la segunda letra de 25 maneras diferentes (puesto que la letra grabada en la primer posición no puede escogerse como segunda letra), para el primer dígito, para el primer dígito hay nueve números, es decir nueve maneras, y para cada uno de los otros dos dígitos 10 maneras. Por lo tanto pueden grabarse 26 25 9 10 10 585,000 ; por tanto se podrían formar 585,000 placas diferentes. 2.1.2 Permutaciones Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de un conjunto de n objetos entonces se trata de permutaciones. Una permutación de los n objetos tomados r a la vez se define como n Pr n! n r ! (II.2) Donde n! se lee “n factorial” y significa el producto de todos los números de 1 a n. Por tanto 5! 5 4 3 2 1 120 . Por definición 0! 1. Ejemplo 2.1 Hallar el número de palabras de tres letras diferentes que pueden formarse con las letras: a, b, c, d, e, f. Solución: Representemos las palabras de tres letras por tres cajas: Ahora la primera letra puede escogerse de seis formas diferentes; en seguida, la segunda letra se puede escoger de cinco formas diferentes; y después de esto, la última letra se puede escoger de cuatro formas diferentes. Escribamos cada número en su correspondiente caja como sigue: Aplicando la expresión II.2 se tiene: 6 P3 6! 720 120 6 3! 6 2 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Por tanto se pueden formar 120 posibles palabras de tres letras sin repetición. 2.1.3 Escogencia Múltiple Muchos problemas del análisis combinatorio y, en particular, de probabilidad se relacionan con la escogencia de una bola tomada de una urna que contiene n bolas (o una carta de una baraja o una persona de una población). Cuando escogemos una bola tras otra de una urna, r veces, definimos esta escogencia como una prueba ordenada de tamaño r. Se consideran dos casos: 1. Pruebas con sustitución. En este caso cada bola escogida se regresa a la urna antes de tomar la siguiente. Ahora puesto que hay n maneras diferentes para escoger cada bola, según el principio fundamental del conteo hay (II.3) n n n n nr r veces pruebas ordenadas diferentes de tamaño r con sustitución. 2. Pruebas sin sustitución. Aquí la bola no se devuelve a la urna antes de escoger la siguiente. Así no hay repeticiones en la prueba ordenada. O sea que, una prueba ordenada de tamaño r sin sustitución es simplemente una permutación r de objetos de la urna. Por consiguiente hay n Pr n! n r ! (II.4) pruebas ordenadas diferentes de tamaño r sin sustitución tomadas de un grupo de n objetos. Ejemplo 2.2 ¿De cuantas maneras se pueden escoger tres cartas sucesivas de una baraja de 52 cartas, (1) con sustitución, (2) sin sustitución? Solución: (1) si cada carta se regresa al naipe antes de escoger la siguiente, entonces cada carta puede escogerse de 52 maneras diferentes. Entonces hay 52 52 52 523 140,608 pruebas ordenadas diferentes de tamaño tres con sustitución. (2) Por otra parte si no hay sustitución, entonces la primera carta puede escogerse de 52 maneras diferentes, la segunda carta tiene 51 maneras diferentes y la última carta tiene 50 maneras diferentes, por tanto hay 52 P3 132,600 pruebas ordenadas diferentes de tamaño tres sin sustitución. 3 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 2.1.4 Combinaciones Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos tomados r a la vez, o una combinación r, es un subconjunto de r elementos. En otras palabras, una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta. n! (II.5) n Cr r ! n r ! Ejemplo 2.3 Considere que dados 10 productos, ¿cuántos subconjuntos de tres productos podrían empacarse juntos y ofrecerse a los clientes? Si se considera que el orden en el cual se ofrecen los tres productos no influirá en los clientes. Solución: El número de combinaciones de 10 elementos tomados 3 a la vez es 10 C3 120 . Por tanto hay 120 paquetes de tres artículos que se pueden ofrece a los clientes. 2.2 ENFOQUES DE PROBABILIDAD La probabilidad es la posibilidad numérica de que ocurra un evento. La probabilidad de un evento es medida por valores comprendidos entre 0 y 1. Entre mayor sea la probabilidad de que ocurra un evento, su probabilidad asignada estará más próxima a 1, mientras que la probabilidad de una imposibilidad es 0, ésta se expresa como: 0 PE 1 (II.6) El proceso que produce un evento es denominado experimento. Un experimento es toda acción bien definida que conlleva a un resultado único bien definido. El conjunto de todos los posibles resultados para un experimento es el espacio muestral representado por: S x1 , x 2 , , xn (II.7) La teoría de la probabilidad ocupa un lugar importante en muchos asuntos de negocios. Las pólizas de seguros de vida dependen de las tablas de mortalidad, las cuales a su vez se basan en probabilidades de muerte en edades específicas. Otras tasas de seguros tales como seguro de bienes raíces y de automóviles se determinan de manera similar. La probabilidad también juega un papel importante en la estimación del número de unidades defectuosas en 4 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) un proceso de fabricación, la probabilidad de recibir pagos sobre cuentas por cobrar y las ventas potenciales de un nuevo producto. Existen sólo tres formas generalmente aceptadas para enfocar: (1) modelo de frecuencia relativa (o a posteriori), (2) modelo subjetivo y (3) modelo clásico (o a priori). El modelo de frecuencia relativa utiliza datos que se han observado empíricamente, registra la frecuencia con que ha ocurrido algún evento en el pasado y estima la probabilidad de que el evento ocurra nuevamente con base en estos datos históricos. La probabilidad de un evento con base al modelo de frecuencia relativa se determina mediante: PE Número de veces que ha ocurrido el evento en el pasado Número total de observaciones (II.8) El modelo subjetivo requiere establecer la probabilidad de algún evento con base en la mejor evidencia disponible. En muchos casos esto puede ser apenas una conjetura hecha sobre cierta base. El modelo subjetivo se utiliza cuando se desea asignar probabilidad a un evento que nunca ha ocurrido. Por ejemplo la probabilidad de que una mujer sea elegida como presidente de México, debido a que no hay datos sobre los cuales confiar, deben analizar las opiniones y creencias para obtener una estimación subjetiva. De los tres métodos para medir la probabilidad, el modelo clásico es el que se relaciona con mayor frecuencia con las apuestas y juegos de azar. La probabilidad clásica de un evento E se determina mediante: PE 2.3 Número de formas en las que puede ocurrir un evento Número total de posibles resultados (II.9) Axiomas de Probabilidad 2.3.1 Uniones, intersecciones y relaciones entre eventos Un conjunto es una colección de objetos bien definida. Se asume que se han identificado dos conjuntos A y B. Cada uno contiene numerosos elementos. Un diagrama de Venn es una herramienta útil para mostrar la relación entre conjuntos. Intersección entre A y B A B : es el conjunto de todos los elementos que están tanto en A como en B. Los eventos A y B se les denomina eventos no disyuntos. La figura 2.1(a) muestra el correspondiente diagrama de Venn. 5 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Unión de A y B A B : es el conjunto de todos los elementos que están en A o en B. La figura 2.1(b) muestra el diagrama de Venn de la unión de dos eventos. Figura II.1 Diagrama de Venn: (a) A intersección B y (b) A unión B Se dice que dos eventos son mutuamente excluyentes si la ocurrencia de uno prohíbe la ocurrencia del otro. Los eventos son independientes, si la ocurrencia de uno no tiene nada que ver con la ocurrencia del otro. Cuando se saca de un conjunto finito, dos eventos son independientes si y sólo si se realiza el reemplazo. Sin embargo, si el primer elemento no se reemplaza antes de sacar el segundo elemento, los dos eventos son dependientes. 2.3.2 Tablas de contingencia y tablas de probabilidad Una tabla de contingencia permite examinar o comparar dos variables. De los 500 empleados de King Dynamics, Inc. 170 están clasificados como miembros de personal administrativo, 290 como trabajadores de línea y 40 son auxiliares. La tabla compara el género de los trabajadores y la clasificación que tienen éstos. Tabla II.1 Tabla de contingencia para King Dynamics Clasificación de los empleados Género Administrativo Línea Auxiliar Total Hombres 120 150 30 300 Mujeres 50 140 10 200 Total 170 290 40 500 Una tabla de probabilidad puede crearse dividiendo cada una de las entradas de la tabla anterior entre el total, 500 trabajadores. Los resultados se ven en la tabla. 6 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Tabla II.2 Tabla de probabilidad para King Dynamics Clasificación de los empleados Género H Mujeres M Hombres Total Administrativo S Línea 0.24 150 500 50 500 0.10 170 500 0.34 120 500 L Auxiliar A Total 0.06 300 500 0.60 10 500 0.02 200 500 0.40 40 500 0.08 500 500 1.00 0.30 30 500 140 500 0.28 290 500 0.58 Los valores en las márgenes de la tabla se llaman probabilidades marginales. Por ejemplo, la probabilidad de seleccionar un trabajador de línea de manera aleatoria es PL 0.58 y la probabilidad de seleccionar un hombre es PM 0.60 Las probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la probabilidad de la intersección entre dos eventos. Por ejemplo, la probabilidad de seleccionar un trabajador que sea parte del personal administrativo y que sea hombre, es PH S 0.24 Una probabilidad marginal se encuentra como la suma de las probabilidades conjuntas correspondientes. Por tanto PH PH S PH L PH A 0.24 0.30 0.06 0.60 2.3.3 Probabilidad condicional Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió. Se denota como PA|B y se lee la “probabilidad de A dado B”. La formula general para calcular la probabilidad condicional, es la siguiente: PA|B P A B PB (II.10) Para ilustrar la aplicación de la expresión III.10, retomemos la tabla de probabilidades de King Dynamics, se puede observar que la probabilidad de que un trabajador tomado aleatoriamente sea hombre es 7 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) PH 0.60 sin embargo, si se desea calcular la probabilidad de que el trabajador sea hombre dado que es un miembro del personal administrativo PH| S se puede hallar así PH S 0.24 PH| S 0.71 PS 0.34 2.3.4 Las dos reglas de la probabilidad Para calcular la probabilidad de eventos más complejos utilizaremos la regla de la multiplicación y la regla de la adición. Cada una se utiliza para propósitos específicos. 2.3.4.1 Regla de la multiplicación El propósito de la regla de la multiplicación es determinar la probabilidad del evento conjunto PA B . Es decir, que para encontrar la probabilidad de A y B, simplemente se multiplican sus respectivas probabilidades. El procedimiento exacto depende de si A y B son dependientes o independientes. Los eventos A y B son independientes si PA PA|B . Es decir, la probabilidad de A es la misma bien se considere o no el evento B. De igual forma, si A y B son independientes, si PB PB| A Para eventos independientes la probabilidad de dos eventos se vuelve: PA B PA PB (II.11) Si los eventos son dependientes, entonces, por definición, se debe considerar el primer evento al determinar la probabilidad del segundo. Es decir, la probabilidad del evento B depende de la condición que A ya haya ocurrido. Se necesita del principio de probabilidad condicional. La probabilidad de los eventos conjuntos A y B: PA B PA PB| A (II.12) Retornando a la tabla de probabilidad para King Dynamics, tabla II.2, se observa que la probabilidad marginal de la segunda fila muestra claramente que PM 0.4 sin considerar si el trabajador es miembro administrativo, línea o auxiliar. Sin embargo, la probabilidad conjunta de que sea mujer y miembro de línea PM L 0.28 8 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) También se puede calcular esta probabilidad utilizando la expresión II.12 PM L PM PL|M el último término es anteriormente como probabilidad PL| M condicional, la cual se determinó PL M 0.28 0.7 PM 0.4 entonces PM L PM PL|M 0.4 0.7 0.28 Aunque el uso de una tabla II.2 puede simplificar el cálculo de probabilidad, existen ejemplos en los cuales es muy difícil la creación de una tabla, por lo tanto se requiere el uso de las fórmulas. 2.3.4.2 Regla de la adición La regla de la adición se utiliza para determinar la probabilidad del evento A o B, PA B . La probabilidad de que ocurra el evento A o B para eventos que no son mutuamente excluyentes, si ambos pueden ocurrir al mismo tiempo, se determina por medio de la siguiente expresión: PA B PA PB PA B (II.13) En el ejemplo de King Dynamics, la probabilidad de que un empleado sea trabajador hombre o un trabajador de línea es: PM L PM PL PM L 0.4 0.58 0.28 0.7 La probabilidad del evento A o del evento B cuando los eventos son mutuamente excluyentes se determina por: PA B PA PB (II.14) De la tabla II.2 de King Dynamics, los eventos de que un empleado sea trabajador hombre o un trabajador mujer son mutuamente excluyentes. 9 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) ACTIVIDAD DE APRENDIZAJE 1. CUESTIONARIO Calificación: 1. Utiliza la palabra, algunas se repiten, o enunciado que complete el espacio en blanco: acción cero conjunto enfoque clásico evento experimento frecuencia relativa probabilidad resultado resultados subjetivo uno datos empíricamente enfoque frecuencia muestral número de formas en las que puede ocurrir un evento número de veces que ha ocurrido el evento en el pasado número total de observaciones número total de posibles resultados pasado afecta condiconal dependientes excluyentes independientes nada no ocurran ocurrencia otro Históricamente se han desarrollado tres enfoques conceptuales para definir la probabilidad y determinar valores de probabilidad: __________________________________________ __________________________________________ __________________________________________ La _________________ es la posibilidad numérica de que ocurra un evento. La ______________ de un evento es medida por valores comprendidos entre ____ y _____. El proceso que produce un ____________ es denominado ____________. Un experimento es toda _________ bien definida que conlleva a un ____________ único bien definido. 10 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) El _____________ de todos los posibles ______________ para un _____________ es el espacio ___________ representado por: s x1 , x2 , , xn El ____________ de ____________ relativa utiliza datos que se han observado ______________, registra la frecuencia con que ha ocurrido algún _____________ en el _____________ y estima la probabilidad de que el ________________ ocurra nuevamente con base en estos ____________ históricos. La probabilidad de un evento con base al modelo de _________________ relativa se determina mediante: P( E ) De los tres métodos para medir la probabilidad, el modelo clásico es el que se relaciona con mayor frecuencia con las apuestas y juegos de azar. La probabilidad clásica de un evento E se determina mediante: P( E ) Se dice que dos o más eventos son mutuamente _________________ si la _________________ de uno prohíbe la ocurrencia del _________________. Esto es, si no pueden ocurrir al mismo tiempo. Dos o más eventos son ___________ excluyentes cuando es posible que _________________ al mismo tiempo. Los eventos son _________________, si la ocurrencia de uno _____ tiene _________________ que ver con la _________________ del otro. Dos eventos son _________________ cuando la ocurrencia o no ocurrencia de un evento _________________ a la probabilidad de _________________ del otro evento. 11 Cbtis No. 50 Cuando Probabilidad y estadística (Matemáticas aplicadas) dos eventos _________________ son dependientes, se emplea el concepto de probabilidad para designar la probabilidad de ocurrencia del evento relacionado. La expresión P B | A indica la probabilidad de que ocurra el evento B dado que ya ha ocurrido el evento A. La formula general para calcular la probabilidad condicional, es la siguiente: P | P P Probabilidad de eventos 2. Para cada una de las siguientes situaciones, indique cuál de los enfoques de la probabilidad (el clásico, el de frecuencias relativas o el subjetivo) sería más útil para determinar el valor de probabilidad requerido. a. La probabilidad de que haya un golpe de estado el próximo año. ______________________________ b. La probabilidad de obtener ya sea un 1 o un 6 en un solo lanzamiento de un dado de seis caras. _________________________________ c. La probabilidad de que una persona aleatoriamente elegida entre las que visitan una gran tienda departamental realice una compra en esa tienda. _________________________________________ 3. Una bolsa contiene 4 canicas rojas y 3 azules. Si se saca una canica de la bolsa al azar, ¿cuál es la probabilidad de sacar una canica azul? 4. Se escoge aleatoriamente una persona vestida de rojo de un grupo de 5 personas que visten de rojo y 4 personas que visten de azul. 12 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 5. Se escoge una pelota de tenis verde de una bolsa que contiene 4 pelotas verdes, 7 amarillas y 5 blancas. 6. Determine el valor de probabilidad aplicable a cada una de las siguientes situaciones. a. La probabilidad de accidentes industriales en una industria en particular en un plazo anual. Una muestra aleatoria de 10 empresas, las cuales emplean a un total de 8000 personas, reportó la ocurrencia de 400 accidentes industriales durante un periodo reciente de 12 meses. b. La probabilidad de acertar a un número ganador en un juego de ruleta. Los números de la rueda incluyen un 0, 00 y del 1 al 36. c. La probabilidad de que un establecimiento de franquicia de comida rápida sea financieramente exitoso. El probable inversionista obtiene datos de otras unidades del sistema de franquicias, estudia el desarrollo de la zona residencial en la que estará ubicado el establecimiento y considera el volumen de ventas requerido para garantizar el éxito financiero con base en la inversión de capital requerida y los costos operativos. En general, el inversionista juzga que hay un 80% de posibilidades de que el establecimiento sea financieramente exitoso y 20% de que no lo sea. 7. La siguiente tabla muestra el número de computadoras vendidas diariamente por una tienda minorista Número de computadoras vendidas Número de días 0 12 1 43 2 18 3 20 4 25 Probabilidad 13 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Determine la probabilidad de que el número de computadoras que se vendan el día de hoy sea: a. 2 b. Menos de 3 c. Más de 1 d. Por lo menos 1 8. Un importador de cristal irlandés de Nueva York recibe envíos de cajas de tres artículos. La siguiente tabla muestra los datos para las últimas 100 cajas indicaron el número de artículos dañados que había en cada caja. Número de defectos Número de cajas Probabilidad 0 40 1 27 2 21 3 12 Determine la probabilidad de que el número de artículos defectuosos sea: a. 2 b. Menos de 3 c. Más de 1 d. Ninguno 14 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Probabilidad con técnicas de conteo Si un orden es suficiente para constituir otro subconjunto de r objetos tomados de un conjunto de n objetos entonces se trata de permutaciones. Una permutación de los n objetos tomados r a la vez se define como n Pr n! n r ! 9. Calcula las permutaciones para los siguientes valores de n y r: n6 r 3 n4 r2 n 10 r 4 Supongamos que tenemos una colección de n objetos. Una combinación de estos n objetos tomados r a la vez, o una combinación r, es un subconjunto de r elementos. En otras palabras, una combinación r es una selección de r o de n objetos donde el orden no se tiene en cuenta. n Cr n! r ! n r ! 10. Calcula las combinaciones para los siguientes valores de n y r: n6 r 3 n4 r2 n 10 r 4 15 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 11. Un caso reciente en la corte del condado de Madison, Kentucky, sobre las prácticas de contratación de una compañía de teléfonos local. La compañía planeó contratar 3 nuevos empleados. Había 8 candidatos para los cargos, 6 de los cuales eran hombres. Los 3 que fueron contratados eran hombres. Un cargo por discriminación de sexo se impuso contra la compañía. ¿Cómo decidiría usted? 12. Diez unidades de producción se seleccionan de una línea de producción. Tres de estas 10 son defectuosas. Si deben sacar 5 de las 10, ¿cuál es la probabilidad de que 2 sean defectuosas? 13. Un representante de ventas debe visitar seis ciudades durante un viaje. a. Si en la zona geográfica por visitar hay 10 ciudades, ¿cuántas diferentes agrupaciones de seis ciudades susceptibles de ser visitadas por el representante de ventas hay? b. Supongamos que en la zona geográfica que visitará el representante de ventas hay 10 ciudades y, además, que la secuencia en la que serán programadas las visitas a la seis ciudades elegidas también es de importancia. ¿Cuántas secuencias son posibles para las seis ciudades asignadas? 14. De las ciudades mencionadas en el problema anterior, supongamos que seis de ellas son en realidad mercados primarios del producto en cuestión mientras que las otras cuatro son mercados secundarios. Si el vendedor elige aleatoriamente las seis ciudades por visitar, ¿cuál es la probabilidad de que: a. Cuatro de ellas sean mercados primarios y dos mercados secundarios b. Las seis resulten ser mercados primarios 16 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 15. Los cinco individuos que componen la dirección de una pequeña empresa manufacturera serán sentados juntos en un banquete. Determine la probabilidad de que el grupo de tres directivos elegido a partir de los cinco incluya a: a. Un directivo en particular b. Dos directivos en particular c. Tres directivos en particular Tablas de probabilidades conjuntas 16. La revista Forbes (febrero de 1997) clasificó las 120 ciudades de estados unidos de acuerdo con la calidad de vida, con base en parte del porcentaje de empleados que tenían título universitario. Los resultados se ven en la siguiente tabla de contingencia parcial, en donde A es menos del 15% con título universitario, B es del 15 al 20% con título universitario y C es más del 20% con título universitario. Realice una tabla de probabilidad y responda las preguntas que se presentan en la siguiente tabla. Porcentaje con título universitario A B C Total Tabla 1. Clasificación de la revista Forbes para las 120 ciudades de EU Calidad de vida Pobre (P) Bueno (G) Excelente (E) Total 10 20 40 20 20 10 60 17 20 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Tabla 2. Tabla de probabilidad para las 120 ciudades de EU Porcentaje con título universitario Pobre (P) Bueno (G) Excelente (E) Total A B C Total Los valores en las márgenes de la tabla se llaman _______________________. La probabilidad de seleccionar una ciudad con menos del 15% de empleados con título universitario es: P( A) ________ y la probabilidad de seleccionar un empleado con nivel de vida excelente es: P( E) ________ Las probabilidades conjuntas en las celdas de la estructura principal de la tabla muestran la probabilidad de la ________________ entre dos eventos. Por ejemplo, la probabilidad de seleccionar una ciudad con calidad de vida pobre y del 15 al 20% de sus empleados con titulo universitario, es: P( P B) __________ Mientras que la notación P( E C ) se lee como _______________________________ _____________________________________________________________________________ y da: P( E C) : _______________ Una probabilidad marginal se encuentra como la suma de las probabilidades conjuntas correspondientes. 18 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Probabilidad condicional Es la probabilidad de que el evento A ocurra, dado que el evento B ya ocurrió. Para ilustrar la aplicación de la probabilidad condicional, retomemos la tabla 2 de probabilidades, se puede observar que la probabilidad de que una ciudad tomada aleatoriamente tenga más del 20% de sus empleados con titulo universitario es: P C Sin embargo, si se desea calcular la probabilidad de que la ciudad cuente con más del 20% de sus empleados con titulo universitario dado que su nivel de vida es excelente se puede hallar así: P C | E Regla de la multiplicación El propósito de la regla de la multiplicación es determinar la probabilidad del evento conjunto P A B . Es decir, que para encontrar la probabilidad de A y B, simplemente se multiplican sus respectivas probabilidades. El procedimiento exacto depende de si A y B son dependientes o independientes. Los eventos A y B son independientes si P A P A B . Es decir, la probabilidad de A es la misma bien se considere o no el evento B. De igual forma, si A y B son independientes, si P B P B A Para eventos independientes la probabilidad de dos eventos se vuelve: 19 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) B P A P B P A Si los eventos son dependientes, entonces, por definición, se debe considerar el primer evento al determinar la probabilidad del segundo. Es decir, la probabilidad del evento B depende de la condición que A ya haya ocurrido. Se necesita del principio de probabilidad condicional. La probabilidad de los eventos conjuntos A y B: P A B P A P B | A Regla de la adición La regla de la adición se utiliza para determinar la probabilidad del evento A o B, P A B . La probabilidad de que ocurra el evento A o B para eventos que no son mutuamente excluyentes, si ambos pueden ocurrir al mismo tiempo, se determina por medio de la siguiente expresión: P A P P A B P B En el ejemplo de Forbes, la probabilidad de que una ciudad tenga un nivel de vida bueno o que más del 20% de sus empleados tengan titulo universitarios es: P P P P La probabilidad del evento A o del evento B cuando los eventos son mutuamente excluyentes se determina por: P A P B P De la tabla 2 de Forbes, los eventos de que una ciudad tenga una calidad de vida pobre o una calidad de vida excelente son mutuamente excluyentes. 20 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) DISTRIBUCIONES DE PROBABILIDAD Competencia: Conocer e identificar las diferentes funciones de distribución de probabilidad, para su aplicación en la solución de problemas. INTRODUCCIÓN Una variable aleatoria es una variable cuyo valor es el resultado de un evento aleatorio. Se supone que se lanza una moneda tres veces y se anota el número de caras que se obtienen. Los posibles resultados son 0 caras, 1 cara, 2 caras, o 3 caras. La variable aleatoria es el número de caras que se obtienen, y los posibles resultados son los valores de la variable aleatoria. Como segundo ejemplo, los pesos de envío del agua mineral en contenedores oscilaban aleatoriamente entre 10 a 25 libras. Los pesos reales de los contenedores, en libras, son los valores de la variable aleatoria "peso". Tal y como lo sugieren estos dos ejemplos, las variables aleatorias pueden ser discretas o continuas. Una variable aleatoria discreta puede asumir sólo ciertos valores, con frecuencia números enteros, y resulta principalmente del conteo. El número de caras en el experimento del lanzamiento de la moneda es un ejemplo de una variable aleatoria discreta. Los valores de la variable aleatoria se restringen sólo a ciertos números: 0, 1, 2, y 3. El resultado del lanzamiento de un dado, el número de camiones que llegan por hora al puerto de carga, y el número de clientes que están en fila para sacar sus libros favoritos, son otros ejemplos de variables aleatorias discretas. Una variable aleatoria continua resulta principalmente de la medición y puede tomar cualquier valor, al menos dentro de un rango dado. Los pesos del agua mineral es un ejemplo, debido a que los contenedores pueden tomar cualquier valor entre 10 y 25 libras. Otros ejemplos de variables aleatorias continuas incluyen la estatura de los clientes en una tienda de ropa, los ingresos de los empleados en un centro comercial local y el tiempo transcurrido entre la llegada de cada cliente a la biblioteca. En cada caso, la variable aleatoria puede medirse con cualquier valor, incluyendo fracciones de la unidad. Aunque las unidades monetarias no pueden dividirse en un número continuo o infinito de subdivisiones (el dólar puede subdividirse sólo 100 veces), comúnmente se tratan como distribuciones continuas de probabilidad. 21 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Una distribución de probabilidad es un despliegue de todos los posibles resultados de un experimento junto con las probabilidades de cada resultado. La probabilidad de que la variable aleatoria 𝑋 tome algún valor específico, 𝑥., se escribe 𝑃(𝑋 = 𝑥). El valor esperado de una variable aleatoria discreta es la media ponderada de todos los posibles resultados en los cuales los pesos son las probabilidades respectivas de tales resultados. 3.1 Distribuciones de probabilidad binomial En estadística, la distribución binomial es una distribución de probabilidad discreta que mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con una probabilidad fija p de ocurrencia del éxito entre los ensayos. En las empresas se tienen situaciones donde se espera que ocurra o no un evento específico. Éste puede ser de éxito o fracaso. La distribución binomial se utiliza en situaciones cuya solución tiene dos posibles resultados. Ejemplos: Al nacer un bebé puede ser varón o mujer. En el deporte un equipo puede ganar o perder. En pruebas de cierto o falso sólo hay dos alternativas. Un tratamiento médico puede ser efectivo o inefectivo. La meta de producción o ventas del mes se pueden o no lograr. En pruebas de selección múltiple, aunque hay cuatro o cinco alternativas, se pueden clasificar como correcta o incorrecta. Propiedades de un experimento de Bernoulli En cada prueba del experimento sólo hay dos posibles resultados: éxitos o fracasos. El resultado obtenido en cada prueba es independiente de los resultados obtenidos en pruebas anteriores. La probabilidad de un suceso es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad del complemento es 1- p y la representamos por q . 22 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Función de probabilidad binomial se expresa como: P X ;n, p n C X p X 1 p n X donde : P X ;n, p probabilidad de X-éxitos, dadas n y p n número de observaciones p probabilidad de éxitos 1 p probabilidad de fracasos X número de éxitos en la muestra X 1,2, ,n La media y desviación estándar de la distribución se definen como: E X n p n p 1 p 1. Grafique la distribución binomial para los siguientes valores: n3 p 0.25 x 0,1, 2,3 x 0 1 2 3 P(X=x) 23 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Distribución binomial 0.5 0.4 P(X) 0.3 0.2 0.1 0 0 1 2 3 Número de éxitos (X) 2. La probabilidad de que cierta clase de componente pase con éxito una determinada prueba de impacto es 0.75. Encuentre la probabilidad de que exactamente 2 de los siguientes 4 componentes que se prueban pasen la prueba. 3. La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es 0.4. Si se sabe que 15 personas han contraído esta enfermedad, ¿cuál es la probabilidad de que: a) sobrevivan entre 3 y 8 personas, b) sobrevivan exactamente 5 personas y c) al menos 10 sobrevivan. 4. En pruebas realizadas a un amortiguador para automóvil se encontró que el 20% presentaban fuga de aceite. Si se instalan 20 de estos amortiguadores, hallar la probabilidad de que: a) 4 salgan defectuosos, b) más de 5 tengan fuga de aceite, c) de 3 a 6 amortiguadores salgan defectuosos y d) determine el promedio y la desviación estándar de amortiguadores con defectos. x P(X=x) 0 1 2 3 4 5 6 7 8 9 10 24 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 11 12 13 14 15 x P(X=x) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Distribución binomial 0.3 0.25 P(X) 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Número de éxitos (X) Distribución binomial 0.25 0.2 P(X) 0.15 0.1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Número de éxitos (X) 26 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 3.2 Distribución de Poisson En teoría de probabilidad y estadística, la distribución de Poisson es una distribución de probabilidad discreta. Expresa la probabilidad de un número k de eventos ocurriendo en un tiempo fijo, si estos eventos ocurren con una frecuencia media conocida y son independientes del tiempo discurrido desde el último evento. Se dice que existe un proceso de Poisson si podemos observar eventos discretos en un área de oportunidad – un intervalo continuo (de tiempo, longitud, superficie, etc.) – de tal manera que si se reduce lo suficiente el área de oportunidad o el intervalo, La probabilidad de observar exactamente un éxito en el intervalo es constante. La probabilidad de obtener más de un éxito en el intervalo es 0. La probabilidad de observar un éxito en cualquier intervalo es estadísticamente independiente de la de cualquier otro intervalo. Utilidad: La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatoria. En otras palabras no se sabe el total de posibles resultados. Permite determinar la probabilidad de ocurrencia de un suceso con resultado discreto. Es muy útil cuando la muestra o segmento, n, es grande y la probabilidad de éxitos p es pequeña. Se utiliza cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento dado como por ejemplo distancia, área, volumen o tiempo definido. Esta distribución se aplica en situaciones como: La llegada de un cliente al negocio durante una hora. Las llamadas telefónicas que se reciben en un día. Los defectos en manufactura de papel por cada metro producido. Los envases llenados fuera de los límites por cada 100 galones de producto terminado. El número de pacientes que llegan al servicio de emergencia de un hospital en un intervalo de tiempo. El número de glóbulos blancos que se cuentan en una muestra dada. El número de partos triples por año 27 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) La expresión matemática para la distribución de Poisson para obtener 𝑋 éxitos, dado que se espera 1 éxito es: e X P X ; X! P X ; la probabilidad de X eventos en un área de oportunidad número de eventos esperado (media) X número de eventos 5. Grafique la distribución de Poisson para los siguientes valores: 1, 4,10 x 0,1, 2,3,..., 20 X P(X=x) P(X=x) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 28 P(X=x) Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 19 20 Distribución de Poisson 0.4 0.35 0.3 P(X) 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X 6. Un comerciante de verduras tiene conocimiento de que el 3% de la caja está descompuesta. Si un comprador elige 100 verduras al azar, encuentre la probabilidad de que: (a) las 4 estén descompuestas y (b) de 1 a 3 estén descompuestas. 7. En pruebas realizadas a un amortiguador para automóvil se encontró que el 0.04 presentaban fuga de aceite. Si se instalan 150 de estos amortiguadores, hallar la probabilidad de que: (a) 4 salgan defectuosos, (b) más de 5 tengan fuga de aceite, y (c) de 3 a 6 amortiguadores salgan defectuosos. 8. Si 8 de 100 viviendas violan el código de construcción. ¿cuál es la probabilidad de que un inspector de viviendas, que selecciona aleatoriamente a 50 de ellas, descubra que: (a) ninguna de las casas viola el código de construcción, (b) una viola el código de construcción y (c) dos violan el código de construcción. 9. El número de pacientes que llega a un hospital sigue una distribución de Poisson. Si el número promedio es de 120 por hora, ¿cuál es la probabilidad de que en un minuto lleguen por lo menos 3 pacientes? 10. Se sabe que 10 es el número promedio de camiones tanque de aceite que llegan por día a una cierta ciudad portuaria. Las instalaciones del puerto pueden atender cuando mucho a 15 camiones tanque en un día. ¿Cuál es la probabilidad de que en un determinado día se tengan que regresar los camiones tanque? 29 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 11. En un estudio de un inventario se determinó que, en promedio, la demanda por un artículo en particular en una bodega era 5 veces al día. ¿Cuál es la probabilidad de que en un determinado día este artículo sea requerido: (a) más de 5 veces y (b) ni una sola vez? 12. El profesor Bradley anima a sus estudiantes de estadística a "actuar de forma prudente" consultando al tutor si tienen alguna pregunta mientras se preparan para el examen final. Parece que la llegada de los estudiantes a la oficina del tutor se ajusta a una distribución de Poisson, con un promedio de 5.2 estudiantes cada 20 minutos. El profesor Bradley está preocupado porque si muchos estudiantes necesitan los servicios del tutor, puede resultar un problema de congestión. a) El tutor debe determinar la probabilidad de que cuatro estudiantes lleguen durante cualquier intervalo de 20 minutos, lo cual podría causar el problema de congestión que teme el profesor Bradley. Si la probabilidad excede el 20%, se contratará un segundo tutor. b) El tutor debe calcular la probabilidad de que más de cuatro estudiantes lleguen durante algún período de 20 minutos. Si es mayor que el 50%, las horas de oficina del tutor se aumentarán, permitiendo a los estudiantes extender el horario en las que vienen a ver al tutor. c) Si la probabilidad de que más de siete estudiantes lleguen durante un período cualquiera de 30 minutos excede 50%, el mismo profesor Bradley ofrecerá tutoría adicional. 13. A un conmutador de la oficina principal de la compañía llegan llamadas a un promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el operador está distraído por un minuto, cuál es la probabilidad de que el número de llamadas no respondidas sea: a. ¿Cero? b. ¿Por lo menos una? c. ¿Entre 3 y 5, inclusive? 14. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas presenta una tasa de defectos de 5 por cada 100 unidades. Las unidades se envían a los distribuidores en lotes de 200. Si la probabilidad de que más de 3 salgan defectuosos supera el 30%, usted planea vender en su lugar, camisetas Grateful Dead. ¿Cuál artículo agregará usted al inventario? 30 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 15. Usted compra partes para bicicleta de un proveedor en Toledo que tiene 3 defectos por cada 100 partes. Usted está en el mercado para comprar 150 partes pero no aceptará una probabilidad de más del 50% de que más de dos partes sean defectuosas. ¿Usted le compraría a dicho proveedor? 3.3 Distribución normal Una de las herramientas de mayor uso en las empresas es la utilización de la curva normal para describir situaciones donde podemos recopilar datos. Esto nos permite tomar decisiones que vayan a la par con las metas y objetivos de la organización. Utilidad: Se utiliza muy a menudo porque hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal. Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo: tallas, pesos, diámetros, distancias, perímetros,... Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,... La función de distribución: Puede tomar cualquier valor (-∞ , +∞ ) Hay más probabilidad para los valores cercanos a la media m Conforme nos separamos de µ, la probabilidad va decreciendo de igual forma a derecha e izquierda (es simétrica). Conforme nos separamos de µ, la probabilidad va decreciendo dependiendo la desviación típica 31 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) La expresión matemática para la distribución normal: 1 X 2 1 2 f X ; , e 2 donde : es la media es la desviación estándar 3.14159 X es cualquier valor de la variable continua F(X)=P X k 16. Grafique la distribución normal para los siguientes valores: 50 5,10, 20 P(X) Distribución normal 0.1 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 X 32 80 100 120 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 17. Dada una distribución normal, encuentre el área bajo la curva que cae a. a la izquierda de z 1.43 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 b. a la derecha de z 0.89 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 c. entre z 2.16 y z 0.65 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 d. a la izquierda de z 1.39 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 e. a la derecha de z 1.96 33 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 f. entre z 0.48 y z 1.74 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 18. Dada una distribución normal con media igual a 50 y desviación estándar igual a 10, encuentre la probabilidad de que X asuma un valor entre 45 y 62. z x 0.5 0.4 0.3 0.2 0.1 -3.4 -3 -2.6 -2.2 -1.8 -1.4 -1 -0.6 -0.2 0.2 0.6 1 1.4 1.8 2.2 2.6 3 3.4 0 19. Los siguientes datos representan la duración de vida en segundos de 50 moscas, sometidas a un nuevo atomizador en un experimento de laboratorio controlado: 17 12 16 13 7 20 14 18 7 10 10 6 8 18 5 19 9 13 7 14 23 13 3 10 15 13 6 32 4 10 12 7 9 27 9 19 10 7 19 6 18 13 10 16 7 a) determine el porcentaje de vida de las moscas entre 10 y 20 segundos, b) más de 23 segundos, 34 24 7 11 8 15 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) c) menos de 10 segundos. 20. TelCom Satellite presta servicios de comunicación a los negocios del área metropolitana de Chicago. Los funcionarios de la compañía han aprendido que la transmisión satélite promedio es de 150 segundos, con una desviación estándar de 15 segundos. Los tiempos parecen estar distribuidos normalmente. Para estimar de manera apropiada la demanda del cliente por sus servicios y establecer una estructura de tarifas que maximice las utilidades corporativas, TelCom debe determinar qué tan probable es que algunas llamadas se presenten. El director de servicios desea que usted proporcione estimados de la probabilidad de que una llamada dure: a. b. c. d. Entre 125 y 150 segundos. Menos de 125 segundos. Entre 145 y 155 segundos. Entre 160 y 165 segundos. 21. Como ingeniero constructor usted compra bolsas de cemento de un promedio de 50 libras, con una desviación estándar de 5.2 libras. Debe que usted tuvo el accidente escalando una montaña, el médico le dijo que no levantara nada que pesara más de 60 libras ¿debería usted cargar una bolsa? CONTENIDO DE LA ESTADÍSTICA Competencia: El estudiante determinará el contenido de la estadística dentro del área de conocimiento de su profesión. INTRODUCCIÓN A medida que aumenta la complejidad de nuestro mundo, se hace cada vez más difícil tomar decisiones inteligentes y bien documentadas. Con frecuencia tales decisiones deben tomarse con mucho menos que un conocimiento adecuado y experimentando una gran incertidumbre. Sin embargo, las soluciones a estos problemas son esenciales para nuestro bienestar e incluso para nuestra supervivencia final. Continuamente estamos recibiendo presiones debido a problemas económicos 35 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) como una inflación galopante, el sistema tributario engorroso, etc. Todo nuestro tejido económico y social está amenazado por la contaminación ambiental, la deuda pública onerosa, la tasa de criminalidad que siempre va en aumento y las impredecibles tasas de interés. Esta unidad aportara una visión general sobre lo que es la estadística y como puede utilizarse. 1.1 OBJETO DE LA ESTADÍSTICA La Estadística se ocupa de la recolección, agrupación, presentación, análisis e interpretación de datos, por tanto, la estadística es un método científico que pretende sacar conclusiones a partir de unas observaciones hechas. El objetivo básico de la estadística es hacer inferencia acerca de una población basada en la información contenida en una muestra. Inferir significa predecir, suponer, asegurar. Es decir se pretende establecer inferencia acerca de una población. Entendiendo a la población como un conjunto de individuos, organismos o entes inanimados de los cuales queremos conocer alguna o algunas características para que nos ayuden a tomar una decisión u obtener alguna conclusión de suma importancia. La Estadística actual es el resultado de la unión de dos disciplinas que evolucionaron de forma independiente hasta confluir en el siglo XIX: • el Cálculo de Probabilidades, que nació en el siglo XVII como la teoría matemática de los juegos de azar, • la “Estadística”, o ciencia del Estado, que estudia la descripción de datos, y que tiene unas raíces más antiguas, de hecho, tan antiguas como la humanidad (censos de población). La interacción de ambas líneas de pensamiento da lugar a la ciencia que estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos matemáticos. Resumiendo la Estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales. Un modelo matemático es una abstracción simplificada de una realidad más compleja y siempre existirá una cierta discrepancia 36 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) entre lo que se observa y lo previsto por el modelo. La Estadística proporciona una metodología para evaluar y juzgar estas discrepancias entre la realidad y la teoría. 1.2 RAMAS DE LA ESTADÍSTICA La estadística es la ciencia que tiene que ver con la (1) recolección, (2) organización, (3) presentación, (4) análisis, e (5) interpretación de datos. Las dos principales ramas del análisis estadístico son: Estadística descriptiva, es el proceso de recolectar, agrupar y presentar datos de una manera tal que describa fácil y rápidamente dichos datos. Estadística inferencial involucra la utilización de una muestra para sacar alguna inferencia o conclusión sobre la población de la cual hace parte la muestra. 1.3 ESTADÍSTICA EN LA INVESTIGACIÓN Virtualmente cada área de la investigación científica seria puede beneficiarse del análisis estadístico. Para quien formula las políticas económicas y para quien asesora al presidente y otros funcionarios públicos sobre procedimientos económicos apropiados, la estadística ha demostrado ser una herramienta valiosa. Las decisiones sobre las tasas tributarias, los programas sociales, el gasto de defensa y muchos otros asuntos pueden hacerse de manera inteligente tan sólo con la ayuda del análisis estadístico. Los hombres y mujeres de negocios en su eterna búsqueda de la rentabilidad, consideran que la estadística es esencial en el proceso de toma de decisiones. Los esfuerzos en control de calidad, minimización de costos, combinación de productos e inventarios, y una gran cantidad de otros asuntos empresariales, pueden manejarse efectivamente a través del uso de procedimientos estadísticos comprobados. Para quienes están en el área de la investigación de mercados, la estadística es de gran ayuda en el momento de determinar qué tan probable es que un producto nuevo sea exitoso. La estadística también es muy útil para evaluar las oportunidades de inversión por parte de asesores financieros. Los contadores, los jefes de personal y los fabricantes encuentran oportunidades ilimitadas de beneficiarse con el uso del análisis 37 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) estadístico. Incluso un investigador en el campo de la medicina, interesado en la efectividad de un nuevo medicamento, considera la estadística una aliada imprescindible. Recuerde su Jefe espera que usted haga dos cosas: (a) tomar decisiones y (b) solucionar problemas; estos dos cometidos pueden lograrse a través de la aplicación de procedimientos estadísticos. 1.3.1 La aplicación universal de la estadística Los problemas complejos que enfrenta el mundo actual requieren soluciones cuantitativas. Si usted no está en capacidad de aplicar la estadística y otros métodos cuantitativos a muchos de los problemas comunes que sin duda se le presentarán, estará en gran desventaja en el mercado laboral. Casi todas las áreas del saber requieren del pensamiento estadístico. Las disciplinas de estudios que dependen ampliamente del análisis estadístico, incluyen –pero no se limitan a–, marketing, finanzas, economía e investigación de operaciones. Los principios aprendidos en contabilidad y gerencia administrativa también se basan en la preparación estadística. Los analistas financieros y económicos con frecuencia se basan en sus habilidades cuantitativas para proporcionar soluciones a problemas difíciles. La compresión de los principios financieros y económicos permitirá aplicar las técnicas estadísticas para hallar soluciones viables y tomar decisiones. Bien sea que las aspiraciones profesionales tiendan hacia la industria privada, el servicio público, el gobierno, a hacia otra fuente de retribución remunerada, la experiencia académica será más completa si se adquiere una sólida formación en fundamentos de análisis estadístico. 1.3.2 Gerencia de calidad total 38 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) A medida que la competencia mundial se intensifica, surge, de parte de los negocios, un esfuerzo por promover la calidad de sus productos. Este esfuerzo, conocido ampliamente como Gerencia de Calidad Total (Total Quality Management, TQM), tiene como propósito central la promoción de las cualidades del producto que el consumidor considera importantes. Tales atributos van desde la ausencia de defectos hasta el servicio eficiente y la respuesta rápida a las posibles quejas del consumidor. Hoy día, la mayoría de los grandes negocios, así como también muchos negocios pequeños, tienen departamentos de Control de Calidad (Quality Control, QC) cuya función es recolectar datos sobre el desempeño y solucionar problemas de calidad. Así, la TQM representa un área creciente de oportunidades para quienes tienen conocimientos en estadística. La TQM involucra el uso de equipos integrados conformados por ingenieros, expertos en marketing, especialistas en diseño, estadísticos, y otros profesionales que pueden contribuir a la satisfacción del cliente. La formación de estos equipos, denominada Despliegue de la Función de la Calidad (Quality Function Deployment, QFD), está diseñada para reconocer y agenciar las inquietudes de los consumidores. Los especialistas actúan conjuntamente para promover la calidad del producto y para que supla de manera efectiva las necesidades y preferencias del consumidor. Los círculos de control de calidad constan de un grupo pequeño de empleados (generalmente entre 5 y 12) que se reúnen regularmente para solucionar problemas relacionados con el trabajo. Con frecuencia se conforman tanto con trabajadores en línea como con representantes de la gerencia; los miembros de estos círculos de calidad son todos de la misma área de trabajo y reciben capacitación formal en control estadístico de calidad y en planeación de grupos. A través de discusiones abiertas y del análisis estadístico, los círculos pueden lograr mejoras significativas en diversas áreas que van desde el mejoramiento de la calidad, el diseño del producto, la productividad y los métodos de producción, hasta la reducción de costos y seguridad. Uno de los elementos más importantes del TQM es un conjunto de herramientas y métodos estadísticos utilizados para promover el Control Estadístico de Calidad (Statistical Quality Control, SQC). Tales herramientas ayudan a organizar y analizar datos para efectos de solucionar problemas. 39 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Hablando en términos generales, el SQC está diseñado para asegurar que los productos cumplan con unas normas y especificaciones mínimas de producción. Este objetivo con frecuencia se promueve a través del uso del muestreo de aceptación, el cual es parte integral del SQC. El muestreo de aceptación implica probar una muestra aleatoria de productos existentes para determinar si se debe aceptar o rechazar todo el envío, o el lote. Esta decisión se basa en parte de un nivel de calidad aceptable (Aceptable Quality Level, AQL), o número máximo de defectos que una empresa está dispuesta a tolerar. 1.4 CONCEPTOS BÁSICOS Toda rama de la investigación científica tiene su vocabulario propio y la estadística no es la excepción, las definiciones y expresiones que siguen son esenciales para la compresión de cómo se realizan las pruebas estadísticas. 1.4.1 Población y parámetros Población: Es la recolección completa de todas las observaciones de interés para el investigador. Una población puede ser finita o infinita. Población finita: Es aquella que posee o incluye un número limitado de medidas y observaciones. Se pueden listar los elementos en algún orden y en consecuencia contarlos uno a uno hasta alcanzar el último. Población infinita: Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar. Es conveniente referirse a una población infinita cuando se habla de una población que no puede ser numerada en un periodo razonable. Parámetro: Es una medida descriptiva de la población total de todas las observaciones de interés para el investigador. 40 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) 1.4.2 Muestras y estadísticos Muestra: Es una parte representativa de la población que se selecciona para ser estudiada ya que la población es demasiado grande como para analizarla en su totalidad. Estadístico: Elemento que describe una muestra y sirve como una estimación del parámetro de la población correspondiente. 1.4.3 Variables Variable: Es una característica de la población que se está analizando en un estudio estadístico. Tipos de variables: Cualitativas, categóricas (o alfanuméricas): Pueden tomar valores no cuantificables numéricamente. Se denomina categoría a cada uno de los valores que toma la variable. Nominales: si no existe ningún orden entre las categorías de la variable. Ejemplos, el grupo sanguíneo (A ,B ,AB, O); el color de los ojos (azules, verdes, marrones, negros). Binarias: aquéllas que sólo toman dos valores posibles (sí/no, presencia/ausencia de cierto carácter), dentro de las nominales. Ejemplo: el sexo, ser fumador, tener carné de conducir, ser daltónico. Ordinales: cuando existe un cierto orden entre las categorías de la variable. Ejemplo: el nivel de estudios (sin estudios, básicos, medios, superiores), el grado de miopía (ausencia, bajo, medio, alto). 41 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Cuantitativas (o numéricamente. numéricas): Pueden tomar valores cuantificables Discretas: si solamente toman valores aislados (generalmente enteros). Suelen corresponder a conteos. Ejemplos, el número de hermanos, el número de cafés/día, el número de multas/año. Continuas: potencialmente puede tomar cualquier valor numérico dentro de un intervalo o de una unión de intervalos. Ejemplos, el tiempo de reacción a un cierto medicamento, el peso de un individuo, la longitud del caparazón de una tortuga. 1.4.4 Métodos de muestreo Gran parte del trabajo de un estadístico se realiza con muestras. En la práctica no va a ser posible estudiar todos los elementos de la población, por varias razones: El estudio puede implicar la destrucción del elemento (estudio de la vida media de una partida de bombillas, estudio de la tensión de rotura de unos cables). Los elementos pueden existir conceptualmente, pero no en realidad (población de piezas defectuosas que producirá una máquina en su vida útil). Puede ser inviable económicamente (muy costoso) estudiar a toda la población. El estudio llevaría tanto tiempo que sería impracticable e incluso las propiedades de la población podrían variar con el tiempo. Por tanto debe seleccionarse una muestra de la población, calcular el estadístico de la muestra, y utilizarlo para estimar el parámetro correspondiente de la población. 1.4.4.1 Muestreo aleatorio simple Una muestra es aleatoria simple cuando: 1. cada elemento de la población tiene la misma probabilidad de ser escogido en forma individual, 2. las observaciones se realizan con reposición, de manera que la población es idéntica en todas las extracciones. 42 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Comentarios: La condición (1) asegura la representatividad. La condición (2) se impone por simplicidad: si el tamaño de la población N es grande con respecto al tamaño muestral n, es prácticamente indiferente realizar el muestreo con o sin reposición. ¿Cómo se realiza? Se utilizan las tablas de números aleatorios: se enumeran los elementos de la población del 1 al N y se toman números aleatorios de tantas cifras como tenga N. El valor del número aleatorio indicará el elemento a seleccionar. 1.4.4.2 Muestreo Estratificado Los elementos de la población se dividen en grupos homogéneos o estratos según la característica más importante (por ejemplo, según el sexo, la edad, la profesión, etc.). Para esto: se asigna un número de elementos a cada estrato, dentro de cada estrato se seleccionan los elementos por muestreo aleatorio simple. Si hay k estratos de tamaños N1 , ,Nk , de manera que N N1 Nk , la composición de la muestra será n n1 nk , donde el número de elementos se pueden determinar de dos formas distintas: 1. proporcionalmente al tamaño de cada estrato: ni n Ni N 2. proporcionalmente a la variabilidad de cada estrato: 43 (I.1) Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) ni n i Ni (I.2) k N i 1 i i donde σi es una medida de la variabilidad del estrato i-ésimo. 1.4.4.3 Muestreo por conglomerados Hay situaciones en que ni el muestreo aleatorio simple ni el estratificado son aplicables. En estos casos es habitual que los elementos de la población se encuentren agrupados en conglomerados, de los cuales sí que se sabe cuántos hay. (Por ejemplo, la población se distribuye en provincias, los habitantes de una ciudad se distribuyen en barrios, etc.). Si puede suponerse que cada conglomerado es una muestra representativa de la población total respecto de la variable de estudio, podemos: seleccionar al azar algunos de estos conglomerados, dentro de cada conglomerado, analizar: a) todos sus elementos, b) una muestra aleatoria simple de sus elementos. Inconveniente, si los conglomerados son heterogéneos entre ellos, puesto que sólo se analizan algunos de ellos, la muestra final puede ser no representativa de la población. Las ideas de estratificación y conglomerado son opuestas: La estratificación funciona mejor cuánto mayor sean las diferencias entre estratos, pero es necesario que los estratos sean homogéneos internamente. Los conglomerados funcionan mejor cuánto menores sean las diferencias entre ellos, pero deben ser muy heterogéneos internamente, es decir, dentro de cada conglomerado debe estar incluida toda la variabilidad de la población. 44 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) La regla general que se aplica a todos los procedimientos de muestreo es que cualquier información previa tiene que utilizarse para subdividir la población y asegurar una mayor representatividad de la muestra. Una vez que los grupos homogéneos han sido definidos, la selección dentro de ellos debe realizarse por muestreo aleatorio simple. La exactitud de toda estimación es de enorme importancia. Esta exactitud depende en gran parte de la forma como se tomó la muestra, y del cuidado que se tenga para garantizar que la muestra proporcione una imagen confiable de la población. Sin embargo, con mucha frecuencia se comprueba que la muestra no es del todo representativa de la población y resultara un error de muestreo. Existen dos causas posibles del error de muestreo. La primera fuente del error de muestreo es el azar en el proceso del muestreo. Debido al factor azar en la selección de elementos de la muestra, es posible seleccionar sin darse cuenta, elementos que sean anormalmente grandes o inusualmente pequeños, produciendo una subestimación del parámetro. En cualquiera de los dos casos, ha ocurrido un error de muestreo. Una forma más seria de error de muestreo es el sesgo muestral. El sesgo muestral ocurre cuando hay alguna tendencia a seleccionar determinados elementos de muestra en lugar de otros. Si el proceso de muestreo se diseña de manera incorrecta y tiende a promover la selección de demasiadas unidades con una característica en especial, a expensas de las unidades que no tienen dicha característica, se dice que la muestra está sesgada. El sesgo, es el grado de asimetría que presenta un histograma o polígono de frecuencias. Si el histograma está cargado a la izquierda, el sesgo tiene un valor negativo. En cambio cuando esta más cargado a la derecha, el sesgo toma un valor positivo. Si el sesgo adquiere un valor nulo, significa que el histograma es simétrico. 1.4.5 Escalas de medida 45 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Las variables pueden clasificarse con base en su escala de medida. La manera en que se clasifican las variables afecta en gran parte la forma como se utilizan en el análisis. Las variables pueden ser (1) nominales, (2) ordinales, (3) de intervalo, o (4) de razón. 1.4.5.1 Mediciones en escala nominal Una medida nominal se crea cuando se utilizan nombres para establecer categorías dentro de las cuales las variables pueden registrarse exclusivamente. Por ejemplo, el sexo puede clasificarse como “hombre” o “mujer”. Se podría codificar también con un “1” o “2”, pero los números servirían tan sólo para indicar las categorías y no tendría significado numérico. Es importante recordar que una medida en escala nominal no indica ningún orden de preferencia, sino que simplemente establece una disposición categórica en la cual se puede ubicar cada observación. Existen escalas nominales tanto para datos cuantitativos como cualitativos. Una escala nominal para datos numéricos asigna números a las categorías para distinguirlas. 1.4.5.2 Medidas en escalas ordinales Son las que clasifican las observaciones en categorías con un orden significativo. A diferencia de una medida en escala nominal, una medida en escala ordinal si muestra un ordenamiento o secuencia de los datos. Es decir, que las observaciones se clasifican con base en algunos criterios. Hay quien clasifica sus productos como “buenos”, “mejores” y “los mejores”. Las encuestas de opinión con frecuencia utilizan una medida en escala ordinal como “totalmente de acuerdo”, “de acuerdo”, “sin opinión”, “en desacuerdo”, y “en total desacuerdo”. Al igual que con los datos nominales, los números pueden utilizarse para ordenar los rangos. Y al igual que con los datos nominales, la magnitud de los números no es 46 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) importante; el rango depende sólo del orden de los valores. Por ejemplo se pueden utilizar los rangos de “1”, “2” y “3”, o “1”, “3” y “12” para este asunto. Las diferencias aritméticas entre valores carecen de sentido. Un producto con rango “2” no es dos veces mejor que uno de rango “1”. 1.4.5.3 Medidas en escala de intervalo Medidas en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia entre valores es importante. Los datos de intervalo son cuantitativos por necesidad; una escala de intervalo no siempre tiene un punto cero. En una escala de intervalo las variables se miden de manera numérica, y al igual que los datos ordinales, llevan inherente un rango u ordenamiento. Sin embargo, a diferencia de los rangos ordinales, la diferencia entre los valores es importante. Por eso, las operaciones aritméticas de suma y resta, son significativas. 1.4.5.4 Medidas en escala de razón Medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia entre valores es importante. Con datos medidos en una escala de razón, se puede determinar cuantas veces es mayor una medida que otra. La escala de razón se basa en un sistema numérico en el cual el cero es significativo. Por tanto las operaciones de multiplicación y división también toman una interpretación racional. Una escala de razón se utiliza para medir muchos tipos de datos que se encuentran en el análisis empresarial. Variables tales como costos, rentabilidad y niveles de inventario se expresan como medidas de razón. Por ejemplo, una firma con una participación en el mercado del 40% tiene dos veces más participación que una firma con una participación en el mercado del 20%. Las medidas tales como peso, tiempo y distancia también se miden en una escala de razón, ya que cero es significativo y un artículo que pesa 100 libras tiene la mitad del peso de un artículo que pesa 200 libras. 47 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) Batería 1 de ejercicios: 1. Describa en sus propios términos la diferencia entre una población y una muestra; entre un parámetro y un estadístico. 2. ¿Cuál es la diferencia entre una variable cuantitativa y una variable cualitativa. Dé ejemplos. 3. Diferencie entre una variable continua y una variable discreta. Dé ejemplos de cada una. 4. Seleccione una población cualquiera que sea de su interés. Identifique variables cuantitativas y cualitativas de esa población que puedan seleccionarse para ser estudiadas. 5. Analice si las siguientes variables son discretas o continuas: a. Número de cursos que los estudiantes de su colegio están cursando este semestre. b. Número de pases atrapados por el beisbolista Tim brown, receptor de los LA Raiders. c. Peso de los compañeros de equipo de Tim Brown. d. Peso del contenido de las cajas de cereal. e. Número de libros que usted leyó el año pasado. 6. ¿En cuál escala de medida puede expresarse cada una de estas variables? Explique sus respuestas. a. Los estudiantes clasifican a su profesor de estadística sobre una escala de “terrible”, “no tan malo”, “bueno”, “maravilloso” y “dios griego”. b. Los estudiantes en una universidad están clasificados por profesión, tales como marketing, administración y contaduría. c. Los estudiantes están clasificados por cursos utilizando los valores 1, 2 , 3, 4 y 5. d. Agrupar mediciones de líquidos en octavo, cuarto y galón. e. Edades de los clientes. 48 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) ESTADÍSTICA DESCRIPTIVA COMPETENCIA: El estudiante aplicará las técnicas de estadística descriptiva a un conjunto de datos mediante el uso de modelos tabulares y gráficos, con el fin de describir dicho conjunto y utilizar dicha información en el proceso de toma de decisiones. Organización y representación de datos Distribución de frecuencias tabulares y gráficas Medidas de tendencia central Medidas de dispersión, asimetría y kurtosis Medidas de posición 49 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) INTRODUCCIÓN Casi todos los trabajos que se hacen en estadística comienzan con el proceso de recolección de datos necesarios para formar con ellos un conjunto que se utilizará en el estudio. Para propósitos generales, se adoptará la suposición conveniente de que esta labor, con frecuencia tediosa, ya ha sido realizada y que los datos están disponibles. Esta recolección de datos originales revela muy poco por sí sola. Es extremadamente difícil determinar el verdadero significado de un grupo de números que simplemente se han registrado en un papel. Nuestra labor es organizar y describir tales datos de manera concisa y significativa. Para determinar su significancia, los datos se organizan de manera que, con un simple vistazo, se pueda tener una idea de lo que pueden decirnos. 1.5 ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS Pueden utilizarse varias herramientas básicas para describir y resumir un conjunto grande de datos. La manera más simple, pero quizás la más significativa, es la serie ordenada. Una serie ordenada simplemente enumera tales observaciones en orden ascendente o descendente. Está proporciona alguna agrupación al conjunto de datos; por ejemplo, se puede ver de inmediato los valores extremos. Sin embargo la utilidad de una serie ordenada es limitada. Las herramientas que resultan de particular utilidad para organizar los datos incluyen tablas de frecuencia que colocan los datos en clases específicas y diversos gráficos que pueden proporcionar una representación visual de los datos. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para empresas de Estados Unidos. Los datos están expresados en miles de dólares. Supóngase que se desea analizar, ¿Cuál es el ingreso promedio de los ejecutivos de marketing?, ¿Cuál 50 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) sería el ingreso mínimo y máximo?, etc. Los resultados obtenidos se muestran en el siguiente cuadro de datos: 58 64 79 74 69 71 65 55 73 40 76 76 74 38 62 54 79 75 72 50 89 34 56 69 56 31 47 62 64 74 45 65 71 79 38 69 46 57 69 61 67 45 85 61 69 62 77 77 51 69 34 39 87 71 79 39 66 36 50 73 La forma en la que se presentaron los datos dificulta la obtención de la respuesta a tales interrogantes. Conviene, pues, organizar los datos de tal modo que proporcionen información resumida y más clara sobre el proceso. Los métodos estadísticos de organización de datos ofrecen para ello las técnicas de agrupación de los mismos en intervalos o categorías de clases, formando distribuciones de frecuencias. Cabe aclarar que a los intervalos se les llama indistintamente intervalos de clase, clases, categorías de clase o categorías. 1.6 DISTRIBUCIÓN DE FRECUENCIAS TABULARES Y GRÁFICAS Cuando se tiene un problema en donde la muestra contenga más de 30 datos se emplea el método de datos agrupados para obtener el histograma y las ojivas correspondientes. El procedimiento para organizar los datos en distribuciones de frecuencias se describe a continuación: 1. La tabla de datos se ordena de menor a mayor. 2. Se determina la tabla de frecuencias, distribución de frecuencias simples, en la cuál se determinan los siguientes valores: a. Se obtiene el número de datos n , 51 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) b. Se obtiene el rango R valor mayor - valor menor , c. Se obtiene el numero de intervalos, éste en la tabla de frecuencias determina el numero de renglones y en el histograma determina el numero de rectángulos o barras, el cuál está definido por la siguiente ecuación: Ni 3.32 log n (I.3) el resultado debe ser un numero entero por lo que si hay una fracción se redondea el resultado. d. Se determina el tamaño del intervalo por medio de: Ti R Ni (I.4) en el histograma representa el ancho del rectángulo. El resultado se trabaja con un solo decimal. Si el resultado del rango tiene decimales, entonces se recorre el punto hasta hacerlo un número entero antes de sacar el tamaño del intervalo. Criterio para determinar el tamaño del intervalo: d.1 No se aceptan resultados enteros d.2 No se aceptan decimales entre 0.1 0.4 d.3 Solo se aceptan decimales entre 0.5 0.9 d.4 Si el resultado obtenido de aplicar la expresión I.4 cae en el caso d.1 o d.2 entonces el número de intervalos se disminuye una unidad, Ni 1 y se calcula el Ti , si éste es rechazado, entonces ahora se aumenta en una unidad el número de intervalos, Ni 1 y se calcula el Ti . Si no se acepta el 52 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) resultado, entonces al número de intervalos original se le restan o se le suman dos unidades y así sucesivamente hasta que sea aceptado el resultado. Cuando el resultado sea aceptado entonces queda definido el número de intervalos; para sacar el tamaño de intervalos finalmente se redondea el resultado aun número entero y se coloca el punto en su posición original. e. Intervalo de clase: este intervalo está formado por dos valores, los cuales son la frontera inferior fi y la frontera superior fs . La frontera inferior empieza con el valor más pequeño y se le va sumando, suma a suma, el valor del tamaño del intervalo. El total de valores en la frontera inferior es igual al número de intervalos. La frontera superior toma como primer valor el segundo valor de la frontera inferior restándole una décima, centésima, milésima o entero según la unidad a trabajar. También se irán sumando a los resultados el valor del tamaño del intervalo. f. Marca de Clase: es el punto medio del intervalo de clase dado por M.C. fi f s 2 (I.5) g. Intervalos reales: estos se obtienen del intervalo de clase de la siguiente forma g.1 Si se trabajan enteros se resta a fi cinco décimas (0.5) y se suma a f s cinco décimas (0.5), g.2 Si se trabajan décimas (ej. 20.3) se resta a fi cinco centésimas (0.05) y se suma a f s cinco centésimas (0.05), y g.3 Si se trabajan centésimas (ej. 5.67) se resta a fi cinco milésimas (0.005) y se suma a f s cinco milésimas (0.005). 53 Cbtis No. 50 Probabilidad y estadística (Matemáticas aplicadas) h. Frecuencia absoluta f : es el número de datos contenidos en determinado intervalo, se obtiene de la tabla de datos ordenados. i. Frecuencia absoluta relativa fr : fr j. f n (I.6) Frecuencia acumulada fa : suma acumulada de las frecuencias absolutas de cada uno de los intervalos, la frecuencia acumulada “menor que” suma primero del primer intervalo al último y la frecuencia acumulada “mayor que” suma del último intervalo al primero . k. Frecuencia acumulada relativa far : far fa n (I.7) La tabla I.1 muestra un resumen de las columnas que forman la tabla de frecuencias derivada de los pasos antes mencionados. Cabe mencionar que fi1 se lee de la siguiente manera: frontera inferior de la clase 1(o límite inferior de la clase 1), es decir el número indica la clase a la que pertenece el valor que será colocado en esa casilla. 54 Tabla I.1. Bosquejo general de la tabla de frecuencias. Clase Marca de Clase Límites de clase fs fi Límites reales de clase M.C. Fi Fs f f M.C.1 i1 s1 2 34 0.5 Fi1 fi1 0.05 ej . 56.7 0.005 78.34 34 0.5 Fs1 f s1 0.05 ej . 56.7 0.005 78.34 fi1 Vm 34 1 56.7 0.1 f s1 fi 2 ej . 0.01 78.34 0.001 1.235 2 fi 2 fi1 Ti fs2 fs1 Ti f f M.C.2 i 2 s2 2 0.5 Fi 2 fi 2 0.05 0.005 0.5 Fs2 f s2 0.05 0.005 3 fi 3 fi 2 Ti fs3 fs2 Ti f f M.C.3 i 3 s3 2 0.5 Fi 3 fi 3 0.05 0.005 0.5 Fs3 f s3 0.05 0.005 1 Ni Frecuencia f f1 f2 f3 Frecuencia Relativa fr % f fr1 1 100% n f2 fr 2 100% n f fr 3 3 100% n Frecuencia Acumulada Menor que … Menos de … fa Frecuencia Acumulada Mayor que … … o más fa fa1 f1 fa1 f1 f2 f3 fa2 f1 f2 fa2 f2 f3 fa3 f1 f2 f3 fa3 f3 55 Frecuencia Acumulada Relativa Menor que … Frecuencia Acumulada Relativa Mayor que … f far1 a1 100% n fa2 far 2 100% n f far 3 a3 100% n f far1 a1 100% n fa2 far 2 100% n f far 3 a3 100% n far % far % Los gráficos también son métodos útiles para describir conjunto de datos. Un histograma coloca las clases de una distribución de frecuencia en el eje horizontal y las frecuencias en el eje vertical. Su objetivo es revelar detalles y patrones que no se pueden discernir fácilmente de los datos originales. Aplicando la metodología antes mencionada (paso 1 y 2: de a hasta d.4) a los datos no agrupados de ingresos de ejecutivos de marketing se obtienen los siguientes valores para determinar el número de clases: n 60 valor menor 31 valor mayor 89 R 58 Ni 5.90 Ti 9.67 De acuerdo a los resultados obtenidos, como el valor del tamaño de intervalo resulto un decimal entre 0.5 y 0.9 el número de intervalos calculado se acepta y se redondean las cantidades correspondientes, por tanto la tabla de frecuencias constara de seis clases con un tamaño de intervalo de 10, como se muestra en la tabla I.2. En la tabla I.2 se ilustran los datos agrupados de la muestra de los ingresos de 60 ejecutivos de marketing en seis intervalos de clase donde: fi y fs es la frontera inferior y superior, respectivamente, MC es la marca de clase, Fi y Fs es la frontera real inferior y superior, respectivamente, f es la frecuencia y fr es la frecuencia relativa, fa < y fa > es la frecuencia acumulada “menor que” y “mayor que”, respectivamente y finalmente far es la frecuencia acumulada relativa. La tabla I.3 muestra la forma general de la tabla para construir el grafico de histograma y polígono de frecuencias en la hoja de cálculo Excel, mientras que la figura I.1 muestra el grafico obtenido de los datos de los ingresos de 60 ejecutivos de marketing mostrados en la tabla I.2. 56 Tabla I.2. Datos agrupados de los ingresos de 60 ejecutivos de marketing. Clase fi fs M.C. Fi Fs f fr (%) fa < fa > far < far > 1 31 40 35.5 30.5 40.5 9 15% 9 60 15% 100% 2 41 50 45.5 40.5 50.5 6 10% 15 51 25% 85% 3 51 60 55.5 50.5 60.5 7 12% 22 45 37% 75% 4 61 70 65.5 60.5 70.5 17 28% 39 38 65% 63% 5 71 80 75.5 70.5 80.5 18 30% 57 21 95% 35% 6 81 90 85.5 80.5 90.5 3 5% 60 3 100% 5% 60 100% Tabla I.3 Datos utilizados para la construcción del Histograma y Polígono de Frecuencias Fi Fs 0 0 Vi 1 Fi1 Fs1 f 0 f1 2 Fi 2 Fs2 f2 fr 2 3 Fi 3 Fs3 f3 fr 3 0 0 0 T Vi Fi1 i 2 Vf Último valor del limite real superior fr % Clase 0 f r1 T Vf último valor del límite real superior i 2 57 35% 18 9 20% 15% 10% 3 5% 0 25% 7 12% 6 30% 28% 30% 0 5% Frecuencia Relativa 17 10% 20 18 16 14 12 10 8 6 4 2 0 15% Frecuencia (ejecutivos) Ingresos de ejecutivos de marketing para empresas en E.U. 0% 25.5 40.5 50.5 60.5 70.5 80.5 90.5 95.5 0 30.5 40.5 50.5 60.5 70.5 80.5 90.5 Lím ites Reales (m iles de dólares) Histograma Polígono Figura I.1 Representación de los ingresos de ejecutivos de marketing en E.U. por medio de un Histograma y Polígono de frecuencias. Con frecuencia se desea determinar el número de observaciones que son “mayor que” o “menor que” alguna cantidad. Esto puede lograrse con una distribución de frecuencia acumulada “más de o mayor que” o una distribución de frecuencia acumulada “menos de o menor que”. La tabla I.4 ilustra los datos extraídos de la tabla de frecuencias para la construcción del grafico de ojivas: “mayor que” y “menor que” utilizando la hoja de cálculo Excel, la figura I.2 muestra el grafico obtenido de los valores de la tabla I.4. Por ejemplo, se puede leer que de la clase uno 9 ejecutivos gana menos de $31,000 dólares y por otra parte 60 ejecutivos gana $31,000 dólares o más. Una distribución de frecuencia relativa expresa las frecuencias dentro de una clase como un porcentaje del número total de observaciones. 58 Tabla I.4 Datos utilizados para la construcción de las Ojivas: “mayor que” y “menor que”. Limites Frontera de clase reales Frecuencia Acumulada Menor que … Menos de … fa Frecuencia Acumulada Mayor que … … o más fa Frecuencia Acumulada Relativa Menor que … far % Fi1 0 fa1 0 Fs1 fa1 fa2 far1 Fs2 fa2 fa3 far 2 Fs3 fa3 far 3 0 Frecuencia acumulada 70 60 95% 57 60 51 50 45 40 38 30 65% 39 80% 21 40% 60% 37% 25% 20 10 120% 100% 60 100% 15% 15 20% 9 0% 0 22 3 0 30.5 40.5 50.5 60.5 70.5 80.5 0 (%) Frecuencia acumulada relativa Grafica de Frecuencias Acumuladas "OJIVAS" 0% 90.5 Lím ites Reales (m iles de dolares $) fa "menor que" fa "mayor que" far "menor que" Figura I.2 Representación de los ingresos de ejecutivos de marketing en E.U. por medio de Ojivas: “mayor que” y “menor que”. La tabla I.5 ilustra los datos extraídos de la tabla de frecuencias para la construcción del polígono de frecuencias suavizado por medio de la hoja de cálculo Excel, cabe mencionar que en este grafico se puede observar como se distribuyen los datos de la muestra y además en este se localizan las medidas de tendencia central y medidas de dispersión, la figura I.3 muestra el grafico obtenido de los datos de la tabla I.2. 59 Tabla I.5 Datos utilizados para la construcción del polígono de frecuencias suavizado. 1 Fi1 Fs1 f 0 f1 2 Fi 2 Fs2 f2 3 Fi 3 Fs3 f3 Clase Fi Fs 0 0 Vi 0 Último valor del limite real superior Vf 0 Polígono de Frecuencias Suavizado 20 Frecuencia (Ejecutivos) 18 18 17 16 14 12 10 9 8 6 4 7 6 3 2 0 0 25.5 0 40.5 50.5 60.5 70.5 80.5 90.5 95.5 Lím ites Reales (Miles de Dolares $) Figura I.3 Representación de los ingresos de ejecutivos de marketing en E.U. por medio de un polígono de frecuencias suavizada. 1.7 Medidas de tendencia central Los datos, al igual que los estudiantes, se congregan alrededor de sus puntos de encuentro favoritos. Parece que los estudiantes acuden en masa a sitios tales como partidos de fútbol, fraternidades, bares populares y otros sitios de reunión y en raras ocasiones hasta la biblioteca. De igual forma, los números parecen disfrutar de la compañía de otros números y están propensos a reunirse alrededor de un punto central denominado medida de tendencia central o más comúnmente, media. Una medida de tendencia ubica e identifica el punto alrededor del cual se centran los datos. 60 Un conjunto de datos puede ser rápidamente descrito de manera sucinta con un solo número. 1.7.1 La media La media toma en cuenta la frecuencia y los puntos medios de cada clase, la siguiente expresión calcula la media de un conjunto de datos agrupados Ni x fi MCi i 1 n (I.8) donde x es la media muestral, fi es la frecuencia de la i-ésima clase, MCi es la marca de clase de la i-ésima clase, N i es el número de intervalos, y n es el número de datos. 1.7.2 La mediana Primero debe hallarse la clase que contiene a la mediana, para esto se debe cumplir el siguiente criterio fa 61 n 2 (I.9) Este criterio se debe verificar en cada clase empezando desde el primer intervalo de clase hasta el último intervalo de clase. La clase que cumpla con la condición se le llamará clase mediana. La expresión que calcula la posición del valor que se encuentra a la mitad del conjunto de datos es la siguiente n faA ~ F 2 Ti x i f (I.10) donde Fi es la frontera inferior real de la clase que contiene a la mediana, faA es la frecuencia acumulada anterior a la clase que contiene a la mediana, f es la frecuencia de la clase que contiene a la mediana, y Ti es el tamaño del intervalo. 1.7.3 La moda Ya que por definición la moda es la observación que ocurre con mayor frecuencia, se hallará en la clase que tenga la frecuencia más alta, llamada la clase modal. Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente ecuación: 1 Ti x Fi ˆ 1 2 donde: Fi es la frontera inferior real de la clase modal, 1 es la diferencia de la frecuencia de la clase modal menos anterior, 2 es la diferencia de la frecuencia de la clase modal menos la siguiente, y Ti es el tamaño del intervalo. 62 (I.11) La media es la medida más común de tendencia central. Se presta para mayor manipulación e interpretación algebraica. Desafortunadamente se ve afectada por valores extremos o atípicos, y a diferencia de la mediana, puede ser sesgada por las observaciones que están muy por encima o muy por debajo de ésta. Debido a que la mediana no se ve afectada por valores extremos, representa mejor el conjunto de observaciones. La moda también es menos afectada por valores atípicos, sin embargo, si no hay moda, o si el conjunto de datos es bimodal, su uso puede ser confuso. Esto no implica que una medida sea necesariamente mejor que las otras. La medida que se seleccione depende de la naturaleza de los datos o de la forma como se utilicen los datos. 1.8 Medidas de dispersión, asimetría y kurtosis Para describir un conjunto de datos se ha observado que es de utilidad ubicar el centro del conjunto de datos. Pero identificar una medida de tendencia central rara vez es suficiente. Una descripción más completa del conjunto de datos puede obtenerse si se mide que tan dispersos están los datos alrededor de dicho punto central. Esto es precisamente lo que hacen las medidas de dispersión, indican cuánto se desvían las observaciones alrededor de su media. 1.8.1 El rango La medida de dispersión más simple y menos útil es el rango o recorrido. El rango es simplemente la diferencia entre la observación más alta y la más baja. Su ventaja es que es fácil de calcular. Su desventaja es que considera sólo dos de los cientos de observaciones que hay en un conjunto de datos. 1.8.2 Varianza y desviación estándar La varianza y la desviación estándar son medidas de dispersión mucho más útiles, proporcionan una medida más significativa sobre el punto hasta el cual se dispersan las observaciones alrededor de su media. 63 Si los datos están agrupados en una tabla de frecuencia, la varianza y la desviación estándar muestral pueden calcularse respectivamente como s2 Ni f MC i i Ni i 1 2 fi MCi n i 1 2 n 1 s var ianza (I.12) (I.13) donde s 2 es la varianza de la muestra, s es la desviación estándar de la muestra, y MCi2 es la marca de clase de la i-ésima clase elevada al cuadrado 1.8.3 Asimetría 1.8.3.1 La distribución normal y la regla empírica La desviación estándar puede utilizarse para sacar ciertas conclusiones si el conjunto de datos en cuestión está distribuido normalmente. Una distribución normal es una distribución de datos continuos (no discreto) que produce una curva simétrica en forma de campana, como la que se muestra en la figura I.4. 64 Se asume que se tiene un número grande de observaciones, si los datos están distribuidos normalmente, una gráfica de la frecuencia con la cual ocurre cada observación tomará la forma de la figura I.4. Las observaciones en cada extremo ocurrirán relativamente de forma poco frecuente, pero las observaciones que están más cerca de la mitad ocurrirán con una frecuencia alta, por tanto se produce la curva simétrica en forma de campana. La observación modal es la que ocurre con mayor frecuencia y por tanto está en el pico de la distribución. En una distribución normal la media, mediana y la moda son todas iguales. Figura I.4 Distribución normal. La regla empírica se ilustra gráficamente en la figura I.5, ésta específica que: 68.3% de las observaciones están dentro de más o menos una desviación estándar de la media ( v mínimo x 1s y v máximo x 1s ), 95.5% de las observaciones están dentro de más o menos dos desviaciones estándar de la media ( v mínimo x 2s y v máximo x 2s ), y 99.7% de las observaciones están dentro de más o menos tres desviaciones estándar de la media ( v mínimo x 3s y v máximo x 3s ). Es importante recordar que la regla empírica describe el área total bajo la curva normal que se encuentra dentro de un rango dado. 65 Si las observaciones están altamente dispersas, la curva en forma de campana se aplanará y se esparcirá. La kurtosis mide el grado de agudeza de una distribución, está se clasifica como curva leptokurtica (delgada), curva mesokurtica (intermedia) y curva platikurtica (aplanada). Figura I.5 La distribución normal y la regla empírica. 1.8.3.2 Sesgo (medidas de asimetría) No todas las distribuciones son normales, algunas están sesgadas a la izquierda o a la derecha como se muestra en la figura I.6, en ambos casos, la moda por es por definición la observación que ocurre con mayor frecuencia. Por tanto, está en el pico de la distribución. Sin embargo, como se dijo anteriormente, por su naturaleza la media se ve más afectada por las observaciones extremas. Por tanto, es jalada en la dirección del sesgo, más de lo que está la mediana, la cual está en algún sitio entre la media y la moda. El sesgo es el grado de asimetría y puede medirse con el coeficiente de sesgo de Pearson S k1 Sk2 xˆ x s ~ 3x x s 66 (I.14) (I.15) Si Sk1 y Sk 2 0 , los datos están sesgados a la izquierda (-), si Sk1 y Sk 2 0 , los datos están sesgados a la derecha (+); si Sk1 y Sk 2 0 están distribuidos normalmente. Figura I.6. Distribuciones sesgadas. 1.8.3.3 Coeficiente de variación (dispersión relativa) Cuando se consideran dos o más distribuciones que tienen medias significativamente diferentes, o que están medidas en unidades diferentes, es peligroso sacar conclusiones respecto a la dispersión sólo con base a la desviación estándar, recuerde no se puede mezclar perros con gatos. Por tanto, con frecuencia debemos considerar el coeficiente de variación (C.V.), el cual sirve como medida relativa de dispersión. El coeficiente de variación determina el grado de dispersión de un conjunto de datos relativo a su media por medio de la siguiente expresión C.V . s 100% x (I.16) 1.9 Medidas de posición Aunque la varianza y la desviación estándar son las medidas de dispersión más útiles en análisis estadístico, existen otras técnicas con las cuales puede medirse la dispersión de un conjunto de datos. Estas medidas adicionales de dispersión son los cuartiles, los deciles y los percentiles. 67 Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales. El primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones, y sobre el cual puede encontrarse el 75% restante. El segundo cuartel es justo la mitad. La mitad de las observaciones están por debajo y la mitad por encima. El tercer cuartel es el valor debajo del cual está el 75% de las observaciones y encima del cual puede encontrarse el 25% restante. Primero debe hallarse las clases que contienen al primer, segundo y tercer cuartel, para esto se debe cumplir el siguiente criterio, respectivamente localización del primer cuartIl fa n 4 (I.17) fa 2n 4 (I.18) localización del segundo cuartil localización del tercer cuartIl fa 3n 4 (I.19) Estas condiciones se deben verificar en cada clase empezando desde el primer intervalo de clase hasta el último intervalo de clase. Las expresiones que calculan la posición de cada cuartil son las siguientes n faA Ti Q1 Fi 4 f (I.20) 2n faA Ti Q 2 Fi 4 f (I.21) 68 3n faA Ti Q 3 Fi 4 f (I.22) donde Fi es la frontera inferior real de la clase que contiene al cuartil, faA es la frecuencia acumulada anterior a la clase que contiene al cuartil, f es la frecuencia de la clase que contiene al cuartil, y Ti es el tamaño del intervalo. Una medida única de dispersión es el rango intercuartílico (R.I.). La mitad de las observaciones se clasifican dentro de este rango. Consta del 50% de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los puntos de datos. Como resultado, le R.I. proporciona una medida de dispersión que no está muy influenciada por unas cuantas observaciones extremas. R.I. Q3 Q1 (I.23) Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los percentiles en 100 partes. El primer decil es la observación debajo de la cual se encuentra el 10% de las observaciones, mientras que el 90% restante se encuentra encima de éste. El primer percentil es el valor debajo del cual se encuentra el 1% de las observaciones, y el resto están encima de éste. Todo conjunto de datos tiene 9 deciles y 99 percentiles. 69 Batería 2 de ejercicios: 1. Determinación del número de intervalos N i y tamaño del intervalo Ti . Considere los siguientes datos: a. b. c. d. e. n 50 n 35 n 35 n 30 n 30 y y y y y R 52 R 820 R 82.01 R 90.1 R 194 1. Un conjunto de datos contiene 100 observaciones; la más grande es 315 y la más pequeña es 56. a. ¿Cuántas clases debería tener la tabla de frecuencias? b. ¿Cuál es el intervalo de clase? c. ¿Cuáles son los límites y puntos medios de cada clase? 2. En un estudio reciente sobre 500 graduados en administración de negocios, el salario inicial más alto que se reportó fue de $27,500 dólares y el más bajo fue de $19,900 dólares. Usted desea crear la tabla de frecuencias para analizar y comparar estos datos con las ofertas de trabajo que usted ha recibido. d. ¿Cuántas clases pondrán en su tabla de frecuencia? e. ¿Cuál es el intervalo de clase? f. ¿Cuáles son los límites y puntos medios de cada clase? 3. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para empresas de Estados Unidos. Los datos están expresados en miles de dólares. 58 64 79 74 69 71 65 55 73 40 76 76 74 38 62 54 79 75 72 50 89 34 56 69 56 31 47 62 64 74 45 65 71 79 38 69 46 57 69 61 70 67 45 85 61 69 62 77 77 51 69 34 39 87 71 79 39 66 36 50 73 g. Construya una tabla de frecuencia para los datos. Tenga mucho cuidado en la selección de sus intervalos de clase. Muestre las frecuencias acumulativas y relativas para cada clase. ¿Qué conclusión puede sacar de la tabla? h. Presente y explique una distribución de frecuencia acumulada “más que” y una distribución “menor de”. 4. Las edades de cincuenta de los directores ejecutivos de las mejores corporaciones de la nación reportadas en la edición de la revista Forbes de la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de frecuencias. EDADES Frecuencias 50 54 8 55 59 13 60 64 15 65 69 10 70 74 3 75 79 1 5. La misma edición de la revista Forbes también proporcionó datos sobre los salarios en miles de dólares. Resulto la siguiente tabla de frecuencias: Salario (en miles de dólares) Frecuencias 90 439 9 440 789 11 790 1139 10 1140 1489 8 1490 1839 4 1840 2189 3 2190 2540 5 a. Calcule e interprete la media, mediana y la moda. b. Calcule e interprete la varianza y la desviación estándar. 71 c. Construya el histograma y polígono de frecuencias. d. Construya las ojivas. e. Construya el polígono de frecuencias suavizado e indique sus resultados (media, mediana, moda, sesgo, C.V. y C.A.) en éste. f. ¿Los salarios están tan dispersos como las edades del problema anterior. 6. The Wall Street Journal describió una disputa entre la gerencia y el sindicato de trabajo local respecto a la eficiencia y productividad de los trabajadores. La gerencia argumentaba que a los empleados les tomaba más de 20 minutos terminar cierto trabajo. Si se mide el tiempo de 85 empleados, arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia está en lo correcto? Clase Frecuencia (número de minutos) (número de empleados) 5 6 2 7 8 8 9 10 10 11 12 15 13 14 17 15 16 14 17 18 7 19 20 9 21 23 3 a. Calcule la media, mediana y la moda. b. Calcule la varianza y la desviación estándar. c. Construya el histograma y polígono de frecuencias. d. Construya las ojivas. e. Construya el polígono de frecuencias suavizado e indique sus resultados (media, mediana, moda, sesgo, C.V. y C.A.) en éste. 72 ACTIVIDAD DE APRENDIZAJE 1. CONCEPTOS BÁSICOS Calificación: Completa los espacios en blanco: 1. La ________________ ________________ se ocupa de la __________________, __________________, _________________, ________________ e ________________ de datos, por tanto, la estadística es un método científico que pretende sacar conclusiones a partir de unas observaciones hechas. 2. La Estadística actúa como disciplina puente entre los _______________ _______________ y los _________________ __________________. Un ______________ _________________ es una abstracción simplificada de una realidad más compleja y siempre existirá una cierta discrepancia entre lo que se observa y lo previsto por el modelo. 3. La __________________________ es la recolección completa de todas las observaciones de interés para el investigador. Ésta puede ser ____________________ o _________________. 4. El ____________________ es una medida ___________________ de la población total de todas las ____________________ de interés para el investigador. 5. La _____________________ es una parte representativa de la __________________ que se selecciona para ser _______________________ ya que la población es demasiado ________________ como para analizarla en su totalidad. 6. El ______________________ es el elemento que describe una _______________ y sirve como una estimación del parámetro de la población correspondiente. Grupo sanguíneo (A, B, AB, O+) Completa el siguiente cuadro sinóptico: Color de ojos (azul, negros, etc.) Sólo toma dos valores posibles Variable Es una ________________________ de la población que se está analizando en un estudio estadístico Cuando existe un cierto orden entre las categorías, por ejemplo: (bajo, medio, alto) Pueden tomar valores no cuantificables numéricamente Enteros: numero de hermanos, número de multas/año. Reales: peso de un individuo, tiempo de reacción a un medicamento. Pueden tomar valores cuantificables numéricamente. 73 Busca la palabra que complete la oración en la sopa de letras: 7. Las variables pueden clasificarse con base en su escala de ________________. 8. Una medida en escala _________________ se crea cuando se utilizan ________________ para establecer categorías dentro de las cuales las _________________ pueden registrarse exclusivamente. Es importante recordar que ésta no indica ningún orden de preferencia, sino que simplemente establece una disposición ______________________ en la cual se puede ubicar cada observación. 9. Una medida en escala ________________, son las que ______________ las observaciones en categorías con un orden significativo. Hay quien clasifica sus productos como “buenos”, “mejores” y “los mejores”. 10. En una escala de _______________ las variables se miden de manera ______________, y al igual que los datos ordinales, llevan inherente un rango u ordenamiento. El valor de ______________ es arbitrario pero la diferencia entre valores es importante. 11. En una escala de ________________, las medidas son numéricas, el cero es un valor _____________ en cualquier escala y la diferencia entre valores es importante. Con datos medidos en una escala de _________________, se puede determinar cuántas veces es mayor una medida que otra. M E D I D A A S D F G J K L I U Y T I W D X A G V O U O C I E A F Q V D N W S A D F I V G N U M E R I C A X A E D O O C O R D O M F C J J S Y R L O R R A Q E T R O B T Y K O E U A S C R D E D C V S D R S P Ñ S R D S C V R D R F V C D R I B R F Y O Y O A Q U I I P R E W E A M N R E Y A O T R G N I N U O P C E R O T R U N N E M J A R S A A X C V A M M P O O C G K N L T T A L C V B Z I N C L A L O J L L O Ñ S T A Y K I N J R T M A 74 R Y U E P L D G O S P N A H T Y I S I N I S J I F M N B H D L H Y S N C C U N D H N O M B R E S P G U H A L A M T F G T A X G A M C A B D K L A I E E K F E N R O Z O H L N I M E S V R R G D R O A N O N A A M O N R I B I V H A V M Z S N O N B Y S H T F J D J J S A I B I N O K R U H J Y I O F K K R L K E D C V T G I E S F C T G L O T O A B F C D E A O F G H A I K O P Y J K L T M N O F Q A E I N P O L L M T G V A R I A B L E S P P ACTIVIDAD DE APRENDIZAJE 2. Número de intervalos Óptimo Calificación: Las edades de 50 integrantes de un programa de servicio social del gobierno son: 38 42 44 47 51 51 51 54 55 55 56 56 60 60 61 62 64 65 65 65 66 66 66 67 68 68 68 69 70 71 73 74 74 75 76 77 78 79 80 82 82 83 83 84 87 88 91 92 98 99 Use estos datos para construir la tabla de frecuencias con 7 y 13 intervalos iguales. Suponga que el director de servicios sociales desea saber la proporción de participantes en el programa que tienen entre 45 y 50 años de edad. ¿a partir de cuál distribución de frecuencias relativas, de 7 o de 13 intervalos, puede estimar mejor la respuesta? Valor menor = Valor mayor = Rango = Caso 1: Ni = 7 Tamaño del intervalo 𝑇𝑖 = Clase fi fs M.C. Fi 𝑅 𝑁𝑖 Fs f 1 2 3 4 5 6 7 75 fr (%) fa < q fa > q far < q far > q Caso 2: Ni = 13 𝑅 Tamaño del intervalo 𝑇𝑖 = 𝑁 Clase fi fs M.C. Fi 𝑖 Fs f 1 2 3 4 5 6 7 8 9 10 11 12 13 76 fr (%) fa < q fa > q far < q far > q Ojivas (Frecuencias acumuladas relativas) 100 90 80 70 60 % 50 40 30 20 10 0 0 10 20 30 40 50 60 LÍMITES REALES 77 70 80 90 100 110 ACTIVIDAD DE APRENDIZAJE 3. Medidas de tendencia central y de dispersión en datos agrupados Calificación: 1. Las edades de cincuenta de los directores ejecutivos de las mejores corporaciones de la nación reportadas en la edición de la revista Forbes de la edición del 24 de Mayo de 1997 aparecen en la siguiente tabla de frecuencias. clase fi fs 1 50 54 8 2 55 59 10 3 60 64 15 4 65 69 9 5 70 74 7 6 75 79 1 M.C. Fi Fs f fr fa < fa> far< far> f*MC f*MC2 Medidas de tendencia central: Ni x fi MCi i 1 n n faA ~ F 2 Ti x i f 78 n fa 2 1 Ti x Fi ˆ 1 2 Medidas de dispersión, asimetría y kurtosis: s2 Ni f MC i i Ni i 1 2 fi MCi n i 1 2 n 1 s var ianza S k1 v mínimo x 1s v máximo x 1s v mínimo x 2s v máximo x 2s v mínimo x 3s C.V . v máximo x 3s 3x ~ x Sk2 s xˆ x s s 100% x Medidas de posición: fa n 4 n faA Ti Q1 Fi 4 f 2n 4 2n faA 4 Ti f fa Q 2 Fi 79 3n 4 3n faA 4 Ti f fa Q 3 Fi Fi Fs f %fr NUMERO DE DIRECTIVOS clase 1 2 3 4 5 6 16 35% 14 30% 12 25% 10 20% 8 15% 6 10% 4 5% 2 0 0% 44.5 49.5 54.5 59.5 64.5 74.5 69.5 EDAD (AÑOS) 79.5 fa < fa > far < far > NUMERO DE EJECUTIVOS FR 50 100% 45 90% 40 80% 35 70% 30 60% 25 50% 20 40% 15 30% 10 20% 5 10% 0 49.5 80 0% 54.5 59.5 64.5 EDAD (AÑOS) 69.5 74.5 79.5 % DE EJECUTIVOS OJIVAS % DE DIRECTIVOS EDADES DE LOS DIRECTIVOS DE LAS MEJORES CORPORACIONES EN E.U. ACTIVIDAD DE APRENDIZAJE 4. Caso de estudio I Calificación: The Wall Street Journal describió una disputa entre la gerencia y el sindicato de trabajo local respecto a la eficiencia y productividad de los trabajadores. La gerencia argumentaba que a los empleados les tomaba más de 20 minutos terminar cierto trabajo. Si se mide el tiempo de 85 empleados, arrojando los resultados tabulados, con base en esta muestra, ¿la gerencia está en lo correcto? Clase Frecuencia (número de minutos) (número de empleados) 5 6 2 7 8 8 9 10 10 11 12 15 13 14 17 15 16 14 17 18 7 19 20 9 21 22 3 a. Calcule la media, mediana y la moda. b. Calcule la varianza y la desviación estándar. c. Construya el histograma y polígono de frecuencias. d. Construya las ojivas. Conclusiones 81 ACTIVIDAD DE APRENDIZAJE 5. Caso de estudio II Calificación: Los siguientes datos representan las declaraciones trimestrales de impuestos por ventas (en miles de dólares), correspondientes al período que finalizó en marzo de 2004, enviados al contralor del poblado Fair Lake por los 50 negocios establecidos en dicha localidad: 10.3 13.0 13.0 8.0 11.1 11.6 10.0 12.5 9.3 10.5 11.1 6.7 11.2 11.8 10.2 15.1 12.9 9.3 11.5 7.6 9.6 11.0 7.3 8.7 11.1 12.5 9.2 10.4 10.7 10.1 9.0 8.4 5.3 10.6 9.9 6.5 10.0 12.7 11.6 8.9 14.5 10.3 12.5 9.5 9.8 7.5 12.8 10.5 7.8 8.6 a. Calcule la media, la varianza y la desviación estándar de esta población. b. ¿Qué proporción de estos negocios tienen declaraciones trimestrales de impuestos sobre ventas dentro de ±1, ±2 o ±3 desviaciones estándar de la media? c. Compare y encuentre las diferencias entre sus hallazgos con lo que cabría esperar de acuerdo con la regla empírica. ¿le sorprenden los resultados obtenidos en b)? Conclusiones: 82 ACTIVIDAD DE APRENDIZAJE 6. Caso de estudio III Calificación: Virginia Suboleski es una supervisora de mantenimiento de aeronaves. Una entrega reciente de pernos por parte de un nuevo proveedor llamó la atención de uno de los empleados. Suboleski envió 25 de esos pernos a un laboratorio de pruebas para determinar la fuerza necesaria para romperlos. A continuación presentamos los resultados en miles de libras de fuerza: 147.8 119.9 142.0 125.0 151.1 137.4 133.3 130.8 128.9 125.7 125.2 142.3 129.8 142.0 126.3 141.1 138.7 141.2 118.6 140.9 a. Calcule la media, mediana y la moda. b. Calcule la varianza y la desviación estándar. c. Construya el histograma y polígono de frecuencias. d. Construya las ojivas. Conclusiones: 83 145.7 125.7 134.9 133.0 138.2
© Copyright 2024 ExpyDoc