resaltado - Departamento de Estadística e Investigación Operativa

ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 0.- INTRODUCCIÓN
- El fenómeno de la variabilidad.
- El papel de la Estadística.
- Fases de la Estadística:
- Estadística Descriptiva: Descripción de la variabilidad.
- Cálculo de Probabilidades: Modelado de la variabilidad.
- Inferencia Estadística.
Tema 0. Introducción
1
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EL FENÓMENO DE LA VARIABILIDAD
En la naturaleza nos encontramos con multitud de
procesos, fenómenos, experimentos, etc. cuya
característica esencial es la incertidumbre sobre su resultado porque existen causas de variabilidad
no controlables, que llamamos “azar”. Esta ince rtidumbre se traduce en la presencia de variabilidad
entre los resultados de las distintas realizaciones bajo condiciones controlables idénticas.
Todos los procesos de interés del ámbito de la Ingeniería Industrial están afectados por la presencia
de variabilidad: Procesos de fabricación, Servicios, Economía, Investigación e innovación, …
Ejemplos:
 La duración de lámparas aparentemente idénticas es variable.
 El consumo energético de motores aparentemente idénticos es variable.
 El tiempo para resolver una avería en la distribución eléctrica es variable.
 La demanda de un producto en un establecimiento comercial es variable.
 La dureza de un espécimen fabricado con un nuevo material
Tema 0. Introducción
2
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EL PAPEL DE LA ESTADÍSTICA
La variabilidad no se comporta de manera arbitraria e impredecible, sino que se somete a patrones
que se pueden estudiar y conocer mediante el uso de técnicas estadísticas.
La Estadística es una colección de herramientas diseñadas para medir, describir, modelar y explicar la
variabilidad.
La Estadística nos ayudará a comprender y manejar adecuadamente la variabilidad:
 Reducir la variabilidad en procesos de fabricación y servicios (mejora de la calidad).
- Conseguir que los productos fabricados no se alejen de los estándares previstos.
 Menos del 1% de arandelas con diámetro fuera de 3±cm.
 Menos del 2% de lámparas que duren menos de 5000 h.
- Conseguir que los servicios satisfagan criterios de calidad preestablecidos.
 Ninguna avería eléctrica no restablecida en las primeras 10 horas.
 Prever la demanda de un producto (evitar costes y aumentar de beneficios).
- Establecer el plan de aprovisionamiento para un producto alimenticio perecedero.
- Evitar stocks excesivos en un producto de temporada.
 Establecer la posición de los factores controlables que optimizan el valor de una característica
crítica de interés (innovación).
- Condiciones de fabricación que maximizan el rendimiento de un proceso químico.
- Composición de una cerámica para conseguir un determinado nivel de dureza.
- Características del sistema de airbag para minimizar las lesiones cervicales.
Tema 0. Introducción
3
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
FASES DE LA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA:
descripción de datos
Los fenómenos sometidos a variabilidad deben ser observados y los resultados anotados deben ser
estudiados para empezar a comprender dichos fenómenos.
La Estadística Descriptiva proporciona herramientas para explorar, describir, analizar, resumir y
sintetizar la información registrada sobre los procesos en los que está presente la variabilidad.
CÁLCULO DE PROBABILIDADES:
modelos matemáticos teóricos y sus propiedades
El Cálculo de Probabilidades tiene por objeti
vo construir un escenario de posibles modelos
matemáticos para los procesos sometidos a variabilidad y estudia sus propiedades.
Diseña una amplia colección de éstos que pueden utilizarse como modelos subyacentes capaces
de explicar el comportamiento aleatorio de los diversos procesos sometidos a variabilidad.
Estudia las propiedades de estos modelos matemáticos mediante razonamientos deductivos
ESTADÍSTICA INFERENCIAL: a partir de los datos decide sobre el modelo subyacente apropiado
Colección de técnicas (estimación de parámetr
os y contraste de hipótesis) para realizar
razonamientos inductivos sobre los fenómenos con variabilidad. Utiliza la información experimental
proporcionada por sucesivas repeticiones del fenómeno aleatorio objeto de estudio. Mediante estos
razonamientos se proponen y validan modelos matemáticos coherentes con lo encontrado en la fase
descriptiva para poder utilizar las propiedades que tienen dichos modelos y que hemos estudiado en
el Cálculo de Probabilidades.
Tema 0. Introducción
4
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 1.- DESCRIPCIÓN DE DATOS
- La Estadística Descriptiva
- Población y muestra.
- Variables estadísticas. Datos.
- Tabulación de datos.
Tema 1. Descripción de datos
5
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
LA ESTADÍSTICA DESCRIPTIVA
La Estadística Descriptiva es una colección de t écnicas numéricas y gráficas que tiene por objetivo
describir la variabilidad que contienen los datos tomados en un estudio estadístico.
Describir significa Analizar, Resumir (Sintetizar) y Presentar adecuadamente los resultados.
El objetivo último de la Estadística Descriptiva es conseguir que dejemos de ver el conjunto de datos
como un agregado de números o mediciones individuales, para pasar a tener una concepción global de
los mismos.
DATOS
Tema 1. Descripción de datos
INFORMACIÓN
6
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
POBLACIÓN Y MUESTRA
Población (Universo): Conjunto de “individuos” sobre los que se va a realizar el estudio estadístico.
En cada estudio estadístico deberá estar bien delimitada en el tiempo, en el espacio.
En muchas ocasiones es un concepto abstracto que reúne de una forma ideal el conjunto de todas las
realizaciones posibles del experimento aleatorio en todas las posibles condiciones experimentales.
Realizar el experimento consiste de forma general en observar uno de estos individuos.
Individuos (Unidades estadísticas): Cada uno de los elementos que forman la población.
Censo: Relación exhaustiva de todos los elementos de una población (cuando exista).
Las poblaciones de interés estadístico en Ingeniería con frecuencia son de
tamaño infinito y/o
abstractas.
Ejemplos de poblaciones:
Poblaciones humanas (u otros seres vivos):
- Habitantes de una ciudad, región, país, ...
- Pinos de una determinada especie y una determinada área geográfica.
Conjuntos de objetos (existentes o hipotéticos):
- Piezas fabricadas el día D por la fábrica F.
- Coches marca X fabricados en España en 2010.
- Pilas de 1,5 V fabricadas por la casa C.
- Artículos que producirá cierta máquina.
- Piezas de tela que se fabricarán con una composición nueva que se quiere experimentar.
- Ladrillos producidos bajo cocción a determinada temperatura experimental.
Otros entes:
- Mineral proporcionado por un determinado proveedor a una fundición
- Futuros clientes demandantes de un nuevo servicio
Tema 1. Descripción de datos
7
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
- Conjunto de todos los posibles e hipotéticos lan zamientos que podríamos realizar de una moneda, de un
dado, dardo, de un tipo de proyectil …
- Conjunto de todos los valores posibles de todos las condiciones que afectan al tiempo de funcionamiento de
un aparato, componente, sistema …
Lo fundamental es que las variables de interés se comportan sobre todos individuos de la
población de acuerdo a un modelo probabilístico concreto. Este modelo subyacente por lo
general será desconocido y obtendremos información sobre él a partir de los valores obervados
sobre unos cuantos individuos, representantes de la población, que componen lo que
llamaremos una muestra.
Muestra: Conjunto de elementos extraidos de la población con el que se va a trabajar en el estudio
estadístico (medir variables, estudiar características, etc.)
Casos: Cada individuo de la muestra.
Obtención de la muestra:
 Exhaustiva: Bases de datos con “todos” los individuos de la población finita. Cada vez es más
frecuente gracias a las nuevas tecnologías.
Ejemplos: Padrón municipal, clientes de una compañía, visitas a una web, …
 Muestreo: La muestra se obtiene mediante algún proceso de selección de individuos de la pobl.
Ejemplos: Encuesta telefónica a 5.000 personas sobre uso de las TIC. Seleccionamos una pieza
fabricada cada media hora en un proceso industrial …
 Diseño de experimentos: Muestra formada por especímenes creados a propósito de una
población hipotética.
Ejemplos: cuatro ladrillos fabricados bajo cada combinación de Temperatura del horno (100ºC,
150ºC, 200ºC) y de Tiempo de cocción (15 min.,30 min.) .
Tema 1. Descripción de datos
8
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
POBLACIÓN
x
x
x
x
x
x
x
x x
x
xx x
xx
INDIVIDUOS
x
MUESTRA
x
x
CASOS
A
ESTUDIAR
Lo más habitual es trabajar con una muestra “pequeña” en relación con el tamaño de la población.
Necesidad del muestreo:
 Poblaciones infinitas.
 Limitaciones sobre el coste del estudio estadístico.
 Limitaciones temporales: Presentación de resultados antes de determinada fecha.
 Estudios destructivos: p. e. Resistencia de envases de vidrio a la explosión.
Características de una muestra:
 Estudio descriptivo: Cualquier muestra.
 Estudio inferencial: Muestra “representativa”.
 Aleatoriedad (Permite extrapolar los resultados)
 Tamaño (Precisión de los resultados).
Tema 1. Descripción de datos
9
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
VARIABLE ALEATORIA
Característica de interés sujeta a variabilidad, observable en cada individuo de la población a estudiar.
- Su variabilidad se debe a variables no controlables por el experimentador y obedece a un
determinado modelo probabilístico generalmente desconocido. Llamamos “azar” a nuestra propia
incapacidad para controlar todas las variables que influyen en el resultado y decimos que la
variable aleatoria “depende del azar”.
Notación: Letras mayúsculas X, Y, Z, T, ..., X1, ..., Xn.
Ejemplos:
- Población de piezas fabricadas en la factoría F el día D en la línea L:
Longitud (cm), Resistencia a la torsión, Peso específico, …
- Población de coches de determinada marca, modelo y año de fabricación:
Consumo (l/100 Km), Tiempo de aceleración de 0 a 100 Km/h (seg), …
- Población de averías en redes de distribución eléctrica: Tiempo de acceso, Tiempo de reposición,
Estado de la atmósfera, Zona donde se produce la avería, …
- Población de trabajadores de la Factoría F: Sexo: (V, H), Edad (años), Nivel de Estudios, Salario,
…
Estudios univariantes:
Tratan una sola variable. El objetivo es describir el comportamiento de cada variable por separado.
Estudios multivariantes: Tratan varias características observadas simultáneamente sobre cada
individuo o unidad experimental. El objetivo es analizar las relaciones entre las variables.
Tema 1. Descripción de datos
10
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
MEDICIÓN DE VARIABLES. ESCALAS DE MEDIDA:
Escala nominal: Para cada dos valores de la variable s obre dos individuos de la población, sólo
podemos decir:
x = y ó x  y.
Ejemplos: Sexo (V, H), Procedencia de artículos (Europeo, japonés, chino, ...)
Escala ordinal: Los valores de la variable admiten una ordenación natural: x1  x2  ...  xn  ...
Ejemplos:
Grado de satisfacción con un producto alimenticio (muy malo, malo, regular, bueno, muy bueno),
Titulación académica: (Sin estudios, estudios primarios, estudios secundarios, estudios superiores).
Escala de intervalo: Los valores son representables en un eje (la recta real) con sentido de la
distancia. El origen (cero) puede ser arbitrario, por lo que la razón entre dos valores no tiene porqué
tener sentido. Se fija una unidad de medida que
puede ser arbitraria, pero que su significado
permanece invariable a lo largo del eje.
y-x = z-t
x
y
z
t
Ejemplos: Longitud, Temperatura, Tiempo, Edad, Número de averías, …
Escala de razón o proporción: Escala de intervalo con existencia de un origen natural ( cero). La
razón entre dos valores de la variable cobra sentido.
y = 2x, z = 3x
0
x
y
z
Ejemplos: La mayoría de las variables que se miden en escala de intervalo, realmente lo son en escala
de razón o proporción. Una excepción son las escalas de Temperatura Centígrada o Farenheit.
Tema 1. Descripción de datos
11
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TIPOS DE VARIABLES:
Variables cualitativas o atributos: Sus valores o categorías sólo expresan la posesión de una u otra
característica.
Escala nominal: Categorías no ordenables.
Ejemplos:
- Estado civil: Soltero casado, divorciado, viudo, ...
- Origen de artículos: Europeo, americano, japonés, ...
Escala ordinal: Categorías ordenables de manera natural:
Ejemplos:
- Pronóstico de un enfermo: Muy grave, grave, leve, ...
- Opinión sobre un asunto: Muy a favor, a favor, indiferente, en contra, muy en contra.
- Calidad de productos alimenticios: Extra, Primera, Segunda, ...
Variables cuantitativas o numéricas: Sus valores son números reales.
Siempre se miden en escala de intervalo o de razón.
- Variables discretas: Toman un conjunto de valores aislados, finito o numerable, habitualmente
los números naturales.
Ejemplos: Variables de tipo “contador”: Nº de llam adas a una central telefónica, Nº de artículos
defectuosos por lote.
- Variables continuas: Toman valores en un intervalo de la recta real de forma continua:
Ejemplos: Longitud (m), Tiempo (s), Temperatura (ºC), Rendimiento (%), Acidez (pH).
Tema 1. Descripción de datos
12
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DATOS
Datos: Valores de las variables en estudio medidos sobre los individuos o casos de la muestra.
Generalmente se arreglan en forma matricial:
Casos
1
2
...
i
...
n
Variables
X1
x11
x21
...
xi1
...
xn1
X2
x12
x22
...
xi2
...
xn2
…
...
...
...
...
Xj
x1j
x2j
...
xij
...
xnj
… Xp
... x1p
... x2p
...
... xip
...
... xnp
Matriz n x p
n = número de individuos de la muestra o casos.
p = número de variables en estudio
xij = valor de la variable X
número i de la muestra,
i=1,2, ..., n, j = 1, 2, ..., p.
j
sobre el caso
Depuración de los datos. En cualquier conjunto de datos suele haber errores:
 Errores de medición.
 Interpretación incorrecta del cuestionario.
 Errores de transcripción y tecleado de los datos.
 Observaciones anómalas (individuos de otra población, elementos atípicos, …).
Previamente a cualquier análisis debemos cerciorarnos de que no hay errores en los datos que puedan
llevarnos a conclusiones incorrectas.
Las técnicas de la Estadística Descriptiva también permiten realizar esta depuración.
Tema 1. Descripción de datos
13
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: DATOS DE AUTOMÓVILES (Cardata)
MPG
CYL
DISPL
HP
ACCEL
YEAR
WEIGHT
ORIG
MAKE
MODEL
PRICE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Tema 1. Descripción de datos
Miles per gallon (Consumo de combustible)
Cylinders (Número de cilindros)
Displacement in cu. in. (cilindrada del motor)
Engine horsepower (potencia del motor)
Seconds from 0 to 60 (tiempo de aceleración)
Model Year (Año del modelo)
Weigtt in lbs. (Peso)
Origin (1=U.S.A., 2=EUROPE, 3=JAPAN)
Manufacturer (fabricante)
Model
Current book value (Precio)
MPG CYL DISPL
43,1
4
90
36,1
4
98
32,8
4
78
39,4
4
85
36,1
4
91
19,9
8
260
19,4
8
318
20,2
8
302
19,2
6
231
20,5
6
200
20,2
6
200
25,1
4
140
20,5
6
225
19,4
6
232
20,6
6
231
20,8
6
200
18,6
6
225
18,1
6
258
19,2
8
305
17,7
6
231
18 1
8
302
HP ACCEL YEAR
48
21,5
78
66
14,4
78
52
19,4
78
70
18,6
78
60
16,4
78
110
15,5
78
140
13,2
78
139
12,8
78
105
19,2
78
95
18,2
78
85
15,8
78
88
15,4
78
100
17,2
78
90
17,2
78
105
15,8
78
85
16,7
78
110
18,7
78
120
15,1
78
145
13,2
78
165
13,4
78
139
11 2
78
WEIGHT ORIG
MAKE
MODEL
1985
2
Volkswagen Rabbit Dl
1800
1
Ford
Fiesta
1985
3
Mazda
GLC Deluxe
2070
3
Datsun
B210 GX
1800
3
Honda
Civic CVCC
3365
1
Oldsmobile Cutlass
3735
1
Dodge
Diplomat
3570
1
Mercury
Monarch
3535
1
Pontiac
Phoenix
3155
1
Chevrolet
Malibu
2965
1
Ford
Fairmont A
2720
1
Ford
Fairmont M
3430
1
Plymouth
Volare
3210
1
AMC
Concord
3380
1
Buick
Century
3070
1
Mercury
Zephyr
3620
1
Dodge
Aspen
3410
1
AMC
Concord D1
3425
1
Chevrolet
MonteCarlo
3445
1
Buick
RegalTurbo
3205
1
Ford
Futura
PRICE
2400
1900
2200
2725
2250
3300
3125
2850
2800
3275
2375
2275
2700
2300
3300
2425
2700
2425
3900
4400
2525
14
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: DATOS DE PROFESIONALES DE UNA COMPAÑÍA INFORMÁTICA (Salary)
EXPRNC
EDUC
MGT
SALARY
Años de experiencia
Formación Académica (1=High School; 2=College; 3=Advanced Degree)
Desempeño de un cargo de responsabilidad (1=SI, 0=NO)
Retribuciones brutas anuales (en U.S. $)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Tema 1. Descripción de datos
EXPRNC
1
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
5
5
5
6
6
6
6
7
8
8
8
8
10
10
EDUC
1
3
3
2
3
2
2
1
3
2
1
2
3
1
3
3
2
2
3
1
1
3
2
2
1
2
1
3
1
1
2
MGT
1
0
1
0
0
1
0
0
0
0
1
1
1
0
1
0
0
0
0
1
0
1
0
1
1
0
1
1
0
0
0
SALARY
13876
11608
18701
11283
11767
20872
11772
10535
12195
12313
14975
21371
19800
11417
20263
13231
12884
13245
13677
15965
12336
21352
13839
22884
16978
14803
17404
22184
13548
14467
15942
15
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: DATOS DE AUTOPISTAS (Minnesota 1973) (Highway)
RATE
LEN
ADT
TRKS
SLIM
LWID
SHLD
ITG
SIGS
ACTP
LANE
TYPE
1973 accident rate per million vehicle miles.
Length of the segment in miles.
Average daily traffic count in thousands (estimated)
Truck volume as a percent of the total volume.
Speed limit
Lane width in feet.
Width in feet of outer shoulder on the roadway.
Number of freeway-type interchanges per mile in the segment.
Number of signalized interchanges per mile in the segment.
Number of acces points per mile in the segment.
Total number of lanes of traffic in both directions.
Type of highway (FAI=Federal aid interstate; PA=Principal arterial; MA=Major arterial; MC=Major collectors)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tema 1. Descripción de datos
RATE
4,58
2,86
3,02
2,29
1,61
6,87
3,85
6,12
3,29
5,88
4,2
4,61
4,8
3,85
2,69
1,99
2,01
4,22
2,76
2,55
LEN
4,99
16,11
9,75
10,65
20,01
5,97
8,57
5,24
15,79
8,26
7,03
13,28
5,4
2,96
11,75
8,86
9,78
5,49
8,63
20,31
ADT TRKS SLIM LWID SHLD
69
8
55
12
10
73
8
60
12
10
49
10
60
12
10
61
13
65
12
10
28
12
70
12
10
30
6
55
12
10
46
8
55
12
8
25
9
55
12
10
43
12
50
12
4
23
7
50
12
5
23
6
60
12
10
20
9
50
12
2
18
14
50
12
8
21
8
60
12
10
27
7
55
12
10
22
9
60
12
10
19
9
60
12
10
9
11
50
12
6
12
8
55
13
6
12
7
60
12
10
ITG
1,2
1,43
1,54
0,94
0,65
0,34
0,47
0,38
0,95
0,12
0,29
0,15
0
0,34
0,26
0,68
0,2
0,18
0,14
0,05
SIGS ACTP LANE TYPE
0
4,6
8 FAI
0
4,4
4 FAI
0
4,7
4 FAI
0
3,8
6 FAI
0
2,2
4 FAI
1,84
24,8
4 PA
0,7
11
4 PA
0,38
18,5
4 PA
1,39
7,5
4 PA
1,21
8,2
4 PA
1,85
5,4
4 PA
1,21
11,2
4 PA
0,56
15,2
2 PA
0
5,4
4 PA
0,6
7,9
4 PA
0
3,2
4 PA
0,1
11
4 PA
0,18
8,9
2 PA
0
12,4
2 PA
0,99
7,8
4 PA
16
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TABULACIÓN DE DATOS. TABLAS DE FRECUENCIAS
Es el primer paso en el análisis descriptivo de los datos.
Tablas de frecuencias para variables cualitativas o atributos y variables discretas:
xi
A1
A2
...
Ap
Distribución de frecuencias
ni
fi
Ni
n1
f1
N1
n2
f2
N2
...
...
...
np
fp
Np=n
n
1
Fi
F1
F2
...
Fp=1
p
n
i 1
n
i
p
f
i 1
i
1
Escala nominal: Sólo son de interés ni y fi .
ni = frecuencia absoluta de la categoría Ai (nº de individuos de la muestra con la característica Ai).
fi = ni/n = frecuencia relativa de la categoría Ai. (Se puede expresar en porcentaje)
Escala ordinal: Se añaden las frecuencias acumuladas Ni y Fi .
Ni = frecuencia absoluta acumulada hasta la categoría Ai, incluyendo la propia categoría Ai.
Fi = Ni/n = frecuencia relativa acumulada hasta la categoría Ai, incluyendo la propia categoría Ai.
Es obligatorio conservar en la tabla el orden natural de las categorías: A1<A2<…<Ap.
Variables discretas: Si toman un número no muy elevado de valores diferentes, p. ej. 0, 1, 2, 3, ..,
se tabulan igual que las variables medidas en escala ordinal, siendo de interés ni ,fi , Ni y Fi .
En los tres casos el soporte de la variable es un conjunto de valores aislados (puntos en las variables
discretas), posibles todos ellos.
Tema 1. Descripción de datos
17
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLOS
Tabla de Frecuencia para ORIG (Cardata)
Clase
Valor
1 1 (USA)
2 2 (Europe)
3 3 (Japan)
Frecuencia
85
26
44
155
Frecuencia
Relativa
0,5484
0,1677
0,2839
1
Frecuencia
Acumulada
85
111
155
Frecuencia
Rel. acum.
0,5484
0,7161
1,0000
Tabla de Frecuencia para EDUC (Salary)
Clase
Valor
1 1 (H.School)
2 2 (College)
3 3 (Ad. Deg.)
Frecuencia
14
19
13
Frecuencia
Relativa
0,3043
0,4130
0,2826
46
1
Frecuencia
Acumulada
14
33
46
Frecuencia
Rel. acum.
0,3043
0,7174
1,0000
Tabla de Frecuencia para CYL (Cardata)
Clase
1
2
3
4
5
Tema 1. Descripción de datos
Valor
3
4
5
6
8
Frecuencia
1
104
3
30
17
155
Frecuencia
Relativa
0,0065
0,6710
0,0194
0,1935
0,1097
1
Frecuencia
Acumulada
1
105
108
138
155
Frecuencia
Rel. acum.
0,0065
0,6774
0,6968
0,8903
1,0000
18
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Tablas de frecuencias para variables continuas: datos agrupados.
Los valores observados serán diferentes unos de otros (si se mide con precisión suficiente), pero …
los valores exactos no se pueden obtener en la práctica y cada punto observable representa todo el
intervalo de valores que por redondeo (a mm, Km, ºC, mg…) se aglutinan en él.
Los datos se pueden tabular agrupándolos en clases o intervalos.
El protagonismo en la distribución de frecuencias lo toman los intervalos de valores.
(a, b) = soporte de la variable. a = a0 <a1< … <ak = b rejilla de puntos que delimitan los intervalos de clase.
ai-1, ai = extremos de clase.
Distribución de frecuencias
mi=(ai-1+ai)/2 = marca de clase.
Clase
mi
ni
fi
Ni
Fi
ai-ai-1, = amplitud de clase.
a0-a1
m1
n1
f1
N1
F1
ni = frecuencia absoluta de la clase
a1-a2
m2
n2
f2
N2
F2
fi = ni/n = frecuencia relativa
...
...
...
...
...
Ni = frecuencia absoluta acumulada
ak-1-ak
mk
nk
fk
Nk=n
Fk=1
Fi = Ni/n = frecuencia relativa acum.
n
1
También se emplea la agrupación en clases para ta bular datos de una variable discreta con un rango
muy amplio de valores diferentes.
Elección de las clases:
Elegir un número razonable de clases “significativas”.
Se recomienda usar clases de igual amplitud.
Las clases deben definirse con precisión (intervalos abiertos a la derecha y cerrados a la izquierda, o
viceversa) para poder clasificar sin ambigüedad las observaciones en uno de los intervalos sólamente.
Tema 1. Descripción de datos
19
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLOS
Tabla de Frecuencias para MPG (Cardata)
Clase
1
2
3
4
5
6
7
Límite
Inferior
15,0
20,0
25,0
30,0
35,0
40,0
45,0
Límite
Frecuencia Frecuencia Frecuencia
Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
20,0
17,5
23
0,1494
23
0,1494
25,0
22,5
29
0,1883
52
0,3377
30,0
27,5
32
0,2078
84
0,5455
35,0
32,5
37
0,2403
121
0,7857
40,0
37,5
24
0,1558
145
0,9416
45,0
42,5
8
0,0519
153
0,9935
50,0
47,5
1
0,0065
154
1,0000
154
1
Tabla de Frecuencias para RATE (Highway)
Clase
1
2
3
4
5
6
7
8
Tema 1. Descripción de datos
Límite
Inferior
1,5
2,5
3,5
4,5
5,5
6,5
7,5
8,5
Límite
Frecuencia Frecuencia Frecuencia
Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
2,5
2,0
8
0,2051
8
0,2051
3,5
3,0
13
0,3333
21
0,5385
4,5
4,0
7
0,1795
28
0,7179
5,5
5,0
3
0,0769
31
0,7949
6,5
6,0
3
0,0769
34
0,8718
7,5
7,0
2
0,0513
36
0,9231
8,5
8,0
1
0,0256
37
0,9487
9,5
9,0
2
0,0513
39
1,0000
39
1
20
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 2.- REPRESENTACIÓN GRÁFICA
- Diagramas de barras y sectores.
- Diagramas de Pareto.
- Histogramas y polígonos de frecuencias.
- Diagramas acumulativos.
- Representación de datos temporales.
Tema 2. Representación Gráfica
21
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
REPRESENTACIONES GRÁFICAS DE DISTRIBUCIONES DE FRECUENCIAS
El objetivo es graficar la información numérica contenida en la tabla de frecuencias.
Para cada tipo de variable existen representaciones apropiadas que son variaciones de la misma idea.
VARIABLES CUALITATIVAS O ATRIBUTOS
Diagrama de sectores:
Sobre un círculo se representan sectores asociados a cada valor de la variable.
Los sectores son proporcionales a las frecuencias (absolutas o relativas).
Se usa preferentemente para variables medidas en escala nominal, pero también para la ordinal.
En el caso ordinal hay que mantener el orden natural de las categorías de la variable.
EJEMPLOS: Diagrama de sectores de ORIG (Cardata) y de TYPE (Highway)
Escala
Nominal
Escala
Ordinal
Diagrama de Sectores de TYPE_1
5,13%
12,82%
Diagrama de Sectores de ORIG
28,39%
ORIG
1
2
3
TYPE_1
1FAI
2PA
3MA
4MC
33,33%
54,84%
16,77%
Tema 2. Representación Gráfica
48,72%
22
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Diagramas de Barras:
Sobre un eje simbólico se representan los valores de la variable.
Sobre cada valor se levanta un rectángulo (barra) cuya altura representa la frecuencia.
Se pueden hacer con frecuencias absolutas o relativas.
Las frecuencias relativas permiten la comparación de muestras diferentes.
Se usan tanto para variables medidas en escala nominal como ordinal. En el caso ordinal hay que
mantener el orden natural de las categorías de la variable.
EJEMPLOS: Diagrama de barras de ORIG (Cardata) y de TYPE (Highway)
Escala
Nominal
Escala
Ordinal
Diagrama de Barras de TYPE_1
60
50
50
40
40
porcentaje
porcentaje
Diagrama de Barras de ORIG
30
20
30
20
10
10
0
0
1
Tema 2. Representación Gráfica
2
3
1FAI
2PA
3MA
4MC
23
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Diagramas de Pareto:
Diagrama de barras con las categorías de la variable ordenadas de mayor a menor frecuencia.
Sólo para atributos nominales. (Los ordinales sólo admiten la ordenación natural de las categorías.)
Las clases menos significativas se pueden agrupar como “OTROS”, que se colocará en último lugar.
Herramienta importante en “Control Estadístico de la Calidad” para estudiar variables como:
-Causa de fallos, defectos, paradas, …
-Tipo de fallo, defecto, …
Muy frecuentemente ocurre la siguiente situación:
- Unas pocas clases acaparan casi toda la frecuencia y son las que merecen mayor atención.
- El resto de clases pueden ser muchas, pero apenas tienen interés.
El análisis de Pareto indica las prioridades de actuación.
EJEMPLO: Defectos en libros en una imprenta
Frec. Relativa
0,43
0,29
0,14
0,09
0,04
0,01
1,00
150
85,71
120
frequency
TIPOS
Frecuencia
Corte de las hojas
60
Mala impresión
40
Tinta irregular
20
Encuadernación
12
Portada
6
Lomo
2
TOTAL
140
94,29
98,57 100,00
71,43
90
60
42,86
30
0
Corte
Tema 2. Representación Gráfica
Impr. Tinta
Enc.
Port
Lomo
24
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Accidentes en jornada de trabajo con baja según naturaleza de la lesión. Castilla y León, 1988.
Orden Frec.
LESIONES
Fracturas, luxaciones, torceduras, esguinces y distensiones
contusiones y aplastamientos
otras heridas
traumatismos superficiales
amputaciones y perdida del globo ocular, cuerpos extraños en los ojos y conjuntivitis
lumbalgias y hernias discales
quemaduras
conmociones y traumatismos internos
lesiones multiples
infartos, derrames cerebrales y otras patologias no traumáticas
envenenamientos e intoxicaciones, exposicion al medio ambiente y asfixias
efectos de la electricidad y radiaciones
1 10045
2 6824
3 5478
4 2293
5 2054
6 1871
7
614
8
541
9
338
10
62
11
60
12
45
Frec.
Porcent. Porcent.
Acum.
Acum.
10045
33.23
33.23
16869
22.58
55.81
22347
18.12
73.94
24640
7.59
81.52
26694
6.80
88.32
28565
6.19
94.51
29179
2.03
96.54
29720
1.08
98.33
30058
1.01
99.45
30120
0.21
99.65
30180
0.20
99.85
30225
0.15 100.00
Gráfica de Pareto para LESIONES
(X 10000,0)
4
frecuencia
3
73,94
2
1
81,52
88,32
94,51
100,00
55,81
33,23
0
1
Tema 2. Representación Gráfica
2
3
4
5
6
Otros
25
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Análisis de Pareto en la fabricación de tarjetas de circuitos impresos.
CÓDIGO DE DEFECTOS
1 SOLD. INSUFICIENTE
2 SOLD. JUNTAS FRIAS
3 SOLD. ABIERTA/DEWE
4 COMP. INADEC.1
5 SOLD. SALPICADURA/W
6 MARCA PRUEBA EC
7 MARCA PRUEBA BLANCA
8 TARJ. EN BRUTO ENVOLT. RE
9 COMP. PIEZA EXTRA
10 COMP. DAÑADO
11 COMP. FALTANTE2
12 ALAMBRADO INCORR. S
13 ESTAMP. ID. OPERADOR
14 ESTAMP. FALTANTE
15 SOLD. ESCASA
16 TARJ. EN BRUTO DAÑADA
FREC FR. ACUM.
40
40
20
60
7
67
6
73
5
78
3
81
3
84
3
87
2
89
2
91
2
93
1
94
1
95
1
96
1
97
1
98
%
40,8163
20,4082
7,14286
6,12245
5,10204
3,06122
3,06122
3,06122
2,04082
2,04082
2,04082
1,02041
1,02041
1,02041
1,02041
1,02041
% ACUM
40,8163
61,2245
68,3673
74,4898
79,5918
82,6531
85,7143
88,7755
90,8163
92,8571
94,898
95,9184
96,9388
97,9592
98,9796
100
Diagrama de Control de Disconformidades
100
frequency
80
61,22
60
40
68,37
74,49
79,59 82,65
85,71 88,78
94,90 95,92
90,82 92,86
96,94 97,96 98,98100,00
80
40
20
20
0
0
2
61,22
60
40,82
1
100,00
100
3
4
5
Tema 2. Representación Gráfica
8
7
6 11 10 9 16 15 14 13 12
68,37
74,49
82,65
85,71
88,78
79,59
5
8
7
6
40,82
1
2
3
4
Other
26
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
VARIABLES CUANTITATIVAS DISCRETAS
Diagramas de BARRAS (VARILLAS)
Se levantan barras o varillas sobre los valores de la variable según su frecuencia.
La varilla (anchura cero sobre el eje) hace alusión al carácter discreto de la variable.
Se pueden hacer con frecuencias absolutas o relativas.
Las frecuencias relativas facilitan la comparación de muestras.
EJEMPLO: Averías registradas en periodos de una semana en una cadena de montaje.
frequency
----------------------------------Rel. Cumul. Cum.Rel.
Value Freq. Freq. Freq. Freq.
----------------------------------0
49
0,4118
49
0,4118
1
30
0,2521
79
0,6639
2
20
0,1681
99
0,8319
3
9
0,0756 108
0,9076
4
5
0,0420 113
0,9496
5
3
0,0252 116
0,9748
6
2
0,0168 118
0,9916
7
0
0,0000 118
0,9916
8
1
0,0084 119
1,0000
----------------------------------
Tema 2. Representación Gráfica
50
40
30
20
10
0
-1
0
1
2
3
4
5
6
NUMERO DE AVERÍAS
7
8
9
27
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
VARIABLES CUANTITATIVAS CONTINUAS
HISTOGRAMA (datos agrupados)
 Se levantan rectángulos sobre las clases en que han sido agrupados los valores de la variable.
 Los rectángulos tienen que ser adyacentes para reflejar la continuidad de la variable.
 La frecuencia se representa a través del área de cada rectángulo.
 El área bajo el histograma es 1 si son frecuencias relativas, o n si son absolutas.
 Para comparar muestras hay que usar frecuencias relativas.
 El aspecto del histograma depende tanto del número de clases como de la posición de éstas.
 Es conveniente usar clases de igual longitud. De esta manera, la frecuencia también se verá
representada por la altura de los rectángulos, lo cual facilita la representación e interpretación.
 Para elegir el número de clases y su posición, conviene probar varias posibilidades y elegir la
que proporcione una representación más razonable.
 El histograma refleja la densidad de aparición de observaciones sobre el soporte de la variable.
 El histograma pone de manifiesto las características de cada conjunto de datos:
- Localización.
- Dispersión.
- Simetría o asimetría.
- Unimodalidad o multimodalidad.
- Observaciones atípicas, etc.
 Tomando una muestra representativa, cada vez más grande, y haciendo tender a 0 la amplitud de
las clases, aparece en el límite una curva que va a reflejar el modelo de la población.
 Es una herramienta importante en el control de calidad.
Tema 2. Representación Gráfica
28
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Fichero Cardata. Variable WEIGHT
Tabla de Frecuencias para WEIGHT
Límite
Clase Inferior
1
1500,0
2
1750,0
3
2000,0
4
2250,0
5
2500,0
6
2750,0
7
3000,0
8
3250,0
9
3500,0
10
3750,0
11
4000,0
12
4250,0
Límite
Superior
1750,0
2000,0
2250,0
2500,0
2750,0
3000,0
3250,0
3500,0
3750,0
4000,0
4250,0
4500,0
Punto
Frecuencia Frecuencia Frecuencia
Medio Frecuencia Relativa Acumulada Rel. Acum.
1625,0
0
0,0000 0
0,0000
1875,0
22
0,1419
22
0,1419
2125,0
29
0,1871
51
0,3290
2375,0
16
0,1032
67
0,4323
2625,0
26
0,1677
93
0,6000
2875,0
19
0,1226
112
0,7226
3125,0
14
0,0903
126
0,8129
3375,0
13
0,0839
139
0,8968
3625,0
8
0,0516
147
0,9484
3875,0
5
0,0323
152
0,9806
4125,0
2
0,0129
154
0,9935
4375,0
1
0,0065
155
1,0000
30
frecuencia
25
20
15
10
5
0
1500
Tema 2. Representación Gráfica
2000
2500
3000
WEIGHT
3500
4000
4500
29
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: ELECCIÓN DEL NÚMERO DE CLASES
EJEMPLO: Fichero Cardata. Variable ACCEL (ORIGIN=1)
Explicar el efecto de aumentar o disminuir el número de clases.
¿Cuál te parece la elección más adecuada?
40
24
20
frecuencia
frecuencia
30
20
16
12
8
10
4
0
0
10
13
16
19
22
25
10
13
16
ACCEL
22
25
19
22
25
ACCEL
15
8
12
6
frecuencia
frecuencia
19
9
6
4
2
3
0
0
10
13
16
19
ACCEL
Tema 2. Representación Gráfica
22
25
10
13
16
ACCEL
30
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Fichero Salary. Variable SALARY
20
12
16
10
8
frecuencia
frecuencia
Explicar el efecto de aumentar o disminuir el número de clases.
¿Cuál te parece la elección más adecuada?
12
8
6
4
4
2
0
0
1
1,5
2
2,5
SALARY
3
(X 10000,0)
1
1,8
2,2
SALARY
8
2,6
3
(X 10000,0)
5
4
frecuencia
6
frecuencia
1,4
4
2
3
2
1
0
0
1
1,4
1,8
2,2
SALARY
Tema 2. Representación Gráfica
2,6
3
(X 10000,0)
1
1,4
1,8
2,2
SALARY
2,6
3
(X 10000,0)
31
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Aplicación del Histograma en Control Estadístico de la Calidad
El valor objetivo para la longitud de las piezas fabricadas en un proceso es 3cm.
Los límites de especificación son 3±0,03.
(LIE=Límite Inferior de Especificación, LSE=Límite Superior de Especificación).
Explicar la situación de los procesos siguientes:
20
LIE
LSE
12
8
4
LSE
12
8
4
0
0
2,96
30
2,97
2,98
2,99
3
3,01
LONGITUD DE PIEZAS
LIE
25
3,02
3,03
3,04
2,96
15
LSE
20
15
10
2,98
3
LONGITUD DE PIEZAS
LIE
12
porcentaje
porcentaje
LIE
16
porcentaje
porcentaje
16
20
3,02
3,04
LSE
9
6
3
5
0
0
2,96
2,97
2,98
Tema 2. Representación Gráfica
2,99
3
3,01
LONGITUD DE PIEZAS
3,02
3,03
3,04
2,95
2,97
2,99
3,01
LONGITUD DE PIEZAS
3,03
3,05
32
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Asociar los histogramas con las situaciones descritas debajo.
12
40
10
porcentaje
porcentaje
30
8
6
4
20
10
2
0
0
2,97
2,98
2,99
3
3,01
3,02
3,03
3,04
3,05
0
3,06
20
24
16
20
porcentaje
porcentaje
2,96
12
8
4
20
30
40
50
60
16
12
8
4
0
0
2,96
2,98
3
3,02
3,04
2,96
20
12
16
10
porcentaje
porcentaje
10
12
8
4
2,97
2,98
2,99
3
3,01
3,02
3,03
3,04
8
6
4
2
0
0
2,96
2,97
2,98
2,99
3
3,01
3,02
3,03
3,04
0
0,2
0,4
0,6
0,8
1
1.-Tiempos de vi da de un dis positivo. 2.-Números al azar en un i ntervalo. 3- Medi da (longitud, peso,…) de
artículos de un pr oceso industrial. 4.-Mezcla de dos pobl aciones. 5.- Medida de artículos de un pr oceso industrial
con datos atípicos. 6.- Medida de artículos de un proceso industrial después de una inspección de calidad.
Tema 2. Representación Gráfica
33
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
POLÍGONO DE FRECUENCIAS SOBRE EL HISTOGRAMA
Se traza un polígono uniendo los valores del histograma en las marcas de clase.
Si las clases son de igual amplitud, los extremos del polígono se unen con los puntos correspondientes
a las marcas de clase de las que serían la anterior y la posterior a las utilizadas para agrupar los datos.
Si se hace con frecuencias relativas y clases de igual amplitud, el área bajo el polígono es 1.
Es una versión suavizada del histograma, en un intento de aproximar el modelo poblacional que
surgiría con muchas observaciones y clases de amplitud tendiendo a 0.
40
porcentaje
30
20
10
0
7,5
10
12,5
15
20
15
17,5
ACCEL
20
22,5
25
45
50
27,5
25
porcentaje
20
15
10
5
0
10
25
30
35
40
55
MPG
Tema 2. Representación Gráfica
34
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
HISTOGRAMAS AJUSTADOS POR MODELOS
Cardata. Var. ACCEL (ORIG.=1) (Modelo normal)
Cardata. Variable PRICE (Modelo lognormal)
30
50
40
20
frecuencia
frecuencia
25
15
10
30
20
10
5
0
0
10
13
16
19
22
0
25
3
6
9
PRICE
ACCEL
12
15
18
(X 1000,0)
Datos de Autopistas. Var. ACTP (Modelo gamma)
15
frecuencia
12
9
6
3
0
0
10
20
30
40
50
60
ACTP
Tema 2. Representación Gráfica
35
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
24
30
20
25
16
20
frecuencia
frecuencia
Ejemplo: Aumento del tamaño muestral (50, 100, 200, 500, 2000, 10000) y del número de clases.
12
8
15
10
5
4
0
0
0
1
2
3
4
5
6
7
0
8
60
6
8
80
40
frecuencia
frecuencia
4
100
50
30
20
60
40
20
10
0
0
0
2
4
6
0
8
300
1000
250
800
200
frecuencia
frecuencia
2
150
100
2
4
6
8
600
400
200
50
0
0
0
2
Tema 2. Representación Gráfica
4
6
8
0
2
4
6
8
36
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DIAGRAMAS ACUMULATIVOS.
Histograma acumulativo y Polígono de frecuencias acumuladas:
Es una representación gráfica de la frecuencia acumulada hasta cada valor x del soporte de la variable.
Tiene especial interés para variables continuas con datos agrupados.
Sobre cada intervalo se levanta una barra de altura igual a la frecuencia acumulada hasta ese intervalo
incluyéndole. Uniendo los extremos de estas barras se obtiene el polígono.
Se puede hacer con frecuencias absolutas y relativas.
Si se hace con frecuencias relativas es una función que empieza en 0 y acaba en 1.
100
100
80
80
porcentaje
porcentaje
Ejemplos: Diagramas acumulativos para las variables TRKS y (Highway) MPG (Cardata)
60
40
60
40
20
20
0
0
0
4
Tema 2. Representación Gráfica
8
TRKS
12
16
0
10
20
30
MPG
40
50
60
37
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
SERIES TEMPORALES
En las descripciones de variables que hemos estudi ado hasta ahora el orden en que se han realizado
las observaciones no ha sido tenido en cuenta. Se suponía que las observaciones podían ser
intercambiadas de orden sin alterar la información que contenían sobre la variable.
Hay situaciones en las que el orden de las obse rvaciones indica una secuenciación temporal de las
mismas. Si además la variable presenta cierta “inercia” o correlación entre observaciones próximas en
el tiempo, no se puede obviar esta circunstancia en la descripción y análisis de los datos.
Para estas variables será de interés describir y analizar la evolución de la variable en el tiempo. Esta
evolución puede reflejar:
 Tendencias
 Comportamientos cíclicos,
 Comportamientos estacionales,
 Variabilidad aleatoria, etc.
Los conjuntos de datos de esta naturaleza se llaman series temporales (o cronológicas) y para su
descripción y análisis existen técnicas estadísticas específicas.
El análisis más elemental lo proporcionan los diagramas bidimensionales que representan a la
variable frente al tiempo o el orden de observación.
Tema 2. Representación Gráfica
38
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLOS DE SERIES TEMPORALES:
EJEMPLO:Número mensual de viajeros, en miles, que utilizan líneas aéreas internacionales . (144
datos)
700
700
600
600
500
500
400
400
300
300
200
200
100
100
0
JAN 1949
JAN 1951
JAN 1953
JAN 1955
JAN 1957
JAN 1959
JAN 1950
JAN 1952
JAN 1954
JAN 1956
JAN 1958
JAN 1960
0
Tema 2. Representación Gráfica
39
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
3 al final de cada mes.
Millones de metros cúbicos
EJEMPLO: Agua embalsada en los pantanos españoles en millones de m
Datos bimensuales. Fuente: I.N.E., Boletín mensual. Años 1951-1983.
40000
40000
35000
35000
30000
30000
25000
25000
20000
20000
15000
15000
10000
10000
5000
5000
0
-5000
1951
0
-5000
1954
1957
1960
1963
1966
1969
1972
1975
1978
1981
Años 1951-1983
Tema 2. Representación Gráfica
40
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 3.- DESCRIPCIÓN NUMÉRICA
- Estadísticos.
- Medidas de posición.
- Medidas de dispersión.
- Medidas de forma: simetría y apuntamiento.
- Diagramas de cajas.
- Transformaciones de variables.
Pafnutiy Lvovich Chebyshev
Tema 3. Descripción numérica
41
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DESCRIPCIÓN NUMÉRICA DE VARIABLES CUANTITATIVAS.
Las representaciones gráficas ponen de manifiesto distintas tipologías de distribuciones de
frecuencias de variables cuantitativas atendiendo a aspectos como:
- Posición de la distribución: Zona o punto central en torno al cual se aglutinan los valores de la
variable.
- Dispersión de la distribución respecto a la zona central.
- Forma de la distribución, incluyendo aspectos como:
- Simetría o asimetría respecto a la zona central (Skewness).
- Apuntamiento: Peso de las colas en relación con la parte central de la distribución (Kurtosis).
- Otros aspectos: Unimodalidad o multimodalidad (mezcla de datos de poblaciones diferentes),
existencia de “lagunas”, posibles valores atípicos, ...
Interés de los resúmenes numéricos:
- Unos pocos números resumen las características fundamentales de la distribución.
- Complemento natural de la descripción gráfica.
- Facilitan la comparación de muestras con modelos de referencia y la comparación entre
muestras.
Determinados valores calculados a partir de los datos de la muestra expresan numéricamente
características importantes de las distribuciones de frecuencias citadas anteriormente.
- Estadístico: Cualquier función de la muestra (se utilizan
diversos estadísticos para cuantificar
diferentes aspectos de la distribución de frecuencias: centralidad, dispersión, apuntamiento…).
- Cuando la muestra es representativa, los estadísticos muestrales son aproximaciones naturales de
los parámetros poblacionales correspondientes que se definirán de manera análoga más adelante.
Tema 3. Descripción numérica
42
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
GNIFICADO DE LOS ASPECTOS POSICIÓN, DISPERSIÓN Y FORMA DE UNA DISTRIBUCIÓN
Distribuciones que difieren sólo
en la posición
Distribuciones que difieren sólo
en la dispersión
0.4
0.6
0.3
0.4
0.2
0.2
0.1
0
0
-5
2.5
2
-3
-1
1
3
Simetría y asimetría
5
-8
-4
0
Apuntamiento
4
8
1
0.75
Muy
apuntada
Poco
apuntada
1.5
0.5
Normal
1
0.25
0.5
0
0
-3
Tema 3. Descripción numérica
-2
-1
0
1
2
3
43
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
MEDIDAS DE POSICIÓN (TENDENCIA CENTRAL)
Media: X = Promedio de las observaciones (centro de gravedad de la distribución de frecuencias).
- Muestra sin tabular x1, x2,..., xn:
- Muestra tabulada:
X
1
n
n
 xi .
i 1
1
n
k
k
i 1
k
i 1
k
i 1
i 1
- Variable discreta (con observaciones repetidas):
X
- Variable continua (datos agrupados):
X  n1  ni mi   f i mi .
(mi = marca de clase)
 ni xi   f i xi .
Mediana: Me. Punto que parte la muestra ordenada en dos mitades (50% a cada lado):
- Si n es impar: Observación central en la muestra ordenada.
- Si n es par: Promedio de las dos observaciones centrales en la muestra ordenada.
n=7
n=8
La mediana tiene sentido también para variables cualitativas ordinales.
Moda: Mo. Punto donde se alcanza el máximo de la distribución de frecuencias.
Para variables continuas con datos agrupados, hablaremos de intervalo modal.
Podemos encontrar distribuciones con varias modas locales: bimodales o multimodales.
La Moda tiene sentido también para variables cualitativas ordinales y categóricas.
Tema 3. Descripción numérica
44
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
OBTENCIÓN GRÁFICA DE LA MEDIANA CON DATOS AGRUPADOS
Histograma de frecuencias
Polígono de frecuencias acumuladas
0.24
0.2
frec.
0.16
0.5
frec. 0.12
0.08
0.5
0.04
0
0.5
0
1.5
Tema 3. Descripción numérica
2
2.5
3
3.5
4
4.5
Me
45
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
POSICIÓN RELATIVA DE MEDIA, MEDIANA Y MODA.
Distribución con asimetría positiva
CA>0
Distribución Simétrica
f(x)
Moda
Mediana
Media
Tema 3. Descripción numérica
Distribución con asimetría negativa
CA<0
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
Moda
Mediana
Media
Media
Mediana
Moda
46
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
ELECCIÓN DE LA MEDIDA DE TENDENCIA CENTRAL ADECUADA
La elección de una medida de posición óptima no tiene una solución universal. Depende del criterio
de comparación.
Media y mediana representan el centro de la distribución según criterios diferentes:
n
La Media es la solución del problema de mínimos cuadrados:
 (x
i 1
n
La Mediana es la solución del problema de mínimas distancias:
x
i 1
n
 X )  min  ( xi  x ) 2
2
i
x
i 1
n
i
 Me  min  xi  x
x
i 1
-Eficiencia: Para datos “normales”, la media es más efic iente que la mediana. La media utiliza “todas
las observaciones”. La mediana sólo las centrales.
-Robustez: Estabilidad frente a la presencia de observaciones atípicas.
La Media es poco robusta: una sola observación errónea puede cambiar mucho la media.
La Mediana es más robusta: se necesitan muchas observaciones erróneas para producir cambios
importantes en la mediana
-La idea de posición se traslada al contexto de variables cualitativas (con escalas menos precisas):
La moda se puede usar incluso con variables cualitativas nominales.
La mediana se puede definir con variables cualitativas ordinales.
La media sólo tiene sentido para variables numéricas.
-Distribuciones simétricas y asimétricas.
En una distribución simétrica y unimodal las tres medidas coinciden.
En el caso de asimetría puede haber grandes diferencias. La Mediana puede reflejar mejor la posición
de la zona central.
Tema 3. Descripción numérica
47
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
OTRAS MEDIDAS DE POSICIÓN
CUANTILES:
xp: p-cuantil (0  p  1)
Definición: Punto que parte la distribución de frecuencias en dos trozos:
 a la izquierda deja una proporción p
 a la derecha deja una proporción 1-p.
Cálculo:
 Si np no es entero: Observación que ocupa el lugar [np]+1 en la muestra ordenada.
 Si np es entero: Promedio de las observaciones en lugares [np] y [np]+1 en la muestra ordenada.
Cuantiles de especial interés:
 Cuartiles:
- Primer Cuartil:
Q
1= 0.25-cuantil.
- Mediana (segundo cuartil): Me=0,50-cuantil.
- Tercer Cuartil:
Q
3= 0.75-cuantil.
 Percentiles:
- Percentil 100p = p-cuantil: (p = 0.01, 0.02, …, 0.99): Punto que parte la distribución de
frecuencias en dos trozos, a la izquierda 100p% y a la derecha 100(1-p)%.
Mínimo=X(1): Observación más pequeña de la muestra.
Máximo=X(n): Observación más grande de la muestra.
Tema 3. Descripción numérica
48
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
MEDIDAS DE DISPERSIÓN
Varianza: Promedio de las desviaciones cuadráticas en torno a la media.
n
-Muestra sin tabular: x1, x2, ..., xn, S   ( xi  X ) Expresión abreviada S 
2
1
n
2
2
i 1
1
n
n
 xi2  X
2
i 1
k
-Muestra tabulada de una variable discreta (con valores repetidos):
S 2   ( xi  X )2 f i .
-Muestra tabulada de una variable continua (datos agrupados):
S 2   ( mi  X )2 f i .
Desviación típica: S 
1
n
n
 (x
i 1
i
 X )2 .
i 1
k
i 1
Se mide en las mismas unidades que la variable.
Recorrido: R = X(n) X(1): MáximoMínimo.
Rango Intercuartílico: RIQ = Q3Q1.
S
CV

Coeficiente de Variación:
X
- Sólo para variables positivas.
- Relativiza la dispersión en función de la magnitud (escala) de las observaciones.
- No tiene unidades.
- Facilita la comparación.
2
Cuasivarianza (Varianza corregida) y cuasi desv. típica: Sc 
1
n 1
n
 (x  X )
i 1
i
2
, Sc 
1
n 1
n
 (x  X )
i 1
2
i
Se verá su interés en la Estadística Inferencial.
Tema 3. Descripción numérica
49
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
RELACIÓN MEDIA-DESVIACIÓN TÍPICA: DESIGUALDAD DE CHEBYSHEV


fr xi  X  kS  1 










1
22
1
 1 2
3
1
 1 2
4
1
 1 2
5
1
 1 2
6
fr X  X  2 S  1 
fr X  X  3S
fr X  X  4 S
fr X  X  5S
fr X  X  6S
1
,k 0
2
k


fr xi  X  kS 
1
,k 0
2
k
Ilustración de la Desigualdad
de Chebyshev
 0.7500, k  2
 0.8888, k  3
 0.9375, k  4
 0.9600, k  5
 0.9722, k  6
X-4S X-3S X-2S X-S X X+S X+2S X+3S X+4S
Tema 3. Descripción numérica
50
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejercicio: Una panadería fabrica panes que se venden como unidades de 250 gramos. Los límites de
especificación del fabricante son 25510 gramos. Se toma una muestra de 200 unidades y resulta:
X  254 ,5 gr . S  2 ,25 gr .
Responder a las siguientes preguntas:
1.- ¿Cuál es la proporción de unidades fraudulentas en la muestra como máximo?
2.- ¿Qué proporción de la muestra como máximo no cumple las especificaciones?
Resuélvase el problema en cada una de las situaciones siguientes:
a) No se conoce el aspecto de la distribución.
b) La distribución presenta un aspecto simétrico.
Ejercicio: En el fichero de datos de partes de averías de una empresa de suministro eléctrico, se
obtiene a partir de los datos del año 1997 los siguientes valores de la media y desviación típica para la
variable tiempo de acceso al lugar de la avería:
X  33,1min .
S  30 ,6min .
Hallar la proporción máxima de clientes que pueden haber sufrido tiempos de acceso superiores a 6
horas.
Tema 3. Descripción numérica
51
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica.
Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión.
Comprobar que las distribuciones unimodales se reconocen mejor.
DISTR1
Average
50,7611
Median
52,1207
Std. Dev. 28,1797
Q1
25,3621
Q3
74,543
DISTR2
13,2301
8,47915
14,1507
3,52832
17,7168
DISTR3
24,1104
21,1166
15,0
13,5156
31,1129
DISTR4
50,0
49,3649
12,1
44,0525
55,2831
150
60
300
120
50
250
90
40
200
30
150
20
100
10
50
60
30
0
20
40
60
80
100
DISTR6
86,7699
91,5209
14,1507
82,2832
96,4717
120
80
20
40
60
80
0
0
100
20
40
60
80
100
0
120
300
180
160
100
250
150
80
200
120
60
150
90
40
100
60
20
50
30
0
0
0
0
20
40
60
VAR 5
Tema 3. Descripción numérica
80
100
0
20
40
60
VAR 6
40
80
100
60
80
100
VAR 4
200
40
20
VAR 3
VAR 2
80
DISTR8
50,0
50,1535
15,0
39,8085
60,0592
160
0
0
VAR 1
120
DISTR7
49,1235
47,9288
42,5122
2,51195
97,5952
40
0
0
DISTR5
50,0
50,4052
25,0
26,2216
73,4258
0
0
20
40
60
VAR 7
80
100
0
20
40
60
80
100
VAR 8
52
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica.
Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión.
Comprobar que las distribuciones unimodales se reconocen mejor.
DISTR1
Average
50,7611
Median
52,1207
Std. Dev. 28,1797
Q1
25,3621
Q3
74,543
DISTR2
13,2301
8,47915
14,1507
3,52832
17,7168
DISTR3
24,1104
21,1166
15,0
13,5156
31,1129
DISTR4
50,0
49,3649
12,1
44,0525
55,2831
150
60
300
120
50
250
90
40
200
30
150
20
100
10
50
60
30
0
20
40
60
80
100
DISTR6
86,7699
91,5209
14,1507
82,2832
96,4717
120
80
20
40
60
80
0
0
100
20
40
60
80
100
0
120
300
180
160
100
250
150
80
200
120
60
150
90
40
100
60
20
50
30
0
0
0
0
20
40
60
VAR 5
Tema 3. Descripción numérica
80
100
0
20
40
60
VAR 6
40
80
100
60
80
100
VAR 4
200
40
20
VAR 3
VAR 2
80
DISTR8
50,0
50,1535
15,0
39,8085
60,0592
160
0
0
VAR 1
120
DISTR7
49,1235
47,9288
42,5122
2,51195
97,5952
40
0
0
DISTR5
50,0
50,4052
25,0
26,2216
73,4258
0
0
20
40
60
VAR 7
80
100
0
20
40
60
80
100
VAR 8
52
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica.
Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión.
Comprobar que las distribuciones unimodales se reconocen mejor.
DISTR1
Average
50,7611
Median
52,1207
Std. Dev. 28,1797
Q1
25,3621
Q3
74,543
DISTR2
13,2301
8,47915
14,1507
3,52832
17,7168
DISTR3
24,1104
21,1166
15,0
13,5156
31,1129
DISTR4
50,0
49,3649
12,1
44,0525
55,2831
150
60
300
120
50
250
90
40
200
30
150
20
100
10
50
60
30
0
20
40
60
80
100
DISTR6
86,7699
91,5209
14,1507
82,2832
96,4717
120
80
20
40
60
80
0
0
100
20
40
60
80
100
0
120
300
180
160
100
250
150
80
200
120
60
150
90
40
100
60
20
50
30
0
0
0
0
20
40
60
VAR 5
Tema 3. Descripción numérica
80
100
0
20
40
60
VAR 6
40
80
100
60
80
100
VAR 4
200
40
20
VAR 3
VAR 2
80
DISTR8
50,0
50,1535
15,0
39,8085
60,0592
160
0
0
VAR 1
120
DISTR7
49,1235
47,9288
42,5122
2,51195
97,5952
40
0
0
DISTR5
50,0
50,4052
25,0
26,2216
73,4258
0
0
20
40
60
VAR 7
80
100
0
20
40
60
80
100
VAR 8
52
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica.
Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión.
Comprobar que las distribuciones unimodales se reconocen mejor.
DISTR1
Average
50,7611
Median
52,1207
Std. Dev. 28,1797
Q1
25,3621
Q3
74,543
DISTR2
13,2301
8,47915
14,1507
3,52832
17,7168
DISTR3
24,1104
21,1166
15,0
13,5156
31,1129
DISTR4
50,0
49,3649
12,1
44,0525
55,2831
150
60
300
120
50
250
90
40
200
30
150
20
100
10
50
60
30
0
20
40
60
80
100
DISTR6
86,7699
91,5209
14,1507
82,2832
96,4717
120
80
20
40
60
80
0
0
100
20
40
60
80
100
0
120
300
180
160
100
250
150
80
200
120
60
150
90
40
100
60
20
50
30
0
0
0
0
20
40
60
VAR 5
Tema 3. Descripción numérica
80
100
0
20
40
60
VAR 6
40
80
100
60
80
100
VAR 4
200
40
20
VAR 3
VAR 2
80
DISTR8
50,0
50,1535
15,0
39,8085
60,0592
160
0
0
VAR 1
120
DISTR7
49,1235
47,9288
42,5122
2,51195
97,5952
40
0
0
DISTR5
50,0
50,4052
25,0
26,2216
73,4258
0
0
20
40
60
VAR 7
80
100
0
20
40
60
80
100
VAR 8
52
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración de la complementariedad de la descripción numérica y gráfica.
Tratar de asociar los histogramas y los resúmenes estadísticos de posición y dispersión.
Comprobar que las distribuciones unimodales se reconocen mejor.
DISTR1
Average
50,7611
Median
52,1207
Std. Dev. 28,1797
Q1
25,3621
Q3
74,543
DISTR2
13,2301
8,47915
14,1507
3,52832
17,7168
DISTR3
24,1104
21,1166
15,0
13,5156
31,1129
DISTR4
50,0
49,3649
12,1
44,0525
55,2831
150
60
300
120
50
250
90
40
200
30
150
20
100
10
50
60
30
0
20
40
60
80
100
DISTR6
86,7699
91,5209
14,1507
82,2832
96,4717
120
80
20
40
60
80
0
0
100
20
40
60
80
100
0
120
300
180
160
100
250
150
80
200
120
60
150
90
40
100
60
20
50
30
0
0
0
0
20
40
60
VAR 5
Tema 3. Descripción numérica
80
100
0
20
40
60
VAR 6
40
80
100
60
80
100
VAR 4
200
40
20
VAR 3
VAR 2
80
DISTR8
50,0
50,1535
15,0
39,8085
60,0592
160
0
0
VAR 1
120
DISTR7
49,1235
47,9288
42,5122
2,51195
97,5952
40
0
0
DISTR5
50,0
50,4052
25,0
26,2216
73,4258
0
0
20
40
60
VAR 7
80
100
0
20
40
60
80
100
VAR 8
52
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TIPIFICACIÓN y ESTANDARIZACIÓN DE VARIABLES:
Consiste en centrar la variable en el origen y escalarla en unidades de desviación típica:
x1, x2, ..., xn muestra. Media
z1, z2, ..., zn muestra tipificada:
X
y Desviación típica S.
x X
zi  i
,i  1,2,...n Media 0 y Desviación Típica 1.
S
Características de una muestra tipificada:
- Una muestra tipificada tiene media 0 y desviación típica 1: Z  0; SZ  1
- Una variable tipificada no tiene unidades. Los valores representan el número de desviaciones típicas
que se alejan de la media y en qué dirección (a través del signo).
- La estandarización facilita la comparación de la forma de las distribuciones, ya que elimina los
factores posición y dispersión.
- La desigualdad de Chebyshev nos dice que
1
 0.7500 , k  2
22
1
fr   3  Z  3  1  2  0.8888 , k  3
3
1
fr   4  Z  4   1  2  0.9375, k  4
4
1
fr   5  Z  5  1  2  0.9600 , k  5
5
1
fr   6  Z  6   1  2  0.9722 , k  6
6
fr   2  Z  2   1 
Tema 3. Descripción numérica
53
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
MEDIDAS DE FORMA DE UNA DISTRIBUCIÓN
ASIMETRÍA o SKEWNESS: Coeficiente de asimetría muestral:
x1, x2, ..., xn muestra. X , S : Media y Desviación típica. z1, z2, ..., zn muestra tipificada
Coeficiente de asimetría:
CA 
1
n
n
 (x
i 1
i
S
 X )3
3

1
n
n
z
i 1
3
i
Interpretación:
 Distribución simétrica (colas iguales):
CA
0
 Distribución asimétrica positiva (cola derecha más pesada):
CA>0
 Distribución asimétrica negativa (cola izquierda más pesada): CA<0.
Justificación: La función x3 es impar y por lo tanto
 Si la distribución es simétrica (aprox.) los sumandos zi3 positivos y negativos se compensan.
 Si la cola derecha es más pesada, los valores zi3 positivos pesarán más que los negativos.
 Si la cola izquierda es más pesada, los valores zi3 negativos pesarán más que los positivos.
Ejemplos:
 Las variables que son el resultado de sumar muchas causas independientes y de contribución
pequeña, presentan distribuciones simétricas.
 Los tiempos de espera, tiempos de vida, etc. presentan habitualmente fuerte asimetría positiva.
Tema 3. Descripción numérica
54
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
APUNTAMIENTO o KURTOSIS: Coeficiente de apuntamiento o kurtosis
Medida de la importancia de las colas de la distribución.
x1, x2, ..., xn muestra. X , S : Media y Desviación típica. z1, z2, ..., zn muestra tipificada
Coeficiente de apuntamiento o kurtosis:
CK 
1
n
n
 (x
i 1
i
S
 X )4
4

- Interpretación:
 Distribución normal: (Mesocúrtica)
CK
3
 Distribución más apuntada: (Leptocúrtica)
CK>3
 Distribución menos apuntada: (Platicúrtica)
CK<3.
1
n
n
z
i 1
4
i
Justificación: La función x4 crece muy rápidamente a partir de x=1, por tanto, al calcular el momento
de orden 4 de los datos tipificados, el resultado está muy influenciado por las observaciones más
alejadas:
 Si la distribución tipificada tiene colas pesadas, (observaciones z
i muy alejadas de la parte
4
central) esas observaciones aportarán sumandos zi muy grandes.
 Si la distribución no tiene colas, los sumandos zi4 serán pequeños.
Si la distribución no es simétrica, la interpretación del coeficiente de kurtosis se hace complicada.
Algunos autores y programas utilizan CK3, con lo que el elemento de comparación es el 0.
En control de calidad, las distribuciones muy apuntadas presentan problemas de artículos fuera de los
límites de especificación con más frecuencias que las normales.
Tema 3. Descripción numérica
55
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración del significado de asimetría y apuntamiento o kurtosis.
Todas las distribuciones representadas tienen media 0 y desviación típica 1.
 Ordena las distribuciones según el grado de asimetría. Varias de ellas tienen coeficientes similares.
 Indica qué variables tendrían asimetría claramente positiva o negativa, o próxima a 0.
 Separa las distribuciones aproximadamente simétricas y unimodales y ordénalas por el grado de
apuntamiento.
80
100
80
240
120
200
100
160
80
120
60
80
40
40
20
60
60
40
40
20
20
0
0
-5
-3
-1
1
3
0
-5
5
-3
-1
1
3
5
0
-5
-3
VAR 2
VAR 1
160
-1
1
3
5
120
240
100
100
200
80
80
160
60
120
40
80
-3
-1
1
VAR 5
Tema 3. Descripción numérica
3
5
1
3
5
20
40
40
0
-5
-1
60
40
0
-3
VAR 4
120
80
-5
VAR 3
20
0
0
-5
-3
-1
1
VAR 6
3
5
-5
-3
-1
1
VAR 7
3
5
-5
-3
-1
1
3
5
VAR 8
56
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: Ilustración del significado de asimetría y apuntamiento o kurtosis.
Todas las distribuciones representadas tienen media 0 y desviación típica 1.
 Ordena las distribuciones según el grado de asimetría. Varias de ellas tienen coeficientes similares.
 Indica qué variables tendrían asimetría claramente positiva o negativa, o próxima a 0.
 Separa las distribuciones aproximadamente simétricas y unimodales y ordénalas por el grado de
apuntamiento.
asim. positiva moderada
asim. positiva extrema
asimétricas
simétricas
80
100
80
240
120
200
100
160
80
120
60
80
40
40
20
60
60
40
40
20
20
0
0
-5
-3
-1
1
3
-5
5
-3
-1
160
1
3
5
0
-5
-3
VAR 2
mínimo
VAR 1
2º mayor
0
-1
1
3
5
120
240
100
100
200
80
80
160
60
120
40
80
-3
-1
1
3
VAR 5
5
1
3
5
20
40
40
0
-5
-1
60
40
0
-3
VAR 4
120
80
-5
VAR 3
20
0
0
-5
-3
-1
1
3
VAR 6
asim. negativa moderada
mayor
(máximo)
5
-5
-3
-1
1
3
5
-5
-3
-1
1
3
5
VAR 8
VAR 7
asim. negativa extrema
3º mayor
apuntamiento
Tema 3. Descripción numérica
56
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DIAGRAMAS DE CAJA: BOX-PLOTS.
Resumen “rápido” de una distribución de frecuencias de una muestra utilizando cinco estadísticos:
los cuartiles: Q1, Me, Q3 y las observaciones extremas: Máximo y Mínimo.
Se completa con unos límites (LI, LS), (inferior y superior):
Datos fuera de (LI, LS) son posibles datos anómalos (outliers), errores de medición o de tecleado, etc.
Límite inferior:
Límite superior:
LI = Q11.5(Q3Q1)
LS = Q3+1.5(Q3Q1)
Para datos normales, fr(LI, LS)99%.
Caja: Q1, Me, Q3. (contiene el 50% de datos)
Patas: mínxi: xiLI, máxxi: xiLS. (cada pata contiene el 25% de los datos)
El box-plot aporta información rápida sobre posición, dispersión y forma de la distribución.
0
2
4
6
RATE
Tema 3. Descripción numérica
8
10
6
8
10
12
14
16
TRKS
57
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Frequency Tabulation for SALARY
-------------------------------------------------------------------------------Lower
Upper
Relative
Cumulative Cum. Rel.
Class
Limit
Limit
Midpoint
Frequency Frequency Frequency
Frequency
-------------------------------------------------------------------------------1
10000,0
12500,0
11250,0
9
0,1957
9
0,1957
2
12500,0
15000,0
13750,0
11
0,2391
20
0,4348
3
15000,0
17500,0
16250,0
7
0,1522
27
0,5870
4
17500,0
20000,0
18750,0
6
0,1304
33
0,7174
5
20000,0
22500,0
21250,0
5
0,1087
38
0,8261
6
22500,0
25000,0
23750,0
4
0,0870
42
0,9130
7
25000,0
27500,0
26250,0
3
0,0652
45
0,9783
8
27500,0
30000,0
28750,0
1
0,0217
46
1,0000
Percentiles
Summary Statistics
12
10
1,0% = 10535,0
5,0% = 11417,0
10,0% = 11767,0
25,0% = 13245,0
30,0% = 13677,0
40,0% = 14861,0
50,0% = 16436,0
60,0% = 17949,0
70,0% = 19800,0
75,0% = 20872,0
90,0% = 24170,0
95,0% = 25685,0
99,0% = 27837,0
Average = 17270,2
Median = 16436,0
Variance = 2,22466E7
Standard deviation = 4716,63
Minimum = 10535,0
Maximum = 27837,0
Range = 17302,0
Lower quartile = 13245,0
Upper quartile = 20872,0
Interquartile range = 7627,0
Skewness = 0,518932
Kurtosis = -0,784589
8
6
4
2
0
1
1,8
2,2
2,6
SALARY
1
Tema 3. Descripción numérica
1,4
1,4
1,8
2,2
SALARY
2,6
3
(X 10000)
3
(X 100
58
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Frequency Tabulation for WEIGHT (Cardata)
-------------------------------------------------------------------------------Lower
Upper
Relative
Cumulative Cum. Rel.
Class
Limit
Limit
Midpoint
Frequency Frequency Frequency
Frequency
-------------------------------------------------------------------------------1
1750,0
2000,0
1875,0
22
0,1419
22
0,1419
2
2000,0
2250,0
2125,0
29
0,1871
51
0,3290
3
2250,0
2500,0
2375,0
16
0,1032
67
0,4323
4
2500,0
2750,0
2625,0
26
0,1677
93
0,6000
5
2750,0
3000,0
2875,0
19
0,1226
112
0,7226
6
3000,0
3250,0
3125,0
14
0,0903
126
0,8129
7
3250,0
3500,0
3375,0
13
0,0839
139
0,8968
8
3500,0
3750,0
3625,0
8
0,0516
147
0,9484
9
3750,0
4000,0
3875,0
5
0,0323
152
0,9806
10
4000,0
4250,0
4125,0
2
0,0129
154
0,9935
11
4250,0
4500,0
4375,0
1
0,0065
155
1,0000
Percentiles
Summary Statistics
1,0% = 1760,0
5,0% = 1875,0
10,0% = 1975,0
25,0% = 2144,0
30,0% = 2205,0
40,0% = 2400,0
50,0% = 2620,0
60,0% = 2767,5
70,0% = 2950,0
75,0% = 3070,0
90,0% = 3530,0
95,0% = 3830,0
99,0% = 4080,0
Count = 155
Average = 2673,02
Median = 2620,0
Variance = 361374,0
Standard deviation = 601,144
Minimum = 1755,0
Maximum = 4360,0
Range = 2605,0
Lower quartile = 2144,0
Upper quartile = 3070,0
Interquartile range = 926,0
Skewness = 0,545929
Kurtosis = -0,520033
30
25
20
15
10
5
0
1750 2000 2250 2500 2750 3000 3250 3500 3750 4000 4250 4500
WEIGHT
1750
Tema 3. Descripción numérica
2250
2750
3250
WEIGHT
3750
4250
4750
59
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS
media
0,05939
0,06047
-0,06722
0,02525
0,06011
-0,04799
30
30
20
10
10
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
-EXPONENCIAL
40
20
10
0
D.T.
1,04678
1,04115
0,83109
0,87335
0,95499
1,00638
Skewness Kurtosis
0,04216 -0,10087
-0,04259 -1,20470
1,27951
1,46917
-1,46087
2,79646
1,29590
2,01373
-0,25662
1,53852
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
NORMAL
GAMMA
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
DOBLE EXPONENCIAL
Box-and-Whisker Plot
percentage
percentage
30
RIQ
1,41807
1,78006
1,07816
1,10832
1,24452
1,01170
40
36
32
28
24
20
16
12
8
4
0
percentage
20
0
rango
5,62290
3,44756
4,19515
5,63447
5,10518
7,63452
percentage
40
percentage
40
mediana
0,06996
0,04452
-0,32299
0,30059
-0,16929
0,00136
percentage
VAR1
VAR2
VAR3
VAR4
VAR5
VAR6
-5 -4 -3 -2 -1 0 1 2 3 4 5
EXPONENCIAL
Tema 3. Descripción numérica
-5 -4 -3 -2 -1 0 1 2 3 4 5
UNIFORME
-5
-4
-3
-2
-1
0
1
2
3
4
5
60
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS
media
0,05939
0,06047
-0,06722
0,02525
0,06011
-0,04799
30
20
4
10
0
20
0
-EXPONENCIAL
40
D.T.
1,04678
1,04115
0,83109
0,87335
0,95499
1,00638
Skewness Kurtosis
0,04216 -0,10087
-0,04259 -1,20470
1,27951
1,46917
-1,46087
2,79646
1,29590
2,01373
-0,25662
1,53852
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
NORMAL
GAMMA
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
DOBLE EXPONENCIAL
Box-and-Whisker Plot
percentage
percentage
30
20
10
0
40
36
32
28
24
20
16
12
8
4
0
10
-5 -4 -3 -2 -1 0 1 2 3 4 5
RIQ
1,41807
1,78006
1,07816
1,10832
1,24452
1,01170
percentage
30
rango
5,62290
3,44756
4,19515
5,63447
5,10518
7,63452
percentage
40
percentage
40
mediana
0,06996
0,04452
-0,32299
0,30059
-0,16929
0,00136
percentage
VAR1
VAR2
VAR3
VAR4
VAR5
VAR6
-5 -4 -3 -2 -1 0 1 2 3 4 5
EXPONENCIAL
Tema 3. Descripción numérica
4
-5 -4 -3 -2 -1 0 1 2 3 4 5
UNIFORME
-5
-4
-3
-2
-1
0
1
2
3
4
5
60
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS
media
0,05939
0,06047
-0,06722
0,02525
0,06011
-0,04799
40
40
20
10
10
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
-EXPONENCIAL
40
3
40
36
32
28
24
20
16
12
8
4
0
D.T.
1,04678
1,04115
0,83109
0,87335
0,95499
1,00638
Skewness Kurtosis
0,04216 -0,10087
-0,04259 -1,20470
1,27951
1,46917
-1,46087
2,79646
1,29590
2,01373
-0,25662
1,53852
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
NORMAL
GAMMA
40
35
30
25
20
15
10
5
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
DOBLE EXPONENCIAL
Box-and-Whisker Plot
percentage
percentage
30
20
10
0
5
30
RIQ
1,41807
1,78006
1,07816
1,10832
1,24452
1,01170
percentage
4
20
0
rango
5,62290
3,44756
4,19515
5,63447
5,10518
7,63452
percentage
percentage
30
mediana
0,06996
0,04452
-0,32299
0,30059
-0,16929
0,00136
percentage
VAR1
VAR2
VAR3
VAR4
VAR5
VAR6
-5 -4 -3 -2 -1 0 1 2 3 4 5
EXPONENCIAL
Tema 3. Descripción numérica
3
4
5
-5 -4 -3 -2 -1 0 1 2 3 4 5
UNIFORME
-5
-4
-3
-2
-1
0
1
2
3
4
5
60
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJERCICIO: ASOCIAR ESTADÍSTICOS, HISTOGRAMAS Y BOX-PLOTS
media
0,05939
0,06047
-0,06722
0,02525
0,06011
-0,04799
40
40
20
10
10
-5 -4 -3 -2 -1 0 1 2 3 4 5
0
-EXPONENCIAL
40
3
20
10
-5 -4 -3 -2 -1 0 1 2 3 4 5
EXPONENCIAL
Tema 3. Descripción numérica
40
36
32
28
24
20
16
12
8
4
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
40
35
30
25
20
15
10
5
0
D.T.
1,04678
1,04115
0,83109
0,87335
0,95499
1,00638
Skewness Kurtosis
0,04216 -0,10087
-0,04259 -1,20470
1,27951
1,46917
-1,46087
2,79646
1,29590
2,01373
-0,25662
1,53852
40
35
30
25
20
15
10
5
0
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
NORMAL
GAMMA
percentage
percentage
30
0
5
30
RIQ
1,41807
1,78006
1,07816
1,10832
1,24452
1,01170
percentage
4
20
0
rango
5,62290
3,44756
4,19515
5,63447
5,10518
7,63452
percentage
percentage
30
mediana
0,06996
0,04452
-0,32299
0,30059
-0,16929
0,00136
percentage
VAR1
VAR2
VAR3
VAR4
VAR5
VAR6
6
-5 -4 -3 -2 -1 0 1 2 3 4 5
DOBLE EXPONENCIAL
Box-and-Whisker Plot
1
2
2
3
4
5
-5 -4 -3 -2 -1 0 1 2 3 4 5
UNIFORME
6
-5
-4
-3
-2
-1
0
1
2
3
4
5
60
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TRANSFORMACIONES DE VARIABLES
Transformaciones lineales: Y=aX+b
 Son simples cambios de localización y escala. Se
usan para eliminar cifras no significativas y
expresar los datos en unidades más sencillas de interpretar.
 Conservan la estructura (forma) original de los datos (simetría y puntos raros).
 Los estadísticos se transforman de manera sencilla: Si a>0, entonces:
Media
Mediana
Cuantiles
Y  aX  b
Varianza
MeY  aMe X  b Desv. Típica
S Y2  a 2 S X2
Asimetria
CAY  CAX
S Y  aS X
Kurtosis
CK Y  CK X
y p  ax p  b
 Datos agrupados en clases de igual longitud: clases transformadas tienen la misma longitud.
Longitud:
Ingresos:
Temper
atura:
Peso:
metros  centímetros:
Y=100X
miles  millones: Y=X/1000
ºC  ºF: Y=32+1.8X
gramos  error respecto a un valor p0 : Y=X-p0
Transformaciones no lineales (monótonas): Y=h(X)
Cambian la estructura (forma) original de los datos.
Se usan para promover simetría integrar puntos atípicos de las colas.
Las más usadas son: Y= log X; Y=1/X; Y=X1/2; Y=X2.
Los estadísticos no se transforman de manera sencilla: Ej: log( X )  log( X )
Datos agrupados en clases iguales: Las clases transformadas no tienen la misma longitud.
Acidez:
Concentración
de H+  pH:
Consumo de combustible: litros/100 Km.  Km/litro:
Tema 3. Descripción numérica
Y=log10X.
Y=100/X
61
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLOS:

















Variable ACTP (Highway)
12
18
10
15
8
12
6
9
6
4
3
2
0
0
0
10
20
30
40
50
60
40
50
60
0
1
2
ACTP
0
10
20
30
0
1
Variable MPG (Cardata) )
40
40
30
30
5
2
3
4
5
20
20
10
10
0
0
4
10
20
30
40
6
50
15
20
25
30
MPG
35
40
45
50
8
10
12
14
16
235,2146/MPG=litros/100Km
MPG
10
Tema 3. Descripción numérica
4
log(ACTP)
ACTP

















3
log(ACTP)
5
7
9
11
13
15
17
235,2146/MPG=litros/100Km
62
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
30
25
EJEMPLO: Población de las comarcas catalanas.
Comarca
Población Log10.| Comarca
Población Log10.
Alta Ribagorça
4
0,602 | Berguedà
41
1,613
Pallars Sobirà
5
0,699 | Garrotxa
45
1,653
Val d’Aran
6
0,778 | Montsià
54
1,732
Priorat
10
1,000 | Baix Ebre
64
1,806
Solsonès
11
1,041 | Alt Penedès
67
1,826
Cernanya
12
1,079 | Garraf
72
1,857
Terra Alta
13
1,114 | Anoia
80
1,903
Pallars Jussà
14
1,146 | Baix Empordà
84
1,924
Segarra
17
1,230 | Alt Empordà
85
1,929
Conca de Barberà
18
1,255 | Selva
91
1,959
Alt Urgell
19
1,279 | Osona
115
2,061
Garrigues
20
1,301 | Gironès
122
2,086
Pla de l’Estany
21
1,322 | Baix Camp
124
2,093
Ribera d’Ebre
24
1,380 | Tarragonès
149
2,173
Ripollès
28
1,447 | Bages
150
2,176
Pla d’Urgell
29
1,462 | Segrià
159
2,201
Urgell
30
1,477 | Vallès Oriental
240
2,380
Baix Penedès
33
1,519 | Maresme
270
2,431
Alt Camp
34
1,531 | Baix Llobregat
583
2,766
Noguera
36
1,556 | Vallès Occid.
621
2,793
20
15
10
5
0
0
200
400
600
800
Población
0
200
400
600
800
Población
12
10
8
6
4
2
0
0
0,5
1
1,5
2
2,5
3
LOG10(Población)
0
0,5
1
1,5
2
2,5
3
LOG10(Población)
Tema 3. Descripción numérica
63
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
30
25
EJEMPLO: Población de las comarcas catalanas.
Comarca
Población Log10.| Comarca
Población Log10.
Alta Ribagorça
4
0,602 | Berguedà
41
1,613
Pallars Sobirà
5
0,699 | Garrotxa
45
1,653
Val d’Aran
6
0,778 | Montsià
54
1,732
Priorat
10
1,000 | Baix Ebre
64
1,806
Solsonès
11
1,041 | Alt Penedès
67
1,826
Cernanya
12
1,079 | Garraf
72
1,857
Terra Alta
13
1,114 | Anoia
80
1,903
Pallars Jussà
14
1,146 | Baix Empordà
84
1,924
Segarra
17
1,230 | Alt Empordà
85
1,929
Conca de Barberà
18
1,255 | Selva
91
1,959
Alt Urgell
19
1,279 | Osona
115
2,061
Garrigues
20
1,301 | Gironès
122
2,086
Pla de l’Estany
21
1,322 | Baix Camp
124
2,093
Ribera d’Ebre
24
1,380 | Tarragonès
149
2,173
Ripollès
28
1,447 | Bages
150
2,176
Pla d’Urgell
29
1,462 | Segrià
159
2,201
Urgell
30
1,477 | Vallès Oriental
240
2,380
Baix Penedès
33
1,519 | Maresme
270
2,431
Alt Camp
34
1,531 | Baix Llobregat
583
2,766
Noguera
36
1,556 | Vallès Occid.
621
2,793
20
15
10
5
0
0
200
400
600
800
Población
0
200
400
600
800
Población
12
10
8
6
4
2
0
0
0,5
1
1,5
2
2,5
3
LOG10(Población)
0
0,5
1
1,5
2
2,5
3
LOG10(Población)
Tema 3. Descripción numérica
63
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 4.- DESCRIPCION DE DATOS
BIVARIANTES. ASOCIACIÓN
- Tabulación de datos bivariantes.
- Asociación entre variables cualitativas.
- Representaciones gráficas.
- Asociación entre atributos y variables numéricas:
Comparación de grupos mediante box-plots.
- Asociación entre variables cuantitativas:
Regresión y Correlación. (Se verá más adelante)
Tema 4. Descripción de datos bivariantes. Asociación.
64
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DESCRIPCIÓN DE DATOS BIVARIANTES
En la mayoría de los problemas de interés interviene más de una variable y se dispone de un conjunto
de datos bivariantes o multivariantes.
EJEMPLOS:
 Datos de Automóviles (Cardata).
 Datos Compañía Informática (Salary).
 Datos de Autopistas (Highway).
Las descripciones univariantes de las variables que intervienen en estos problemas dan información
incompleta de los mismos.
El mayor interés está en el estudio de la asociación (relaciones) entre las distintas variables.
Descubrir la existencia de cierto tipo de relaci ón entre una variable Y y otra variable X, puede
permitir a veces atribuir parte de la variabilidad de la primera a la variabilidad de esta última.
Las técnicas estadísticas para estudiar la asociación entre variables tienen importantes aplicaciones a
la vigilancia y control de los procesos industriales y de servicios: Identificar las causas asignables
de la variabilidad de las características de calidad de productos y servicios permite controlar y reducir
la variabilidad.
Las técnicas descriptivas para medir la asociación entre variables varían según el tipo de variables a
estudiar.
Tema 4. Descripción de datos bivariantes. Asociación.
65
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
1. ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS O ATRIBUTOS: ANALISIS DE
TABLAS DE CONTINGENCIA O COMPAR ACIÓN DE GRUPOS RESPECTO A UNA
VARIABLE CUALITATIVA.
 En el fichero de DATOS DE PROFESIONALES
INFORMÁTICOS se quiere saber si el
desempeño de puestos de responsabilidad (MGT) está asociado al nivel de formación (EDUC).
2. ASOCIACIÓN ENTRE UNA VAR. NUMÉRICA Y UNA CUALITATIVA: COMPARACIÓN
DE GRUPOS RESPECTO A UNA VARIABLE CUANTITATIVA.
 En el fichero de DATOS DE AUTOMÓVILES se quiere conocer si existen diferencias en el peso
de los vehículos (WEIGHT) según el origen (ORIGIN).
 En el fichero de DATOS DE PROFESIONALES INFORMÁTICOS se quiere estudiar cómo
repercute el desempeño de un cargo de responsabilidad (MGT) sobre las retribuciones (SALARY).
 En el fichero de DATOS DE AUTOPISTAS se quiere es tudiar si existen diferencias en la tasa de
accidentes (RATE) según el tipo de autopista (TYPE)
3. ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: REGRESIÓN Y CORRELACIÓN.
 En el fichero de DATOS DE AUTOMÓVILES se quiere estudiar la relación entre consumo de
combustible (MPG) y peso (WEIGHT).
 En el fichero de DATOS DE PROFESIONALES INFORMÁTICOS se quiere estudiar la relación
entre retribuciones (SALARY) y experiencia (EXPRNC).
 En el fichero de DATOS DE AUTOPISTAS se quiere es tudiar la incidencia que tiene el límite de
velocidad (SLIM) sobre la tasa de accidentes (RATE).
Tema 4. Descripción de datos bivariantes. Asociación.
66
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TABULACIÓN DE DATOS BIVARIANTES. DISTRIBUCIÓN CONJUNTA Y MARGINALES
X e Y variables que toman un número “pequeño” de valores o categorías:
 Categorías “naturales” en el caso de Var. Cualitativas o Var. Discretas (con pocos valores).
 Intervalos de clase (datos agrupados) en caso de Var. Continuas (o discretas con muchos valores).
Categorías de la variable X: A1, A2, …, Ar. Categorías de la variable Y: B1, B2, …, Bc.
Arreglo matricial de las frecuencias.
Tablas de contingencia:
Datos originales
Caso
1
2
…
…
n-1
n
X
Ai
A2
…
…
Ar
A3
Frecuencias Absolutas
Y
Bj
B1
…
…
Distribución conjunta
nij = Número de casos con
X=Ai e Y=Bj i=1, …, r, j=1, …, c
Bc
B4
c
r
j 1
i 1
r
c
r
c
i 1
j 1
ni .   nij ; n. j   nij ;   nij   ni .   n. j  n
Tema 4. Descripción de datos bivariantes. Asociación.
i 1 j 1
Y
X
A1
…
Ai
…
Ar
B1
n11
…
ni1
…
nr1
n.1
…
…
…
…
…
…
…
Bj
n1j
…
nij
…
nrj
n.j
…
…
…
…
…
…
…
Bc
n1c
…
nic
…
nrc
n.c
n1.
…
ni.
…
nr.
n
Distribuciones marginales
ni. = Número de casos con X=Ai , i=1, …, r
n.j = Número de casos con Y=Bj , j=1, …, c
67
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TABULACIÓN DE DATOS BIVARIANTES. DISTRIBUCIÓN CONJUNTA Y MARGINALES
Frecuencias Absolutas
Y
X
A1
…
Ai
…
Ar
B1
n11
…
ni1
…
nr1
n.1
…
…
…
…
…
…
…
Bj
n1j
…
nij
…
nrj
n.j
…
…
…
…
…
…
…
Bc
n1c
…
nic
…
nrc
n.c
Frecuencias Relativas
n1.
…
ni.
…
nr.
n
Distribución conjunta
f ij 
nij
n
, i  1,...r , j  1,..., c.
Y
X
A1
…
Ai
…
Ar
B1
f11
…
fi1
…
fr1
f.1
…
…
…
…
…
…
…
Bj
f1j
…
fij
…
frj
f.j
…
…
…
…
…
…
…
Bc
f1c
…
fic
…
frc
f.c
f1.
…
fi.
…
fr.
1
Distribuciones marginales
r
c
 f
i 1 j 1
Tema 4. Descripción de datos bivariantes. Asociación.
ij
r
c
i 1
j 1
  f i.   f . j  1
c
ni .
f i. 
  f ij , i  1,...r
n
j 1
r
n. j
f. j 
  f ij , j  1,..., c.
n
i 1
68
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DISTRIBUCIONES de FRECUENCIA CONDICIONADAS
Distribuciones de Y condicionada por X
Frecuencias Condicionadas
Y
X
A1
…
Ai
…
Ar
B1
f1/1
…
f1/i
…
f1/r
…
…
…
…
…
…
Bj
fj/1
…
fj/i
…
fj/r
…
…
…
…
…
…
Bc
fc/1
…
fc/i
…
fc/r
f j/i
1
…
1
…
1
La tabla se lee por filas:
Familia de r distribuciones condicionadas de
la variable Y a cada valor de X=Ai, i=1,…,r.
Distribución de Frecuencias de Y
condicionada por X=Ai
f ij
 B j  n ij
 fr 


A
i 
ni.
f i.

Y
X  Ai
j  1,..., c
i  1,..., r
fj/i= frecuencia relativa de Bj condicionada por Ai
= frecuencia relativa de los casos con Y=Bj entre los que tienen X=Ai.
Tema 4. Descripción de datos bivariantes. Asociación.
69
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DISTRIBUCIONES de FRECUENCIA CONDICIONADAS
Distribuciones de X condicionada por Y
Frecuencias Condicionadas
Y
X
A1
…
Ai
…
Ar
B1
f1/1
…
fi/1
…
fr/1
…
…
…
…
…
…
Bj
f1/j
…
fi/j
…
fr/j
…
…
…
…
…
…
Bc
f1/c
…
fi/c
…
fr/c
1
…
1
…
1
fi / j
La tabla se lee por columnas:
Familia de c distribuciones condicionadas de
la variable X a cada valor de Y=Bj, j=1,…,c.
Distribución de Frecuencias de X condicionada
por Y=Bj
X
f ij
 n ij
 Ai
 fr 


B
j 
n. j f . j

Y  Bj
j  1,..., c
i  1,..., r
fi/j= frecuencia relativa de Ai condicionada por Bj
= frecuencia relativa de los casos con X=Ai entre los que tienen Y=Bj.
Tema 4. Descripción de datos bivariantes. Asociación.
70
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
ASOCIACIÓN ENTRE VARIABLES CUALITATIVAS
Asociación o Dependencia: Distribuciones condicionadas muy diferentes entre sí. (tanto Y/X como X/Y)
EJEMPLO: X=Línea de fabricación (L1, L2, L3); Y= Tipo de defecto (D1, D2, D3)
Frecuencias Absolutas
Frecuencias Relativas
Distrib. Condicionadas Y/X
D1 D2 D3 Tot
D1 D2 D3 Tot
D1 D2 D3
L1 7 39 7
53
L1 0,03 0,19 0,03 0,26
L1 0,13 0,74 0,13 1,00 L2 55 8 12
75
L2 0,27 0,04 0,06 0,37
L2 0,73 0,11 0,16 1,00 L3 10 4 59
73
L3 0,05 0,02 0,29 0,36
L3 0,14 0,05 0,81 1,00 Tot 72 51 78 201
Marg 0,36 0,25 0,39 1,00 Tot 0,36 0,25 0,39 1,00
Las distribuciones condicionadas son muy diferentes. Las variables muestran una fuerte dependencia.
Independencia: Distribuciones condicionadas muy parecidas entre sí. (tanto Y/X como X/Y)
fi / j 
f ij
f. j
 f i.
i  1,..., r
j  1,..., c

f ij  f i .  f . j
i  1,..., r
j  1,..., c
EJEMPLO: X=Género (Varón, Mujer); Y= Calificación en Estadística (Susp, Aprob, Notable o más)
Frecuencias Absolutas
Frecuencias Relativas
Distrib. Condicionadas Y/X
S A N Tot
S
A
N Tot
S
A
N
V 31 45 14 90
V 0,21 0,30 0,09 0,60
V 0,34 0,50 0,16 1,00 M 21 29 10 60
M 0,14 0,19 0,07 0,40
M 0,35 0,48 0,17 1,00 Marg 0,35 0,49 0,16 1,00 Tot 52 74 24 150
Tot 0,35 0,49 0,16 1,00
Las distribuciones condicionadas son prácticamente iguales.
Tema 4. Descripción de datos bivariantes. Asociación.
71
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Estudio realizado sobre una muestra de
200 trabajadores de una empresa para
determinar en qué medida el hábito de fumar es
tá asociado con el absentismo laboral. Sólo se
consideran bajas no ocasionadas por accidentes laborales.
X = Hábito de fumar (F = Fumador, NF = No Fumador). Variable cualitativa nominal.
Y = Absentismo: (B = Bajo, M = Medio, A = Alto).
Variable cualitativa ordinal.
DISTRIBUCIÓN CONJUNTA Y DISTRIBUCIONES MARGINALES
Frecuencias Absolutas
Frecuencias Relativas
Y
Y
X
B
M
A
X
B
M
A
F
50 22
8
80
F 0.25 0.11 0.04 0.4
NF 110 8
2 120
NF 0.55 0.04 0.01 0.6
160 30 10 200
0.80 0.15 0.05 1
DISTRIBUCIONES CONDICIONADAS
Distribuciones de X/Y
Distribuciones de Y/X
Y
Y
X
B
M
A
X
B
M
A
F 0.3125 0.7333 0.8
F
0.625 0.275 0.10 1
NF 0.6875 0.2666 0.2
NF 0.9166 0.0666 0.0166 1
1
1
1
Las distribuciones condicionadas son muy heterogéneas e indican la existencia de una asociación
importante: Entre los fumadores el nivel de absentismo es globalmente mayor.
En este caso es más interesante estudiar Y/X. (Y es la var. dependiente y X la independiente)
Tema 4. Descripción de datos bivariantes. Asociación.
72
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
REPRESENTACIÓN GRÁFICA
Diagrama de Barras Múltiple
Mosaico
ABSENTISMO SEGÚN HÁBITO DE FUMAR
ABSENTISMO SEGÚN HÁBITO DE FUMAR
BAJO
MEDIO
ALTO
60
BAJO
MEDIO
ALTO
porcentaje
50
40
30
20
10
0
FUMADOR
NO FUMADOR
FUMADOR
NO FUMADOR
Perfiles de las filas
HÁBITO DE FUMAR SEGÚN ABSENTISMO
HÁBITO DE FUMAR SEGÚN ABSENTISMO
FUMADOR
NO FUMADOR
60
FUMADOR
NO FUMADOR
porcentaje
50
40
30
20
10
0
BAJO
MEDIO
ALTO
BAJO
MEDIO
ALTO
Perfiles de las columnas
Tema 4. Descripción de datos bivariantes. Asociación.
73
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Una empresa tiene 600 clientes clasificados en categorías según dos criterios, TIPO de
cliente (mayorista, minorista y detalle) y ZONA de residencia (norte, centro y sur).
Frecuencias absolutas
Norte Centro
nij
Mayorista
150
50
Minorista
40
110
Detalle
60
30
Total = n.j
250
190
Sur
20
50
90
160
Frecuencias relativas
Norte Centro
Sur
fij
Mayorista
0,25
0,08
0,03
Minorista
0,07
0,18
0,08
Detalle
0,10
0,05
0,15
Total = f.j
0,4167 0,3167 0,2667
=
Total ni.
220
200
180
600
=
Total fi.
0,3667
0,3333
0,3000
1,0000
Frecuencias condicionadas de las filas
fj / i
Mayorista
Minorista
Detalle
Marginal = f.j
Norte
0,6818
0,2000
0,3333
0,4167
Centro
0,2273
0,5500
0,1667
0,3167
Sur
Total
0,0909
1
0,2500
1
0,5000
1
0,2667
1
Frecuencias condicionales de las columnas
fi / j
Mayorista
Minorista
Detalle
Total
Norte
0,6000
0,1600
0,2400
1,0000
Centro
0,2632
0,5789
0,1579
1,0000
Sur Marginal = fi.
0,1250
0,3667
0,3125
0,3333
0,5625
0,3000
1,0000
1,0000
Se observa una fuerte asociación: La distribución del TIPO depende fuertemente de la ZONA
Tema 4. Descripción de datos bivariantes. Asociación.
74
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
DISTRIBUCIÓN DE ZONA SEGÚN TIPO
DISTRIBUCIÓN DE ZONA SEGÚN TIPO
25
Norte
Centro
Sur
20
porcentaje
Norte
Centro
Sur
15
10
5
0
Mayorista
Minorista
Detalle
Mayorista
Minorista
Detalle
Perfiles de las filas
DISTRIBUCIÓN DE TIPO SEGÚN ZONA
DISTRIBUCIÓN DE TIPO SEGÚN ZONA
25
Mayorista
Minorista
Detalle
20
porcentaje
Mayorista
Minorista
Detalle
15
10
5
0
Norte
Centro
Sur
Norte
Centro
Sur
Perfiles de las columnas
Tema 4. Descripción de datos bivariantes. Asociación.
75
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Estudio de la asociación entre MGT y EDUC (Salary)
Frecuencias Absolutas
0
1
Total
1
9
5
14
2
12
7
19
3
5
8
13
Total
26
20 46
Frecuencias relativas (porcentajes)
0
1
Total
1
19,57% 10,87% 30,43%
2
26,09% 15,22% 41,30%
3
10,87% 17,39% 28,26%
Total
56,52% 43,48% 100,00%
Condicionadas MGT por EDUC
0
1 Total
1
64,29% 35,71% 100%
2
63,16% 36,84% 100%
3
38,46% 61,54% 100%
Marginal 56,52% 43,48% 100%
Condicionadas EDUC por MGT
0
1 Marginal
1
34,62% 25,00% 30,43%
2
46,15% 35,00% 41,30%
3
19,23% 40,00% 28,26%
Total
100% 100% 100%
Hay una ligera asociación entre MGT y EDUC: MGT=1 abunda más en EDUC=3.
¿Dónde se dan las diferencias más relevantes?
Tema 4. Descripción de datos bivariantes. Asociación.
76
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EDUC según MGT
MGT según EDUC
30
25
20
15
10
20
0
0
MGT
1
1
Perfil de cada MGT
MGT según EDUC
1
2
Tema 4. Descripción de datos bivariantes. Asociación.
-
10
5
+
-
15
5
0
MGT
0
1
25
porcentaje
porcentaje
30
EDUC
1
2
3
2
EDUC
3
Perfil de cada nivel Educ
EDUC
0
1
3
MGT
1
2
3
EDUC según MGT
0
1
77
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
ASOCIACIÓN ENTRE VARIABLES CUANTITATIVA Y CUALITATIVA
Diagrama de Cajas Múltiple: Representación gráfica para valorar la asociación.
Ejemplo: SALARY (cuantitativa) frente a MGT y EDUC (cualitativas). Fichero Salary.
0x2
0
0x3
MGT
EDUC
MGTxEDUC
0x1
1
2
1x1
1x2
1
3
1x3
1
1,3
1,6
1,9
2,2
2,5
SALARY
2,8
(X 10000)
1
1,3
1,6
1,9
2,2
2,5
SALARY
2,8
(X 10000)
1
1,3
1,6
1,9
SALARY
2,2
2,5
2,8
(X 10000)
Se observan diferencias importantes en SALARY según MGT y EDUC.
Ejemplo: RATE y ADT (cuantitativas) frente a LANE (discreta)
2
LANE
LANE
2
4
4
0
2
4
RATE
6
8
10
0
20
40
ADT
60
80
No se observan diferencias importantes en RATE según LANE (2 y 4).
Hay diferencias importantes en ADT según LANE (2 y 4).
Tema 4. Descripción de datos bivariantes. Asociación.
78
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
FAI
FAI
PA
PA
TYPE
TYPE
Ejemplo: RATE y ADT (cuantitativas) frente a TYPE (cualitativa ordinal). Fichero Highway.
MA
MC
MA
MC
0
2
4
RATE
6
8
10
0
20
40
ADT
60
80
Ejemplo: Varios ejemplos con variables del fichero Cardata.
78
79
YEAR
ORIGIN
1
2
81
3
82
0
4
8
12
PRICE
16
(X 1000)
2
3
1700
0
4
15
25
8
12
35
45
PRICE
16
(X 1000)
1
ORIGIN
1
ORIGIN
80
2
3
2200
2700
3200
WEIGHT
3700
4200
4700
Tema 4. Descripción de datos bivariantes. Asociación.
MPG
55
79
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
ASOCIACIÓN ENTRE VARIABLES CUANTITATIVAS: REGRESIÓN Y CORRELACIÓN
La representación gráfica exploratoria más importante es le diagrama de dispersión.
26
ACCEL
23
20
17
14
11
15
25
35
MPG
45
55
Cuando la “nube de puntos” presente un aspecto lineal, veremos herramientas estadísticas para:
 Medir la intensidad de la asociación y
 Describir la tendencia mediante una ecuación lineal entre las variables.
Recta de Regresión: HORSEPOWER = 46,8351 + 0,273046*DISPL
Coeficiente de correlación: 0,817339
Coeficiente de correlación: -0,000948166
(X 1000)
16
150
45
120
90
60
MPG
12
PRICE
HORSEPOWER
180
8
0
0
100
200
300
400
DISPLACEMENT
Tema 4. Descripción de datos bivariantes. Asociación.
35
25
4
30
0
Recta de regresión: MPG = 55,8971 - 0,0101428*WEIGHT
Coeficiente de correlación: -0,829081
55
Recta de Regresión: PRICE = 4617,19 - 0,258836*MPG
15
15
25
35
MPG
45
55
1700
2200
2700
3200
3700
4200
4700
WEIGHT
80
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 5.- PROBABILIDAD
- Noción de modelo probabilístico.
- Experimento aleatorio. Variable aleatoria.
Terminología.
- Probabilidad.
- Reglas básicas del cálculo de probabilidades:
reglas de la adición, probabilidad
condicionada y regla de Bayes.
Tema 5. Probabilidad
81
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
NOCIÓN DE MODELO PROBABILÍSTICO
La Estadística Descriptiva nos ha permitido constatar la presencia de
variabilidad en multitud de
procesos de interés en el área de Ingeniería, mostrándonos además que variabilidad o aleatoriedad
no significa caos total. Hemos observado patrones comunes a muchas situaciones que en principio
no tenían nada en común. Estos patrones de regularidad obedecen a
modelos matemáticos
subyacentes a las poblaciones y las variables en estudio. Estos modelos se llaman indistintamente
modelos de probabilidad, modelos probabilísticos, distribuciones de probabilidad, ...
EJEMPLO: Los histogramas siguientes muestran diámetros interiores de arandelas fabricadas con
el propósito de que dichos diámetros midieran 1 cm. Inicialmente, se tomaron 3 muestras de 20
arandelas, luego 3 de 100 y finalmente otras 3 de 1000.
Diámetros interiores de 20 arandelas
Diámetros interiores de 20 arandelas
0.4
0.5
0.6
0.5
0.4
0.3
Diámetros interiores de 20 arandelas
0.4
0.3
fr.
fr. 0.2
fr. 0.3
0.2
0.2
0.1
0.1
0
0.1
0
97
98
Tema 5. Probabilidad
99
100
101
102
103
(X 0.01)
0
97
98
99
100
101
102
103
(X 0.01)
97
98
99
100
101
102
103
(X 0.01)
82
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Diámetros interiores de 100 arandelas
Diámetros interiores de 100 arandelas
Diámetros interiores de 100 arandelas
0.2
0.2
0.2
0.16
0.16
0.16
0.12
0.12
fr.
0.12
fr.
fr.
0.08
0.08
0.08
0.04
0.04
0.04
0
0
0
97
98
99
100
101
102
103
97
98
99
100
101
102
(X 0.01)
103
97
98
99
100
101
102
(X 0.01)
(X 0.01)
Diametros interiores de 1000 arandelas
Diámetros interiores de 1000 arandelas
0.12
0.12
0.1
0.1
0.08
0.08
103
Diámetros interiores de 1000 arandelas
0.1
0.08
0.06
fr.
fr. 0.06
fr.
0.06
0.04
0.04
0.04
0.02
0.02
0
0
96
98
Tema 5. Probabilidad
100
102
104
(X 0.01)
0.02
0
96
98
100
102
104
(X 0.01)
96
98
100
102
104
(X 0.01)
83
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: En cierto proceso de fabricación de artículos, éstos son catalogados como Defectuosos
o Aceptables. Si se extraen muestras de artículos, es imposible predecir el número de artículos que se
van a obtener de cada tipo, pero para muestras grandes y representativas se va perfilando una tasa
de defectos parecida para todas las muestras. Los gráficos siguientes muestran los resultados de tres
muestras de 20 artículos y luego de 100.
Muestra de 20 artículos
Muestra de 20 artículos
18
18
18
15
15
15
12
12
12
9
9
9
6
6
6
3
3
3
0
0
0
Aceptable
Aceptable
Defectuoso
Muestra de 200 artículos
Tema 5. Probabilidad
Muestra de 20 artículos
Defectuoso
Aceptable
Muestra de 200 artículos
Muestra de 200 artículos
200
200
200
160
160
160
120
120
120
80
80
80
40
40
40
0
0
0
Aceptable
Defectuoso
Aceptable
Defectuoso
Defectuoso
Aceptable
Defectuoso
84
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EJEMPLO: Los gráficos siguientes muestran datos procedentes de dos problemas tan dispares
como el estudio de diámetros de cojinetes y la longitud de fémur en fetos. A pesar de la diferente
naturaleza de ambos problemas, parecen presentar pautas de comportamiento comunes.
Longitudes de fémur en fetos de cierta edad.
muestra de 1000 fetos
Diametros de cojinetes
muestra de 1000 unidades
0.12
0.12
0.1
0.1
0.08
0.08
0.06
frec.0.06
0.04
0.04
0.02
0.02
0
0
4.97
Tema 5. Probabilidad
4.99
5.01
5.03
5.05
7.5
8.5
9.5
10.5 11.5 12.5 13.5
85
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
EXPERIMENTO ALEATORIO. VARIABLE ALEATORIA. TERMINOLOGÍA.
Experimento aleatorio: Se denomina genéricamente como experimento aleatorio a cualquier
experimento cuyo resultado es imposible conocer antes de cada repetición bajo condiciones
controlables idénticas. En este tipo de experiment os resulta imposible controlar completamente todas
las variables que influyen en el resultado y resumimos diciendo que éste “depende del azar” o “es
aleatorio”. (Ejemplos: Lanzar un dado y observar el resultado. Elegir un coche recién fabricado y
observar los defectos que presenta. Seleccionar una lámpara de una cadena de producción y observar
su duración…)
Variable aleatoria: Cualquier característica asociada a un experimento aleatorio. (Ejemplos:
duración de la lámpara, resultado del dado, nº de defectos del coche…) Cuando sólo estemos
analizando una característica o variable de un exper imento aleatorio, identificaremos el exp. aleatorio
con la variable aleatoria y nos referiremos indistintamente a cualquiera de ellos.
Ejemplos de experimentos aleatorios (y de variables):
- Juegos del azar cotidianos: Loterías, quinielas, ruletas ...
- Procesos de producción: Longitudes de piezas, duraciones de máquina s, número de defectos en lotes de
artículos ...
- Problemas biomédicos: Aplicación de un tratam iento a un paciente para estudiar s u evolución posterior;
medimos sus constantes vitales antes y después ...
- Problemas macroeconómicos: Evolución de la tasa de desempleo, del I.P.C., del déficit público ...
- Problemas microeconómicos: Demanda de un artículo en un establecimiento, número de clientes, volumen
de ventas de un comercio...
- Problemas sociológicos: Intención de voto, edad, sexo, nivel de es tudios, ingresos... dentro de difer entes
poblaciones o colectivos
Tema 5. Probabilidad
86
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Espacio muestral: Se denomina espacio muestral y se denot ará en adelante por E al conjunto de
resultados posibles al realizar un experimento aleatorio. Al realizar el experimento, resulta un punto
de este espacio muestral y sólo uno. Este conjunto tiene que estar definido sin ambigüedad en cada
experimento aleatorio que queramos estudiar.
Ejemplos:
Lanzamiento de una moneda:
=
E
C,X.
Sorteo del cupón de la O.N.C.E.:
=
E
00000, 00001,...., 99998, 99999.
Tomar N artículos y contar los Defectuosos:
E=0, 1, ..., N.
Llamadas telefónicas que se reciben en un día en una central: E=0, 1, 2, 3 ....
0,)
Duración de una lámpara:
=
E
Longitud (en cm) de piezas producidas en serie:
E=(a , b )
Suceso: Cada punto del espacio muestral es un Suceso Elemental. Más en general, se denomina
suceso a cualquier conjunto de resultados (puntos) del Espacio Muestral.
Se notan con mayúsculas: A, B, C...
Ejemplos de sucesos:
- Obtener C en el lanzamiento de una moneda (Suceso elemental)
- {Obtener Rojo y Par} en una tirada de ruleta.
- Obtener un número múltiplo de 10 en el sorteo de la O.N.C.E.
- Obtener más de 3 artículos defectuosos en una muestra de 100 artículos
- Duración menor de 100 horas en el funcionamiento de una lámpara.
- Obtener una pieza de longitud menor que 3 cm en un proceso de fabricación
- Obtener un individuo de más de 35 años que no fume en un estudio sociológico.
Tema 5. Probabilidad
87
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Sucesos elementales: Los formados por un solo punto del espacio muestral.
Sucesos compuestos: Son aquéllos formados por más de un punto del espacio muestral.
Suceso imposible: Se denota por  (conj. vacío) y representa a un suceso que nunca puede ocurrir.
Suceso seguro: Es otra forma de denominar al propio espacio muestral, E, que siempre ocurre.
Sucesos incompatibles: Aquéllos que no se pueden dar simultáneamente y que se representan
mediante conjuntos disjuntos. AB=.
Suceso elemental
*
Suceso compuesto
** * * *
** * * *
E
B
A
Sucesos incompatibles
Tema 5. Probabilidad
88
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
La expresión de los sucesos en términos conjuntistas nos permite realizar representaciones sencillas
mediante diagramas de Venn, así como utilizar la s operaciones habituales entre conjuntos (unión
intersección y complementación) y sus propiedades:
AB significa que se dan simultáneamente A y B. A veces se suprime el signo  y se escribe AB
A B significa que se da al menos uno de los dos sucesos A o B.
A (Complementario de A) significa que no ocurre A.
A
E
A
E
A AB
B
AB
Tema 5. Probabilidad
89
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
PROBABILIDAD
Asociada de una manera natural a la idea de experimento aleatorio, está la idea de probabilidad
como medida de la incertidumbre previa sobre la ocurrencia de los distintos sucesos de un
experimento aleatorio. En el lenguaje coloquial, usamos el término probabilidad para designar las
oportunidades relativas de unos sucesos respecto a otros, a la hora de ocurrir. Pero estas nociones
intuitivas requieren una formalización matemática para poder trabajar.
Definición: Una probabilidad sobre un experimento aleatorio es cualquier asignación de números a
los sucesos de dicho experimento, satisfaciendo las siguientes condiciones:
Regla 1.- A cualquier suceso A se le asigna un número P(A)0.
Regla 2.- La probabilidad del suceso seguro es P(E)=1.
Regla 3.- La probabilidad es aditiva:
si tenemos una colección de sucesos A1, ..., An, ... disjuntos dos a dos, entonces se tiene :

 
P  An    P ( An ).
 n1  n1
Tema 5. Probabilidad
90
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
REGLAS DE LA ADICIÓN
A partir de las tres reglas iniciales anteri ores, escribiendo los sucesos como uniones de
otros sucesos más sencillos, surgen los siguientes resultados:
P( A)  1  P ( A)
Probabilidad del complementario:
En particular, el suceso imposible verifica,
P()  0
Relación de inclusión: Si A y B son sucesos satisfaciendo AB, entonces se tiene:
P( A)  P( B), P( B  A)  P( B  A)  P( B)  P( A).
Probabilidad de la unión de dos sucesos: Si A y B son sucesos cualesquiera,
P ( A  B )  P ( A)  P ( B )  P ( A  B )
Tema 5. Probabilidad
91
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Si además A y B son sucesos incompatibles, se tiene:
P ( A  B)  P ( A )  P( B)
Probabilidad de la unión de tres sucesos:
Si A, B y C son sucesos cualesquiera,
P ( A  B  C )  P ( A )  P ( B)  P ( C )  P ( A  B)  P ( A  C )  P( B  C )  P ( A  B  C )
que si son sucesos disjuntos dos a dos se convierte en
P( A  B  C )  P ( A)  P ( B)  P ( C )
Probabilidad de la unión de n sucesos: si A1, ..., An son sucesos cualesquiera,
P( A1 ...  An ) 
Tema 5. Probabilidad
n
n
n
i 1
i j
i j k
 P( Ai )   P( Ai  A j )   P( Ai  A j  Ak )... ( 1)n 1 P( A1 ...  An )
92
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Las piezas producidas por una planta industrial pueden tener tres tipos de
defectos: A, B y C. Se sabe que un 10% de las piezas producidas presentan el defecto A;
un 8% el B; un 5% el C; un 2% A y B; un 0.5% A y C; un 1% B y C; y un 0.2% presentan
los tres defectos. Se elige al azar una pieza. Calcular:
a) Probabilidad de que no tenga ningún defecto.
b) Probabilidad de que tenga a lo sumo un defecto.
c) Probabilidad de que tenga exactamente dos defectos.
Solución: La situación planteada se refleja en el siguiente diagrama de Venn.
B
A
E
ABC
ABC
ABC
ABC
ABC
C
ABC
ABC
Tema 5. Probabilidad
ABC
93
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Los datos que se dan en el enunciado del problema son:
P(A)=0.1, P(B)=0.08, P(C)=0.05
P(AB)=0.02, P(AC)=0.005, P(BC)=0.01, P(ABC)=0.002
Aplicando las reglas de la adición, podemos probabilizar cada una de las ocho
zonas disjuntas que se muestran en el gráfico y que son intersecciones de tres de los
sucesos A, B, C o sus complementarios. Las probabilidades de estos sucesos son:
P( A  B  C )  0.002,
P( A  B  C )  0.008, P( A  B  C )  0.003, P( A  B  C )  0.018
P( A  B  C )  0.037, P( A  B  C )  0.077, P( A  B  C )  0.052
P( A  B  C )  0.803
Tema 5. Probabilidad
94
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
A partir de aquí, cualquier suceso del espacio se probabiliza usando la Regla 3
(aditividad) de la probabilidad:
a)
P( A  B  C )  0.803
b)


P ( A  B  C)  ( A  B  C)  ( A  B  C)  ( A  B  C) 
 0.077  0.052  0.037  0.803  0.969.
c)


P ( A  B  C )  ( A  B  C )  ( A  B  C )  0.008  0.003  0.018  0.029
Tema 5. Probabilidad
95
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
PROBABILIDAD CONDICIONADA
Cuando tenemos información parcial sobre el resultado del experimento, en términos de
que el resultado está dentro de un suceso B (Ejemplo: al lanzar dos dados, la suma es
mayor que 5), lo razonable es incorporar esa información y reasignar probabilidades.
Algunos sucesos que en principio podían ocurrir ahora son imposibles (ejemplo: doble 1)
otros ahora se convierten en seguros (si con tienen a B), otros cambian sus posibilidades,
etc… Esta reasignación la denotaremos por P(./B) (Probabilidad condicionada a B).
Ejemplo: siguiendo el gráfico, si sabemos que B ha ocurrido, la nueva asignación de
probabilidades deberá cumplir, entre otras cosas,
 
P A B  0,
 
P C B  1,
 
P D B  P( D), etc.
A
C
E
B
D
B debe pasar a ser el suceso seguro p(B/B)=1
Los sucesos elementales, {e}, que no están en B pasan a ser imposibles p({e}/B)=0
…y dentro de B se mantienen prob. proporcionales a las originales:
p({e}/B) = p({e})/p(B)
Tema 5. Probabilidad
96
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Definición: Si E es un experimento aleatorio
y A, B son sucesos cualesquiera con
P(B)>0, se define la probabilidad de A condicionada a B como:
 
P( A  B)
.
P AB 
P( B)
1.- La probabilidad condicionada satisface las Reglas 1, 2 y 3 de la probabilidad.
2.- La probabilidad condicionada que acabamos de definir realmente incorpora al modelo
la información de que B ha ocurrido.
Ejemplo: En el ejemplo anterior sobre piezas
pueden tener tres tipos de defectos A, B y C.
producidas por una planta industrial que
a) Hallar la probabilidad de que una pieza no tenga el defecto B, sabiendo que tiene el defecto A.
P(A  B)
0.02
P B   1  P B  1 
 1
 0.8
A
A


P( A )
0.1
 
b) Hallar la probabilidad de que una pieza que se sa be que no tiene ninguno de los defectos A y B,
tenga el defecto C.
0.037
  P ( A  B  C )  P ( A  B  C )  P( A  B  C ) 
P C
 0.044.
A  B
1  P( A  B) 1  01
.  0.08  002
P( A  B)
P( A  B)
Tema 5. Probabilidad
97
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
REGLAS DE LA MULTIPLICACIÓN
Si A y B son sucesos de un espacio muestral E con P(A)>0, P(B)>0, entonces:
 A,
P( A  B)  P( A) P B
 B
P( A  B)  P( B) P A
En general, salvo las indeterminaciones causadas por las divisiones por 0, se tiene:
A
.
 ... P An
P( A1  A2  ...  An )  P( A1 ) P A2  P 3



 A1   A1  A2 
 A1  A2  ...  An 1 
INDEPENDENCIA
Un suceso A es independiente de otro B, con p(B)>0
si la información de que ha ocurrido B no altera la probabilidad de A:
 B   P( A)
P A
Tema 5. Probabilidad
98
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Una reescritura de la definición anterior permite incluir el caso p(B)=0,
y ofrece una nueva regla de multiplicación, esta vez para sucesos independientes
P ( A  B)  P ( A) P( B).
Si A es independiente de B, B es independiente de A, por lo que en lo sucesivo
hablaremos de “dos sucesos independientes, A y B”.
Ejercicio: Comprobar que si dos sucesos A y B s on independientes, también lo son sus
complementarios y cada uno de ellos con el complementario del otro.
Es importante notar que la independencia entre sucesos es
una propiedad de la
probabilidad y no de los sucesos. Por ello no podemos dar una caracterización de la
independencia que se pueda representar mediante diagramas de Venn.
El concepto de independencia se generaliza a n sucesos:
A1, A2, ..., An son sucesos independientes si cumplen
   
P( Ai1  Ai2  ...  Air )  P( Ai1 ) P Ai2 ....P Air ,
i1 ,...ir   1,2,...n,r  2,3,..., n
Tema 5. Probabilidad
.
99
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo:
Un depósito de agua tiene dos dispositivos de seguridad, A y B, que impiden la llegada
de más agua cuando ésta alcanza cierto nivel. Ambos dispositivos funcionan
independientemente (en paralelo), estimándose que el dispositivo A funciona el 90% de
las ocasiones y el B el 70%. Calcular:
a) La seguridad del doble dispositivo en conjunto.
b) Probabilidad de que sólo funcione uno de los dispositivos.
Solución:
Llamaremos A al suceo “salta el dispositivo A” y B a “salta el dispositivo B”
a) La seguridad del dispositivo en conjunto es la probabilidad de que funcione alguno de
los dos dispositivos (AB), es decir
P(A  B)  P(A )  P(B)  P(A  B)  P(A)  P(B)  P(A )P(B)  0.9  0.7  0.63  0.97
b)
P (A  B)  (A  B)  P(A )  P(A  B)  P(B)  P(A  B)  0.9  0.63  0.7  0.63  0.34

Tema 5. Probabilidad

100
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
REGLA DE LAS PROBABILIDADES TOTALES
E
B
A1
A2
A3
...
An
n
A1, A2, ..., An sucesos que forman una partición de E:
A
i
 E,
Ai  A j  
si
i  j.
i 1
En determinados experimentos aleatorios pode mos distinguir “fases” o etapas sucesivas,
de forma que el resultado de cada fase determina las probabilidades en la fase siguiente.
Se conocen las probabilidades en cada fase:
- P(Ai), i=1, 2, ...
(probabilidades a priori en la fase 1)
- P(B/Ai), i=1, 2, ... (probabilidades condicionadas en la fase 2 conocido el resultado 1))
Combinando las dos reglas anteriores, se pueden obtener a partir de ellas:
- P(B)
(probabilidad incondicional en la fase 2)
- P(Ai/B), i=1, 2, ... (probabilidades a posteriori en la fase 1 conocida la fase 2).
Tema 5. Probabilidad
101
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Regla de las Probabilidades Totales:


P( B)   P( Aj B)   P( Aj ) P  B 
 Aj 
j
j
Regla de Bayes:
P( Ai ) P  B 
Ai 
P ( Ai B )
Ai 


P
.


B

  P( Aj B)
B 
P
A
P
(
)
j
j
 Aj 
j


Ejemplo: Tres máquinas (fase 1), A, B y C, fabrican la misma pieza con una producción aceptable
(fase2) del 70%, 80% y 90% respectivamente. Del total de la producción, el 40% corresponde a la
máquina A, el 45% a la B y el 15% a la C.
a) Hallar la probabilidad de que una pieza elegida al azar sea aceptable.
b) Hallar la probabilidad de que una pieza defectuosa proceda de la máquina A.
Solución:
Utilizaremos las notaciones siguientes para los sucesos:
A=piezas producidas por la máquina A; B=piezas producidas por la máquina B
C=piezas producidas por la máquina C y D=piezas defectuosas.
Datos:






P(A)=0.4 P(B)=0.45 P(C)=0.15, P D A  0.7, P D B  0.8, P D C  0.9.
Tema 5. Probabilidad
102
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Fase 1: máquina de procedencia A, B o C
conocemos p(A)=0.4 P(B)=0.45 P(C)=0.15
Fase 2: Defectuosa o No Defectuosa D, D
(probabilidades a priori 1)






Conocemos P D A  0.7, P D B  0.8, P D C  0.9. (probabilidades condicionadas 2/1)
a) Aplicando la regla de las Probabilidades Totales:
P( D)  P ( A) P D A  P ( B ) P D B  P ( C) P D C  0.4  0.7  0.45  0.8  015
.  0.9  0.775
(probabilidad incondicional fase 2)
b) Aplicando la Regla de Bayes:
 
 
P( A) P D A
0.4  0.3

P AD 
 0.53333
D
D
D
.  01
.
P( A) P A  P( B) P B  P( C) P C 0.4  0.3  0.45  0.2  015
(probabilidad a posteriori fase 1 / fase 2)
 
 
Análogamente, se tiene:
Tema 5. Probabilidad
 
0.015
09
 D   00..225
 0.4, P C  
 0.06666
D 0.225
PB
103
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 6.- VARIABLES ALEATORIAS
p2
- Variables aleatorias discretas.
- Variables aleatorias continuas.
- Parámetros poblacionales.
- Desigualdad de Chebychev, tipificación,
P(A)
p1
pn
p3
independencia, combinaciones lineales de
variables aleatorias.
a1
Tema 6. Variables aleatorias.
a2 a3 ...
A
an ...
104
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
VARIABLES ALEATORIAS DISCRETAS
La característica esencial de las variables aleatorias (v.a.) discretas es el papel crucial que juegan los
sucesos elementales o conjuntos unipuntuales en la construcción de los modelos probabilísticos
asociados a las mismas. Si denotamos por X a la v.a.
E  Soporte ( X )  a1 ,..., an ,...
pi  P ai   P ( X  ai ), i  1,2,..., n,..., pi  0,  pi  1.
i


P ( X  A)  P ( A)  P  ai    P ai    pi
ai  A
 ai  A  ai  A
- Existen infinitos modelos posibles para probabilizar cada v.a. discreta.
- La determinación del verdadero modelo por el que se rige una v.a. discreta concreta es
competencia de la Estadística Inferencial.
- En Cálculo de Probabilidades nos es dado el modelo y trabajamos con él.
- Observar el paralelismo entre las distribuciones de probabilidades discretas y las distribuciones
de frecuencias para variables cualitativas y variables numéricas discretas vistas en Est. Descript.
- El modelo probabilístico aparece como límite de la distribución de frecuencias.
Tema 6. Variables aleatorias.
105
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Por información estadística de años anteriores, se conoce que en cierta ciudad y durante el
mes de julio la variable aleatoria X = número de cortes parciales de suministro eléctrico por día
sigue la distribución de probabilidades:
e 1010 k
P( X  k ) 
, k  0,1,2,...
k!
a) Obtener la probabilidad de que determinado día se produzcan más de 21 cortes.
e 1010k
P( X  21)  
 1  0.999  0.001.
k!
k  22

b) Obtener la probabilidad de que se hayan producido exactamente 10 cortes sabiendo que se han
producido menos de 15.
e 10 1010
P( X  10)
0.126
!
P( X  10
 14 10

 0.137.
)
X  15 P( X  15)
e 10 10 k 0.917

k!
k 0
Tema 6. Variables aleatorias.
106
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
El modelo uniforme discreto.
Las v.a. con soporte finito son un caso particular de las v.a. discretas. Si, además, los posibles valores
de la v.a. son todos equiprobables, tenemos:
Sop( X )  E  a1 ,..., a n 
pi  P ( X  ai )  Pai   1n , i  1,2,..., n


n( A) Casos favorables
P ( A)  P  a i    P a i    1n 

n
Casos posibles
ai  A
 ai  A
 ai  A
- La Regla de Laplace resulta ser una aplicación inmediata del modelo discreto general.
Ejemplo: Un lote de 100 artículos contiene 10 defectuosos y los demás aceptables.
a) Se elige uno al azar, cuál es la probabilidad de que sea defectuoso.
Sea el suceso Ai se obtiene un defectuoso en la i-ésima extracción, i=1, 2. Al realizar la extracción al azar,
todos los artículos tienen la misma probabilidad de ser elegidos:
10
 0.1
100
b) Se eligen dos al azar y sin remplazamiento, cuál es la probabilidad de que ambos sean
defectuosos.
10 9
P ( A1  A2 )  P ( A1 ) P A2  

 0.009
A
1

100 99
P( A1) 
Tema 6. Variables aleatorias.
107
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
VARIABLES ALEATORIAS CONTINUAS
- Son las que toman valores de forma continua en un intervalo de la recta real.
- Aquí los puntos juegan un papel irrelevante, cediendo el protagonismo a los intervalos.
- En una v.a. continua, los puntos individuales son, en teoría, observables con probabilidad 0.
- La probabilización de las v.a. continuas se realiza por medio del área encerrada bajo curvas que
representan la densidad o frecuencia de aparición de observaciones en cada región de la recta.
Función de densidad
Función de densidad:
f ( x )  0, x  
P ( A) 

 f ( x)dx  1
 f ( x ) dx
A

P(A)
Función de distribución:
F ( x)  p( X  x)  
x

f(x)
f ( x)dx
A
- En Probabilidad estudiamos características y propiedades de diferentes modelos.
- Observa el paralelismo entre las distribuciones de probabilidades continuas (fun. de densidad), y las
distribuciones de frecuencias para variables continuas, representadas a través de los histogramas.
Tema 6. Variables aleatorias.
108
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Modelo uniforme. Se llama distribución uniforme continua a la ley de probabilidad dada
por una densidad constante sobre un intervalo (a, b).
 1
b  a

f ( x)  
0

x  ( a , b)
x  ( a , b)
Bajo este modelo la probabilidad de cada intervalo depende sólo de su amplitud, y no de su posición
dentro de (a,b). Es la versión continua de la Regla de Laplace, ya que refleja la equiprobabilidad de
las distintas regiones infinitesimales del intervalo (a, b):
f(x)
P( A) 
Casos favorables longitud ( A)


Casos posibles
longitud ( E )
1
longitud ( A)


dx
ba
ba
A
1
ba
P(A)
a
Tema 6. Variables aleatorias.
A
b
109
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
PARÁMETROS POBLACIONALES
- El comportamiento probabilístico de una v.a. está dado por su distribución de probabilidades.
- Unas pocas medidas numéricas o parámetros poblacionales resumen los aspectos más importantes
de dicha distribución de probabilidades: posición, dispersión, forma, etc.
- Facilitan la comparación entre modelos (distribuciones).
- El desarrollo de estos resúmenes numéricos es comp letamente paralelo al hecho en Est. Descriptiva,
cambiando aquí la muestra por la población, i.e., cambiando frecuencias por probabilidades.
Media o Esperanza Matemática. Se representa con =EX y es el promedio ponderado de los
valores del soporte de la variable teniendo en cuenta la probabilidad o la densidad de aparición de
cada uno de ellos. Corresponde a la idea de centro de gravedad de la distriucíon.
Recorrido o soporte de X:
Probabilidad o densidad:
Esperanza matemática:
Tema 6. Variables aleatorias.
Caso discreto
x1x2...xn....
pi  P( X  xi ), i  1,2,...
  EX   xi pi
i
Caso continuo
(a,b) intervalo de la recta real.
f ( x)  0

  EX 
 x f ( x) dx

110
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: El número de llamadas que llegan diariamente a cierta centralita telefónica en el intervalo
de tiempo de un minuto siguiente a las 10.00 horas es una v.a. X cuya ley de probabilidad esta dada
por:
k
3 3
P( X  k )  e
, k  0,1,2,... (Distribución de Poisson).
k!
Entonces, el número medio de llamadas que llegan en dicho intervalo es:


e 3 3 k
3k 1
3j
3
3
EX   kP ( X  k )   k
 3e 
 3e 
 3e  3 e 3  3.
k!
k 0
k 0
k  1 ( k  1)!
j0 j!


Distribucion de probabilidades discreta
Funcion de probabilidad
Distribución de probabilidades continua
Función de densidad
0.24
0.2
0.16
prob.
f(x)
0.12
0.08
0.04
0
Tema 6. Variables aleatorias.

=3
0
3
6
9
12
Número de llamadas en un minuto
15
-3
-1
1
3
Desviación del corte respecto al valor objetivo
111
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Esperanza matemática de una función de una v.a. Si
calcular la esperanza matemática de la v.a.
Y=h(X),
probabilidades de Y:
Caso discreto
Recorrido o soporte de X: x1x2...xn....
pi  P ( X  x i ), i  1,2,...
Probabilidad o densidad:
Esperanza matemática:
X es una v.a. y h: una función, para
Eh(X), no hace falta calcular la ley de
Caso continuo
(a,b) intervalo de la recta real.
f ( x)  0

Eh( X )   h( xi ) pi
Eh( X ) 
 h( x) f ( x)dx

i
Varianza y desviación típica: medidas de la dispersión de la distribución de probabilidades en torno
a la media.
Recorrido o soporte de X:
Probabilidad o densidad:
Caso discreto
x1x2...xn....
pi  P( X  xi ),i  1,2,...
Caso continuo
(a,b) intervalo de la recta real
f ( x)  0
Varianza:
Var ( X )   2  E ( X   ) 2
   ( xi   ) pi
 
Desviación típica: DT(X)=

Tema 6. Variables aleatorias.
2
2
i

2
2
(
x


)
f ( x )dx


 (x
i
i
  ) pi
2


2
(
x


)
f ( x )dx


112
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
- La varianza se mide en las unidades de la v.a. al cuadrado, la desviación típica en las de la variable.
- La siguiente expresión es útil en algunas ocasiones:
 2  E ( X 2 )  ( EX ) 2
Desigualdad de Chebyshev.
Si X es una v.a. con =EX y =DT(X), entonces para cada k>0, la versión poblacional es:
P  X    k  1 
P  X    k  1 

1
,
2
k
k
2
2
,
P  X    k 
P  X    k 

k
1
k2
2
2
.
Ejemplo: En un proceso de fabricación de piezas, la longitud es una v. a. con =3 cm y =0.0015
cm. Los límites de especificación son LIE=2.99 cm, LSE=3.01 cm.
¿ Qué proporción de piezas como mínimo cumple las especificaciones?.
Solución:
P X  ( LIE , LSE )   P(2.99  X  3.01)  P (0.01  X  3  0.01) 
0.01 
1

P X  3  0.01)   P X  3 
   1  0.01 2 
0.0015 
0.0015 

  1  0.0225  0.9775.
 1   0.00015
.01
2
El 97.75% de las piezas están dentro de los límites de especificación.
Tema 6. Variables aleatorias.
113
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Tipificación o estandarización de variables
X v.a. EX   ,  ( X )  
var iable tipificada : Z 
X 

EZ  0,  ( Z )  1
Independencia de variables aleatorias
X1 y X2, son independientes si lo son cualesquiera dos sucesos relacionados con cada una de ellas:
P( X 1  A)  ( X 2  B)   P( X 1  A) P( X 2  B),
para cualesquiera A y B. De forma análoga, la definición se generaliza a n variables aleatorias.
Combinaciones lineales de variables aleatorias
Dadas las variables aleatorias X1, X2, ..., Xn, cualquier operación realizada con ellas es una nueva v.a.
Nos interesan en particular las combinaciones lineales, y saber calcular sus medias y varianzas:
n
n
i 1
i 1
E ( a0   ai X i )  a0   ai EX i
En el caso de la varianza, si X1, X2, ..., Xn son v.a. independientes, entonces:
n
n
i 1
i 1
Var ( a0   ai X i )   ai2Var ( X i )
Tema 6. Variables aleatorias.
114
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 7.- LA DISTRIBUCIÓN NORMAL
- Introducción.
- Características numéricas.
- La normal estándar.
- Combinaciones lineales de v.a.
normales.
- Efecto límite central.
Tema 7. La distribución normal.
115
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
INTRODUCCIÓN
- Es la distribución continua más importante. Introducida por Gauss (1797).
- Aparece, entre otras, asociado a variables que miden características de interés de productos
fabricados en serie: El proceso de producción está programado para que la característica en cuestión
de cada artículo tome un valor ideal
, pero distintas causas no controlables (variaciones
imperceptibles en la materia prima, en la tensión eléctrica, en las condiciones ambientales,...) hacen
que el valor real de la característica no sea precisamente , sino un valor más o menos próximo.
- La justificación teórica del uso del modelo normal es el denominado “efecto límite central”.
Histograma de frecuencias ajustado
por una densidad normal
100
Ejemplo: A la derecha se muestran mediante un
histograma las longitudes de 500 piezas elegidas al azar
de la población de piezas producidas en una planta
metalúrgica. El valor ideal de la longitud es 3 cm (media
de la población) y la desviación típica 0.01 cm. En el
gráfico se incluye también el ajuste de los datos a una
distribución normal.
80
60
frecuencia
40
20
0
2.96
Tema 7. La distribución normal.
2.98
3.00
3.02
Longitud de piezas
3.04
116
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Definición: Se dice que una variable aleatoria X sigue la distribución normal de parámetros ( ),
R, >0, y se representa, XN(), si la distribución de probabilidades de X está dada por la
función de densidad
f ( x) 
Funciones de densidad de leyes normales
con distintas medias y varianza común
1
2 
e
 21
 
x 2

,  x .
N(0,1)
Funciones de densidad de leyes normales
N(0,1)
N(1,1)
con media común y distintas varianzas
N(0,2)
N(0,3)
N(2,1)
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
-5
-3
-1
1
X
Tema 7. La distribución normal.
3
5
-10
-6
-2
2
6
10
X
117
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Características numéricas de la distribución normal.
Media: EX=,
Mediana = Moda =
Desviación típica: DT(X) = ,
Varianza: Var(X) = 2.
Coeficiente de Asimetría=0 (independiente de  y de ).
Coeficiente de apuntamiento o Kurtosis = 3 (independiente de  y de ).
Tipificación de variables normales:
Normal típica o estándar es la distribución normal de media 0 y desviación típica 1, es decir N(0,1),
cuya densidad es
 12 x 2
1
f ( x) 
e
,    x  .
2
Para calcular probabilidades bajo la curva normal estándar es de gran utilidad el manejo de la función
de probabilidad acumulada (función de distribución), denotada habitualmente como (x):
 ( x)  P( X  x)  
x

Tema 7. La distribución normal.
1
2
e
 12 t 2
dt  P ( N (0,1)  x),
  x  
118
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Esta función está tabulada y permite de forma sencilla calcular la probabilidad de cualquier intervalo:
P ( a  X  b )  P ( X  b )  p ( X  a )   (b )   ( a )
Nótese que la tabla sólo contiene los valores de (x) para x>0. Para x<0 basta tener en cuenta que la
simetría de la ley normal implica que (-x) =(x).
Función de densidad
Funcion de distribución
1
F(x)
f(x)
 (b)
P(a,b)= (b)- (a)
P(a,b)
 (a)
a
Tema 7. La distribución normal.
b
0
a
b
119
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
- Si X es una v.a. N(0,1) entonces: Y = X, para R, >0, se distribuye YN()
- Recíprocamente, si Y es una v.a. con distribución N(), entonces se cumple que
Y-

 N( 0, 1) .
- Los resultados anteriores nos permiten calcular proba bilidades asociadas a cualquier normal a partir
de las tablas de la ley normal estándar.
 a -  X -  b - 
b - 
 a - 
P(a < X < b)  P


  
  

 







 
Ejemplo: Se sabe que la densidad X de ciertos ladrillos cuando se hornean a 125ºC es una variable
aleatoria normal con media 3.85 gr/cm3 y desviación típica 0.05 gr/cm3. Si los límites de tolerancia
son (3.75 gr/cm3 , 4.00 gr/cm3), hallar el porcentaje de ladrillos que se salen de dicho intervalo.
Solución:
 3.75 - 3.85 X -  4 - 3.85
 4 - 3.85
 3.75 - 3.85
P(3.75 < X < 4)  P


  
  (3)  ( 2)  0.9759
  
 0.05 
 0.05
 0.05 

0.05 
es decir, el 2.41% de la producción.
Tema 7. La distribución normal.
120
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Se sabe que los diámetros X de ciertas bolas de acero siguen una ley normal. Se estima que
el 5% de las bolas superan 5.01 mm y, por tanto, son defectuosas por ser demasiado grandes.
Análogamente, se estima que el 2.5% de las bolas tienen un diámetro por debajo de 4.99 mm y son
defectuosas por ser demasiado pequeñas. Obtener la media y la distribución de X.
Solución: Por los datos del problema sabemos que:
 X   5.01   

P( X  5.01)  P
  0.05
 
 
 X   4.99   

P( X  4.99)  P
  0.025
 
 
A partir de las tablas de la distribución normal obtenemos las ecuaciones:
5.01  
.
 165

4.99  

.
 196
Resolviendo estas ecuaciones, obtenemos: =5.00086 mm y  mm .
Tema 7. La distribución normal.
121
ESTADÍSTICA
GRADO EN INGENIERÍA MECÁNICA
GRADO EN INGENIERÍA QUÍMICA
Una simple comprobación nos proporciona las probabilidades de los siguientes intervalos de
frecuente aparición en Cálculo de Probabilidades y en Estadística. Si X es una v.a. N(), se tiene:
P     X       0.6826
P   2  X    2   0.9545
P   196
.   X    196
.    0.95
P   3  X    3   0.9973
P   165
.   X    165
.    0.90
P   2.58  X    2.58   0.99
Ejercicio: comparar con las acotaciones obtenidas a partir de la desigualdad de Chebyshev.
Combinaciones lineales de variables normales.
Una propiedad característica de la normalidad es las transformaciones lineales de normales
independientes resultan normales:
Si X1, ..., Xn son v.a. independientes con distribuciones
números reales cualesquiera, se tiene que
Xi  N (  i ,  i ), i  1,..., n ,
y
a0 , a1 ,..., an
son
a0  a1 X1 ...  an Xn  N ( ,  )
donde
  a0  a11 ...  an  n
y
 2  a12 12  ...  an2 n2    a12 12    an2 n2
Si X1, ..., Xn son v.a. dependientes, una combinación lineal puede no resultar Normal
Tema 7. La distribución normal.
115
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución Binomial:
Es frecuente que nuestro interés se centre en conocer cuántos Éxitos han ocurrido en un número
determinado de ensayos:
- Número de artículos defectuosos en una muestra de n artículos.
- Número de clientes que adquieren un producto de entre los n que entraron en el establecimiento.
- Número de siniestros entre los suscriptores de una póliza de seguro de vida.
El comportamiento probabilístico de todas estas variables es el de la variable
X= Número de Éxitos en n ensayos.
Definición: Se dice que una variable aleatoria X sigue la distribución binomial de parámetros n y p,
con n número natural y 0 < p < 1, y se representa X  b ( n , p ) si su distribución de probabilidades
es:
n
P ( X  k )    p k (1  p ) nk , k  0,1, 2, ..., n.
k 
Notar que:
a) La probabilidad de cualquier secuencia de n ensayos con k veces E y n-k veces F es, por la
independencia de los ensayos, P ( E , E , F , E , F ,..., E )  ppqpq... p  p k q n  k
b) El número de secuencias distintas de E y
n
n!
  =
.
k
k!
(n
k)!
 
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
F que se pueden formar con k E’s y n-k F’s es
130
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
En particular, si X 1, ..., X n son v.a. independientes con distribución Xi  N (  i ,  i ), i  1,..., n , se
tiene:
n
n

 n
2

X i  N   i ,   i  ,


i 1
 i 1
i 1
por lo que se dice que la ley normal es reproductiva respecto a los parámetros  y .
Si, además, X1, ..., Xn son v.a. independientes e igualmente distribuidas X i  N   ,   , i  1,..., n :
n
n
X
i 1
i


 N n , n 2 , o bien
 Xi  n
i 1
n
 N ( 0,1) .
De especial interés en Estadística es el estudio de la distribución del promedio de variables
normales independientes e igualmente distribuidas:
  
X   X i  N   ,  , o bien

n
i 1
1
n
Tema 7. La distribución normal.
n
n
X 

 N ( 0,1) .
123
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Una máquina automática llena cajas de detergente en polvo. El contenido envasado por
caja es una v.a. con ley N(4 Kg, 0.0125 Kg), con independencia entre las distintas cajas. Las cajas se
empaquetan en lotes de 4 cajas. Hallar la probabilidad de que un lote contenga menos de 15.950 Kg.
Solución: Llamemos Xi al contenido de la caja i, i=1,...,4, e Y= X1+...+ X4 al contenido total del lote.
Sabemos que la distribución de la v.a. Y es N(16 Kg, 0.025 Kg), De manera que
 Y -  15.95 - 16 
P(Y < 15.95)  P

    2  1   2  0.02275 .
 
0.025 
El efecto límite central.
Con el nombre de “efecto límite central” se cono ce el hecho de que cuando una variable X es el
resultado de la contribución de muchas causas X i i  1,..., n , que actúan independientemente y que
cada una de ellas tiene una contribución pequeña en el valor final de la variable, el modelo normal
suele ser un patrón razonable para el comportamiento de dicha variable.
La justificación matemática de este hecho se sustenta en el siguiente resultado que es uno de los más
importantes del Cálculo de Probabilidades:
Tema 7. La distribución normal.
124
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Teorema Central del Límite (TCL): Explica porqué la Normal aparece tanto en la naturaleza.
La idea es que si una variable es el resultado de muchos pequeños efectos aleatorios cualesquiera que
se acumulan, su distribución se parece a una Normal; tanto más cuanto mayor es el nº de efectos.
Ejemplo: errores de medida, talla de individuos, calibre de ejes …
Existen muchas versiones del TCL. Una de las más sencillas es ésta:
Si X1, ..., Xn son v.a. independientes con medias  i   y varianzas  i2 < M i  1,..., n , cuando n  
n
n
 n

aprox .
2
X i  N   i ,   i  .

 i 1

i 1
i 1
En particular, si X1, ..., Xn son v.a.i.i.d. con media y varianza comunes    ,  2   :
n
n
X
i 1

aprox .
i

 N n ,  n ;
escrito de otra forma:
 Xi  n aprox .
i 1
n
 N ( 0,1) .
La calidad de la aproximación es función del número n de variables que sumamos, pero también de
las distribuciones de los sum andos. Cuanto más próximas a la normal estén estas distribuciones,
podremos justificar la aproximación con valores más pequeños de n. En particular, sabemos que si las
distribuciones de los sumandos son normales, la normalidad se tiene de forma exacta para cualquier n.
El T.C.L se puede expresar también en términos de los promedios de las variables:
Xn 
Tema 7. La distribución normal.
1
n
n
X
i 1
 N ,
aprox .
i

n
,
o bien
X n   aprox .
 N ( 0,1) .

n
125
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Un aparato electrónico funciona con la energía que le suministra una batería que cuando
se agota es sustituida instantáneamente por otra idéntica y así sucesivamente. Las distintas baterías
tienen un funcionamiento independiente unas de otras. Se desconoce la ley de vida de las baterías,
pero se estima que la vida media es de 8 horas con una desviación típica de 2 horas. Obtener
aproximadamente la probabilidad de que con 100 baterías se pueda mantener funcionando el
aparato electrónico durante un mes (30 días o 720 horas).
Solución: Llamemos Xi a la duración de la batería i, i=1,...,100, e Y= X1+...+ X100 a la duración total
de las 100 baterías. Aplicando el TCL se tiene que
100

Y   X i  N 800,2 100
i 1
aprox .

con lo que la probabilidad pedida es , aproximadamente,
 Y -  720 - 800 

P(Y > 720)  P
  1    4    4   1 .
 
400 
Tema 7. La distribución normal.
126
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 8.- EL PROCESO DE BERNOULLI Y
SUS DISTRIBUCIONES ASOCIADAS
- Introducción.
- Distribución de Bernoulli.
- Distribución Binomial.
- Distribución Geométrica.
- Distribución de Pascal.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
127
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
INTRODUCCIÓN
- Multitud de fenómenos aleatorios de interés están basados en la repetición sucesivas veces y en
idénticas condiciones de un experimento aleatorio elemental con dos posibles resultados que se suelen
llamar Éxito y Fracaso. Este modelo se conoce como Proceso de Bernoulli.
- Sirve para modelar numerosas situaciones como, por ejemplo: Muestreo de piezas que salen de una
cadena de producción y que se catalogan como Defect uosas o Aceptables. Llegadas de clientes a un
establecimiento comercial que pueden Adquirir o No adquirir determinado producto o servicio.
Tomadores de determinada póliza de seguro de vida que pueden Fallecer o No fallecer en un año.
Lanzamiento de una moneda sucesivas veces.
Definición: Un Proceso de Bernoulli es la realización
sucesiva de un experimento aleatorio con las siguientes
características:
1.-El experimento aleatorio, denominado ensayo de
Bernoulli, tiene dos posibles resultados {E, F}.
2.-La probabilidad de Éxito p (y la de Fracaso 1-p = q)
permanece constante a lo largo del proceso.
3.-Los ensayos son independientes unos de otros.
Los resultados o trayectorias del proceso son
sucesiones de Éxitos y Fracasos del tipo,
E, E, F, E, F, F, F, E, E,...
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
Nº Éxitos
4
3
2
1
012 345
Ensayos
128
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución de Bernoulli:
La distribución de Bernoulli surge de asociar una variable X a cada ensayo de modo que
1
X 
0
si sale E
si sale F
Definición: Se dice que X sigue la distribución de Bernoulli de parámetro p (0 < p < 1) y se
representa X  B ( p ) si su distribución de probabilidades es: P ( X = 1) = p , P ( X = 0 ) = 1 - p .
x
1 x
En otras palabras: P ( X  x )  p (1  p ) ,
x  0,1
Características numéricas de la Distribución de Bernoulli:
Media:  = EX = p.
Varianza: 2 = Var(X) = p (1-p).
Desviación Típica:  = DT(X) = p (1  p ) .
Nótese que la varianza es máxima cuando p = q = 1/2.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
129
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución Binomial:
Es frecuente que nuestro interés se centre en conocer cuántos Éxitos han ocurrido en un número
determinado de ensayos:
- Número de artículos defectuosos en una muestra de n artículos.
- Número de clientes que adquieren un producto de entre los n que entraron en el establecimiento.
- Número de siniestros entre los suscriptores de una póliza de seguro de vida.
El comportamiento probabilístico de todas estas variables es el de la variable
X= Número de Éxitos en n ensayos.
Definición: Se dice que una variable aleatoria X sigue la distribución binomial de parámetros n y p,
con n número natural y 0 < p < 1, y se representa X  b ( n , p ) si su distribución de probabilidades
es:
n
P ( X  k )    p k (1  p ) nk , k  0,1, 2, ..., n.
k 
Notar que:
a) La probabilidad de cualquier secuencia de n ensayos con k veces E y n-k veces F es, por la
independencia de los ensayos, P ( E , E , F , E , F ,..., E )  ppqpq... p  p k q n  k
b) El número de secuencias distintas de E y F que se pueden formar con k E’s y n-k F’s es
n
n!
  =
.
k
k!
(n
k)!
 
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
130
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
He aquí la distribución binomial para n=10 y varios valores de p.
b(10,0.5)
b(10,0.2)
b(10,0.7)
0.3
0.25
0.4
0.25
0.2
0.3
0.2
0.2
pr.
pr.
pr.
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0
0
0
1
2
3
4
5
6
7
8
9 10
0
0
1
2
3
4
5
6
7
8
9 10
0
1
2
3
4
5
6
7
8
9 10
Características numéricas de la distribución binomial:
Media:  = EX = np.
Varianza: 2 = Var(X) = np(1-p).
Desviación Típica:  = DT(X) = np (1  p ) .
Nótese que la varianza es máxima cuando p = q = 1/2.
La distribución binomial es simétrica para p= 0.5. Si p<0.5 presenta asimetría positiva y si p>0.5
presenta asimetría negativa.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
131
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Cálculo de Probabilidades:
Para valores pequeños de n (n = 1, 2,..., 10), haremos el cálculo directamente. Para valores grandes de
n utilizaremos distintas aproximaciones que estudiaremos más adelante.
Ejemplo: Supongamos que la probabilidad de que cierta secretaria cometa algún error de tipografía
es 0.4 para cada página, y que hay independencia en la elaboración de páginas distintas. Se pide:
a) Hallar la probabilidad de que un escrito de 5 páginas no contenga errores de tipografía.
b) Hallar la probabilidad de que en dicho escrito haya al menos 3 páginas con errores.
Solución: Recorrer página por página el escrito para ver si está o no libre de errores de tipografía,
es un Proceso de Bernoulli con p = 0.4. Si definimos la variable aleatoria
X = número de páginas con errores en el escrito de 5 páginas,
se tiene que X  b ( n , p ) = b ( 5 , 0 . 4 ) .
Por consiguiente, las probabilidades pedidas son:
5
a ) P (X = 0) =  0.400.65  0.65  0.0778.
0
5
 5
5
b) P (X  3) = 1 - P(X  2) = 1 -  0.400.65 -  0.410.64 -  0.420.63 = 1 - 0.6826  0.3174.
0
1
 2
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
132
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Aproximación binomial-normal:
Para valores de n suficientemente grandes, las probabilidades binomiales se pueden aproximar por
medio de la distribución normal. Esta aproximación consiste en lo siguiente:
Si X es una v.a. con distribución binomial, Xb(n,p) y n es grande, (npq>5), entonces
X  np aprox .
 N ( 0, 1)
npq
Esta aproximación se basa en que la distribución bi nomial se puede escribir como suma de variables
de Bernoulli independientes. En efecto, si
Xb(n,p) entonces se puede considerar que
X 
n
X
i 1
i
,con X 1 ,..., X n v .a .i.i.d . B ( p ) y aplicar el Teorema Central del Límite teniendo en cuenta
que EXi = p, (Xi) = pq
Así, para obtener probabilidades acerca de la distribución binomial, utilizamos el razonamiento
siguiente:
 a - np X - np b - np 




   b - np    a - np .


P( a < X < b)  P
 npq
 npq 
 npq 
npq
npq 





Para valores pequeños de p ó q será viable la utilización de otra aproximación (aproximación
binomial-Poisson) que, de alguna manera, es complementaria de la aproximación binomial-normal.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
133
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Corrección por continuidad:
Al aproximar una distribución discreta por una c ontinua obtenemos las mismas aproximaciones para
probabilidades como P(a  X  b) y P(a < X < b) que pueden ser diferentes al ser X discreta y
también obtendríamos P(X = a) = 0 para los elementos del espacio muestral.
Para evitar estos problemas se emplea la denomin ada corrección por continuidad que consiste en
asignar al valor entero a el intervalo (a - 0.5, a + 0.5).
Como la distribución binomial asigna probabilidades positivas a los números enteros se trata de restar
o sumar 0.5 a los extremos de los intervalos según que sean extremos abiertos o cerrados para que los
valores enteros en el intervalo sean los mismos antes y después de hacer la corrección.
Así, por ejemplo:
 a  0.5  np X  np a  0.5  np 




   a  0.5  np    a  0.5  np 
P ( X  a)  Pa  0.5  X  a  0.5  P





npq
npq
npq 
npq 
npq 



 a  0.5  np X  np b  0.5  np 




   b  0.5  np    a  0.5  np 
P(a  X  b)  Pa  0.5  X  b  0.5  P





npq
npq
npq 
npq 
npq 







 a  0.5  np X  np b  0.5  np 
   b  0.5  np    a  0.5  np 
P (a  X  b)  Pa  0.5  X  b  0.5  P





npq
npq
npq 
npq 
npq 



La corrección por continuidad mejora las aproximaci ones y es conveniente utilizarla, especialmente
para valores de n no muy elevados.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
134
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: La tasa de artículos defectuosos producidos por una cadena de producción es del 2%.
a) Hallar la probabilidad de que en una muestra de 500 artículos extraídos al azar e
independientemente haya más de 20 defectuosos.
b) Hallar el tamaño que tiene que tener una muestra para que la probabilidad de que haya al menos
10 artículos defectuosos sea mayor que 0.95.
Solución: El muestreo de artículos en la cadena de producción se puede asimilar a un Proceso de
Bernoulli de parámetro p = 0.02. Por tanto, la variable aleatoria
X = Número de artículos defectuosos en una muestra de tamaño n
sigue una distribución binomial, b(n,p), con p = 0.02.
a) En este caso X  b ( 500 , 0 . 02 ), npq  9 . 8  5 luego usando la aproximación binomial-normal
 X  np 20  0.5  10 
  1   20  0.5  10   1   (3.35)  0.0004.
P( X  20)  P( X  20  0.5)  P

 npq

9 .8
9 .8




b) El tamaño de la muestra, n, es la incógnita en esta ocasión y, por tanto, no sabemos de antemano
si npq >5. La forma de proceder en estos casos es utilizar la aproximación, obtener el valor de n y
ver posteriormente si estaba justificado o no el uso de dicha aproximación. Buscamos n tal que
 X  np 10  0.5  0.02n 
  1   10  0.5  0.02n   0.95
P ( X  10)  P ( X  10  0.5)  P



 npq
0.0196n 
0.0196n 


 10  0.5  0.02n 
  0.05.

0.0196n 

Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
135
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Del interior de las tablas de la normal típica, obtenemos
10  0.5  0.02n
 1.65.
0.0196n
Planteamos una ecuación con la igualdad, y con ello obtenemos el tamaño de muestra mínimo que
garantiza la probabilidad 0.95 pedida. Con valores de n superiores también se supera, por supuesto,
la probabilidad 0.95.
10  0.5  0.02n 2  1.65 2  0.0196 n
0.0004 n 2  0.433361n  90.25  0
802.11
0.4333361  0.4333612  4  0.0004  90.25

n
281.29 .
2  0.0004
Una simple comprobación nos muestra que la solución del problema es n>802.11, es decir, n803.
La otra solución de la ecuación corresponde a la solución de la inecuación con el valor +1.65 en el
lado derecho.
Para finalizar debemos hacer la comprobación: npq = 15.7388 > 5, lo que valida la aproximación.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
136
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Un comerciante recibe artículos de un proveedor quien le anuncia que la tasa de artículos
defectuosos es inferior al 3%, cantidad que, de ser cierta, el comerciante considera razonable. Para
cerciorarse de la validez de la afirmación del proveedor, el comerciante somete a un control
exhaustivo una muestra de 200 artículos elegidos al azar e independientemente y adopta la siguiente
regla de decisión: Si aparecen 5 ó más artículos defectuosos en la muestra, cancela el pedido; en
caso contrario confirma el pedido.
a) Hallar la probabilidad de que un lote correcto (tasa<3%) sea rechazado por el control.
b) Hallar la probabilidad de no rechazar un lote con un tasa del 4% de defectuosos.
Solución: La inspección artículo por artículo es un proceso de Bernoulli con p = tasa de defectos. La
variable aleatoria de interés es:
X = Número de artículos defectuosos entre 200 inspeccionados.
Sabemos que su distribución de probabilidades es X  b ( n , p )  b ( 200 , p ).
a) Pongámonos en el caso extremo p = 0.03. En caso de que p < 0.03, la probabilidad pedida será
menor que la que obtengamos en el supuesto p = 0.03. Es decir, vamos a obtener el máximo de las
probabilidades de rechazar el lote para los distintos valores de p que no cumplen las especificaciones
del proveedor. Por tanto , X  b ( n , p )  b ( 200 , 0 . 03 ), npq  5 . 82  5 y está justificado el uso de la
aproximación binomial-normal para obtener la probabilidad pedida:
 X  np 5  0.5  6 
  1   5  0.5  6   1   ( 0.6217)  0.73.
P ( X  5)  P ( X  5  0.5)  P

 npq
5.82 
5.82 


Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
137
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
b) Supongamos ahora que la tasa de defectos fuese del 4%, entonces tenemos que
X  b ( n , p )  b ( 200 , 0 . 04 ), npq  7 . 68  5
y por tanto:
 X  np 4  0.5  8 
   4  0.5  8    (1.26)  0.104.
P ( X  4)  P ( X  4  0.5)  P

 npq
7.68 
7.68 


Este problema se puede enmarcar dentro de lo que llamaremos Contraste de Hipótesis que
estudiaremos más adelante. Se han establecido dos hipótesis sobre el modelo de probabilidad
desconocido para la población de artículos: Una es que se cumplen las especificaciones del
fabricante (p0.03) y la otra alternativa es que no se cumplen (p>0.03).
Para decidir sobre cuál de ellas es la válida se construye una regla de decisión basada en la
información obtenida a partir de una muestra aleatoria de artículos de la población. En este caso, la
regla de decisión es: Creemos las especificaciones del fabricante siempre que salgan menos de 5
artículos defectuosos en una muestra de 200; si, por el contrario, salen 5 o más, concluimos que el
fabricante está equivocado.
Lógicamente, cualquier regla de decisión de esta naturaleza, puede estar sujeta a dos tipos de
errores: Creer las especificaciones del fabricante cuando no sean correctas (apartado b) y no
creerlas cuando sean correctas (apartado a). La calidad de una regla de decisión estadística
dependerá, lógicamente, de que las probabilidades de cometer estos errores sean lo más pequeñas
que sea posible.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
138
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución Geométrica:
En ocasiones, nuestro interés en un Proceso de Bernoulli radica en conocer cuántos ensayos
transcurren hasta que se produce el primer Éxito:
- Número de artículos inspeccionados hasta que aparece el primer Defectuoso.
- Número de declaraciones auditadas por un inspector hasta que aparece la primera fraudulenta.
- Número de clientes que se informan de determinado producto hasta que uno lo adquiere.
En general, se trata de estudiar la variable aleatoria
X = Número de ensayos realizados hasta que aparece el primer Éxito.
Definición: Se dice que una variable aleatoria X sigue la distribución geométrica de parámetro p, con
0 < p < 1, y se representa X  g ( p ) si su distribución de probabilidades es:
P ( X  k )  PF , F ,, F , E   q  q    q  p  q k 1 p, para k  1, 2,...
La independencia entre los ensayos hace que también tengan distribución g ( p ) las variables
Y = Número de ensayos realizados desde el ensayo nº i hasta que aparece el primer E
Z= Número de ensayos que transcurren desde el Éxito nº i hasta el nº i+1,
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
139
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Falta de memoria de la ley geométrica.
Definición: Se dice que una v.a. X tiene la propiedad de “falta de memoria” (o “pérdida de
memoria”) si cumple

P X kn
La ley geométrica tiene esta propiedad ya que
X k
P X  k  n 
P X kn


X k
P X  k 




  P X  n 

i 1
i  k  n 1

i 1
i  k 1
q
q
qkn

 q n  P X  n 
k
q
p
p
Puede demostrarse además que es la única ley con espacio muestral k= 1, 2,… que tiene esta
propiedad.
La interpretación es clara: La probabilidad de que transcurran n ensayos sin aparecer un Éxito no
cambia con la información de que en los k ensayos precedentes tampoco había aparecido el Éxito. El
motivo es, obviamente, la independencia entre los ensayos.
Características numéricas de la Distribución geométrica:
Media:  = EX = 1/p.
Varianza: 2 = Var(X) = q/p2.
2
Desviación Típica:  = DT(X) = q p .
Nótese que la media es inversamente proporcional a la probabilidad de Éxito.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
140
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución de Pascal:
Una generalización natural de la ley geométrica surge de estudiar cuántos ensayos transcurren hasta
que se produce el Éxito número r:
- Número de artículos inspeccionados hasta que aparecen r Defectuosos.
- Número de declaraciones de I.V.A. auditadas por un inspector hasta que aparecen r fraudulentas.
- Nº de clientes que se informan de un producto hasta que se adquieren las r unidades disponibles.
En general, se trata de estudiar la variable aleatoria
X = Número de ensayos realizados hasta que aparece el r-ésimo Éxito.
Definición: Se dice que una variable aleatoria X sigue la distribución de Pascal de parámetros r y p,
con r entero positivo y 0 < p < 1, y se representa X  P (r, p ) si su distribución de probabilidades
es:
 k  1 r
P( X  k )  
 p (1  p ) k  r , k  r , r  1, r  2,...
 r  1
La independencia entre los ensayos hace que también tengan distribución P(r, p) las variables
Y = Número de ensayos realizados desde el ensayo nº i hasta que aparece r-ésimo E
Z= Número de ensayos que transcurren desde el Éxito nº i hasta el nº i+r.
Además obviamente g(p) es equivalente a P(1, p).
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
141
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Cálculo de Probabilidades:
Las probabilidades de la distribución de Pascal no s on fáciles de obtener directamente pero se pueden
obtener a partir de una distribución binomial como sigue:
Supongamos que tenemos una v.a. X con distribución de Pascal,
XP(r,p), es decir, X se puede
representar en un proceso de Bernoulli como
X = Número de ensayos hasta el r-ésimo Éxito.
Supongamos que deseamos obtener la probabilidad
P ( X  n) 
 k  1 r

 p (1  p ) k  r .

k  n 1  r  1 

Una forma alternativa a resolver dicho sumatorio es definir la variable aleatoria
Y = Número de Éxitos en n ensayos
Que, como sabemos, tiene distribución binomial b(n,p).
Como es equivalente decir que el Éxito número r tarda más de n ensayos en ocurrir, P(X > n), y
que decir que en n ensayos ocurren como mucho r-1 Éxitos, P(Y  r-1), tenemos que
 n k
P( X  n )  P(Y  r  1)     p (1  p ) n  k
k 0  k 
r 1
con lo que podemos utilizar todos los procedimientos disponibles para la distribución binomial a la
hora de calcular probabilidades para la distribución de Pascal.
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
142
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Características numéricas de la Distribución de Pascal:
Media:  = EX = r/p.
Varianza: 2 = Var(X) = rq/p2.
2
Desviación Típica:  = DT(X) = rq p .
Media y varianza son el resultado de multiplicar por r la media y la varianza de la distribución
geométrica. El número medio de ensayos hasta el éxito r es proporcional al número de éxitos buscado.
Ejemplo: En cierta factoría de montaje en serie se estima que el 30% de los días de trabajo se
produce algún paro parcial por averías menores y se supone que hay independencia entre lo que
ocurre en días distintos. Cada vez que se acumulan tres días con paros parciales, la empresa decide
hacer un paro total para poner a punto el sistema. Obtener la probabilidad de que transcurran más
de 10 días sin producirse un paro total.
Solución: Analizar día a día si se ha producido o no algún paro parcial es un Proceso de Bernoulli
de parámetro p = 0.3. Si definimos la v.a. X = Número de días que transcurren hasta el tercero con
paros parciales, tenemos que esta variable sigue la distribución de Pascal P(3,0.3).
Si consideramos Y = Número de Éxitos en 10 ensayos, tenemos que Y sigue la ley b(10,0.3) y la
probabilidad pedida es
10 
P ( X  10)  P (Y  2)    0.3k 0.710k  0.3828.
k 0  k 
2
Tema 8. El proceso de Bernoulli y sus distribuciones asociadas
143
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 9.- EL PROCESO DE POISSON Y
SUS DISTRIBUCIONES ASOCIADAS
- El proceso de Poisson
- Distribución de Poisson.
- Distribución exponencial.
- Distribución Gamma.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
144
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
El proceso de Poisson
El Proceso de Poisson se puede contemplar
como una generalización por continuidad del
Proceso de Bernoulli. Un Proceso de Bernoulli
se puede entender como la aparición a lo largo
del tiempo de sucesos (Éxitos) que pueden
ocurrir solo en tiempos que son múltiplos de
una cantidad fija. La generalización por
continuidad consiste en permitir que los sucesos
ocurran de manera continua a lo largo del
tiempo.
Sucesos
4
3
2
1
0 x1
x2
x3
x4
...
Tiempo
Aunque el soporte más común del Proceso de Poisson es el tiempo, el modelo sirve en general para la
aparición de sucesos sobre otros soportes continuos como la longitud, superficie, volumen...
Ejemplos de fenómenos aleatorios que se pueden modelar como un proceso de Poisson:
- Llegada de llamadas a una centralita telefónica a lo largo de un periodo de tiempo.
- Ocurrencia de accidentes de tráfico en un cruce de carreteras durante un periodo de tiempo.
- Emisión de partículas a lo largo del tiempo por un cuerpo radiactivo.
- Aparición de defectos de aislamiento en un cable eléctrico a lo largo de su longitud.
- Aparición de agujeros en láminas metálicas de poco espesor a lo largo de su superficie.
- Aparición de partículas en suspensión en una solución acuosa a lo largo de su volumen, etc.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
145
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Definición: Un Proceso de Poisson es la aparición aleatoria de sucesos a lo largo del tiempo
obedeciendo a las siguientes pautas:
1.- En un intervalo de tiempo de longitud diferencial t, t+t) sólo se puede producir a lo sumo un
suceso.
2.- El número medio de sucesos por unidad de tiempo, , denominado tasa del proceso, se mantiene
constante a lo largo del tiempo.
3.- El número de sucesos que ocurren en intervalos de tiempo disjuntos son variables aleatorias
independientes.
El Proceso de Poisson lleva asociadas diversas distribuciones de probabilidades correspondientes a
diversas variables de interés: Número de sucesos ocurridos en un intervalo de tiempo, Tiempo de
espera del primer suceso, Tiempo de espera del r-ésimo suceso.
Distribución de Poisson:
Definición: Se dice que una variable aleatoria X sigue la distribución de Poisson de parámetro 
 > 0), y se representa
X  (  )
si su distribución de probabilidades es:
e   k
P( X  k ) 
, k  0,1, 2, 3,...
k!
Para valores se dispone de una tabla con las probabilidades acumuladas.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
146
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
De este modo, X = Nº de sucesos ocurridos en un intervalo de tiempo de longitud t
es una variable aleatoria con distribución de Poisson cuyo parámetro es la tasa del proceso por la
longitud del intervalo:
X  ( t ) .
En un intervalo de tiempo de longitud unitaria, la distribución del número de sucesos ocurridos es de
Poisson con parámetro igual a la tasa del proceso.
Los gráficos siguientes muestran distintas distribuciones de Poisson para diferentes valores del
parámetro .
Distribución de Poisson
(5)
Distribución de Poisson
(1)
Distribución de Poisson
(0.1)
0.18
0.4
1
Distribución de Poisson
(25)
0.08
0.15
0.8
0.06
0.3
0.12
0.6
pr. 0.09
pr. 0.2
pr.
pr. 0.04
0.4
0.06
0.02
0.1
0.2
0.03
0
0
0
0
1
2
3
4
5
6
7
8
9 10
0
1
2
3
4
5
6
Tema 9. El proceso de Poisson y sus distribuciones asociadas
7
8
9 10
0
0
5
10
15
20
25
0
10
20
30
40
50
147
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Las llamadas que llegan a cierta centralita telefónica en determinado periodo de tiempo
siguen un Proceso de Poisson de tasa 180 llamadas a la hora. La capacidad de la central telefónica
permite atender un máximo de 5 llamadas por minuto. Calcular:
a) La probabilidad de que en un minuto se reciban más llamadas de las que se pueden atender.
b) La probabilidad de que en dos minutos se produzcan exactamente 4 llamadas.
c) El número medio de minutos por hora en que la centralita podrá atender todas las llamadas.
d) La probabilidad de que no se produzca saturación en ningún minuto a lo largo de una hora.
Solución: En un proceso de Poisson el número de sucesos que se producen en un intervalo de tiempo
sigue la ley de Poisson con parámetro igual a la tasa del proceso ( = 180 llamadas/hora = 3
llamadas/minuto) por la longitud del intervalo.
a) X = Número de llamadas que se producen en un minuto. X(t) = (31)=(3).
e 3 3k
P( X  5)  1  P( X  5)  1  
 1  0. 916  0. 084
!
k
k 0
5
b) X = Número de llamadas en un intervalo de 2 minutos. X(t) = (32)=(6).
e 6 6 4
 0.134
P( X  4) 
4!
c) Cada minuto, observamos si se produce saturación o no (E = No saturación, F = Saturación). Si
X = Número de minutos de una hora en los que no se satura la centralita,
X  b(n,p) = b(60,0.916)  EX = np = 600.916 = 54.96.
 60
60
0
d) Con la variable X anterior, P( X  60)   60 0.916 0.084  0.005 .
Tema 9. El proceso de Poisson y sus distribuciones asociadas
148
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Características numéricas de la Distribución de Poisson:
Media:  = EX = .
Varianza:  2 = Var(X) = .
Desviación Típica:  = DT(X) =
.
Aproximación binomial-Poisson
Las condiciones ideales de utilización de la apr oximación binomial-Poisson son, de alguna manera,
complementarias a las que permiten utilizar la aproximación binomial-normal:
Si X es una v. a. con distribución binomial,
“moderado” 1 < np < 10, entonces se tiene:
Xb(n,p) con n grande, p pequeño (p < 0.1) y np
X  b ( n, p )  (  ) con
  np.
La aproximación es igualmente aplicable para valores grandes de p (p > 0.9). Se trata simplemente de
intercambiar el papel del Éxito y el Fracaso.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
149
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Un auditor sospecha que en un conjunto muy grande de facturas, aproximadamente el 5%
son fraudulentas.
a) Se extrae al azar una muestra de 50 facturas. Obtener la probabilidad de que haya más de 5
fraudulentas.
b) Calcular de qué tamaño tiene que ser una muestra de facturas para que la probabilidad de
contener al menos 3 facturas fraudulentas sea superior a 0.85.
Solución: Supongamos que se trata de un muestreo con reemplazamiento. Así pues, la inspección
factura a factura es un Proceso de Bernoulli con probabilidad de Éxito p = 0.05.
a) Sea X = Número de facturas fraudulentas en una muestra de 50 facturas.
Xb(50,0.05). Como n=50 es grande, p=0.05 < 0.1 y 1<np = 2.5<10, podemos aproximar por
Poisson:
5
 50 
e 2.5 2.5 k
k
50 k
P( X  5)  1  P( X  5)  1    0.05 0.95
 1 
 1  0.958  0.042.
k
!
k
k 0 
k 0

5
b) Sea X = Número de facturas fraudulentas en una muestra de n facturas.
Por las condiciones del problema, n deberá de ser un valor alto, lo cual hace pensar en utilizar de
nuevo la aproximación binomial-Poisson. Ahora tenemos que utilizar las tablas a la inversa para
obtener el valor de  que hace que una variable aleatoria () satisfaga P(X3) 0.85. A partir de
ahí, obtenemos la solución del problema utilizando que  = np, es decir, n = /p. Buscaremos el
menor valor de  que satisface la condición pedida, lo cual nos proporciona el tamaño de muestra
menor que hace que P(X3) 0.85, o, lo que es lo mismo, que P(X≤2)≤0.15.
Así, encontramos que para =5, X(5) satisface P(X≤2)=0.125. Por lo tanto n 5/0.05=100.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
150
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Aproximación Poisson-normal
Para valores de  suficientemente grandes, la distribución de Poisson se puede aproximar por medio
de la distribución normal. Esta aproximación consiste en lo siguiente:
Si X es una v.a. con distribución de Poisson, X() y >5 (criterio orientativo) se tiene
X   aprox.
 N ( 0,1)

Esta aproximación se basa en que la distribución de Poisson se puede escribir como suma de variables
de Poisson independientes. En efecto, si
X() entonces se puede considerar que
n
X   X i , con X 1 , ..., X n v. a. i. i. d .   n  y aplicar el Teorema Central del Límite teniendo en
i 1

cuenta que EXi  n ,  ( Xi ) 

n.
De este modo, para obtener probabilidades acerca
razonamiento siguiente:
de la distribución de Poisson, utilizamos el
 a-λ 
 b-λ 
 a-λ X-λ b-λ 
P( a < X < b)  P


 .
  Φ
  Φ
λ
λ
 λ
 λ
 λ
Análogamente a lo explicado en relación a la ap roximación binomial-normal, es conveniente también
ahora utilizar la corrección por continuidad en los mismos términos que los descritos entonces.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
151
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Cuadro resumen de aproximaciones
n grande, p<0.1 (p>0.9) , 1<np<10
b(n,p) λ = np μ=np μ= λ npq>5 σ=(npq)1/2 σ=(λ)1/2 λ>5 N(μ, σ) Tema 9. El proceso de Poisson y sus distribuciones asociadas
Poisson(λ) 152
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: En la fabricación de determinado cable para redes eléctricas de media tensión se producen
defectos de aislamiento según un proceso de Poisson de tasa  = 0.5 defectos/Kilómetro.
a) Obtener la probabilidad de que un rollo de cable de 5.83 Km de longitud no contenga defectos.
b) Obtener la probabilidad de que una instalación de 200 Km de longitud contenga más de 75
defectos de aislamiento.
Solución:
a) Sea X = Nº de defectos en 5.83 Km de cable
X(tasa x longitud)=(0.5 x 5.83)=(2.915),
de donde
P( X  0 ) 
e 2.915 2. 9150
 e 2.915  0. 00542.
0!
b) Sea X = Nº de defectos en 200 Km de cable
X(tasa • longitud)=(0.5 • 200)=(100),
lo que permite hacer uso de la aproximación normal:
X 100 75.5 100 
75.5 100 
P(X  75)  P(X  75.5)  P

1



 (2.45)  0.99286 .

 10

 100
100 
Tema 9. El proceso de Poisson y sus distribuciones asociadas
153
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución Exponencial:
En ocasiones, nuestro interés en un Proceso de Poisson radica en conocer el comportamiento
probabilístico del tiempo transcurrido hasta que se produce el primer suceso: tiempo de espera hasta
que se produce la primera llamada en una centralita telefónica, tiempo de espera hasta que llega un
cliente a un banco, tiempo que tarda en producirse una avería en una máquina, longitud de carretera
recorrida hasta que aparece un bache, superficie de un bosque recorrida hasta que se encuentra la
primera planta de determinada especie, etc. En general, se trata de estudiar la variable aleatoria
X = Tiempo de espera hasta que aparece el primer suceso.
Esta variable aleatoria toma valores positivos, x > 0, y su distribución de probabilidades, denominada
distribución exponencial, se define a continuación:
Definición: Se dice que una variable aleatoria X sigu e la distribución exponencial de parámetro ,
con  > 0, y se representa X  exp(  )
 x
para x  0.
si su distribución de probabilidades está dada por la densidad: f ( x )  e
Es interesante notar que, si definimos las variables aleatorias:
Y = Tiempo de espera desde el instante t0 hasta el próximo suceso
Z= Tiempo de espera entre el suceso nº i y el nº i+1,
entonces
Y  exp(  ) y Z  exp(  ) .
Tema 9. El proceso de Poisson y sus distribuciones asociadas
154
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Falta de memoria de la distribución exponencial
La ley exponencial es la única ley continua con valo res positivos que tiene la propiedad de “falta de
memoria”. Veámoslo: si Xexp(), entonces se tiene:

 λx dx
 λe
 λ(t  s)
P X  t  s  t  s
e


X
t
s


P

 e  λs  PX  s .
X t

P X  t 
e  λt

λx
dx
 λe
t


La probabilidad de que transcurran s unidades de tiempo sin aparecer un suceso no se ve modificada
por la información de que en las t unidades de tiempo precedentes no haya aparecido ningún suceso.
Características numéricas de la Distribución exponencial:
Densidades exponenciales
exp()
Media:  = EX = 1/
Varianza: 2 = Var(X) = 1/2 .
Desviación Típica:  = DT(X) =.1/
2
1.6
1.2
f(x)
Nótese que la media es inversamente proporcional
a la tasa de sucesos del proceso.
0.8
0.4
0
0
Tema 9. El proceso de Poisson y sus distribuciones asociadas
1
2
3
4
5
6
7
8
9 10
155
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: La duración de un cinescopio de televisión en horas es una v.a. X con función de densidad
fX(t)=ce-ct para t0, siendo c un parámetro que depende del fabricante.
a) Calcular la probabilidad de que un cinescopio dure al menos 200 horas.
b) Sabiendo que un cinescopio ha durado 300 horas, calcular la probabilidad de que dure al menos
200 horas más.
c) Hallar la vida media de un cinescopio y su desviación típica.
d) El parámetro de cierto fabricante es c=1/10000. Obtener la duración del periodo de garantía
(sustitución del cinescopio) que puede ofrecer a sus clientes si el margen de ganancias con que
trabaja no le permite sustituir más del 10% de los aparatos vendidos.
Solución: Sea X v.a. la duración de un cinescopio.
a) PX  200 

 f (t )dt  e
 200 c
200
PX  500 e 500 c
X

500

 300 c  e  200 c  PX  200
b) P
X  300 PX  300 e


c) EX=1/c, Var(X)=1/c2, (X)=1/c.
d) Buscamos el tiempo t0 tal que PX  t o   0.1 :
PX  t0   1  e t0 /10000  0.1, t0  10000 ln 0.9  1053.6 horas.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
156
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Distribución Gamma (o de Erlang-r):
Una generalización natural de la ley exponencial surge de estudiar el tiempo que transcurre hasta que
aparece el suceso número r: Tiempo de espera hasta que se producen r llamadas en una centralit
a
telefónica, tiempo de espera hasta que llegan r clientes a un banco, tiempo que tarda en producirse la
r-ésima avería de una máquina, longitud de carretera recorrida hasta que aparecen r baches, superficie
de un bosque recorrida hasta que se encuentra la
r-ésima planta de determinada especie, etc. En
general, se trata de estudiar la variable aleatoria
X = Tiempo de espera transcurrido hasta que aparece el r-ésimo suceso.
Esta variable aleatoria toma valores positivos,
gamma de parámetros (r,) y denotada  (r,).
Definición: Se dice que una variable aleatoria
X sigue la distribución gamma de parámetros r,
, con r un número natural positivo, y  > 0, y
se representa por
x > 0, según una función de densidad denominada
Densidades gamma con  común
(r,), =1
0.4
0.3
X   ( r,  )
si su distribución de probabilidades está dada
por la densidad:
f ( x) 
r
λ
x r 1e  λ x , para
(r  1)!
f(x) 0.2
0.1
x  0.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
0
0
3
6
9
12
15
157
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Esta distribución de probabilidades aparece como modelo de numerosas variables aleatorias de interés
en diversos campos. En particular, para valores de r naturales, la ley gamma es el modelo
probabilístico del tiempo de espera del r-ésimo suceso en un Proceso de Poisson.
Análogamente a lo que ocurría con la distribución exponencial, si definimos las variables aleatorias:
Y = Tiempo de espera desde el instante t0 hasta que aparece el r-ésimo suceso posterior
Z= Tiempo de espera entre el suceso nº i y el suceso nº i+r,
se tiene que
Y   ( r,  ) y Z   (r,  ) .
Características numéricas de la Distribución gamma
Media:  = EX = r/.
Varianza: 2 = Var(X) = r/2 .
Desviación Típica:  = DT(X) = r / 2 .
Nótese que la media y la varianza son el resulta do de multiplicar por r, número de sucesos buscados,
la media y la varianza de la distribución exponencial.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
158
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Cálculo de probabilidades
Las probabilidades de la distribución gamma se
pueden obtener como probabilidades de una
distribución de Poisson utilizando el siguiente razonamiento:
Sea X(r,), y supongamos que deseamos obtener la probabilidad

λr
P( X  x)  
t r 1e  λt dt. .
(r  1)!
x
X se puede representar como el tiempo que transcurre hasta que se produce el suceso nº r en un
Proceso de Poisson de tasa . Una forma alternativa para resolver la integral anterior es definir la
variable aleatoria
Y = Número de sucesos en el intervalo (0, x),
que sabemos Y (x), y que satisface P(X > x)=P(Y  r-1),
pues que el suceso número r tarde más de x unidades de tiempo en ocurrir es equivalente a que en el
intervalo de tiempo (0, x) ocurran como mucho r-1 sucesos. Así
P( X  x )  P(Y  r  1) 
r 1 e  x ( x ) k

k 0
k!
Esta relación anterior presenta la ventaja de permitir la utilización de las Tablas de distribución de
Poisson así como la aproximación de ésta por la ley normal.
Tema 9. El proceso de Poisson y sus distribuciones asociadas
159
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo: Las averías de un dispositivo de seguridad se producen según un Proceso de Poisson de
tasa 0.2 averías / día, sustituyéndose inmediatamente por otro idéntico.
a) Obtener la probabilidad de que la 5ª avería tarde más de un mes en producirse.
b) Si al comenzar un año se dispone de un total de 100 dispositivos, obtener la probabilidad de que
sean suficientes para que el dispositivo de seguridad esté activo todo el año.
Solución:
a) Definimos las siguientes variables aleatorias:
X = Tiempo de espera de la 5ª avería. X(r,)=(5,0.2)
Y = Nº de averías en un mes. Y(t)=(0.230)=(6)
Así, se tiene que
P(X>30)=P(Y4)=0.285
b) Definimos las siguientes variables aleatorias:
X = Tiempo de espera de la 100ª avería. X(r,)=(100,0.2)
Y = Nº de averías en un año. Y(t)=(0.2365)=(73)
Por tanto,
P(X>365)=P(Y99)=P(Y<99.5)=
Y -  99.5 - 73 99.5 - 73 
 P

 
 (3.10)  0.9990
 
73   73 
Tema 9. El proceso de Poisson y sus distribuciones asociadas
160