Práctica 2 vgaribay 1 PRÁCTICA 2. DISTRIBUCIONES DE

Transcripción

Práctica 2 vgaribay 1 PRÁCTICA 2. DISTRIBUCIONES DE
Práctica 2 vgaribay
PRÁCTICA 2. DISTRIBUCIONES DE PROBABILIDAD
OBJETIVOS:
Cálculo de probabilidades y percentiles con diferentes modelos.
Comprobación de aproximaciones estudiadas entre distribuciones.
Simulación de datos de diferentes modelos probabilísticos.
Ajuste gráfico de modelos a una muestra.
Manipulación de datos por filas.
Ilustración de la L.G.N y del T.C.L.
Recordatorio de las herramientas del análisis descriptivo univariante.
Datos a utilizar, en los ficheros: Cardata.sgd, Municipios.sgd y robles.sgd.
1.- CÁLCULO DE PROBABILIDADES
Calcular probabilidades y percentiles, y realizar la gráfica de la función de densidad o de la función de
probabilidad con las distribuciones estudiadas.
Camino1: Plot / Probability Distributions o
Camino2: Describe /Distribution Fitting / Probability Distributions
eligiendo inicialmente la distribución normal
estándar: Normal (0,1)
Abrir todos los análisis numéricos y los dos primeros análisis gráficos
1.1 Calcular P(N(0,1)<z), z=-3, -2, -1, 0, 1, 2, 3
Ventana Cumulative Distribution / Botón secundario / Pane Options
y
1
Práctica 2 vgaribay
1.2 Calcular los percentiles 0,5; 2,5; 5; 10; 90; 95; 97,5; 99,5
Ventana Inverse CDF / Botón secundario / Pane Options
y
1.3 Comparar cinco v.a. N(,0.5) y otras cinco N(20,), variando  y .
Ventana Probaility Distributions / Botón secundario / Analysis Options
1.4 Calcular probabilidades y percentiles con la distribución binomial b(20,0.4).
Barra de Herramientas / Botón Analisis,
marco la distribución Binomial
Ventana Probaility Distributions / Botón secundario / Analysis Options
p=0.4 n=20
2
Práctica 2 vgaribay
Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles)
1.5 Calcular probabilidades y percentiles con la dist. exponencial con media 2.
Barra de Herramientas / Botón Analisis,
marco la distribución Exponencial
Ventana Probaility Distributions / Botón secundario / Analysis Options
media=2
Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles)
3
Práctica 2 vgaribay
2.- COMPROBACIÓN DE APROXIMACIONES
Mediante este ejercicio se pretende verificar con algunos ejemplos las aproximaciones entre
distribuciones que hemos estudiado en clase: Binomial-Normal, Binomial-Poisson y Poisson-Normal.
Para ello dibujamos las probabilidades o densidades de algunas de estas distribuciones mediante el
menú: Describe / Distribution Fitting / Probability Distributions...
Llevamos los gráficos a StatGallery para comprobar la bondad de las aproximaciones. Copy pane to
Statgallery. Al pegar el segundo o tercer gráfico elegimos “Overlay”.
Conviene hacer una selección adecuada del intervalo de valores en el eje X en los gráficos (Graphic
options) para ver las cosas mejor.
También calcularemos las probabilidades de algunos sucesos y valoraremos la bondad de la
aproximación así como el interés de la corrección por continuidad.
2.1- Aproximación binomial-normal válida: b(n,p) ~ N(np,(npq)1/2), npq>5.
2.1.1 Dibujar b(100;0,5) y N(50;5) superpuestas.
Plot / Probability Distributions + Binomial
p=0.5 n=100
Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery
Ventana StatGallery > Botón Secundario > Paste
Barra de Herramientas / Botón Analisis,
marco la distribución Normal
o bien, nuevo Plot / Probability Distributions Normal
Parámetros Mean=50 Std.Dev=5
4
Práctica 2 vgaribay
Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery
Ventana StatGallery > Botón Secundario > Paste + Replace
2.1.2 Calcular P(X<60) con la binomial 100 0,5 …
Ventana Cumulative Distribution > Botón Secundario > Pane Options
+ 60
 p(X<60)= 0,971556
… y p(X<60) y P(X<59,5) con la normal.
Análisis: Descripción de la N(0,1) /
Ventana Cumulative Distribution > Botón Secundario > Pane Options
(solución exacta)
+ 60
 p(X<60)= 0,97725 (aprox. N sin corrección)
Ventana Cumulative Distribution > Botón Secundario > Pane Options + 59.5
 p(X<60)= 0,971284 (aprox. N con corrección)
5
Práctica 2 vgaribay
2.2- Aproximación binomial-normal no válida: npq<5.
2.2.1 Dibujar b(300;0,01) y N(3;1,7234) superpuestas.
Cambiar los parámetros de la Binomial y la Normal, repitiendo los pasos del apartado anterior
Ventana Prob. Distributions > Botón Secundario > Analysis Options nuevos parámetros
En las descripciones Binomial
y Normal
2.2.2 Calcular P(X<4) con la binomial y P(X<4) y P(X<3,5) con la normal.
Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4
 p(X<4)= 0,647234
… y ahora p(X<4) y P(X<3,5) con la normal.
Análisis: Descripción de la N(0,1) /
Ventana Cumulative Distribution > Botón Secundario > Pane Options
(solución exacta)
+ 4
 p(X<4)= 0,719128 (aprox. N sin corrección)
Ventana Cumulative Distribution > Botón Secundario > Pane Options + 3.5
 p(X<4)= 0,614141
(aprox. N con corrección)
6
Práctica 2 vgaribay
2.3- Aproximación binomial-Poisson válida b(n,p) ~ P(np),
p<0,1 y 1<np<10.
2.3.1 Dibujar superpuestas b(300;0,01), N(3;1,7234) y P (3).
Plot / Probability Distributions Normal
3 1,7234  gráfico densidad a StatGallery
Plot / Probability Distributions Binomial 0,01 300  gráfico probs. a StatGallery Overlay
Plot / Probability Distributions Poisson 3
 gráfico probs. a StatGallery Overlay
2.3.2 Calcular P(X<4) con la binomial y con la Poisson.
En el Análisis Plot Poisson
Ventana Cumulative Distribution > Botón Secundario > Pane Options
+ 4
 p(X<4)= 0,647232 (aprox. Poisson)
(Casi perfecta)
7
Práctica 2 vgaribay
2.4- Aproximación Poisson-normal válida: P () ~ N(,
2.4.1
), >5.
Dibujar P (9) y N(9;3) superpuestas.
Plot / Probability Distributions Normal
Plot / Probability Distributions Poisson
2.4.2
1/2
9 3
3
 gráfico densidad a StatGallery
 gráfico probs. a StatGallery Overlay
Calcular P(X<10) con la Poisson y P(X<10) y P(X<9,5) con la normal.
Poisson / Ventana Cumulative Distribution > Botón Secundario > Pane Options
+ 10
 p(X<10)= 0,587408 (valor exacto)
Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options
+ 10
 p(X<10)= 0,630561 (aprox. Noram sin corrección)
Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 9,5
 p(X<9,5)= 0,566186 (aprox. Noram sin corrección)
8
Práctica 2 vgaribay
3.- SIMULACIÓN DE DATOS ASOCIADOS A DISTRIBUCIONES
Generar o simular una muestra aleatoria de un modelo.
3.1
Genera tres muestras de tamaño 500 de la distribución N(3; 1).
Dos alternativas:
forma 1- Generate Data con operadores (en tabla de datos)… (sólo algunas distribuciones)
REXPONENTIAL(n,mean)
RLOGNORMAL(n,mu,sigma)
RWEIBULL(n,shape,scale)
RGAMMA(n,shape,scale)
RNORMAL(n,mu,sigma)
RINTEGER(n,min,max)
RUNIFORM(n,min,max)
Datos / selecciono columna / Botón secundario en cabecera / Generate Data RNORMAL(500;3;1)
Repito en Columnas 2 y 3
forma 2- Describe / Distribution Fitting / Probability Distributions ( o Plot / Probability Distributions)
Normal
(3,1)
Marcar opción Random Numbers
Ventana Random Numbres / Botón Secundario / Pane Options poner n=500 (100 por defercto)
Barra Herramientas / Botón Disquete
seleccionar destino en la hoja y nombre de la nueva variable
Repetir dos veces Save (botón Disquete) hasta crerar 3 columnas (con 500 observaciones cada una)
9
Práctica 2 vgaribay
3.2 Generar dos muestras de tamaño 500 de la distribución U(0; 1).
forma 1- Repetir el proceso de 3.1 pero cambiando RNORMAL(500;3;1) por RUNIFORM(500;0;1)
forma 2- Repetir el proceso de 3.1 pero seleccionando Uniform (01) en lugar de Normal (3,1)
( o Herramientas / Botón Analisis Uniform),
3.3 Generar 200 números aleatorios de la distribución de Poisson (2).
forma 2- Repetir el proceso de 3.1 pero seleccionando Poisson (2) en lugar de Normal (3,1)
Herramientas / Botón Analisis Poisson, + Botón Parametros 2
Ventana Random Numbers / Botón secundario / Size= 200 + Botón Save 3 veces
10
Práctica 2 vgaribay
3.4 Realizar un análisis estadístico descriptivo de las muestras anteriores comprobando
visualmente el parecido del histograma con el modelo.
Describe / Numeric data / One Variable Analysis normal1
Plot / Probability Distributions Normal (3,1)
Superpuestos los listogramas acumulados: Teórico y Muestral
11
Práctica 2 vgaribay
4.- AJUSTE GRÁFICO
Describe / Distribution Fitting / Fitting Uncensored Data
4.1 Ajustar las variables anteriores por modelos correctos e incorrectos.
Muestra1 Normal (3,1)
12
Práctica 2 vgaribay
Muestra1 Unifrome (0,1)
Muestra1 Poisson (2)
13
Práctica 2 vgaribay
4.2 Hacer la transformación 2X+3 a la muestra de la N(3; 1) y comprobar la normalidad.
Datos / Nueva Columna / Doble Click en cabecera / Formula Define 2*normal1+3
4.3 Hacer la transformación X2 a la muestra de la N(3;1) y comprobar que no se ajusta a la
normal.
Datos / Nueva Columna / Doble Click en cabecera / Formula Define normal1^2 P-Value=0,0136716
4.4 Combinar linealmente las tres variables normales y comprobar el ajuste a la normalidad.
Datos / Nueva Columna / Doble Click en cabecera / Formula Define
3* normal1-2,5*normal2+1,5*normal3 P-Value=0,307374
14
Práctica 2 vgaribay
4.5 Sumar las dos variables uniformes y ver que no se ajustan a un modelo uniforme.
Datos / Nueva Columna / Doble Click en cabecera / Formula Define uni1+uni2 P-Value=
4.6 Comprobar qué distribución ajusta gráficamente mejor las variables mpg y accel del fichero
Cardata.sgd. Doble click sobre él para abrit con Statgraphics
Describe / Distribution Fitting / Fitting Uncensored Data mpg
Selecciono ajustes a varias distribuciones: Normal, Uniforme, Exponencial, Log-Normal …
con Quantile Plot en el menú de Gráficos
15
Práctica 2 vgaribay
Describe / Distribution Fitting / Fitting Uncensored Data accel
5.- CONVERGENCIA DE LA MEDIA MUESTRAL
Comprobar el cumplimiento de la Ley Fuerte de los Grandes Números: la media muestral converge a
la media poblacional.
5.1 Generar 500 datos de una exponencial de media 2
Seleccionar la columna / Generate Data / rexponential(?;?) o Plot / Prob. Distributions exponential(2)
Ventana Random Numbers / Botón Secundario / Pane Options Size=500
Botón Diskete  guardo las 500 observaciones independientes de la exponencial(2)
16
Práctica 2 vgaribay
5.2 En la siguiente columna generar una variable contador
Seleccionar la columna / Generate Data / count(?;?;?) o bien
Data Book / Seleccionar Col_2 / Doble Click en cabecera / Formula / Define / COUNT(1;500;1)
5.3 Crear una columna donde cada celda i guarde el valor resultado de sumar las celdas 1 hasta
i de la variable exponencial creada
Data Book / Seleccionar la columna3 / Botón secundario/Generate Data / runtot(?)
5.4 Dividir la última columna por la columna contador.
Data Book /Seleccionar Col_4 /Doble Click en cabecera /Formula/Define/ exp2_acumulada/Contador
17
Práctica 2 vgaribay
5.5 Plot de la última columna y ver la convergencia a la media muestral a la teórica (2):
Plot /Scatterplots / X-Y Plot,
x=Contador Y= Media_Muestral_i
o bien Plot /Time Sequencie Plots /X Plot
media_muestral_i
18
Práctica 2 vgaribay
6.- CONVERGENCIA A LA DISTRIBUCIÓN NORMAL
Comprobar el cumplimiento del Teorema Central del Límite: la distribución de la suma y de la media
muestral convergen a la distribución normal.
6.1 Generar una a una 10 columnas con 500 datos de una distribución de U(0,1)
Seleccionar la columna / Generate Data / runiform(?;?)
o Seleccionar la columna / Generate Data / runiform (?;?) o Plot / Prob. Distributions Uniform(0,1)
Ventana Random Numbers / Botón Secundario / Pane Options Size=500
Botón Diskete  guardo las 500 observaciones independientes de la Uniform(0,1)
Repetir hasta 10 veces poniendo nombre a cada columna: uniform1, uniform2 … hasta uniform10
6.2 Describir una de las columnas y ajustarla al modelo uniforme.
Describe / Distribution Fitting / Fitting Uncensored Data
uniform1 ajuste Uniforme
19
Práctica 2 vgaribay
6.3 Generar columnas con las sumas de las 2, 5, 10 primeras columnas.
Describe / Numeric Data / Rowwise Statistics (disquetesuma)).
Columnas 1 y 2
Repetir para suma de las columnas 1 a 5
y finalmente, calculo y guardo las 500 medias de las columnas 1 a 10
20
Práctica 2 vgaribay
6.4 Hacer un ajuste a un modelo normal de la primera columna y de las sumas creadas.
Describe / Distribution Fitting / Fitting Uncensored Data
uniform1
ajuste Normal
Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste
Ajuste de la variable Media2 a la Normal
Botón Analisis / variable Media2
Ajuste de la variable Media5 a la Normal
Botón Analisis / variable Media5
21
Práctica 2 vgaribay
Ajuste de la variable Media10 a la Normal
Botón Analisis / variable Media10
6.5 Pegar los cuatro histogramas ajustados en los paneles de StatGallery.
Hemos reunido los histogramas de cada análisis en StatGallery mediante
Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste
Analisis Media2 Ventana Histograma / Copy to StataGallery / Paste
Analisis Media5 Ventana Histograma / Copy to StataGallery / Paste
Analisis Media10 Ventana Histograma / Copy to StataGallery / Paste
22
Práctica 2 vgaribay
6.6 Comprobar que la media y la varianza muestrales de las sumas se parecen a los valores
poblacionales conocidos n y n1/2 siendo
Calculamos las sumas -por ejemplo- a partir de las medias, multiplicando en cada caso por el número de
observaciones promediadas (2, 5 o 10). Aparecen así 3 nuevas columnas: suma2, suma5 y suma10
Data Book / Col_4 doble click / Formula / Define 2* media2 ; 5*media5 ; 10*media10
suma2
suma5
suma10
Describe / Numeric Data / One-Variable Analiysis
suma2
1/2
n=2 n = 2*0,5=2 y n =(1/raíz(12)) raíz(2)= 0,408
Describe / Numeric Data / One-Variable Analiysis
o Botón Analisis
suma5
suma5
23
Práctica 2 vgaribay
n=5
n = 2*0,5=2,5
y n1/2 =(1/raíz(12)) raíz(5)= 0,645
Describe / Numeric Data / One-Variable Analiysis
o Botón Analisis
n=10 n = 10*0,5=5
6.7
suma10
suma10
y n1/2 =(1/raíz(12)) raíz(10)= 0,913
Repetir el ejercicio con promedios en lugar de sumas. Notar que ahora se tiene
Describe / Numeric Data / One-Variable Analiysis
o Botón Analisis
n=2
 = 0,5
y n1/2 =(1/raíz(12))/ raíz(2)= 0,204
Describe / Numeric Data / One-Variable Analiysis
o Botón Analisis
n=5
 = 0,5
media5
media5
y n1/2 =(1/raíz(12))/ raíz(5)= 0,129
Describe / Numeric Data / One-Variable Analiysis
o Botón Analisis
n=10  = 0,5
media2
media2
media10
media10
y n1/2 =(1/raíz(12))/ raíz(10)= 0,091
24
Práctica 2 vgaribay
EJERCICIOS
Ejercicio 2.1: Sea X es una variable aleatoria N(10,3).
a) Halla la gráfica de su función de densidad.
b) Calcula la probabilidad P(X<9.5).
c) Halla el percentil 97.5%.
Ejercicio 2.2: Sea X una variable aleatoria que sigue una distribución exponencial de
media 17.
a) Calcular la probabilidad P(X>25).
b) Hallar x tal que P(X<x) = 0.3
Ejercicio 2.3: Se sabe que la densidad X de ciertos ladrillos cuando se hornean a 125ºC
es
una variable aleatoria normal con media 3.85 gr/cm3 y desviación típica 0.05
gr/cm3. Si
los límites de tolerancia son (3.75 gr/cm3, 4.00 gr/cm3), hallar el porcentaje de
ladrillos
que se salen de dicho intervalo.
Ejercicio 2.4: La tasa de artículos defectuosos producidos por una cadena de producción
es del 2%. Hallar la probabilidad de que en una muestra de 500 artículos extraídos
al azar
e independientemente haya más de 20 defectuosos.
Ejercicio 2.5: En cierta factoría de montaje en serie se estima que el 30% de los días
de
trabajo se produce algún paro parcial por averías menores y se supone que hay
independencia entre lo que ocurre en días distintos. Cada vez que se acumulan tres
días
con paros parciales, la empresa decide hacer un paro total para poner a punto el
sistema.
Obtener la probabilidad de que transcurran más de 10 días sin producirse un paro
total.
Ejercicio 2.6: Las llamadas que llegan a cierta centralita telefónica en determinado
periodo de tiempo siguen un Proceso de Poisson de tasa 180 llamadas a la hora. La
capacidad de la central telefónica permite atender un máximo de 5 llamadas por
minuto.
Calcular:
a) La probabilidad de que en un minuto determinado se reciban más llamadas de las
que se pueden atender.
b) La probabilidad de que en un intervalo de 5 minutos se produzcan más de 10
llamadas.
Ejercicio 2.7:
a) Buscar la distribución que mejor se ajusta gráficamente a la variable Poblacion
del
fichero de datos Municipios.sgd entre la Gamma, la Normal y la Uniforme, y
escribe a continuación el valor del/los parámetro/s.
b) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta
gráficamente
a la variable X=(10*Fosforo-Calcio)^2 entre la Normal, la Lognormal, la Uniforme
y la Binomial. Usando la distribución elegida, halla el valor de x tal que
25
Práctica 2 vgaribay
P(X>x)=0.2.
ESTADÍSTICA 1er Curso
c) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta
gráficamente
a la variable X=Zinc/Manganeso entre la Poisson, la Gamma, la Exponencial y la
Normal. Usando la distribución elegida, halla P(X≤1).
Ejercicio 2.8:
Comprobar la convergencia de la media con las distribuciones Uniforme Discreta en
{0,1,…,10}, B(1/6) y N(10,5). Observar que en el segundo caso la media es una
proporción.
Ejercicio 2.9:
Comprobar el Teorema Central del Límite con datos procedentes de las
distribuciones:
U(0,3), (3,1.5) y g(0.1). Tener en cuenta que para el programa la variable con
distribución
geométrica representa el nº de ensayos antes del primer éxito. Sucede lo mismo con
la
Pascal.
Ejercicio 2.10:
Simular 200 datos de 5 variables con distribución B(0.6) y comprobar que su suma es
Binomial. Ídem con las distribuciones Normal, Geométrica y Exponencial. ¿A qué
distribución se ajusta la suma en cada caso?
Ejercicio 2.11:
a) Calcular de forma teórica la probabilidad de obtener 3 doses en 5 tiradas.
b) Calcula la misma probabilidad simulando 300 datos binomiales, contando los casos
correspondientes a 3 doses y hallando la proporción sobre los 300. (Operadores
select y sum, o bien frecuencia relativa de la categoría correspondiente).
Ejercicio 2.12: Se pretende obtener la distribución del mayor resultado al lanzar 4
veces
un dado legal.
 Generar 4 columnas de datos resultados de lanzar cuatro dados 100 veces (usar la
distribución Uniforme Discreta entre 1 y 6 o bien el operador Rinteger(100;1;6)).
 En la siguiente columna considerar el estadístico máximo de los cuatro
resultados
de cada fila (Describir / Datos Numéricos / Estadísticas por Filas). Representarla
gráficamente y observar la calidad del ajuste a diferentes distribuciones.
 Repetir el proceso anterior con el mínimo y la mediana.
26

Documentos relacionados