00 – Introducción a la estadística y teoría de probabilidades

Transcripción

00 – Introducción a la estadística y teoría de probabilidades
00 – Introducción a la estadística y
teoría de probabilidades
Diego Andrés Alvarez Marín
Profesor Asistente
Universidad Nacional de Colombia
Sede Manizales
1
Contenido
●
Qué es la estadística?
●
Qué es la teoría de probabilidades?
●
Qué es la estadística descriptiva?
●
Qué es la estadística inferencial
2
Estadística
●
Es la rama matemática relacionada con la
colección, el análisis, la interpretación (o
explicación) y la representación de datos.
Teoría de probabilidades vs
Estadística
●
●
La teoría de probabilidades es la rama de la
matemática relacionada con el análisis de
fenómenos aleatorios; esta se desarrolló como
un modelo abstracto y sus conclusiones y
deducciones están basados en axiomas.
La estadística se basa en la aplicación de la
teoría de probabilidad a problemas reales y sus
conclusiones son inferencias basadas en
observaciones.
Ramas de la estadística
La estadística se divide en dos ramas:
●
●
Estadística descriptiva
Estadística inferencial
Estadística descriptiva
La estadística descriptiva se dedica a los
métodos
de
recolección,
descripción,
visualización y resumen de datos originados a
partir de los fenómenos en estudio. Los datos
pueden ser resumidos en forma numérica y/o
gráfica.
6
Estadística inferencial
Esta comprende los métodos y procedimientos para
deducir propiedades (hacer inferencias) de una
población, a partir de una pequeña parte de la misma
(muestra). Se usa para modelar patrones en los
datos y extraer inferencias acerca de la población
bajo estudio. Estas inferencias pueden tomar la
forma de respuestas a preguntas si/no (prueba de
hipótesis), estimaciones de características numéricas
(estimación), pronósticos de futuras observaciones,
descripciones de asociación (correlación) o
modelamiento de relaciones entre variables (análisis
de regresión).
7
Estadística descriptiva vs.
Estadística inferencial
La diferencia entre la estadística descriptiva y la
estadística inferencial es que la primera intenta
resumir los datos de forma cuantitativa mientras
que la segunda se usa para sustentar
afirmaciones sobre la población que está
representada por los datos recopilados.
8
01 – Estadística descriptiva
Diego Andrés Alvarez Marín
Profesor Asistente
Universidad Nacional de Colombia
Sede Manizales
9
Contenido
Definiciones básicas
●
Medidas de tendencia no central
●
Medidas de tendencia central
●
Medidas de dispersión
●
Momentos
●
Representación gráfica de la información
●
–
Histogramas
10
Definiciones
Se quiere estudiar una población. Sin embargo
por razones prácticas se analiza una muestra de
la población. Los datos se coleccionan mediante
un muestreo o experimento. Las observaciones
de la muestra aleatoria se usan para calcular
ciertas características de la muestra llamadas
estadísticas.
●
●
●
●
●
Población: es el conjunto de elementos de
referencia sobre el que se realizan todas las
observaciones. La población es la colección de
toda la información que caracteriza un
fenómeno.
Muestra estadística (o aleatoria): es un
subconjunto representativo de individuos de la
población
Muestreo: es la técnica por la cual se
selecciona una muestra a partir de una
población
Una estadística es el resultado de aplicar una
función a un conjunto de datos.
Información básica de un conjunto
de datos
●
Mínimo y máximo
●
Percentil
●
Tendencia central
●
Dispersión
●
Momentos
Mínimo y máximo (con MATLAB)
Mínimo y máximo (con MS EXCEL)
Medidas de posición no central
Un percentil es el valor de una variable bajo el
cual un cierto porcentaje de las observaciones
caen. De este modo el percentil 20 es el valor
bajo el cual el 20% de las observaciones pueden
ser encontradas.
Algunos tipos de percentiles importantes son:
● Los cuartiles: percentil 25, 50 (mediana) y 75
● Los quintiles: percentil 20, 40, 60 y 80
● Los deciles: percentiles 10, 20, ..., 90
Definiciones de percentil
Ejemplo usando la definición 1
Calcule el percentil 70 de los datos
1200, 11, 23, 27, 25, 29
Primero que todo se deben organizar los datos en
orden ascendente
11, 23, 25, 27, 29, 1200
Por lo tanto el percentil 70 es 29
Percentiles con MATLAB
Observe que MS EXCEL y MATLAB calculan los percentiles
con diferentes algoritmos
Percentiles con MS EXCEL
Observe que MS EXCEL y MATLAB calculan los percentiles
con diferentes algoritmos
Medidas de tendencia central
Las medidas de tendencia central miden la
localización del centro de los datos
●
Media aritmética (o promedio)
●
Mediana
●
Moda
●
Media geométrica
●
Media armónica
●
Media acotada (o media truncada)
21
Media aritmética (o promedio)
22
Mediana
23
Mediana
24
Mediana
25
Media geométrica
26
Media geométrica
La media geométrica es relevante cuando varias
cantidades son multiplicadas para producir un
total, o cuando los números son de naturaleza
exponencial, como por ejemplo el crecimiento de
la población mundial o las tasas de interés de una
inversión financiera.
La media geométrica es menos sensible que la
media aritmética a los valores extremos.
27
Ejemplo
28
Propiedades de la media
geométrica
29
Media armónica
30
Ejemplo
31
Ejemplo
32
Media armónica
33
Moda
34
Media acotada (o media truncada)
35
Medidas de tendencia central en
MS EXCEL
Observe que MATLAB y MS
EXCEL utilizan diferentes
algoritmos para calcular la moda
36
MEDIA.ACOTADA(datos;porcentaje)
Calcula la media de un conjunto de datos
después de eliminar el porcentaje de los
extremos inferior y superior de los puntos de
datos. Puede utilizar esta función cuando desee
excluir del análisis los valores extremos.
porcentaje es el número fraccionario de puntos de
datos que se excluyen del cálculo. Por ejemplo, si
porcentaje = 0,2, se eliminarán cuatro puntos de
un conjunto de datos de 20 puntos (20 x 0,2), dos
de la parte superior y dos de la parte inferior.
37
Medidas de tendencia central en
MATLAB
Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para
calcular la moda
38
Otras medidas de tendencia central
●
Media generalizada
–
●
Media ponderada
–
●
http://en.wikipedia.org/wiki/Weighted_mean
Punto medio
–
●
http://en.wikipedia.org/wiki/Generalized_mean
http://en.wikipedia.org/wiki/Midrange
Root mean square (RMS)
–
http://en.wikipedia.org/wiki/Root_mean_square
39
Notas varias
●
La media armónica es siempre inferior a la
media geométrica, que a su vez es siempre
inferior a la media aritmética.
Ver:
●
●
http://en.wikipedia.org/wiki/Inequality_of_arithm
etic_and_geometric_means
http://en.wikipedia.org/wiki/Pythagorean_means
40
Medidas de dispersión
La dispersión de los datos se puede atribuir a
pequeñas diferencias de construcción, a mano de
obra deficiente, errores humanos, variabilidad
inherente al material, así como a errores en las
observaciones y en las mediadas.
Las medida de dispersión miden la variabilidad de
un conjunto de datos. Una medida de dispersión
es un número real no negativo, que es cero si
todos los dátos son idénticos, y se incrementa a
medida que las observaciones son más diversas.
41
Medidas de dispersión
●
Varianza
●
Desviación estándar
●
Desviación media
●
Desviación mediana
●
Rango (o recorrido)
●
Rango (o recorrido) intercuartil
●
Rango (o recorrido) interdecil
42
Varianza y desviación estándar
muestral
Use siempre
estas
fórmulas
para calcular
la varianza y
la desviación
estándar, a
menos que
se indique lo
contrario.
Ver:
http://en.wikipedia.org/wiki/Variance
http://en.wikipedia.org/wiki/Standard_deviation
43
Varianza y desviación estándar
poblacional
44
Corrección de Bessel
Aunque intuitivamente la fórmula de la desviación
estándar (varianza) poblacional es la que se debe
usar (denominador n), SIEMPRE que se quieren
hacer inferencias acerca de una población, se
debe utilizar la desviación estándar (varianza)
muestral (denominador n-1). Las razones de esto
se entenderán en el Capítulo ***.
45
Recorrido o rango
46
Recorrido interdecil e intercuartil
47
Desviación media (mean absolute deviation - MAD)
Desviación mediana (median absolute deviation)
48
Coeficiente de variación
(coefficient of variation - C.O.V.)
No confundir
con la
covarianza!
49
Nota final
A pesar que la media aritmética y la desviación
estándar han sido empleadas de manera extensa
como medidas de tendencia central y dispersión
respectivamente, estas no son siempre las
medidas más deseables. Su uso es popular por
su varias propiedades teóricas que las hacen muy
manipulables desde el punto de vista matemático.
50
Otras medidas de dispersión
●
Momento central de cualquier orden
–
●
Diferencia media
–
●
http://en.wikipedia.org/wiki/Moment_(mathematics)
http://en.wikipedia.org/wiki/Mean_difference
Desviación estándar geométrica
– http://en.wikipedia.org/wiki/Geometric_standard_deviation
51
Medidas de dispersión en MS EXCEL
52
Haga Alt+F11 para
ingresar el código
Insertar →Módulo
Copy+Paste código
Grabar como .xlsm
Como la función para calcular
la desviación mediana no
existe en MS EXCEL 2007,
debemos crear la función
usando Visual Basic for
Applications (VBA)
53
Medidas de dispersión en MATLAB
54
Valor atípico (outlier)
Un valor atípico es una observación que es
numéricamente distante del resto de los datos.
Las estadísticas derivadas de los conjuntos de
datos que incluyen valores atípicos serán
frecuentemente engañosas. Por ejemplo, en el
cálculo de la temperatura media de 10 objetos en
una habitación, si la mayoría tienen entre 20 y
25ºC, pero hay un horno a 350°C, la mediana de
los datos puede ser 23, pero la temperatura
media será 55. En este caso, la mediana refleja
mejor la temperatura de la muestra al azar de un
objeto que la media.
55
Valor atípico (outlier)
Los valores atípicos pueden ser indicativos de
datos que pertenecen a una población diferente
del resto de la muestra establecida.
No existe una definición matemática de lo que
constituye un valor atípico; este es un ejercicio
subjetivo.
56
Sensibilidad de las medidas de
tendencia central a valores atípicos
57
Sensibilidad de las medidas de
dispersión a los valores atípicos
58
Momentos
●
Coeficiente de asimetría
–
●
Ver: http://en.wikipedia.org/wiki/Skewness
Curtosis
–
Ver: http://en.wikipedia.org/wiki/Kurtosis
59
Curtosis y coeficiente de asimetría
en MS EXCEL
Curtosis y coeficiente de asimetría
en MATLAB
MATLAB y MS EXCEL utilizan diferentes
algoritmos para calcular estos parámetros
Histogramas
Un histograma es una representación gráfica de
una variable en forma de barras, donde la
superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje
vertical se representan las frecuencias, y en el eje
horizontal los valores de las variables.
Datos
Suponga que los siguientes números representan
el consumo en m3 de agua por día de una
población (observe que están ordenados
ascendentemente). Elabore el histograma de
dichos datos.
2298
3205
3325
3609
3918
3992
4057
4188
4289
4363
4377
4448
4450
4524
4536
4565
4591
4657
4666
4670
4724
4737
4763
4784
4816
4817
4852
4887
4905
4908
4923
4941
4993
4998
5035
5041
5058
5142
5152
5152
5330
5535
1. Determine el rango de los datos
●
Rango es igual al dato mayor menos el dato
menor. Rango = 5535 - 2298 = 3237
2298
3205
3325
3609
3918
3992
4057
4188
4289
4363
4377
4448
4450
4524
4536
4565
4591
4657
4666
4670
4724
4737
4763
4784
4816
4817
4852
4887
4905
4908
4923
4941
4993
4998
5035
5041
5058
5142
5152
5152
5330
5535
2. Obtener el número de clases
Una clase (bin) es ...
Supongamos por el momento que
Entonces
Formaremos por lo tanto 7 clases/intervalos
3. Establecer la longitud de las
clases/intervalos (bins)
Establecer la longitud de clase: es igual al rango
dividido entre el número de clases
Lóngitud de la clase = 3237/7 = 462.4
4. Construir los intervalos de las clases
Los intervalos resultan de dividir el rango de los
datos en relación al resultado del paso 3 en
intervalos iguales.
4. Graficar el histograma de conteo
4. Graficar el histograma de conteo
Consultar la ayuda de la función FRECUENCIA de MS EXCEL para
entender su uso
Tenga en cuenta...
●
●
●
La normalización del histograma
La frecuencia relativa refleja la proporción de la
observaciones contenidas en una clase
Cuando los intervalos de clase son idénticos, el
área de los rectángulos representa las
frecuencias. Sin embargo, cuando la longitud
de los intervalos es diferente, las áreas no
representan la frecuencia. Por lo tanto se debe
ajustar la altura de los rectángulos para que
sus áreas sean proporcionales a la frecuencia.
5. Graficar el histograma de
frecuencias relativas
El eje Y tiene unidades
de frecuencia por m3/día
Histograma de frecuencia de clase
con MATLAB
Histograma de frecuencia de clase
con MATLAB
El eje Y tiene unidades
de frecuencia por m3/día
Histogramas con MS EXCEL
MS EXCEL 2003:
http://www.bloggpro.com/creating-histograms-in-excel/
MS EXCEL 2007:
http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/
or just GOOGLE IT!
http://www.google.com/search?q=histograms+excel+2007
6. Graficar la distribución de
frecuencia relativa acumulada
●
Se obtiene graficando en el eje vertical la
frecuencia relativa acumulada de una clase
contra el límite inferior de la siguiente clase
sobre el eje horizontal y uniendo todos los
puntos consecutivos.
El eje Y tiene unidades
de frecuencia únicamente
Percentil 80
Número de clases
●
●
No existe una forma única de escoger el
número de intervalos. Esto por lo tanto se deja
a criterio del analista. Sin embargo, existen
algunas recomendaciones (las cuales
generalmente hacen suposiciones sobre la
forma de los datos):
El número de clases depende del número total
de observaciones
Número de intervalos (k)
●
k – número de intervalos (clases)
●
h – ancho del intervalo
●
Mi recomendación:
●
●
●
Fórmula de Sturges (1926): su rendimiento es
pobre si n<30
Fórmula de Scott (1979): s es la desviación
estándar muestral
Fórmula de Freedman-Diaconis (1981): IQR es
el rango intercuartil
Método de Shimazaki y Shinomoto (2007)
Fuente: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
Referencias bibliográficas
●
●
●
●
Sturges, H. A. (1926). “The choice of a class interval”.
J. American Statistical Association: 65–66.
Scott, D. W. (1979). “On optimal and data-based
histograms”. Biometrika. 66 (3): 605–610
Freedman, D. and Diaconis, P. (1981). “On the
histogram as a density estimator: L2 theory”.
Zeitschrift für Wahrscheinlichkeitstheorie und
verwandte Gebiete. 57 (4): 453–476
Shimazaki H. and Shinomoto S. (2007), “A method for
selecting the bin size of a time histogram” Neural
Computation. 19(6), 1503-1527
Ejemplo con clases de tamaños
diferentes
Considere el siguiente ejemplo del Censo de USA
en el año 2000:
“Journey to work and place of work”
U.S. Census Bureau – tiempo de viaje al trabajo. El censo
encontró que 124 millones de personas trabajan fuera de su casas.
Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf
Datos por cantidad
Intervalo
(minutos)
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45)
[45,60)
Ancho
(minutos)
5
5
5
5
5
5
5
5
5
15
Cantidad Cantidad (miles)/
(miles) Ancho (minutos)
4180
836
13687
2737
18618
3723
19634
3926
17981
3596
7190
1438
16369
3273
3212
642
4122
824
9200
613
.
Histograma del tiempo de viaje
(censo USA, 2000)
El área bajo la
curva es igual al
número de casos
= 124 millones.
Este diagrama usa
cantidad/ancho de
la tabla.
Datos por proporción
Intervalo
(minutos)
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45)
[45,60)
.
Ancho
(minutos)
5
5
5
5
5
5
5
5
5
15
Cantidad Cantidad/Total/A
(miles)
ncho (minutos)
4180
0.01
13687
0.02
18618
0.03
19634
0.03
17981
0.03
7190
0.01
16369
0.03
3212
0.01
4122
0.01
9200
0
Histograma de frecuencia relativa del
tiempo de viaje (censo USA, 2000)
El área bajo la curva
es igual a 1
Este diagrama usa
cantidad/total/ancho
de la tabla.
Generalización del histograma
●
Kernel smoothing methods (tambien llamado
ventanas de Parzen (Parzen windows). El
comando de MATLAB asociado es ksdensity.
Ver: http://en.wikipedia.org/wiki/Kernel_density_estimation
Generalización de histograma
Existen otro métodos basados en la utilización de
polinomios ortogonales de Legendre. Ver por
ejemplo:
X.B. Li y F.Q. Gong (2009). A method for fitting
probability distributions to engineering properties
of rock masses using Legendre orthogonal
polynomials. Structural Safety. Volume 31, Issue
4, July 2009, Pages 335-343
Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the
interval [-1,1] with the usual L^2 inner product gives the Legendre polynomials
Otras funciones de MS EXCEL
Otras funciones de MATLAB
Otras formas gráficas de
representar los datos

Documentos relacionados