introducción a la estadística descriptiva para economistas

Transcripción

introducción a la estadística descriptiva para economistas
Universitat de les Illes Balears
Col.lecció Materials Didàctics
INTRODUCCIÓN A LA ESTADÍSTICA
DESCRIPTIVA PARA ECONOMISTAS
Joaquín Alegre Martín
Magdalena Cladera Munar
Palma, 2002
ÍNDICE
1
INTRODUCCIÓN: ¿Qué es...?
1
2
2
4
4
6
¿Qué es una variable?
¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de la estadística
descriptiva en el análisis económico?
¿Qué son la población y la muestra?
¿Qué es un parámetro? ¿Qué es un estadístico?
¿Qué es una muestra aleatoria?
Estructura del libro.
7
CAPÍTULO I. Descripción de Variables Cualitativas.
7
8
11
12
14
15
16
Variables cualitativas nominales y ordinales.
Distribución de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada.
Diagrama de barras.
Moda.
Mediana.
Pictograma.
Diagrama de Pareto.
19
CAPÍTULO II. Distribución de Frecuencias e Histograma.
19
19
19
23
26
Escala de intervalo y de cociente.
Variables discretas y continuas.
Distribución de frecuencias. Diagrama de barras.
Histograma.
Cómo trabajar con los histogramas.
35
CAPÍTULO III. Estadísticos Descriptivos de una Variable Cuantitativa.
35
35
Medidas de posición central.
Moda y mediana.
36
38
38
40
43
43
45
48
79
81
89
89
91
91
Media aritmética.
Propiedades de la media.
Media ponderada.
Media ponderada y muestreos complejos.
Representatividad de la media.
Media cortada (trimmed mean).
Media geométrica.
Utilización de la media, moda y mediana para detectar la
asimetría de una distribución.
Cuartiles, deciles y percentiles.
Medidas de dispersión: rango, rango intercuartílico, varianza,
desviación estándar, coeficiente de variación.
Discusión y propiedades de la varianza, desviación estándar y
coeficiente de variación.
Relación entre la media y la desviación estándar: Desigualdad de
Chebychev.
El Diagrama de caja.
Diagrama de caja. Ayudas para su interpretación.
Medidas de asimetría y curtosis.
Medida de asimetría de Fisher.
Medida de asimetría de Pearson.
Medida de apuntamiento o curtosis.
101
CAPÍTULO IV. Análisis Bivariante de Variables Cualitativas.
101
108
113
119
Distribución conjunta de variables. Tabla de contingencia.
Chi-cuadrado y C de contingencia.
Lambda.
Gamma, Tau-b y Tau-c.
133
CAPÍTULO V. El Coeficiente de Correlación.
133
134
137
144
145
148
148
149
153
Asociación lineal entre dos variables.
Asociación lineal positiva o negativa.
Estadístico de covarianza.
Propiedades de la covarianza.
Coeficiente de correlación lineal.
Propiedades del coeficiente de correlación.
Matriz de correlaciones.
Algunos errores en la interpretación del coeficiente de correlación.
El coeficiente de correlación de rangos de Spearman.
51
57
58
76
177
CAPÍTULO VI. Ajuste de una Recta.
179
182
186
189
195
196
198
198
201
204
205
205
De la propuesta de causalidad a la recta de regresión.
Obtención de a y b por mínimos cuadrados ordinarios.
Derivación de las expresiones de mco para a y b.
Ejemplos de cálculo de la recta de regresión.
Ajustes no lineales.
¿Siempre es posible un buen ajuste?
Algunas propiedades del error del ajuste.
Medida de bondad del ajuste: Coeficiente de determinación R2.
Límites del coeficiente de determinación.
Análisis gráfico de los errores del ajuste.
¿Existe alguna relación entre el coeficiente de correlación y el
coeficiente de determinación?
Dos ejemplos numéricos sobre el coeficiente de determinación.
231
BIBLIOGRAFÍA.
INTRODUCCIÓN: ¿Qué es...?
¿Qué es una variable?
En estadística, como en matemáticas o economía, se emplea el concepto
de variable para referirnos a cualquier característica, que toma valores
diferentes en un conjunto de observaciones. En economía, por ejemplo,
definimos la renta como una variable. Al hacerlo podemos estar pensando en los
ingresos anuales de las familias de una región, en la que cada familia tendrá un
volumen de ingresos distinto. También podemos pensar en los ingresos
agregados de la región, medidos a lo largo del tiempo (cada trimestre o cada
año), y considerar que la región es el individuo sobre el que se mide la variable.
Las dos interpretaciones del concepto de renta que apuntamos son correctas,
utilizándose en ámbitos distintos. Lo que es esencial en su definición es la
posibilidad de medir el nivel de ingresos de una manera sistemática (sea para un
conjunto de familias en un momento del tiempo, sea para un único individuo,
familia o región a lo largo de un periodo), obteniendo observaciones de una
cantidad variable.
En el caso de la renta estamos considerando una variable de tipo
cuantitativo. Hablamos de una variable cuantitativa cuando la característica
que se mide toma valores numéricos. Muchas de las variables económicas son
de este tipo, pero también hay variables económicas de tipo cualitativo.
Entendemos por variable cualitativa aquella que toma valores no numéricos.
La característica que se mide en el individuo sería, en este caso, una
cualidad (un atributo) del mismo. Por ejemplo, la distinción de los
consumidores por sexo, el tipo de familia (su composición), el nivel de estudios o
la categoría profesional son variables de tipo cualitativo que forman parte de los
análisis de los patrones de consumo. La pertenencia a un sector industrial
concreto, el tipo de mercado (nacional o internacional) en el que se opera, la
existencia de barreras de entrada son características que se estudian en economía
industrial.
La distinción entre variables cuantitativas y cualitativas es importante
desde el punto de vista estadístico porque las técnicas que pueden emplearse en
uno u otro caso son diferentes.
¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de la
estadística descriptiva en el análisis económico?
La estadística descriptiva es un conjunto de métodos cuyo objetivo es
ordenar las observaciones, resumir la información disponible y obtener las
medidas cuantitativas que describen sus características. La descripción es
cuantitativa y pretende ser lo más sintética posible.
La teoría económica se suele interesar por variables económicas en un
nivel alto de abstracción. Los campos de la macroeconomía y microeconomía, la
economía del consumo y economía de la producción, la economía financiera, etc.
toman como referencia agentes económicos, sobre los que se definen modelos de
comportamiento. Estos agentes, definidos como referencias abstractas tienen, sin
embargo, su conexión con la realidad económica. El ámbito de la estadística se
aplica a esos individuos reales, estudiando variables como el gasto familiar, los
beneficios empresariales o el índice de paro de un país.
Las técnicas estadísticas también se aplican al control de calidad de la
producción, a la gestión de carteras de acciones, etc., campos de menor
abstracción, en los que las variables a estudiar pueden ser tan concretas como la
producción diaria de una máquina o el precio de una acción. En cualquiera de los
campos en los que se aplique, la estadística descriptiva pretende ayudar a
plantear y resolver los problemas de la economía.
¿Qué son la población y la muestra?
Al conjunto de individuos objetivo del análisis se le denomina población.
Una muestra es una parte de la población. Cuando se trabaja con una muestra
las conclusiones que se obtienen deben restringirse, inicialmente, a ésta. Extraer
conclusiones más generales, aplicables a toda la población, sólo puede hacerse de
una manera limitada, siendo necesario entre otras cosas que la muestra sea
representativa y que la generalización de las conclusiones se haga de una forma
prudente y rigurosa. Las técnicas de la estadística inferencial facilitan esa
generalización desde la muestra a la población.
Las técnicas descriptivas se pueden aplicar a toda la población, si esta se
conoce, o a una muestra. En el caso de disponer únicamente de información
muestral se deberán aplicar las técnicas de la estadística inferencial si se quieren
generalizar las conclusiones obtenidas.
El trabajo con muestras es usual es economía. Uno de los ejemplos más
conocidos para justificar el uso de las muestras se encuentra en el terreno del
control de calidad. Una empresa dedicada a la producción de bombillas, las habrá
diseñado garantizando un tiempo de vida determinado. Antes de servir su
producto la empresa deseará comprobar la fiabilidad real de su oferta realizando
algún tipo de prueba, pero obviamente esto no lo podrá hacer con toda la
producción, puesto que la destruiría. Una muestra representativa permitirá a la
empresa comprobar el tiempo de duración real de sus bombillas. Ejemplos de
situaciones similares no son difíciles de encontrar. Piense, por ejemplo, en las
empresas de auditoría contable cuando acceden a la información de una empresa.
Si la empresa auditora se viera obligada a seguir cada una de los procesos de la
empresa (desde el primer movimiento contable al archivo de la última factura) se
vería metida en una labor inabordable. La selección, al azar, de una muestra de
algunos movimientos contables puede ser suficiente para verificar la corrección
de la toda la gestión.
La necesidad de trabajar con muestras responde en muchas ocasiones a
un ahorro en los costes de obtención de la información. Si puede obtenerse
información esencial y generalizable a partir de una muestra no será preciso
acceder a toda la población.
En ocasiones, el recurrir a las muestras no obedece a una cuestión de
costes, sino a la imposibilidad de acceder a todas las observaciones. Esta
situación es frecuente en economía cuando se recoge la evolución temporal del
valor de una variable. Algunos modelos económicos consideran que, en un
momento del tiempo, la población de interés son todos los valores posibles que
puede tomar una observación. Por ejemplo, imagine que está siguiendo la
evolución diaria del precio de una acción en un mercado bursátil a lo largo de un
año. Cada día usted observará el precio de la acción a la hora del cierre de la
sesión de bolsa, de manera que si el mercado abre durante doscientos días,
dispondrá de doscientos precios. Respecto al año, ese conjunto de doscientas
observaciones, ¿se considera una población o una muestra del precio de la
acción? Se dispone de todos los precios de cierre observados a lo largo del año,
pero no de todos los precios que ha tomado la acción. En un día concreto, el
precio de la acción puede tomar distintos valores y es hasta cierto punto una
cuestión de azar el que a la hora del cierre se observe un precio determinado. Las
doscientas observaciones pueden entenderse como una muestra de todos los
precios que puede haber tomado la acción (que definirían la población). En este
caso, los posibles valores de una variable en un momento del tiempo definirían la
población, el valor observado se consideraría una realización muestral.
El empleo de información muestral obedece a veces a la imposibilidad de
observar toda la población.
¿Qué es un parámetro? ¿Qué es un estadístico?
Cuando queremos entender lo que ocurre con unos datos, lo más
adecuado es resumir los valores individuales. Estaremos interesados en conocer
cuál es el valor representativo de un grupo o hasta qué punto las observaciones se
alejan de ese valor. Cuando se está estudiando una población, estas medidas que
describen las características de los datos se denominan parámetros
poblacionales. El valor medio de una variable en una población sería un
parámetro, también lo es la proporción de individuos de la población que tienen
una característica. La discusión de algunos de estos parámetros es parte de la
estadística.
En general, daremos el nombre de estadístico a cualquier fórmula
aplicada en la información muestral. Muchos de los estadísticos que se utilizan
pretenden ser estimaciones de los parámetros de la población. Si sólo disponemos
de una muestra, podemos calcular el valor medio de las observaciones y suponer
que esa media muestral puede ser una buena aproximación al valor del
parámetro, la media poblacional. La relación entre el parámetro y su estimación
en la muestra es parte esencial de la estadística inferencial. No obstante, los
términos parámetro y estadístico son palabras de uso frecuente también en la
estadística descriptiva.
¿Qué es una muestra aleatoria?
Para que las muestras sean útiles deben ser representativas de la
población. Una manera de garantizar la representatividad de una muestra
consiste en obtenerla mediante procedimientos aleatorios. Los muestreos
aleatorios garantizan la representatividad de la muestra al basarse en el azar. Si
se desea extraer una muestra de cien observaciones de una población de mil
individuos, parece razonable seleccionar aleatoriamente los cien individuos entre
toda la población. La selección aleatoria más sencilla es el muestreo aleatorio
simple (m.a.s.) En su diseño ideal, el m.a.s. consistiría en asignar un número a
cada uno de los elementos de la población y seleccionar al azar (con igual
probabilidad para cada número) el conjunto de individuos que formarán parte de
la muestra. Puede imaginar que este diseño “ideal”, para ser operativo necesita en
ocasiones de otros criterios que lo complementen (qué ocurre cuando la
población no puede numerarse, por ejemplo), pero queremos destacar ahora la
idea de que mediante diseños muestrales aleatorios se pretende conseguir
muestras lo más representativas posibles de la población.
Los diseños de obtención de las muestras son a veces más complejos que
el muestreo aleatorio simple. Si sabemos que una población se distribuye
aproximadamente igual entre los dos sexos, podría interesarnos que ese
porcentaje se mantuviera en la muestra. Por azar, sería posible obtener una
muestra en la que la mayoría de los individuos perteneciera a uno de los dos
sexos. Un diseño muestral más rico podría dividir la población en dos (según su
sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al
azar la mitad de la muestra entre la población masculina y la otra mitad entre la
población femenina. El diseño ya no es puro azar, puesto que éste se sacrifica
parcialmente para garantizar la máxima representatividad. La complejidad
estadística del diseño muestral puede aumentar rápidamente, cuando se imponen
más criterios. Lo que resulta esencial es que bajo diseños más o menos
complejos, siempre aparece finalmente un procedimiento de selección basado en
el azar.
El estudio y diseño de los diferentes tipos de muestreo es una parte de la
estadística inferencial y no se discuten en este libro. Sólo en un punto del análisis
descriptivo se produce un cruce con la idea de población y es cuando a cada
individuo de la muestra se le asocia un factor de elevación poblacional. El factor
de elevación poblacional indica el número de individuos de la población a los
que representa cada uno de los individuos de la muestra. Imaginemos una
población con 1000 individuos, de la cual se quiere extraer una muestra de diez
observaciones. ¿A cuántos individuos de la población representa cada uno de los
individuos de la muestra? Si se trata de un m.a.s., cada uno de los individuos de
la muestra ha tenido igual oportunidad de ser elegido y cada individuo
representará a 1000/10=100 individuos en la población. El factor de elevación de
cada elemento de la muestra será igual a 100. El Instituto Nacional de
Estadística, por ejemplo, realiza gran parte de su trabajo basándose en muestras,
aunque ofrece sus resultados al nivel de la población. Para ello utiliza los factores
de elevación calculados previamente (en función del particular diseño muestral).
Si se quiere “describir la población” empleando la muestra, puede resultar útil
emplear estos factores.
Estructura del libro
El libro se estructura en seis capítulos. Los tres primeros tratan el análisis
descriptivo de una única variable (análisis descriptivo univariante): se dedica un
corto capítulo al tratamiento de variables cualitativas y dos capítulos a las
variables de tipo cuantitativo. Los capítulos siguientes se centran en el análisis de
las relaciones entre dos variables (relaciones bivariantes). En el capítulo cuarto
se estudian las relaciones bivariantes entre variables cualitativas, mientras que el
quinto y sexto están dedicados a las relaciones bivariantes entre variables
cuantitativas. En cada capítulo los conceptos teóricos están acompañados de un
número amplio de ejemplos.
CAPÍTULO I. Descripción de VARIABLES CUALITATIVAS
En este capítulo se exponen las técnicas más sencillas que se utilizan para
describir una variable cualitativa. Definiremos las variables cualitativas
nominales y ordinales, los conceptos asociados a la distribución de frecuencia y
los limitados estadísticos que pueden emplearse en la descripción. El capítulo se
cierra con algunos de los procedimientos gráficos empleados para representar las
distribuciones de estas variables.
Variables cualitativas nominales y ordinales. En una encuesta sobre el gasto
turístico se pregunta a los visitantes de una autonomía cuál es la impresión que
han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes:
•
•
•
•
⇒ La impresión que ha tenido de su viaje ha sido:
Muy buena.
Buena.
Normal.
Mala.
También se pregunta cuál es la categoría socio-profesional en la que se
sitúa el encuestado:
•
•
•
•
•
•
•
•
•
⇒ Su profesión es:
Profesional liberal.
Directivo o empresario.
Administrativo.
Trabajador manual.
Trabajador Autónomo.
Funcionario.
Jubilado.
Estudiante
Otras.
Las anteriores variables son de tipo cualitativo, calificándose como de
tipo ordinal (la primera) y nominal (la segunda). La distinción entre ellas es
clara. En la pregunta sobre la impresión del viaje, la respuesta “muy buena”
indica un nivel de satisfacción mayor que “buena”, ésta última respuesta estaría a
su vez por encima de “normal” y “mala” señalaría en nivel mínimo de
satisfacción. Las respuestas pueden, en algún sentido, ordenarse de menos a más.
En cambio, no es posible ordenar de menos a más las respuestas de una variable
como la categoría profesional.
Las variables cualitativas nominales únicamente ponen nombre a una
característica, las variables ordinales llevan asociadas un orden en las respuestas.
Las categorías de una variable nominal, al contrario de las de una variable
ordinal, no pueden ordenarse de menos a más.
Distribución de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada. La principal herramienta de análisis de una variable de tipo
cualitativo es el simple recuento del número de los casos dentro de cada
categoría. Además de referirnos a las categorías de una variable, emplearemos
también el término “valores” de la variable.
Supongamos que tenemos una variable A, que puede tomar las categorías
A1, A2,…, AI. El primer objetivo es conocer cuántos individuos tienen cada
característica.
La principal herramienta de análisis de una variable de tipo cualitativo es el
simple recuento del número de los casos dentro de cada categoría.
En estadística, el número de veces que se repite una de las categorías o
valores de la variable se denomina frecuencia o, de manera más precisa,
frecuencia absoluta (que denotaremos ni). Por distribución de frecuencias se
entiende el registro de todos las posibles categorías o valores de la variable,
junto con sus frecuencias asociadas. Además de las frecuencias absolutas se
suelen presentar las frecuencias relativas de cada categoría. La frecuencia
relativa se define como la frecuencia absoluta dividida por el total de
observaciones:
fi =
ni
,
n
i = 1 ,K , I
Cuando se trabaja con una variable de tipo ordinal (cuyas categorías se
pueden ordenar de menor a mayor) se pueden calcular las frecuencias
acumuladas. La idea de acumulación facilita conocer rápidamente el número de
observaciones que están por debajo de un determinado valor o categoría. Se
distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia
absoluta acumulada se define como:
i
Ni = ∑ n j
,
i = 1,K I .
j =1
Y la frecuencia relativa acumulada como:
i
Fi =
∑n
j =1
n
j
=
Ni
, i = 1,K,I
n
Recuerde que tiene sentido hablar de valores acumulados cuando las
respuestas de la variable se han ordenado de menor a mayor, lo que sólo es
posible si la variable cualitativa es de tipo ordinal.
La imagen estándar de una distribución de frecuencias es tan sencilla
como la que se muestra en el cuadro 1. En la misma aparecerían, para el total de
n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,
las frecuencias relativas y las frecuencias relativas acumuladas.
Cuadro 1
Categorías
A1
A2
…
AI
Distribución de frecuencias
Frecuencias
Frecuencias
Frecuencias
Absolutas
Relativas
Relativas acumuladas
n1
n1 /n
n1 /n
n2
n2 /n
(n1+n2) /n
…
…
…
nI
nI /n
(n1+…+nI) /n
Ejemplo 1. Régimen de propiedad de la vivienda. El régimen de
propiedad de la vivienda familiar puede considerarse como una variable
cualitativa, distinguiendo tres posibles categorías: la vivienda está en alquiler, la
vivienda es de propiedad con la hipoteca pendiente o la vivienda es de
propiedad sin hipoteca. Ante una muestra concreta de familias, podemos
describir de una manera cuantitativa su relación con la propiedad de su vivienda.
En el cuadro 2 se muestra la distribución de frecuencias de una muestra
de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser
cómodo, cuando se graban los datos, convertir las categorías en etiquetas
numéricas. En nuestro ejemplo se ha definido una variable denominada
“vivienda” que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1
cuando la vivienda es de propiedad pero tiene la hipoteca aún vigente y valor 2,
si la vivienda es de propiedad y sin hipoteca.
Cuadro 2
VIVIENDA
POSESIÓN VIVIENDA HABITUAL(0,1,2)
Value Label
Value
Alquiler
Hipoteca vigente
Propiedad
0
1
2
Total
Valid cases
4791
Frequency
1764
960
2067
------4791
Missing cases
Percent
36,8
20,0
43,1
------100,0
Cum
Percent
36,8
56,9
100,0
0
En el cuadro 2 aparecen los siguientes conceptos:
• Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categorías de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las “etiquetas” de la
variable).
• La Frecuencia absoluta (Frequency). El número de individuos que tiene cada
una de las categorías.
• La frecuencia relativa (Percent) . Definida como el cociente entre la
frecuencia absoluta y el número total de observaciones.
• La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa
acumulada se define como la suma acumulada de los porcentajes relativos
de las categorías anteriores y hasta la propia categoría.
La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes
tiene el mayor porcentaje de individuos. La segunda es la categoría de vivienda
en alquiler, con un 36.8% de declarantes. Finalmente, la categoría con menos
individuos corresponde a la de declarantes que viven en vivienda de propiedad,
aún no pagada. La importancia de cada una de las categorías es fácil de percibir
cuando el número de categorías de la variable es muy pequeño.
Los porcentajes acumulados no tienen una interpretación “inocente”
cuando se tratan variables de tipo cualitativo. La información de que el 56.9% de
los individuos viven en régimen de alquiler o en vivienda propia con hipoteca
puede ser una información sin sentido.
• La frecuencia relativa se define como la frecuencia en cada clase dividida
por el total de observaciones:
fi =
ni
n
• La frecuencia relativa acumulada en cada clase se define, una vez
ordenadas las respuestas desde la categoría inferior a la superior, como:
i
Fi =
•
∑n
j =1
n
j
=
Ni
n
En variables de tipo cualitativo nominal el porcentaje acumulado de
frecuencias no debe leerse de manera automática, puesto que al no existir un
orden en las categorías, el sentido de la acumulación puede ser confuso.
Diagrama de barras. Los resultados de la distribución de frecuencias se
pueden acompañar de ayudas gráficas que facilitan la lectura de la información.
El diagrama de barras representa, para cada una de las categorías de la variable
(indicada en uno de los ejes de la gráfica), su frecuencia absoluta o relativa (que
se muestra en un segundo eje). Su objetivo es disponer de una visualización clara
y rápida de la importancia de cada una de las categorías de la variable. En la
gráfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.
El diagrama de barras representa gráficamente las frecuencias (absolutas o
relativas) de la variable.
Gráfica 1
Gráfica de barras
2200
2000
1800
1600
1400
Frecuencia
1200
1000
800
0
1
2
POSESIÓN VIVIENDA (0=Alquiler,1=Hipoteca,2=Propiedad)
Moda. En el Ejemplo 1 sobre el régimen de propiedad de la vivienda uno de los
resultados obtenidos era que la categoría con un porcentaje mayor de individuos
era la 2 (vivienda en propiedad sin hipoteca). Esta percepción puntual puede
convertirse en el primer estadístico de resumen, ya que saber cuál es la categoría
más frecuente de una variable dice algo del comportamiento general del grupo de
individuos. Conocer el valor con mayor frecuencia permite disponer de una
medida sintética de cuál es la tendencia general de las observaciones. A este
valor se le denomina moda de la distribución.
La moda de una distribución es el valor de la variable con
mayor frecuencia.
En ocasiones, las distribuciones de frecuencias se pueden caracterizar en
función de la moda, distinguiendo entre distribuciones con una única moda
(distribuciones unimodales) y distribuciones en las que son dos o más de dos los
valores que alcanzan la máxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).
Es difícil encontrar distribuciones empíricas que sean multimodales en el
sentido estricto en que aquí se han definido, es decir, que de manera exacta varios
valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar
distribuciones en las que dos o más valores tienen frecuencias más altas que los
demás. En la práctica estas distribuciones se denominan también multimodales.
La explicación de esta flexibilidad puede encontrarla en la comparación de las
gráficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que
tomaría ocho categorías. En la primera distribución se observa una doble moda,
con las categorías A3 y A7 con superior e igual frecuencias absolutas. En la
segunda distribución la moda se encuentra en la categoría A3, pero resulta obvio
que cualquier comentario sobre la distribución que ignorase la categoría A7
“falsearía” la imagen de conjunto que se desea transmitir. Hablar de una
distribución bimodal, con una primera moda situada en la categoría A3 y una
segunda moda en la categoría A7 resultaría ser un retrato más fiel de las
observaciones.
Gráfica 2
120
100
80
60
Frecuencias
40
20
0
A1
A2
A3
A4
A5
A6
A7
A8
A3
A4
A5
A6
A7
A8
Variable Cualitativa
Gráfica 3
120
100
80
60
Frecuencias
40
20
0
A1
Variable Cualitativa
A2
Mediana. En el caso de variables cualitativas ordinales la moda no es el único
estadístico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categorías, si éstas se ordenan de “menos” a “más”, la
distribución de frecuencias acumuladas tendrá una interpretación. La mediana es
aquella característica de la distribución que ocupa la posición central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de sí mismo el 50% de la distribución.
Ordenados los valores de la variable (de menor a mayor) la mediana es aquel
valor de la distribución que ocupa el valor central de la misma.
Ejemplo 2. Investigación comercial de un nuevo producto. Las
empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su
aceptación. Una práctica habitual es ofrecer una muestra del producto a algunos
consumidores potenciales. Una encuesta posterior permitirá conocer el nivel de
satisfacción del consumidor y las modificaciones que podrían resultar
adecuadas. Supongamos que una empresa productora de un abrillantador de
muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre
un número igual de posibles consumidores, realizando después una encuesta
sobre el nivel de satisfacción respecto al producto. En el cuadro 3 se
reproducirían los resultados obtenidos.
Cuadro 3
Value Label
Value
Frequency
Nada satisfactorio
Poco satisfactorio
Bastante satisfactorio
Muy satisfactorio
No lo ha probado
1
2
3
4
5
------Total
6
31
96
90
13
------236
Percent
Valid
Percent
2,5
2,7
13,1
13,9
40,7
43,0
38,1
40,4
5,5
Missing
------100,0
100,0
Cum
Percent
2,7
16,6
59,6
100,0
La variable cualitativa presenta cuatro posibles respuestas, indicando
cada una de ellas el nivel de satisfacción del consumidor. Existe una quinta
opción que recoge la categoría de aquellas personas que finalmente no han
empleado el producto y que, en este ocasión, se han definido como “valores
perdidos” (missing). En los resultados del programa aparecen dos columnas de
porcentajes. En la primera, el total de observaciones (hayan empleado o no el
producto) se recoge como referencia para calcular las frecuencias. En la
segunda columna (valid percent) se calculan lo que se denominan “porcentajes
válidos”, calculándose las frecuencias con referencia al número de individuos
que han empleado el producto.
Las características más relevantes de la distribución serían una moda
para la categoría de “bastante satisfactorio” (43% de las respuestas válidas) y un
valor mediano en la misma categoría, al acumularse dentro de ella el 50% de
consumidores. Además, en los porcentajes acumulados puede leerse que sólo el
16,6% de los consumidores consideran el producto “nada” o “poco” satisfactorio.
El diagrama de barras de la distribución se representa en la gráfica 4,
apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los
resultados anteriores el hecho de que la lectura de los porcentajes acumulados
(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa
de tipo ordinal.
Gráfica 4
Gráfica de barras
50
40
30
Porcentaje
20
10
0
Muy satisf actorio
Bastante satisfact.
Poco satisf actorio
Nada satisf actorio
Satisfacción con respecto al producto
Pictograma. Junto a los diagramas en barra es posible representar la importancia
de cada una de las categorías usando otro tipo de gráficas. El pictograma no es
más que un círculo en el que se representan las categorías de la variable
proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue
definiendo los ángulos proporcionalmente a las frecuencias. Así, una categoría
con una frecuencia relativa del 40.4% debería cubrir un ángulo igual a
0.404 ⋅ 360 0 = 145.44 0 . En la gráfica 5 se representan las frecuencias relativas
del ejemplo anterior por medio de un pictograma.
Gráfica 5
Frecuencias relativas
Nada satisf echo
2,7%
Poco satisf echo
13,9%
Muy satisf echo
40,4%
Bastante satisf echo
43,0%
Diagrama de Pareto. Si se quiere resaltar la distribución de frecuencias
acumuladas puede emplearse el denominado diagrama de Pareto. Éste no es más
que un diagrama en barras en el que las categorías se ordenan de mayor a menor
frecuencia, dibujando sobre las barras una línea indicativa de la frecuencia
acumulada hasta esa categoría. La gráfica se puede realizar tanto sobre variables
nominales como ordinales.
El diagrama de Pareto es un diagrama de barras en el que las categorías se
ordenan de mayor a menor frecuencia, dibujando una línea indicativa de la
frecuencia acumulada hasta esa categoría.
Ejemplo 3. Control de producción. Una empresa sufre continuas paradas
en su cadena de producción. Dada la importancia de las consecuencias
económicas de estas paradas se decide controlar durante un mes cuáles son las
razones que las ocasionan. Para ello se solicita de los operarios que anoten el
tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta
hasta que se soluciona el problema. Las causas detectadas (seis causas
particulares a este proceso de producción) así como su frecuencia y el tiempo de
parada se reproducen en el cuadro 4.
Cuadro 4
Causa
Frecuencia Tiempo de parada
(en minutos)
Rotura de tornillos
10
70
Rotura de arandelas
10
10
Rotura o bloqueo de cintas
4
41
Rotura de aros de sujeción
2
20
Rotura de otras piezas
2
10
Desajustes de temperatura
11
53
1
2
3
4
5
6
En total, como consecuencia de 39 paradas, se han perdido 204 minutos
en un mes de trabajo. El tiempo de parada y el número de paradas se pueden
analizar a partir de los correspondientes diagramas de Pareto. En la gráfica 6 se
observa que las tres causas más frecuentes de parada son la sexta, primera y
segunda, por este orden. Estas tres primeras causas, tal como se observa en la
línea continua del diagrama, representan un porcentaje alto del total de paradas,
en concreto un 79,5% de éstas, (11+10+10)/39. En la gráfica 7 se puede
observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y
tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el interés
de la empresa se encuentra en reducir al máximo el tiempo de parada (y no
tanto el número de veces en que la producción se detiene) debería centrarse en
los determinantes de la rotura de tornillos, los desajustes de temperatura y la
rotura o bloqueo de cintas.
Gráfica 6
Porcentaje
50
40
100
Número de paradas
30
20
10
50
11
10
10
4
0
6,00
Causa de la parada
1,00
2,00
3,00
0
4,00
5,00
Gráfica 7
Tiempo de parada
Porcentaje
300
200
100
100
50
70
53
41
20
0
1,00
Causa de la parada
6,00
3,00
4,00
0
2,00
5,00
CAPÍTULO II. Distribución de frecuencias e histograma
Las variables de tipo cuantitativo son aquellas que toman, en lugar de
categorías, valores numéricos. Las categorías de las variables cualitativas pueden
relacionarse con valores numéricos, pero eso no las convierte en cuantitativas,
puesto que el número, en su caso, no es más que una “etiqueta”, careciendo de
sentido operar matemáticamente con ellos.
Escala de intervalo y escala de cociente. Desde un punto de vista teórico se
distingue entre variables cuantitativas medidas en escala de intervalo y en escala
de cociente. Las variables cuantitativas tienen una escala de intervalo si se
pueden ordenar sus valores y, además, se pueden realizar con ellos las
operaciones de suma y resta. La primera característica la comparte con las
variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de
intervalo puede medirse la distancia entre distintas observaciones. Permite
afirmar, por ejemplo, que un individuo tiene un valor que supera en diez
unidades al que toma otro individuo, o que entre dos individuos hay una
diferencia de veinte unidades. Las variables con escala de cociente añaden a
estas características la de incorporar un origen no arbitrario. La diferencia
esencial es que este segundo tipo de variable admite un cero verdadero
(toneladas consumidas o número de empleados, por ejemplo, donde el cero se
entiende como inexistencia) y permite el cálculo de proporciones entre los
distintos valores (una observación toma un valor que es el doble que el de otra).
Normalmente, desde el punto de vista práctico, no siempre se realiza una
distinción entre ellas.
Variables discretas y continuas. También se suele distinguir en la estadística
descriptiva entre variables de tipo discreto (si la variable toma un número finito
o infinito numerable de observaciones) y de tipo continuo (infinito no
numerable). De nuevo, desde el punto de vista práctico esta distinción no es
importante en muchas ocasiones.
Distribución de frecuencias. Diagrama de barras. La idea de recuento, es
decir, la idea de crear una distribución de frecuencias debe ser, como en el caso
de las variables cualitativas, el primer paso del análisis. Observar los distintos
valores que toma una variable, ordenarlos de menor a mayor y contar el número
de veces que aparece cada valor nos dará una idea de su comportamiento. El
único problema que se plantea con una variable de tipo cuantitativo es que suele
tomar un número de valores mucho mayor que las posibles categorías de una
variable cualitativa. La imagen general que se pretende dar con la distribución de
frecuencias puede ser entonces poco útil, porque la información está poco
resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de
sus posibles valores, es el procedimiento normal para conseguir una imagen
sintética de la distribución.
Ejemplo 1. Distribución de frecuencias del número de hijos. En este
primer ejemplo vamos a obtener la distribución de frecuencias y el
diagrama de barras del número de hijos de una muestra de familias
españolas. La muestra de 1254 familias está formada por una selección
aleatoria de declarantes del IRPF que ya hemos analizado anteriormente.
La distribución de frecuencias para una muestra de esta variable Número
de hijos del hogar aparece en el cuadro 1 y su representación en un
diagrama en barras en la gráfica 1.
Cuadro 1
Niños
0
1
2
3
4
5
Gráfica 1
Número de hijos del hogar
Cumulative
Frequency
Percent
Frequency
562
307
301
59
23
2
44.8
24.5
24.0
4.7
1.8
0.2
562
869
1170
1229
1252
1254
Cumulative
Percent
44.8
69.3
93.3
98.0
99.8
100.0
600
562
500
400
Frecuencias absolutas
300
307
301
200
100
59
0
0
1
2
3
4
5
Número de hijos del hogar
El primer resultado interesante de la distribución es el disponer de
los valores que toma la variable, información que a priori no conocíamos.
El número de hijos en la muestra toma únicamente valores 0, 1, 2, 3, 4,
5. Se trata de una variable de tipo cuantitativo discreta. Como en el caso
de una variable cualitativa podríamos detectar la moda y mediana de la
distribución. La moda corresponde al valor 0, ya que el 44.8% de las
familias no tienen ningún hijo en el hogar. La mediana de la distribución
es el hijo único, ya que es en el valor 1 en donde se acumulan el 50% de
las observaciones. Se puede resaltar, además, la importancia de los tres
primeros valores para describir el comportamiento de la muestra: el
93.3% de las familias tendría un número igual o inferior a dos hijos.
Un problema diferente se enfrenta cuando la variable toma diversos
valores numéricos, pero con un número mayor de posibilidades. Pensemos en la
distribución de la edad del perceptor principal de rentas de una familia
(sustentador principal) en la misma muestra de declarantes. En concreto, si
solicitásemos la distribución de frecuencias en una muestra de 1460 familias,
para la variable Edad del sustentador principal, nos encontraríamos ahora con la
distribución del cuadro nº 2.
Cuadro 2
EDAD del sustentador principal
Value
16,00
17,00
18,00
Frequency Percent
1
,1
4
,3
13
,9
,9
1,2
Valid
Percent
,1
,3
Cum
Percent
,1
,3
19,00
20,00
21,00
22,00
23,00
24,00
25,00
26,00
27,00
28,00
29,00
30,00
31,00
32,00
33,00
34,00
35,00
36,00
37,00
38,00
39,00
40,00
9
20
18
33
34
37
36
42
33
31
33
32
27
34
45
31
32
31
26
31
31
25
,6
1,4
1,2
2,3
2,3
2,5
2,5
2,9
2,3
2,1
2,3
2,2
1,8
2,3
3,1
2,1
2,2
2,1
1,8
2,1
2,1
1,7
,6
1,4
1,2
2,3
2,3
2,5
2,5
2,9
2,3
2,1
2,3
2,2
1,8
2,3
3,1
2,1
2,2
2,1
1,8
2,1
2,1
1,7
1,8
3,2
4,5
6,7
9,0
11,6
14,0
16,9
19,2
21,3
23,6
25,8
27,6
29,9
33,0
35,1
37,3
39,5
41,2
43,4
45,5
47,2
34
2,3
27
1,8
34
2,3
31
2,1
40
2,7
32
2,2
35
2,4
23
1,6
20
1,4
28
1,9
,8 68,8
34
2,3
32
2,2
28
1,9
21
1,4
25
1,7
30
2,1
38
2,6
25
1,7
15
1,0
15
1,0
12
,8
18
1,2
11
,8
17
1,2
14
1,0
12
,8
20
1,4
10
,7
9
,6
2,3
1,8
2,3
2,1
2,7
2,2
2,4
1,6
1,4
1,9
49,5
51,4
53,7
55,8
58,6
60,8
63,2
64,7
66,1
68,0
2,3
2,2
1,9
1,4
1,7
2,1
2,6
1,7
1,0
1,0
,8
1,2
,8
1,2
1,0
,8
1,4
,7
,6
71,1
73,3
75,2
76,6
78,4
80,4
83,0
84,7
85,8
86,8
87,6
88,8
89,6
90,8
91,7
92,5
93,9
94,6
95,2
(Continuación Cuadro 2)
41,00
42,00
43,00
44,00
45,00
46,00
47,00
48,00
49,00
50,00
51,00
11
52,00
53,00
54,00
55,00
56,00
57,00
58,00
59,00
60,00
61,00
62,00
63,00
64,00
65,00
66,00
67,00
68,00
69,00
70,00
,8
71,00
72,00
73,00
74,00
75,00
76,00
77,00
78,00
79,00
80,00
81,00
82,00
83,00
84,00
85,00
86,00
87,00
88,00
6
8
5
7
8
4
1
5
5
5
5
5
1
1
1
1
1
1
------1460
Total
,4
,5
,3
,5
,5
,3
,1
,3
,3
,3
,3
,3
,1
,1
,1
,1
,1
,1
------100,0
,4
,5
,3
,5
,5
,3
,1
,3
,3
,3
,3
,3
,1
,1
,1
,1
,1
,1
-----100,0
95,6
96,2
96,5
97,0
97,5
97,8
97,9
98,2
98,6
98,9
99,2
99,6
99,7
99,7
99,8
99,9
99,9
100,0
Gráfica 2
50
40
Frecuencias absolutas
30
20
10
0
16
20
18
24
22
28
26
32
30
36
34
40
38
44
42
48
46
52
50
56
54
60
58
64
62
68
66
72
70
76
74
80
78
84
82
88
86
EDAD del sustentador principal
La lectura de esta distribución ya no resulta tan cómoda como cuando la
variable toma un número escaso de valores. La creación de la tabla sigue siendo
una ayuda para comprender el comportamiento de la variable (moda, mediana,
porcentajes acumulados hasta un determinado valor), pero resulta algo más difícil
hacerse una idea general de la distribución. La representación gráfica del
diagrama en barras (gráfica 2) nos ayuda a simplificar la imagen, pero también
presenta un exceso de información. Uno de los principales objetivos de las
técnicas estadísticas es facilitar la comprensión de la información numérica,
sacrificando volumen de información (menor precisión) por una mejor
comprensión de la misma (mayor eficiencia).
Histograma. Para tratar variables que toman gran cantidad de valores el
procedimiento usual es el de agrupar los valores en intervalos. Tomemos la
variable edad del sustentador principal con la que hemos trabajado en el
apartado anterior. De una manera arbitraria, podemos pensar en crear intervalos
de edad de 8 años: de los 16 a los 24 años, de los 24 a los 32, etc. En el cuadro 3
se recoge el resultado de esta agrupación de la variable y en la gráfica 3, la
representación correspondiente de las frecuencias relativas de cada intervalo.
Aunque ahora no dispone de información sobre el número de individuos
de la muestra que tienen una edad concreta, los rasgos generales de la
distribución de la edad es más clara.
Cuadro 3
Valid
Cum
EDAD Frequency Percent Percent Percent
16
24
32
40
48
56
64
72
80
a
a
a
a
a
a
a
a
a
24
32
40
48
56
64
72
80
88
Total
169
268
252
256
199
164
96
40
16
------1460
11,6
18,4
17,3
17,5
13,6
11,2
6,6
2,7
1,1
------100,0
11,6
18,4
17,3
17,5
13,6
11,2
6,6
2,7
1,1
------100,0
11,6
29,9
47,2
64,7
78,4
89,6
96,2
98,9
100,0
Gráfica
3
300
200
100
0
16 - 24
24 - 32
32 - 40
40 - 48
48 - 56
56 - 64
64 - 72
72 - 80
80 - 88
EDAD del sustentador principal
La representación realizada para la variable “Edad del sustentador
principal” se denomina histograma. Aunque se parece al diagrama de barras,
se diferencian en que en el diagrama, la altura de la barra es proporcional a la
frecuencia, mientras que en el histograma es el área del rectángulo la que es
proporcional a la frecuencia. Formalmente pueden establecerse otras
diferencias entre el diagrama en barras y el histograma. En el diagrama, cada
barra representa la frecuencia de un atributo de la variable, mientras que en un
histograma, cada uno de los rectángulos representa las frecuencias de
diversos valores de la variable (intervalos de valores). Además, debe tenerse
en cuenta que en los histogramas, cuando aparece un intervalo con frecuencia
cero, no se omite por ello su representación, mientras que en un diagrama de
barras no se incluye ningún espacio para aquellos valores con frecuencia nula.
En el histograma se representan las frecuencias de la variable definida en
intervalos. El área del rectángulo es proporcional a la frecuencia en el intervalo.
El histograma se construye de manera que el área correspondiente al
rectángulo que se dibuja sobre el intervalo sea proporcional a su frecuencia.
Carecería de sentido proceder como en el diagrama de barras. Puesto que los
intervalos en los que se puede dividir cualquier variable continua son de una
amplitud y número arbitrario, si dibujásemos barras con alturas proporcionales a
las frecuencias para cada intervalo, los resultados serían absurdos.
Haciendo el área proporcional a la frecuencia relativa para el intervalo iésimo se tendrá:
Area i = basei * alturai =
ni
n
donde la base es la amplitud del intervalo y, por tanto, la altura del rectángulo es
igual a:
alturai =
ni 1
n basei
Si un intervalo tiene una gran amplitud tenderá en principio a ofrecer un
mayor número de frecuencias, no obstante en el histograma se seguirá
manteniendo un área total proporcional. La altura del rectángulo, de acuerdo con
su definición, se conoce como densidad de frecuencia.
Para identificar cada intervalo se emplea en ocasiones sus puntos medios,
denominados marcas de clase:
marca de clase =
Límite superior del intervalo + Límite inferior del intervalo
2
En muchos histogramas es la marca de clase el valor que identifica los
intervalos.
En general, se emplea el histograma: (i) cuando se trata de variables
que contienen muchos valores diferentes; (ii) cuando tiene sentido construir
intervalos, agrupando valores adyacentes.
Cómo trabajar con los histogramas. El histograma pretende facilitar la
comprensión de la forma de la distribución de la variable.
Al estudiar un histograma se debe estar dispuesto a descubrir cuáles son
los valores más frecuentes, los valores que ocurren con poca frecuencia, la
simetría o asimetría de la distribución, su dispersión y forma.
La moda y la mediana que utilizábamos para describir una variable
cualitativa pueden usarse con la misma definición sobre las variables
cuantitativas. La moda es el valor con mayor frecuencia. La mediana es aquel
valor que (ordenada la variable de menor a mayor) deja por debajo de sí mismo
el 50% de las observaciones. Estos estadísticos pueden calcularse sobre la
distribución original de la variable, aunque puede ser recomendable obtener la
moda y la mediana en los intervalos de la variable. Existen fórmulas para obtener
la moda y la mediana a partir de la información agregada en intervalos, pero es
también correcto detectar la moda y mediana en el propio intervalo y hablar, por
ejemplo, del intervalo modal cuando en una distribución se detecta un intervalo
con un área (una frecuencia) mayor que los restantes.
Uno de los problemas de los histogramas es decidir con cuántos
intervalos construirlos y si los intervalos deben ser todos de la misma amplitud.
Normalmente los histogramas se construyen con intervalos de igual amplitud,
de manera que o bien se define el número de intervalos y de ahí se deduce (a
partir del rango de la variable) la amplitud de cada intervalo, o bien se decide
arbitrariamente la amplitud del intervalo y luego se deduce el número de
intervalos. Estas decisiones están sujetas a una cierta arbitrariedad. Una regla
frecuentemente utilizada es la de definir intervalos de la misma amplitud, en
un número igual al entero más próximo a n .
Es normal definir intervalos de diferente amplitud en las colas de la
distribución (valores superiores e inferiores de la distribución), en donde además
se suelen emplear intervalos abiertos. El intervalo inferior se define tomando los
valores por debajo de una cantidad (menos de __ ) y el intervalo superior, por
encima de una cantidad (más de __ ). El propósito de estos intervalos abiertos es
evitar histogramas en los que “pesen” demasiado la representación de los valores
extremos, que pueden estar muy alejados del comportamiento común.
Ejemplo 2. Efecto del número de intervalos en la construcción del
histograma. La decisión sobre el número de intervalos que deben tomarse
para construir un histograma puede ser decisiva para la comprensión de
la distribución. Como ejemplo se ofrecen en los gráficos 4 a 7 cuatro
histogramas de la variable ingresos familiares de una muestra de familias
de la Encuesta de Presupuestos Familiares (EPF-90). En la gráfica 4 se
ofrece un histograma basado en 27 intervalos (número seleccionado
según criterios formales por un programa informático de estadística),
siendo la amplitud de cada intervalo de 20000 ptas. La gráfica 5 se basa
en 10 intervalos (amplitud 54000), la gráfica 6 en 25 intervalos (amplitud
21600) y, finalmente, la gráfica 7 con 50 intervalos de amplitud igual a
10800, cada uno de ellos.
Gráfica 4
Gráfica 5
400000
600000
500000
300000
400000
200000
300000
200000
100000
100000
0
200000
0
1000000
600000
1800000
1400000
2600000
2200000
3400000
3000000
4200000
3800000
5000000
4600000
370000
5400000
1450000
910000
Ingresos percibidos. Muestra EPF
2530000
1990000
3610000
3070000
4690000
4150000
5230000
Ingresos percibidos. Muestra EPF
Gráfica 6
Gráfica 7
300000
200000
200000
100000
100000
0
208000
1504000
856000
2800000
2152000
Ingresos percibidos. Muestra EPF
4096000
3448000
5392000
4744000
0
154000
1234000
694000
2314000
1774000
3394000
2854000
4474000
3934000
5014000
Ingresos percibidos. Muestra EPF
Observe que ni siquiera las gráficas 4 y 6 (con 27 y 25 intervalos)
proporcionan una imagen idéntica, detectándose una moda más señalada en el
primer histograma. En la gráfica 5 (con 10 intervalos) se recoge la imagen básica
de la distribución, siendo incluso suficiente para captar las grandes líneas de la
misma, caracterizada por ser una distribución asimétrica hacia la derecha. Sin
embargo, si uno está interesado en detectar posibles modas y submodas (o
modas relativas) parecería más adecuado el histograma basado en 50
intervalos.
Cuando se trabaja con histogramas, resulta recomendable experimentar
con el número de intervalos.
Ejemplo 3. Distribución de los porcentajes de gasto en alimentación y
vestido. En este ejemplo se consideran dos partidas del gasto en
consumo de una muestra de familias españolas. Se van a analizar los
histogramas y las distribuciones de frecuencias de las proporciones de
gasto del consumo en alimentos y en vestido y calzado. Cada uno de
estos agregados tienen características distintas, que se reflejan en las
formas de sus distribuciones.
La muestra que seleccionamos corresponde a 271 hogares,
provenientes de la Encuesta Continua de Presupuestos familiares
(ECPF). La ECPF es una encuesta realizada por el INE desde el primer
trimestre de 1985, efectuándose cada trimestre desde ese año. La
encuesta recoge el origen y cuantía de las rentas familiares y su
concreción en gastos de consumo (gastos trimestrales de más de 200
bienes). La unidad básica de la encuesta son los hogares, de los que se
seleccionan alrededor de 3200 de manera aleatoria, renovándose cada
trimestre el 12.5% de la muestra (como consecuencia de ello, un hogar
permanece en la encuesta como máximo ocho trimestres). Las 271
familias de nuestro ejemplo son las que cumplen su último trimestre en la
encuesta en el cuarto trimestre de 1991.
Las variables son proporciones de gasto (en alimentación, y en vestido y
calzado). Estas se han calculado, para cada bien y en cada familia como:
proporción del gasto en el bien i =
gasto del hogar en el bien i
⋅100
consumo total del hogar
En las gráficas 8 y 9 (alimentación y vestido y calzado,
respectivamente) aparecen conjuntamente las distribuciones de las
proporciones de gasto y sus histogramas. Estos resultados se han
obtenido utilizando un programa informático de estadística y el número
de intervalos en los que debían dividirse las variables ha sido calculado
por el propio programa. En los resultados se ofrecen el histograma (con
las frecuencias relativas en el eje horizontal) y la distribución de
frecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ. la frecuencia
absoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. la
frecuencia relativa acumulada. Los intervalos se definen por medio de su
marca de clase; recuerde que la marca de clase de un intervalo es su
punto medio, de manera que un valor de 4 al lado de uno de los
rectángulos del histograma indica que el intervalo correspondiente está
entre 0 y 8.
La primera impresión que se obtiene de los dos histogramas es la
de su diferente forma. Ambas son distribuciones unimodales (con un
intervalo definiendo la máxima frecuencia), aunque la distribución
correspondiente a alimentación presenta esa moda en el centro de los
valores que toma la variable, mientras que vestido y calzado tiene la
moda bastante desplazada del centro de la variable, muy cerca de sus
valores mínimos. Las distintas formas de las distribuciones son
importantes cuando se trata de describir el comportamiento de una
variable. Aunque más adelante volveremos sobre ello, puede ya retener
que un tipo de distribución como la de alimentos se conoce en estadística
como distribución simétrica, mientras que la de vestido y calzado se
conoce como distribución asimétrica por la derecha, al tener muchos más
valores alejados de la moda por la parte superior de la variable (una
distribución asimétrica por la izquierda tendría la imagen contraria).
¿Qué nos aporta la información de las distribuciones?
Centrémonos en el gasto en alimentación. El intervalo mínimo de la
variable tiene una marca de clase del 4% y el intervalo más alto es igual
al 84%. El intervalo más frecuente, que definiría la moda, se sitúa en el
28% del gasto, cifra que identificaría el 23.99% de las familias de la
muestra. Al tratarse del consumo de alimentos, parece que sería lógico
esperar que el porcentaje de gasto que éstos representan en un hogar no
fuera muy elevado. La moda, con un valor alrededor del 28%, nos ofrece
una buena referencia de cuál puede ser la proporción esperada. Sin
embargo, en la distribución destacan las observaciones que se sitúan en
la parte superior de la variable. El porcentaje de familias que dedican
algo más del 50% de su presupuesto a la alimentación resulta
significativo. En concreto, por encima del intervalo cuya marca de clase
es 44 (40% a 48%) se sitúa el 100-90.04=9.96%, es decir que alrededor
de un 10% de las familias, consumen más del 48% de su gasto total en
alimentación. La mayoría de hogares, sin embargo, limitan este
porcentaje, destacando que el 60.52% de los hogares tiene un porcentaje
de gasto inferior al 32%.
La descripción de la segunda variable puede hacerse en términos
parecidos. La moda, con un valor del 5%, nos define el valor más
frecuente. La distribución de este tipo de gasto es diferente a la de
alimentación. El recorrido de la variable es bastante menor, situándose
teóricamente entre el 0 y el 47.5% (valores inferior y superior del primer y
último intervalo, respectivamente). El intervalo inferior tiene como punto
medio 0, y debe interpretarse como definido entre 0 y 2.5%, al no ser
posible definir un porcentaje de gasto negativo (intervalo entre –2.5 y
2.5). En este intervalo se sitúa el 22.88% de los hogares, de manera que
destaca de la distribución el que el 50.18% de los hogares gasten menos
del 7.5% de su consumo trimestral en vestido y calzado. Los valores
superiores de la variable, sin embargo, no muestran frecuencias tan
altas. Por encima del 25% del gasto (y hasta un máximo del 47.5%) se
encontrarían nada más que alrededor del 7% de los hogares.
Gráfica 8
P r o p o r c i ó n d e g a s t o e n a l i me n t a c i ó n
FREQ.
CUM.
FREQ.
PCT.
CUM.
PCT.
4
12
12
4. 4 3
4. 4 3
12
31
43
11. 44
15. 87
20
56
99
20. 66
36. 53
28
65
164
23. 99
60. 52
36
51
215
18. 82
79. 34
44
29
244
10. 70
90. 04
52
13
257
4. 8 0
94. 83
60
8
265
2. 9 5
97. 79
68
1
266
0. 3 7
98. 15
76
2
268
0. 7 4
98. 89
84
3
271
1. 1 1
100. 00
0
10
Fr e c u e n c i a s r e l a t i v a s
ECP F .
20
30
I V t r i me s t r e 1 9 9 1
Gráfica 9
Pr o p o r c i ó n g a s t o e n v e s t i d o y c a l z a d o
FREQ.
CUM.
FREQ.
PCT.
CUM.
PCT.
0
62
62
22. 88
22. 88
5
74
136
27. 31
50. 18
10
52
188
19. 19
69. 37
15
37
225
13. 65
83. 03
20
14
239
5. 17
88. 19
25
12
251
4. 43
92. 62
30
14
265
5. 17
97. 79
35
1
266
0. 37
98. 15
40
4
270
1. 48
99. 63
45
1
271
0. 37
100. 00
0
10
Fr e c u e n c i a s r e l a t i v a s
ECP F .
20
30
I V t r i me s t r e 1 9 9 1
Ejemplo 4. La influencia del salario mínimo en la desigualdad
salarial. El impacto que tiene el salario mínimo sobre la distribución de
los salarios ha sido analizado con datos de la economía portuguesa por
Rute (1997). La legislación sobre salario mínimo impone un efecto de tipo
igualitario en la estructura de salarios, al imponer restricciones en los
salarios pagados por los empleadores. En su trabajo discute diversos
histogramas que muestran la distribución de los salarios en distintos
años. El análisis de los mismos se dirige especialmente a la detección de
los picos (modas o submodas) del salario mínimo, clarificando además la
estructura de salarios que quiere describirse. En todos los histogramas
se señala la posición de los salarios mínimos correspondientes a la
agricultura y al conjunto de actividades económicas, excluyendo en este
caso la agricultura y el trabajo doméstico (estas posiciones se identifican
en el eje horizontal con las letras A y M, respectivamente).
En la gráfica 18 se muestra el histograma de los salarios del año
1983. En el mismo puede detectarse una moda en el salario mínimo
agrícola y una moda, más importante, en el salario mínimo del resto de la
economía. Hasta 1986 (gráfica 19), las relaciones económicas se
endurecieron, contrayéndose el nivel de empleo y aumentando el cierre
de empresas. La legislación sobre salario mínimo hizo que éste fuera
mayor en relación al salario medio en la economía. Esto tuvo un efecto
igualitario sobre la distribución, al acercar los salarios más bajos a los del
resto de trabajadores. Este efecto se dio también sobre los salarios
inferiores al mínimo legal, que se vieron arrastrados por el aumento del
salario mínimo. El histograma de los salarios del año 1992 se muestra en
la gráfica 20. En ese año no se permitieron salarios legales por debajo
del mínimo, el pico correspondiente todavía se detecta, pero la
concentración por encima del mínimo aumenta.
Los picos detectados en las distribuciones ilustran la importancia
de la legislación sobre salario mínimo y, en consecuencia, la importancia
de los factores institucionales en la distribución de los salarios.
Gráfica 18
.078947
Fraction
0
3000
A
M
39990
salarios base 1983
Gráfica 19
.102424
Fraction
0
4000
A M
68992
salarios base 1986
Gráfica 20
.101049
Fraction
0
117000
176900
A=M
salarios base 1992
Las variables de tipo cuantitativo permiten un tratamiento más completo
que el visto para las variables cualitativas. Además de las distribuciones de
frecuencias, sus representaciones gráficas y estadísticos como la moda y la
mediana, es posible calcular otras medidas numéricas que de manera sencilla y
sintética faciliten información de la distribución de la variable. En el siguiente
capítulo se van a discutir algunos de estos estadísticos.
CAPÍTULO III. ESTADÍSTICOS DESCRIPTIVOS de una VARIABLE
CUANTITATIVA
De manera tradicional se distingue entre los estadísticos básicos que
intentan describir la posición de la variable y los que miden su dispersión.
También se presentan en un grupo diferenciado los estadísticos de forma, que
describen la asimetría o apuntamiento de la distribución. Mantendremos aquí esta
distinción.
Denotaremos la variable a describir como X y a las observaciones de la
misma, desde i igual a 1 hasta n, como Xi.
Medidas de posición central
Moda y Mediana. Entre las medidas básicas de posición central se encuentran la
moda y la mediana, que ya han sido utilizadas en el anterior capítulo.
La moda es aquel valor que presenta una frecuencia mayor. La mediana
es aquel valor que se sitúa en el punto medio de la distribución, cuando los
valores están ordenados de menor a mayor.
Supongamos que disponemos de los días de vacaciones que han
disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la
mediana de estas observaciones, primero deben ordenarse los valores de menor a
mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el
valor que se sitúa en el centro de la distribución, que en este caso sería el valor
17, que deja cuatro observaciones por debajo de él y cuatro observaciones por
encima. Si n, el número de observaciones, es impar, como en este ejemplo,
siempre será inmediato detectar el valor de la mediana; bastará con localizar el
valor situado en el lugar (n + 1) 2 .
En el ejemplo anterior, con nueve observaciones, la mediana es el valor
situado en el quinto lugar. Si el número de observaciones es par esta regla
necesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15,
16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro
de la distribución. El valor 17 deja por debajo cuatro observaciones y por encima
cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el
caso de tener un número n de observaciones par, se puede considerar que la
mediana es el promedio de estos dos valores: (17 + 25) 2 = 21 . Una posible
regla, cuando el número de observaciones es par es promediar los valores
situados en las posiciones n 2 y (n 2 ) + 1 . No obstante, existen también otras
formas de determinar el valor concreto de la mediana.
Otras medidas de uso común son la media (aritmética y geométrica) y los
cuartiles y percentiles (éstos últimos como medidas generales de posición).
Media Aritmética: Como estadístico de posición central se distingue de la
mediana en que utiliza en su cálculo todas las observaciones de la muestra. Su
fórmula para una variable X es la siguiente:
n
x=
∑X
i =1
i
n
Es decir, la suma de los valores de todas las observaciones de la variable
dividida por el número total de observaciones.
La fórmula de la media se modifica si de trabaja con datos agrupados,
que provienen de una distribución de frecuencias. Entonces se tienen los distintos
valores que toma la variable y la frecuencia con la que lo hacen:
X1
X2
X3
n1
n2
n3
M
M
Xp
np
En estas circunstancias, la media se expresa (para p valores diferentes)
como:
p
x=
∑n
i =1
i
Xi
n
Las dos expresiones de la media son equivalentes, puesto que en ambos
casos en el numerador aparece la suma de todos los valores de la variable.
Ejemplo 1. A una muestra de 100 turistas de una zona se les
pregunta cuántas veces la han visitado. La distribución de la variable se
muestra en el siguiente cuadro. Se desea calcular el valor medio y la
mediana de la distribución.
Número visitas
Frecuencia absoluta
Frecuencia
acumulada
1
48
48
2
30
78
3
15
93
4
4
97
5
0
97
6
3
100
El valor medio será:
x=
48 ⋅1 + 30 ⋅ 2 + 15 ⋅ 3 + 4 ⋅ 4 + 0 ⋅ 5 + 3 ⋅ 6
=1,87
48 + 30 + 15 + 4 + 0 + 3
Dado que hay 100 observaciones (número par), la mediana será
el promedio de los valores en las posiciones 50 y 51. En la distribución
de frecuencias acumuladas las dos posiciones corresponden a 2 visitas,
que será por tanto la mediana de la distribución.
Ejemplo 2. En ocasiones la información disponible de una variable
está únicamente en intervalos. Por ejemplo, la información sobre el
número de días de estancia en el lugar de vacaciones puede presentarse
agrupada en intervalos:
Días de estancia
1-7 8-14 15-21 22-30
Frecuencia absoluta 1991 2422 172
24
Si se desea conocer los días medios de estancia, se calcula la media
tomando como valores de la variable las marcas de clase (los puntos medios de
los límites de cada intervalo: 4, 11, 18 y 26):
x=
1991 ⋅ 4 + 2422 ⋅11 + 172 ⋅18 + 24 ⋅ 26
= 8,3
1991 + 2422 + 172 + 24
También para la mediana debe aplicarse alguna regla especial. La
mediana debe estar en el intervalo 8-14. Si se quiere dar un valor concreto se
aplica la siguiente fórmula:
Mediana = Linferior
n
− N inferior
2
+
⋅ amplitud
nintervalo
donde:
Linferior = límite inferior del intervalo que acumula el 50% de
observaciones.
N inferior = frecuencia acumulada hasta el intervalo anterior al que contiene
la mediana.
nintervalo = frecuencia absoluta del intervalo que contiene la mediana.
amplitud = amplitud del intervalo que contiene la mediana.
En nuestro ejemplo:
4609
− 1991
Mediana = 8 + 2
⋅ 6 = 8,8
2422
Propiedades de la media
(1) Como estadístico de posición central la media tiene como principal
característica la siguiente:
n
∑( X
i =1
i
− x )=0
Es decir, la suma de las desviaciones de los valores con respecto a la
media es igual a cero.
(2) Si a los valores de la variable se les suma una constante ( c + X i ) , la
media de los valores transformados se incrementa en esa cantidad:
n
xc+ X =
∑(c+ Xi )
i =1
n
=
n
n
i =1
i =1
∑ c + ∑ Xi
n
n
=
nc + ∑ Xi
i =1
n
n
=c+
∑X
i =1
n
i
=c+ x
(3) Si los valores de la variable se multiplican por una constante ( c X i ) ,
la media de los valores transformados es la media de la variable
original multiplicada por la misma constante:
n
x cX =
∑c X
i =1
n
n
i
=
c∑ Xi
i =1
n
= cx .
Media ponderada. Es frecuente trabajar también con la media ponderada, en la
que los valores promediados son ponderados mediante un peso determinado. Si
tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un
peso wi, la media ponderada se define como:
p
xw =
∑w X
i
i =1
i
p
∑w
i
i =1
Si, por ejemplo, las observaciones de una variable se ponderan por sus
frecuencias relativas: wi = ni n , es decir, por la importancia relativa de cada
valor en la distribución, se tendría (suponiendo p valores distintos):
p
xw =
i =1
p
ni
∑
i =1 n
p
p
ni
∑nX
i
=
∑n X
i
i =1
p
∑n
i =1
i
=
∑n X
i =1
i
i
n
i
que es la fórmula que hemos empleado para la media en el caso de datos
agrupados.
En ocasiones, la ponderación tiene que ver con el peso en la población de
las distintas observaciones. Suponga, por ejemplo, que dispone de la renta
familiar per capita mensual de tres familias pertenecientes cada una de ellas a
uno de los tres municipios de una región. Las rentas son de 2000, 2000 y 1000
euros y los tamaños de los municipios son: 10000, 20000 y 1000000 habitantes,
respectivamente. Si se le pidiese estimar la renta familiar per capita media para
toda la región una opción directa sería la siguiente:
x=
2000 + 2000 + 1000
= 1666,67
3
El inconveniente de este cálculo es que no tiene en cuenta que cada
familia representa un municipio de diferente tamaño. Resultaría lógico utilizar
una media ponderada, donde la renta de cada familia fuera representativa de
todas las familias de su municipio:
x=
2000 ⋅10000 + 2000 ⋅ 20000 + 1000 ⋅1000000
= 1029,13
10000 + 20000 + 1000000
Tiene sentido ponderar, porque cada observación es representativa de un
número de familias distinto.
Imagine, por ejemplo, que la información censal le permite conocer la
distribución de una población en zonas rurales y urbanas (60% y 40%). El
resultado de una muestra aleatoria simple no tiene por qué respetar esta
distribución, especialmente si el tamaño muestral no es muy elevado. Una
alternativa podría ser seleccionar una m.a.s. y ponderar las observaciones según
provengan de una zona rural o urbana. Lo normal, en este caso, sería calcular dos
medias, una con las n rural observaciones rurales y otra con las nurbana
observaciones urbanas, calculando la media global como:
x = 0,60 x rural + 0,40 xurbana
Esto sería lo mismo que ponderar las observaciones de manera diferente,
según sea su origen rural ( n rural ) o urbano ( nurbana ), empleando como
ponderaciones de la zona rural 0,60 / nrural y de las urbanas 0,40 / nurbana :
0,60
(x1,rural + x2,rural + K + xn,rural ) + 0,40 (x1,urbana + x2,urbana + K + xn,urbana )
n
nurbana
x w = rural
=
0,60
0,40
n rural
+ nurbana
n rural
nurbana
=
0,60
(x1,rural + x2,rural + K + xn,rural )+ 0,40 (x1,urbana + x2,urbana + K + xn,urbana ) =
n rural
nurbana
 x1, rural + x 2 ,rural + K + x n , rural
= 0,60 
nrural

+ x 2,urbana + K + x n ,urbana
x

 + 0,40  1, urbana
nurbana



 =

= 0,60 x rural + 0,40 xurbana
Media ponderada y muestreos complejos. Comentaremos a continuación el
empleo de la media ponderada cuando se dispone de información proveniente de
muestreos complejos. Cuando se trabaja con información muestral se dispone,
por ejemplo para una variable, de los valores de n individuos. Si el muestreo
realizado es del tipo denominado muestreo aleatorio simple (m.a.s.) cada uno de
los individuos de la población ha tenido igual probabilidad de ser seleccionado
para formar parte de la muestra. Supongamos que el tamaño de la población es de
N = 100 y se toma una muestra aleatoria simple de 20 observaciones. La
probabilidad de aparecer en la muestra es la misma para todos los individuos e
igual a 20/100. Otra manera de expresar esta información es decir que cada
individuo de la muestra, al ser seleccionado, representa a cinco individuos de la
población (100/20, ya que cada uno de los 20 elementos de la muestra representa
por igual a 5 individuos de la población). Si queremos calcular la media de la
variable podríamos plantearnos ponderar cada observación por el número de
elementos a los que representa en la población:
p
xw =
∑w X
i
i =1
p
∑w
i =1
i
=
5 X 1 + 5 X 2 + 5 X 3 +... +5 X 20 X 1 + X 2 + X 3 +... + X 20
=
20 ⋅ 5
20
i
El resultado, como puede comprobarse, no modifica el que se obtendría
si empleáramos la fórmula de x , sin ponderar las observaciones, ya que al ser las
ponderaciones iguales las fórmulas son equivalentes.
Sin embargo muchas muestras se elaboran de manera que cada elemento
representa un número distinto de individuos en la población. Para mejorar la
representatividad de la muestra y también para reducir los costes, muchas
encuestas modifican el esquema de m.a.s. de manera que los individuos de la
población ya no tienen la misma probabilidad de ser seleccionados. La existencia
de diversas categorías (conglomerados o estratos) en la población, se suele
aprovechar para seleccionar las muestras con el mínimo número de individuos y
la máxima representatividad. Es normal que las grandes encuestas ofrezcan junto
a la información de interés de los individuo un factor de elevación poblacional,
que indica a cuántos elementos representa ese individuo a nivel de la población.
El factor de elevación poblacional indica a cuántos individuos de la población
representa cada uno de los individuos de la muestra.
El factor de elevación poblacional se calcula como la inversa de la probabilidad
de ser seleccionado en la muestra y debería utilizarse como peso del individuo al
calcular los estadísticos representativos de la población.
Si se trabaja con un muestreo aleatorio simple, para una población de N
individuos y una muestra de tamaño n, cada uno de los elementos muestrales será
representativo de N/n individuos en la población. Por tanto, cada individuo
muestral tendría el mismo factor de elevación poblacional. Si el diseño muestral
es más complejo, cada uno de los individuos tendrá un factor de elevación
poblacional distinto.
Suponga, por ejemplo, que debe extraer una muestra de tamaño 10 de
una población dividida en dos clases, la primera consta de 100 individuos y la
segunda de 40. Rechaza hacer un m.a.s. puesto que en ese caso podría ocurrir que
las diez observaciones correspondieran a individuos de la primera clase,
perdiéndose con ello la información del segundo grupo. Decide hacer dos
selecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan
6 elementos en la primera subpoblación y 4 en la segunda. Supongamos que los
resultados son los que aparecen en el cuadro 1. En la primera fila aparece la clase
a la que pertenecen las observaciones, en la segunda los valores que ha tomado la
variable.
Cuadro 1
Muestra:
Clase 1
Variable:
110 120 130 140 150 160
Clase 2
70
80
90
95
Si calculase la media únicamente a partir de los valores muestrales, el
resultado es el siguiente:
n
x=
∑X
i =1
n
i
110 + 120 + 130 K + 90 + 95
=
= 114,5
10
La alternativa es ponderar las observaciones teniendo en cuenta la
probabilidad de selección. Cada uno de los elementos del primer grupo tenía una
probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundo
grupo tenían una probabilidad de 4/40. La propuesta es multiplicar cada valor por
la inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguiente
resultado:
n
xw =
∑w X
i
i =1
n
∑w
i =1
i
=
16,67 ⋅ (110 + 120 + K + 160) + 10 ⋅ (70 + 80 + K + 95)
= 120,36
140
i
Cuando se pondera una observación por la inversa de la probabilidad de
selección, se está multiplicando esa observación por lo que representa al nivel de
la población.
Ejemplo 3. Los resultados que se obtienen según se utilicen o no
los factores de elevación pueden implicar una diferencia relevante.
Basándonos en información de 21155 familias de la EPF-90 se ha
calculado la media del gasto familiar, empleando y sin emplear los
factores de ponderación que elabora el INE y que acompañan a los
resultados de la encuesta. En el primer caso, la media es igual a
2527105, mientras que sin ponderar las observaciones, la media es de
2419553. Si al analizar una encuesta no dispone de los factores de
elevación o desconoce las probabilidades de selección de los individuos,
puede calcular la media no ponderada. No obstante, si su análisis quería
referirse a toda la población, sus conclusiones pueden verse limitadas.
Representatividad de la media. La media es muy sensible a la presencia en la
muestra de observaciones extremas. Cuando existen observaciones extremas
(también llamadas atípicas), la mediana o la moda son buenas alternativas al
empleo de la media, al tratarse de estadísticos que no son tan sensibles a la
presencia de valores en los límites de la distribución.
La siguiente representación ejemplifica de una manera visual y clara el
impacto de una sola observación extrema sobre la media.
__X1____X2__X3_____X4_ x ______X5___X6_________X7__________________
_
↑
__X1____X2__X3_____X4_________X5_ x X6_______________________X7____
_
↑
La media es el centro de gravedad del conjunto de valores, por lo que el
desplazamiento de una única observación hacia la derecha arrastra el valor medio
en esa dirección. Sin embargo, la mediana de la distribución no se alterará. En
ambos casos X4 sería la mediana, el valor que deja por debajo igual número de
observaciones que por encima de él.
La media es un estadístico muy sensible a la existencia de valores extremos. La
moda y la mediana son una buena alternativa cuando existen observaciones
atípicas, al verse menos afectadas por su presencia.
Media cortada (Trimmed Mean). Algunos programas estadísticos incorporan
un cálculo de la media menos sensible a las observaciones extremas. La media
cortada es un cálculo más “robusto” de la posición central de las observaciones.
El calificativo de “robusto” debe entenderse en este caso como una menor
sensibilidad, como medida de posición, a los valores atípicos. La media cortada
se calcula según la expresión conocida de la media, pero suprimiendo un número
previo de observaciones en las colas superior e inferior de la variable. Pueden
suprimirse bien un número concreto de observaciones (1, 2, 3, …, en cada una
de las colas) o bien un porcentaje del tamaño de la muestra (0,5%, 1%, …, en
cada cola). Si existen observaciones atípicas que “corrompen” el cálculo de la
media, el empleo de la media recortada puede ser una solución.
Ejemplo 4. Gasto familiar medio en energía eléctrica. Una muestra del
impacto que tienen las observaciones extremas nos lo ofrece el análisis
de una variable que puede obtenerse de la EPF-90. Se ha construido una
variable que pone el gasto en energía eléctrica en relación al gasto
familiar total. La variable, que denominaremos intensidad del consumo
eléctrico (ice) se calcula como:
ice =
Gasto familiar en electricidad
⋅100
Gasto familiar total
La variable se ha construido como un porcentaje, multiplicando el
cociente de ambas cantidades por 100. En la gráfica 1, además del
histograma aparecen las frecuencias, frecuencias acumuladas,
frecuencias relativas y frecuencias relativas acumuladas. La mayor parte
de la distribución se acumula en los intervalos con puntos medios de 1.25
y 3.75, presentándose en ellos prácticamente el 90% de las
observaciones. El histograma queda sin embargo distorsionado por la
necesidad de representar valores extremos, del orden del 20% hasta el
46% de gasto.
Gráfica 1
EEINMIDPOINT
-3.75
-1.25
1.25
3.75
6.25
8.75
11.25
13.75
16.25
18.75
21.25
23.75
26.25
28.75
31.25
33.75
36.25
38.75
41.25
43.75
46.25
0
2000
4000
6000
8000
10000
12000
FREQ.
CUM.
FREQ.
PCT.
CUM.
PCT.
0
0
13357
5562
1323
449
180
90
42
18
14
8
9
7
0
2
2
0
2
1
0
0
0
13357
18919
20242
20691
20871
20961
21003
21021
21035
21043
21052
21059
21059
21061
21063
21063
21065
21066
21066
0.00
0.00
63.41
26.40
6.28
2.13
0.85
0.43
0.20
0.09
0.07
0.04
0.04
0.03
0.00
0.01
0.01
0.00
0.01
0.00
0.00
0.00
0.00
63.41
89.81
96.09
98.22
99.07
99.50
99.70
99.79
99.85
99.89
99.93
99.97
99.97
99.98
99.99
99.99
100.00
100.00
100.00
14000
FREQUENCY
Vamos a comprobar el efecto que las observaciones extremas
tienen en la media. En el cuadro 2 aparece, en primer lugar, la media
calculada para todas las observaciones (21066 familias) y a continuación
diversas medias cortadas: suprimiendo 1 observación, 2, 3, 10 (en cada
una de las colas) y 105 (el 0.5% de cada una de las colas). El porcentaje
de gasto pasa de un 2.6% a un 2.52% cuando en el cálculo se suprimen
210 individuos con valores extremos. Aunque el efecto no es importante,
muestra la influencia de unas pocas observaciones en la descripción del
conjunto.
Cuadro 2
Media
Medias cortadas
2.6010
Observaciones suprimidas
(en cada cola):
1
2
3
10
105
2.5992
2.5974
2.5957
2.5867
2.5219
Media Geométrica. La media geométrica de n observaciones se define como:
g = n X 1 X 2 ... X n
Si se emplea la notación para valores agrupados según su frecuencia, la
media geométrica se define como:
g = n X 1n1 X 2n2 ... X p p
n
La media geométrica debe emplearse cuando se quieren promediar
porcentajes, tasas, tipos de interés, números índices, etc., es decir valores que
representan variaciones acumulativas, de un período respecto al anterior.
Como medida de posición central, la media geométrica es más representativa
que la media aritmética cuando la variable se define como variaciones
acumulativas.
Para valorar la importancia de este criterio vamos a discutir un ejemplo
basado en tasas de variación. Supondremos que las observaciones de la variable
se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la
variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el
momento T.
Dada una serie de valores de base temporal: X 0 , X 1 , X 2 ,..., X T , la tasa
de variación de un período a otro se define como:
x[ t , t −1] =
X t − X t −1
X t −1
De manera que los valores de X t verifican:
X t = ( 1 + x[ t , t −1] ) X t −1
denominándose a 1 + x[ t , t −1] factor de variación unitaria.
La relación entre el último valor, XT, y el primero, X0 , se puede obtener si
sustituimos de manera recurrente:
X T = ( 1 + x[ T , T −1] ) X T −1 = ( 1 + x[ T , T −1] ) (1 + x[ T −1, T − 2 ] ) X T − 2 =... =
= ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[ 2 , 1] ) ( 1 + x[1, 0] ) X 0
Si quisiéramos definir una tasa media de variación, x[ TMV ] , ésta debería
satisfacer también la anterior relación:
X T = (1 + x[ TMV ] )(1 + x[ TMV ] )...(1 + x[ TMV ] ) X 0 =
= (1 + x[ TMV ] ) T X 0
La conclusión es, por tanto, que la tasa media debe verificar:
( 1 + x TMV ) T = ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[1, 0] )
O, en otros términos, la tasa media de variación debe ser igual a la media
geométrica de los factores de variación unitarios, menos la unidad:
x TMV = T ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[1, 0] ) − 1
Tenga en cuenta que este mismo valor puede obtenerse más fácilmente
cuando se dispone de los valores inicial y final de la serie, ya que a partir de la
relación:
X T = (1 + x[ TMV ] ) T X 0 ,
se tiene:
x[ TMV ] = T
XT
−1
XO
Ejemplo 5. Tasa media de variación. En el cuadro 3 aparecen el
número de horas trabajadas en la industria española de extracción de
hullas, en el período 1987-1992. Se han calculado también las tasas de
variación anuales y los factores de variación unitaria y se desea obtener
la tasa de variación media acumulativa.
Cuadro 3
Año
1987
1988
1989
Horas
Trabajada
s
43088
43387
42222
Tasa de
variación
0,0069
-0,0268
Factor de
variación
unitaria
1,0069
0,9731
1990
40453
-0,0419
0,9581
1991
33936
-0,1611
0,8389
1992
32126
-0,0533
0,9467
Media Geométrica (factores de variación unitaria): 0,057
Media Aritmética (tasas de variación): -0,055
Dado que se dispone de los valores inicial y final de la serie, el cálculo
puede basarse en la expresión:
,
x[ TMV ] = T
XT
−1
XO
En nuestro caso:
x[TMV ] =5
32126
−1 = − 0,057
43088
Si calcula la media aritmética de las tasas de variación el valor
que obtiene es igual a -0,055, algo diferente del valor buscado.
Si sólo dispone de información de las tasas de variación o de los factores de
variación unitaria y debe calcular la tasa media de variación lo correcto es
emplear la fórmula de la media geométrica sobre los factores de variación
unitarios (sin olvidar además restar la unidad).
Ejemplo 6. Rentabilidad media de una acción. Veamos otro caso en el
que también resulta adecuado el empleo de la media geométrica. En el
cuadro 4 se recoge la rentabilidad mensual de una acción, definida como
una tasa de variación mensual del precio de la acción:
r[ t , t −1] =
p t − p t −1
,
p t −1
t = 1,...,12.
Cuadro 4
Mes
1
2
3
4
5
6
7
8
9
10 11 12
Rentabilida
-0,13 0,00 0,29 0,06 0,19 -0,03 0,05 0,04 0,00 0,04 0,00 0,04
d
La característica acumulativa de los datos hace que de nuevo para
obtener un valor promedio, sea más adecuado el empleo de la media
geométrica:
rTMV = 12 ( 1 + r[12 , 11] ) ( 1 + r[11, 10] )...(1 + r[1, 0] ) − 1
La rentabilidad media de ese año será, por lo tanto, igual a un
4,13%:
rTMV =12 (1− 0,13)(1+ 0,00)(1 + 0,29)...(1+ 0,04) − 1 = 4,13%
Utilización de la media, moda y mediana para detectar la asimetría de una
distribución. Las distribuciones de frecuencias se pueden caracterizar por su
forma, distinguiéndose bajo un criterio de simetría entre distribuciones simétricas
(como la representada en la gráfica 2), asimétricas por la derecha (gráfica 3) y
asimétricas por la izquierda (gráfica 4). Las distribuciones representadas
muestran un único intervalo modal, aunque también podríamos contemplar la
simetría (asimetría) en distribuciones con más de una moda. Se entiende que la
distribución es simétrica si respecto a un eje vertical situado sobre la mediana de
la distribución, su figura puede doblarse coincidiendo ambas partes. La
distribución es asimétrica por la derecha si aparecen un número mayor de
valores de la variable en ese lado, mientras que la asimetría por la izquierda
acumularía un número mayor de valores en el lado izquierdo de la distribución.
Gráfica 2
FREQUENCY
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
Gráfica 3
FREQUENCY
3000
2000
1000
0
Gráfica 4
FREQUENCY
300
200
100
0
Según su forma, las distribuciones pueden dividirse en simétricas,
asimétricas por la derecha y asimétricas por la izquierda. Las distribuciones
simétricas tienen la misma forma a izquierda y derecha de la mediana. Las
distribuciones unimodales asimétricas por la derecha tienen más valores a la
derecha del intervalo modal que a su izquierda. Una distribución con la
forma contraria es asimétrica por la izquierda.
Como veremos, aunque existen estadísticos que describen la simetría (o
asimetría) de la distribución, los valores de la media, mediana y moda de la
variable facilitan también esta información. En una distribución simétrica la
media, la mediana y la moda tienden a coincidir, mientras que en las
distribuciones asimétricas se dispersan. Cuando la distribución es asimétrica por
la derecha la relación entre los estadísticos es la siguiente:
Moda ≤ Mediana ≤ Media
Y cuando la distribución es asimétrica por la izquierda:
Media ≤ Mediana ≤ Moda
En función de su simetría o asimetría en las distribuciones unimodales se
verifican las siguientes relaciones:
• Distribución simétrica: Moda = Mediana = Media .
• Distribución asimétrica por la derecha: Moda ≤ Mediana ≤ Media .
• Distribución asimétrica por la izquierda: Media ≤ Mediana ≤ Moda .
Ejemplo 7. En el cuadro 5 se muestran la media y la mediana de tres
distribuciones. En la distribución A coinciden el valor de la media y la
mediana, por lo que puede suponerse que se trata de una distribución
simétrica. La distribución B tiene la media a la derecha de la mediana, por
lo que en principio puede ser una distribución asimétrica por la derecha. La
última distribución es también asimétrica, al no coincidir media y mediana,
y por sus posiciones, la asimetría se produce por la izquierda.
Cuadro 5
Distribución
A
B
C
Media
-4
101
-212
Mediana
-4,3
71
-62
Cuartiles, Deciles y Percentiles. Se ha definido la mediana como una medida
de posición: se trata de aquella observación que (cuando los valores se ordenan
de menor a mayor) se sitúa en el centro de la muestra. La mediana es, por tanto,
el valor que en la distribución acumulada de frecuencias se sitúa en el 50%. Al
analizar una distribución también se leen otros valores definidos por intervalos de
frecuencias distintos al 50%.
Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con
la variable ordenada de menor a mayor) dejan por debajo de su posición el 25%,
50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles
dividen la variable en cuatro grupos con igual número de observaciones (el 25%
de valores más bajos, el 25% siguiente,…).
Para obtener los valores nos basaríamos en una regla semejante a la
aplicada para la mediana. Así, si el número de observaciones es impar, el primer
cuartil ocupará la posición (n + 1) 4 ; el segundo cuartil ocupará la posición
2 ⋅ (n + 1) 4 ; y el tercer cuartil la posición 3 ⋅ (n + 1) 4 .
Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23,
25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23
(el valor en el lugar 8 4 = 2 ); el segundo cuartil es 28 (ocupa la posición
16 4 = 4 ); y el tercer cuartil es 47 (posición 24 4 = 6 ).
Con los siguientes ocho datos (un número par de observaciones): 9, 23,
25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil será
el promedio de las posiciones n 4 y (n 4 ) + 1 , en este caso el promedio de las
posiciones 2 y 3, que será el valor 24. El segundo cuartil será el promedio de las
posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7,
siendo igual a 48,5.
Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90
por ciento. El primer decil ocupará la posición n 10 ; el segundo decil ocupará la
posición 2 ⋅ n 10 ; ... y el noveno la posición 9 ⋅ n 10 .
Los percentiles amplían esta idea para definirse sobre porcentajes del 1,
2, 3, …, hasta el 99 por ciento. El primer percentil ocupará la posición n 10 0 ; el
segundo percentil la posición 2 ⋅ n 10 0 ; ... y el 99 percentil la posición
99 ⋅ n 10 0 .
Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias
equivalencias de definición entre cuartiles y percentiles.
Cuadro 6
Mediana = Segundo Cuartil = 50 Percentil
Primer Cuartil = 25 Percentil
Tercer Cuartil = 75 Percentil
Ejemplo 8. Distribución de la renta en España. Pena et al. (1996) son
autores de un estudio sobre la distribución personal de la renta en
España en el que analizan los niveles de renta, su distribución y la
desigualdad de la misma. De este estudio, en el cuadro 7 se recogen los
cálculos de algunos percentiles de la renta per capita disponible para
toda España en el año 1990/1991 (Pena et al., 1986, pág. 503). En la
gráfica 5 se representan los percentiles de la renta per capita.
Excluyendo la renta mínima, desde el 5o percentil hasta el 60o se tiene
una relación de acumulación de la distribución distinta de la que se
observa a partir de ese tramo, en el que para acumular iguales
porcentajes de población los incrementos en los valores de las rentas
son mucho mayores. Una distribución asimétrica por la derecha acumula
más observaciones en los valores inferiores de la variable, mientras que
los valores superiores serían menos frecuentes.
Cuadro 7
Percentil
Renta p.c.
disponible
Renta mínima
0
5
270903
10
345497
15
403034
20
454221
25
501457
30
542498
35
585791
40
631359
45
681373
50
732524
55
781361
60
839756
65
904918
70
974001
75
1061552
80
1173166
85
1322099
90
1544322
95
1992821
Renta máxima
168572662
Fuente: Pena et al. (1996)
Gráfica 5
percentiles
90
80
70
60
50
40
30
20
10
0
0
200000
400000
600000
800000
1000000
1200000
1400000
1600000
1800000
2000000
Renta p.c.
En ocasiones los percentiles de una variable se utilizan como referencia
sobre la que analizar el comportamiento de una segunda variable. Los percentiles
no se emplearían propiamente como estadísticos descriptivos de una variable,
sino que servirían para seguir el comportamiento de otra variable. Se trata, por
tanto, de definir relaciones bivariantes entre los percentiles (de una variable) y
otras variables. Los dos ejemplos siguientes ilustran este empleo de los
percentiles.
Ejemplo 9. La teoría de Keynes sobre el consumo plantea una
relación positiva entre el consumo y la renta disponible; esta relación
debería cumplir diversas restricciones, entre ellas que la propensión
marginal al consumo (variaciones en el consumo consecuencias del
incremento en la renta) sea inferior a la unidad:
0<
∂C
<1 ,
∂Y
indicando ∂ C / ∂ Y la propensión marginal al consumo.
En el cuadro 8 se reproduce para las familias españolas y con datos de
1995, la relación entre el consumo y los ingresos familiares. Para reflejar la
incidencia del nivel de ingresos sobre el cociente consumo/ingresos, se han
dividido las familias en cuatro grupos. El primero tendría ingresos inferiores al
valor del primer cuartil, el segundo tendría ingresos entre el valor del primer y
segundo cuartil, y así sucesivamente. El cociente consumo/ingresos se ha
calculado para cada grupo de familias.
Cuadro 8
Grupos
Ingresos
según
medios
cuartiles
(millones de
ptas)
1,3
Primero
Segundo
2,0
Tercero
2,8
Cuarto
4,6
Total
2,7
consumo
/
ingresos
%
75,2
67,1
64,4
55,3
62,2
Fuente: INE, 1995
Puede comprobar que a medida que los ingresos crecen el cociente entre gasto e
ingresos, manteniéndose siempre inferior a la unidad, disminuye. El consumo representa
un 75,2% de los ingresos de las familias con menos ingresos, mientras que únicamente
supone el 55,3% de los ingresos de las familias situadas en la escala más alta de riqueza.
Ejemplo 10. Desigualdad salarial y oferta de trabajo familiar. Juhn
y Murphy (1996) emplean datos del censo de EEUU para describir los
cambios en el empleo y en los ingresos de las parejas casadas. En 1969
los hombres en edad activa estaban empleados un 95% del año y tenían
unos ingresos medios anuales de alrededor de 23000 dólares (todas las
referencias están en dólares de 1982). Sus esposas, por otra parte,
estaban empleadas sólo el 39% del año e ingresaban únicamente 4000
dólares. Veinte años más tarde, en 1989, la situación de los varones
casados era bastante parecida: en promedio, trabajaban un 93% del año
y ganaban 25000 dólares. La situación de las mujeres, sin embargo, era
muy diferente: las mujeres casadas en edad activa trabajaban el 66% del
año y ganaban 9000 dólares anuales.
¿Hasta qué punto la disminución del tiempo trabajado y el escaso
incremento salarial de los varones puede haber causado la entrada de
las mujeres casadas en el mercado laboral? Los autores analizan la
información del censo de EEUU en función de las decilas de salarios de
los maridos. Se consideran diez grupos distintos: el primero
correspondería al de varones casados con salarios inferiores a la primera
decila de ingresos, el segundo grupo incluiría a los varones casados con
ingresos entre la primera y segunda decila, y así sucesivamente.
En las gráficas 6 y 7 se muestran, por percentiles de ingresos salariales,
los valores medios de las tasas de variación en los salarios por hora y en el
empleo, entre 1969 y 1989, para los varones casados. Puede comprobar que
cuanto menores son los ingresos mayores han sido el crecimiento del paro y la
disminución de los salarios. Por el contrario, en los percentiles superiores, tanto
el empleo como los ingresos salariales han aumentado. ¿Cómo responde la oferta
de trabajo de la familia a esta situación?
Gráfica 6
,2
Variaciones salario hora maridos, 1969-1989
,1
,0
-,1
-,2
-,3
10
20
30
40
50
60
70
80
90
100
80
90
100
percentiles salarios de los maridos
Gráfica 7
,0
0,0
Variaciones tasa empleo maridos, 1969-1989
,0
,0
-,1
-,1
-,1
-,1
-,1
-,2
10
20
30
40
50
60
70
percentiles salarios de los maridos
En las gráficas 8 y 9 aparecen las tasas de empleo y los ingresos
anuales de las mujeres casadas. Las variables están medidas, tanto en
1969 como en 1989, sobre los diez niveles de ingresos salariales de los
hombres (se representan valores medios). De estas gráficas pueden
derivarse las siguientes conclusiones:
•
En la gráfica 8 (tasas medias de empleo de las mujeres casadas) se
detecta que el empleo ha crecido, entre 1969 y 1989, para todos los
niveles de salarios de los maridos, pero que el aumento es mayor en
los valores medios y altos de los ingresos. Mientras que en 1969
cuanto mayor era el salario del marido, menor era el número de
mujeres trabajando; en 1989, esta relación desaparece, trabajando
mayor número de mujeres en la zona de matrimonios con salarios del
varón intermedios.
•
Respecto a los ingresos anuales (gráfica 9), en 1969 los salarios
medios eran más o menos similares para todos los percentiles.
Aunque las mujeres casadas con los hombres de mayores ingresos
trabajaban menos horas, lo hacían a un sueldo mayor,
manteniéndose con ello los ingresos medios. En 1989 esta imagen se
rompe. Las mujeres casadas con varones de salarios altos trabajan el
mismo número de horas que las mujeres casadas con hombres con
ingresos bajos, pero sus salarios por hora son mucho mayores,
aumentando comparativamente sus ingresos anuales.
Gráfica 8
8
7
6
5
Tasa Empleo Mujeres
4
3
2
1
1969
0
1989
10
20
30
40
50
60
70
percentiles salario de los maridos
Gráfica 9
80
90
100
1200
1000
Ingresos Anuales ($ 1982)
800
600
400
1969
200
1989
10
20
30
40
50
60
70
80
90
100
percentiles salarios de los maridos
En las dos décadas analizadas, por tanto, se ha dado no sólo un
aumento en las horas trabajadas y en los ingresos percibidos por las
mujeres casadas, sino que además se ha producido una modificación en
la estructura de su distribución. Las mujeres casadas con hombres de
ingresos altos son las que mayor participación laboral han conquistado,
acompañada además de unos mayores ingresos. Los anteriores
resultados contradicen la hipótesis de que la mayor oferta laboral y
mayores ingresos de las mujeres, responderían a la necesidad de cubrir
los ingresos dejados de percibir por sus maridos.
Medidas de Dispersión: Rango, Rango intercuartílico, Varianza,
Desviación estándar, Coeficiente de variación
• El rango de una variable es la diferencia entre el mayor y el menor valor
de las observaciones:
Rango = X MAX − X MIN
Como medida de dispersión el rango es muy sensible a los valores
extremos.
• El rango intercuartílico es la diferencia entre el tercer y primer cuartil de
la variable. En ese intervalo se incluyen, por tanto, el 50% de las
observaciones situadas en la zona central de la distribución:
Rango IQ = Q3 − Q1
• La varianza es el promedio de las desviaciones de la variable con respecto
a la media:
n
s x2 =
∑(X
i =1
− x)2
i
n
En ocasiones se define promediando no por n, sino por n-1.
La varianza es una medida de la dispersión de las observaciones con
respecto a su valor medio.
• La desviación estándar es la raíz cuadrada de la varianza:
n
sx =
∑(X
i =1
− x)2
i
n
(O dividiendo por n-1 si ese ha sido el denominador empleado en la
varianza).
• El coeficiente de variación es el cociente entre la desviación estándar y la
media de la variable, definido en general sólo para variables positivas:
CV =
sx
x
Discusión y propiedades de la varianza, desviación estándar y coeficiente de
variación
• Para visualizar el concepto de dispersión que se mide con la
varianza, pueden compararse los histogramas correspondientes a variables de
comportamiento semejante (igual media, unimodales, simétricas) pero con
varianza diferente. En la gráfica 10 aparecen los histogramas de cuatro
distribuciones que multiplican por 2, 3 y 4, respectivamente, la varianza de una
primera variable. En cada uno de los histogramas (todos ellos con media igual a
cero) se ha dibujado la forma idealizada del mismo para facilitar la comparación.
Gráfica 10
.36
0
.36
0
-10.3137
10
-10.3137
10
• Como medidas de dispersión la desviación estándar (o la varianza)
muestran su utilidad especialmente cuando se emplean de manera comparativa.
Conocer el valor de la varianza de una distribución no nos permite decir de
manera inmediata si ésta es más o menos dispersa, ya que su valor depende de la
unidad de medida de la variable. Se suele utilizar una referencia en relación a la
cual se realiza la comparación; en algunas ocasiones se emplea alguna
distribución conocida, en otras la referencia es una distribución empírica
diferente. Las distribuciones de la gráfica 10 son más o menos dispersas en
función de su comparación mutua.
• El coeficiente de variación facilita la discusión de la importancia de
la dispersión de una variable. Resulta de especial interés en dos circunstancias:
(1)
Cuando se quieren comparar distribuciones de variables con diferentes
unidades de medida, ya que la dispersión será igual a un tanto por ciento
de la media de la variable, sin importar en que unidad se mide ésta.
(2)
Cuando se comparan distribuciones que, aun teniendo igual unidad de
medida, toman valores muy distintos. Por ejemplo, si se quieren
comparar las rentas de dos regiones, una muy rica y otra muy pobre,
podría no ser adecuado comparar directamente las varianzas. La región
con renta media alta tenderá a presentar una varianza más alta, por el
hecho de jugar con cifras absolutas mayores que la región con rentas
bajas. Una manera de relativizar este efecto es el empleo del coeficiente
de variación.
• Propiedades de la varianza:
(1) La varianza no puede ser negativa al tratarse de un promedio de una
suma de cuadrados.
(2) Como la media, es sensible a valores extremos.
(3) Si a los valores de una variable se les suma una constante, c + X i , la
varianza de la nueva variable no se modifica:
n
sc2+ x =
∑ (c + X i − (c + x )) 2
i =1
n
n
=
∑(X
i =1
i
− x)2
= s x2
n
(4) Al multiplicar los valores de una variable por una constante, c X i , la
nueva varianza se ve multiplicada por la misma cantidad elevada al
cuadrado, c 2 s x2 (y la desviación estándar se multiplica por la misma
constante, c s x ).
Esta propiedad es fácil de demostrar, teniendo en cuenta que al
multiplicar por una constante, la media de la variable transformada es la
media original multiplicada por la misma constante.
n
sc2x =
∑ (c X i − c x ) 2
i =1
n
n
=
∑ c2 ( X i − x)2
i =1
n
n
=
Y, por tanto, para la desviación estándar:
sc x = c s x
c2 ∑ ( X i − x ) 2
i =1
n
= c 2 s x2
(5) La
varianza
puede
escribirse
de
manera
equivalente
como:
n
s x2 =
∑X
i =1
n
2
i
− x 2 . La demostración se basa en la siguiente equivalencia:
n
n
n
n
i =1
i =1
n
i =1
n
i =1
∑ ( X i − x ) 2 =∑ ( X i2 + x 2 −2 X i x ) = ∑ X i2 +n x 2 −2 x ∑ X i =
= ∑ X i2 + n x 2 − 2 n x 2 = ∑ X i2 − n x 2
i =1
i =1
Con lo que se tiene:
n
∑ ( X i −x)2
s x2 = i =1
n
n
∑ X i2 −n x 2
= i =1
n
n
=
∑X
i =1
2
i
n
−x 2
(6) La varianza cumple:
n
∑( X
i =1
i
n
−x)
n
2
<
∑( X
i =1
i
− k )2
n
para cualquier otro valor de k ≠ x .
(7) Como en el caso de la media puede definirse una varianza ponderada, en
la que se de una mayor o menor importancia a las observaciones.
• La varianza siempre es un número no negativo.
• Al sumar a los valores de una variable una constante, su varianza no se
modifica.
• Al multiplicar los valores de una variable por una constante, su varianza se
multiplica por el cuadrado de esa constante.
• La desviación estándar es la raíz cuadrada de la varianza.
Ejemplo 11. Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50}
calcularemos las diversas medidas de dispersión:
Rango= X MAX − X MIN = 50 − 9 = 41
Rango IQ =Q3 −Q1 = 47 − 23 = 24
Para calcular la varianza emplearemos los datos de la siguiente tabla, y
nos basaremos en su expresión:
n
s x2 =
∑X
i =1
n
i
1
2
3
4
5
6
7
−x 2
Xi2
81
529
625
784
1024
2209
2500
Xi
9
23
25
28
32
47
50
7
7
∑ X i = 214
∑X
i =1
i =1
7
x=
2
i
∑X
i =1
2
i
= 7752
7
i
7
= 30,571
∑X
i =1
n
2
i
= 1107,43
n
s x2 =
∑X
i =1
2
i
n
− x 2 = 172,84
La desviación estándar será, por tanto:
n
sx =
∑(X
i =1
i
− x)2
= 172,84 = 13,147
n
Y el coeficiente de variación:
CV =
s x 13,147
=
= 0,43
x 30,571
Ejemplo 12. En el siguiente cuadro se muestran los valores de
algunos percentiles de la distribución del gasto per capita realizado por
los visitantes de dos regiones turísticas:
Percentil 75
Mediana
Percentil
25
Región
1
235
100
62
Región
2
290
100
72
En función de estos resultados se puede afirmar que la dispersión
de la variable en las dos zonas es mayor en la segunda región que en la
primera (rangos intercuartílicos iguales a
235 − 62 = 173 y
290 − 72 = 218 , respectivamente). Además, puede observarse que el
25% de los turistas que gastan más, en la región 1 lo hacen por encima
de los 235 euros, mientras que en la región 2 lo hacen por encima de los
290. Todo ello indica que aunque la medida representativa del gasto
pueda ser similar en ambas zonas (ya que tienen idéntico valor de la
mediana) en la región 2 existe una presencia de turistas con mayor
capacidad de gasto.
Ejemplo 13. El coeficiente de variación como medida de dispersión. En
el cuadro 9 se muestran los datos de una variable Xi y las
transformaciones necesarias para calcular la varianza.
Si los valores de la variable se multiplican por cien, la media y la
desviación estándar de la variable transformada se multiplicarán también por
cien (ver cuadro 10).
Cuadro 9
i
1
2
3
4
5
6
7
Xi
2,7
1,2
3,45
4,03
4,32
5,4
3,5
Xi2
7,29
1,44
11,9025
16,2409
18,6624
29,16
12,25
7
∑X
i =1
i
7
∑X
= 24,6
i =1
7
x=
∑ Xi
i =1
7
2
i
= 96,9458
7
∑X
= 3,514
i =1
2
i
n
= 13,85
n
s x2 =
∑X
i =1
n
2
i
− x 2 = 1,50
Cuadro 10
X1
X2
2,7
270
1,2
120
3,45
345
4,03
403
4,32
432
5,4
540
3,5
350
Media
3,514286
351,4286
Desviación Estándar
1,322521
132,2521
El coeficiente de variación en ambas variables proporcionaría el
mismo valor: 0,3763, reflejando que la dispersión en términos relativos es
idéntica. En las gráficas 11 y 12 se muestran las dos series de valores,
dibujándose una línea de referencia sobre el respectivo valor medio.
Advierta que los ejes verticales de las dos gráficas no son iguales, ya que
en la segunda gráfica los valores están multiplicados por 100 y, por tanto,
la dispersión numérica respecto a la media es mucho mayor en esta
variable. Sin embargo, las dos series presentan una imagen idéntica.
Gráfica 11
5
4
3
2
1
1
2
3
4
5
6
7
2
3
4
5
6
7
Gráfica 12
500
400
300
200
100
1
Ejemplo 14. En una región turística se dispone, para cuatro
nacionalidades, de los valores medios y la desviación estándar de su
gasto turístico per capita y día (en euros). Se está interesado en detectar
cuál es la nacionalidad que presenta mayor dispersión en el gasto
realizado.
Media
Desviació Coeficiente
n
de
Alemana
Británica
Española
Nórdicos
estándar
22
30
31
36
60
75
60
75
variación %
36,67
40
51,67
48
Si se juzga por el valor directo de la desviación estándar la
nacionalidad con mayor dispersión en el gasto corresponde a los países
nórdicos, seguida de la española y la británica, sin embargo si se juzga
por el coeficiente de variación la nacionalidad que presenta mayor
dispersión es la española, con una desviación estándar igual al 51,67%
de su gasto medio.
Ejemplo 15. Una variable X tiene una desviación estándar igual a 9
y una media igual a 10. Determine la media y desviación estándar de la
variable Y, definida como:
Y=
La
Y =−
nueva
variable
X −5
10
también
puede
expresarse
como:
5 1
+ X , presentándose como la variable original multiplicada por
10 10
una constante y a la que se le suma una cantidad (en este caso
negativa).
La media de la nueva variable será (teniendo en cuenta que la
media de X es igual a 10):
n
n
y=

5
1
∑ Y ∑  − 10 + 10 X
i
i =1
n
=
i =1
n
i


=
n
 5
 1

n−  + ∑
Xi 
∑X
5 1 i =1 i
10  i =1  10 

=
=− +
=
n
10 10 n
5 1
5 1
= − + x = − + 10 = 0,5
10 10
10 10
n
La varianza de la nueva variable será:
n
s =
2
Y
∑ (Y − y )
i =1
i
n
2
 5 1
 5 1 
 − + X i −  − + x  
∑
10 10
 10 10  
i =1
= 
=
n
n
2
2
2
 1
 1
 (X i − x )   
∑
10
 =  10 
= i =1 
n
1 2
=
9 = 0,81
100
n
n
∑ (X
i =1
n
i
−x )
2
=
Y, por tanto, la desviación estándar será igual a 0,9.
Ejemplo 16. Una variable X tiene una desviación estándar igual a 9
y una media igual a 10. Determine la media y desviación estándar de la
variable Y, definida como:
10 − 5 X
Y=
4
La media de la nueva variable será:
y=
10 5
10 5
− x = − 10 = − 10
4 4
4 4
Y la desviación estándar:
5
5
sY = s X = 9 = 11,25
4
4
Ejemplo 17. Distribución de los ingresos en las Comunidades
Autónomas. En el cuadro 11 aparecen la media, desviación estándar, y
coeficiente de variación (en porcentaje) de la renta per capita de las
Comunidades Autónomas en 1990/1991 (se excluyen Ceuta y Melilla.
Fuente: Pena, 1996, págs. 502-503). Las comunidades han sido
ordenadas en función del valor de su desviación estándar. La dispersión
de la renta sería utilizada como una medida de desigualdad: cuanto
mayor es la dispersión, mayores diferencias se darán en los ingresos. En
el cuadro 12 se muestran las posiciones (de mayor a menor: 1 indica la
cifra más alta, 17 la cifra más baja) que toman las Comunidades según
se ordenen por su renta, su desviación estándar o su coeficiente de
variación.
Como medida de dispersión podemos utilizar la desviación estándar, pero
también el coeficiente de variación. La desviación estándar se relativiza al
ponerla en relación con la media. Los coeficientes de variación que se recogen en
el cuadro 11 indican que la desviación estándar de la Comunidad extremeña es
0,76 veces su media (o en porcentaje, el 75,90%), la de Catalunya 0,72 veces su
media, la de Madrid 1,85 y la de Castilla-La Mancha 3,96.
Cuadro 11
x
Extremadura
Asturias
Cantabria
Canarias
Navarra
Com. Valenciana
Baleares
Castilla-León
Aragón
Rioja
Galicia
Catalunya
País Vasco
Murcia
Andalucía
Madrid
Castilla- La Mancha
659507
892325
829755
767552
1051310
833886
975140
866326
843630
870680
797931
1091739
990671
787525
744389
1130089
724065
sx
500588
535773
548971
556265
610642
612423
630351
654448
659440
674107
732694
795740
827134
961635
1082408
2099119
2868372
Cuadro 12
Navarra
Asturias
Baleares
Cantabria
Canarias
Catalunya
Com. Valenciana
Castilla-León
Extremadura
Rioja
Aragón
País Vasco
Galicia
Murcia
Andalucía
Madrid
Castilla- La Mancha
CV ⋅100
75,90
60,04
66,16
72,47
58,08
73,44
64,64
75,54
78,17
77,42
91,82
72,89
83,49
122,11
145,41
185,75
396,15
x
sx
CV ⋅100
3
6
5
11
14
2
10
8
17
7
9
4
12
13
15
1
16
13
16
11
15
14
6
12
10
17
8
9
5
7
4
3
2
1
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
En un análisis comparativo de la distribución de la renta puede
tener más sentido emplear el coeficiente de variación si se quiere
discutir, sobre niveles dados de renta, qué comunidad presenta mayor o
menor dispersión en esa variable. Observe que el orden de las
comunidades en función de la desviación estándar o del coeficiente de
variación no son totalmente coincidentes.
Ejemplo 18. Distribución de ingresos de pensionistas, asalariados,
profesionales y empresarios. En el cuadro 13 aparecen la media,
desviación estándar, varianza y coeficiente de variación de la variable
ingresos familiares de cuatro colectivos (pensionistas, asalariados,
profesionales y empresarios) de una Comunidad Autónoma (Fuente:
muestra IRPF-1990).
Cuadro 13
x
sx
s x2
CV ⋅100
Pensionistas Asalariados
1375919,81 1872897,97
393701,38 900167,565
1,550E+11
8,103E+11
28,6137
48,0628
Profesionales Empresarios
2221962,38 2067427,89
1471118,41 1279698,30
2,164E+12
1,638E+12
66,2081
61,8981
Los pensionistas son el colectivo con menores ingresos, seguido
de los asalariados, empresarios y profesionales, en este orden. Los
ingresos de los pensionistas muestran la menor dispersión, seguido de
los ingresos de los asalariados, empresarios y profesionales. La
desviación estándar en el grupo de los pensionistas es 0,28 veces la
media, en el grupo de los asalariados 0,48 veces, en el de profesionales
el 0,66 y en el de los empresarios 0,62. Como medida sintética de
dispersión permite ignorar cuál es el valor medio de los ingresos al hacer
la comparación de las dispersiones. La medida de dispersión confirma lo
que a priori podíamos esperar: escasa dispersión en los colectivos cuyos
ingresos son fijos, con una mayor dispersión en los grupos con ingresos
flexibles.
Ejemplo 19. Volatilidad del precio de una acción. En el cuadro 14
se presenta la evolución del precio de dos acciones (A y B). ¿Sería
capaz de decidir, simplemente con esta información, la compra de una de
las dos acciones?
A partir de las dos series de precios se han calculado las rentabilidades
período a período. La rentabilidad media de la primera acción es algo menor que
la de la segunda, por lo que si la evolución que usted espera que siga el mercado
es la de mantener la misma tendencia, podría ser más atractiva la compra de la
primera acción. En la representación de las series de rentabilidad (gráficas 13 y
14) no se observa que ninguna de ellas crezca (o decrezca) de manera
sistemática. ¿Pero qué pasa con la diferente dispersión?
Cuadro 14
Período
Precio A Rentabilidad Precio B Rentabilidad
A
B
0
10
12
1
10
0,00
12
0,00
2
12
20,00
14
16,67
3
13
8,33
12
-14,29
4
13
0,00
11
-8,33
5
14
7,69
11
0,00
6
14
0,00
12
9,09
7
12,5
-10,71
9,5
-20,83
8
12
-4,00
9
-5,26
9
14
16,67
14
55,56
10
12
-14,29
13
-7,14
11
13
8,33
14
7,69
12
14
7,69
17
21,43
Media Aritm.
3,31
4,55
Tasa Media
2,84
2,95
Desv.
10,17
20,23
Estándar
En bolsa, cuando se invierte en un activo se valoran varios
factores, uno de ellos es la variabilidad que el precio del activo tiene con
respecto al valor medio. Este concepto es una medida de riesgo, puesto
que a para una misma rentabilidad media esperada será preferible
aquella acción que se desvíe lo menos posible de la misma. Una buena
aproximación a esta varianza esperada es el comportamiento histórico de
la varianza. El cálculo de la varianza con datos de un período de tiempo
anterior puede ser una buena medida del riesgo que afronta al adquirir
una acción. El concepto de volatilidad es el empleado por los técnicos
bursátiles en lugar del de varianza. A igual valor esperado en el precio de
la acción será más deseable aquella acción con una menor varianza,
puesto que el riesgo de que el valor esperado se incumpla será menor, al
oscilar en un recorrido menor sobre el valor medio. Dada la poca
diferencia que existe en las rentabilidades medias, la menor desviación
estándar de la rentabilidad de la acción A hace que esta resulte más
atractiva si se quiere enfrentar un menor riesgo.
Gráfica 13
60,00
40,00
20,00
0,00
1
2
3
4
5
6
7
8
9
10 11 12
2
3
4
5
6
7
8
9
10 11 12
-20,00
-40,00
-60,00
Gráfica 14
60,00
40,00
20,00
0,00
-20,00
-40,00
-60,00
1
Ejemplo 20. Índice de Sharpe. Cuando se invierte se intenta valorar
cuál es el rendimiento esperado, resultando más atractiva aquella
inversión que proporciona unos ingresos futuros mayores. El riesgo de la
inversión es, sin embargo, un parámetro que también debe tenerse en
cuenta, ya que, normalmente, será preferible una cantidad segura a la
promesa de una cantidad aproximadamente igual, pero no garantizada
(en economía se habla de esta actitud como de “aversión al riesgo”).
Para valorar un conjunto de inversiones se han definido diversos índices.
Uno de los índices de rentabilidad-riesgo utilizado es el propuesto por Sharpe
(1966):
Indicede Sharpe =
E−R
σ
donde:
E , es la rentabilidad media de la cartera en un período
determinado.
R , es la rentabilidad media de los activos considerados sin
riesgo.
σ , es la desviación estándar de la rentabilidad de la cartera.
La desviación estándar de la rentabilidad es una aproximación al
riesgo asumido. La anterior expresión mediría la prima de rentabilidad
que ofrece una cartera de valores por unidad de riesgo. Aunque en teoría
el cálculo de este índice debería realizarse sobre valores esperados, su
cálculo real se efectúa a posteriori sobre los valores observados,
empleando para ello las expresiones de la media y de la desviación
estándar.
Ferruz y Sarto (1997) analizan las rentabilidades trimestrales de
123 fondos de inversión en España entre enero de 1990 y diciembre de
1995. Los resultados que obtienen para los diez fondos mejor
clasificados según el índice de Sharpe se ofrecen en el cuadro 15. El
activo que los autores han considerado sin riesgo (necesario para poder
calcular el índice) ha sido el rendimiento efectivo trimestral promedio de
las Letras del Tesoro (rentabilidad media igual a 2,65%).
Cuadro 15
Fondo de Inversión
Mobiliario
AB Fondo
Fondonorte
BSN Acciones
Índice de
Sharpe
0,07142
0,03420
0.02936
Clasificació
n
1
2
3
E
σ
2,79
2,71
2,93
1,93
1,91
9,50
Mutuafondo
Baskinver
BSN Renta Fija
Fondpostal
Segurfondo Divisas
AB Ahorro
BK Fondo
0.02379
0.00604
-0.00947
-0.00975
-0.01193
-0.01309
-0.02220
4
5
6
7
8
9
10
2,69
2,66
2,63
2,62
2,54
2,63
2,61
1,76
1,80
2,61
3,57
2,53
1,87
1,89
Ejemplo 21. Evolución de la desigualdad salarial. En muchas
economías industrializadas se ha producido un incremento de la
desigualdad en la distribución de los salarios desde los años ochenta,
especialmente con un incremento más fuerte en los salarios mayores.
Para mostrar esta evolución pueden emplearse el coeficiente de
variación y la posición de algunos percentiles.
Para un país europeo, en la gráfica 17 se ofrecen los coeficientes de
variación de los salarios entre 1983 y 1992, que han aumentado un 26% en el
período y son, por tanto, un claro síntoma del crecimiento de la desigualdad
salarial. Para describir si la desigualdad crece más en la parte baja o en la parte
alta de la distribución, se utilizan el cociente entre el percentil 90 y la mediana
(Q90/Q50) y la mediana y el percentil 10 (Q50/Q10) (representados también en
la gráfica 15). Mientras que el cociente Q90/Q50 pasa de un valor igual a 2.35 a
2.7 (un incremento del 14,8%), el cociente Q50/Q10 se mantiene estable,
sufriendo incluso una pequeña disminución entre 1983 y 1986. Ello indicaría que
la dispersión en la parte superior de la distribución se ha ampliado en una
proporción importante, manteniéndose estable la dispersión en la parte inferior.
Gráfica 15
coeficiente de variación
Q90/Q50
Q50/Q10
2.7
2.56
2.5
2.43
2.35
2
1.6
1.56
1.58
1.5
1.5
.9819
.9027
1
.8281
.7818
.5
1983
1986
1989
1992
periodo
Ejemplo 22. Convergencia económica en la OCDE entre 1950 y
1988 (σ-convergencia). Friedman (1992) sugiere que la evolución de la
renta de un conjunto de países puede seguirse analizando las
transformaciones del coeficiente de variación a lo largo del tiempo. El
coeficiente de variación es una medida de dispersión. Si se calcula para
un conjunto de países en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendrá un indicador de convergencia en sus
niveles de renta. En el caso de que este coeficiente aumentara en el
tiempo, se detectaría la divergencia de las economías. Este tipo de
convergencia se denomina σ-convergencia.
En Boyle y McCarthy (1997) se analiza la convergencia de la
renta per capita en los países de la OCDE. Para seguir su evolución
emplean el concepto de σ-convergencia, calculando los coeficientes de
variación del PIB per capita en estos países. En el cuadro 16 se
reproducen los resultados de su trabajo (tomando como referencia el
valor 1 para el año 1950, es decir, que todos los coeficientes se han
dividido por su valor en 1950).
La representación de la serie de coeficientes de variación (gráfica
16) permite detectar que se ha producido un proceso continuado de
convergencia entre 1950 y los primeros años de la década de los
setenta. Alrededor de 1972 el proceso se estabiliza, pudiéndose concluir
que en los últimos años del período analizado la convergencia del PIB
per capita prácticamente se había detenido.
Cuadro 16
Año
sx x
1950
1951
1952
1953
1954
1955
1956
1957
1958
1959
1960
1961
1962
1,0000
0,9598
0,9491
0,9331
0,9004
0,8942
0,8879
0,8600
0,8257
0,8326
0,8204
0,7896
0,7828
Año
sx x
Año
sx x
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
0,7616
0,7545
0,7458
0,7349
0,7194
0,7071
0,6896
0,6634
0,6511
0,6273
0,6116
0,5966
0,5799
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
0,5753
0,5807
0,5840
0,5841
0,5806
0,5874
0,5700
0,5870
0,6037
0,6037
0,6146
0,6116
0,6091
Gráfica 16
1,1
1,0
,9
Sigma-convergencia
,8
,7
,6
,5
88
19
86
19
84
19
82
19
80
19
78
19
76
19
74
19
72
19
70
19
68
19
66
19
64
19
62
19
60
19
58
19
56
19
54
19
52
19
50
19
Ejemplo 22. Efectos intradía y día de la semana en la Bolsa de
Madrid. El efecto del día de la semana en los mercados financieros es
una regularidad empírica estudiada en economía financiera. Los
rendimientos de los activos que cotizan en bolsa son distintos según el
día de la semana que se considere, se habla, por ejemplo, del “efecto
lunes” para referirse a los rendimientos negativos observados en este día
de la semana.
Camino (1997) estudia las pautas diarias de la Bolsa de Madrid,
utilizando para ello las cotizaciones del índice IBEX-35 entre febrero de
1992 y diciembre de 1993. Para cada uno de los días de la semana ha
calculado la rentabilidad media del índice. En la gráfica 17 se ilustra la
información del cuadro 18.
Cuadro 18
Rendimientos Medios IBEX-35
Día
Lunes
Martes
Miércoles
Jueves
Viernes
CierreApertura
-0,1933
-0,0457
-0,1670
-0,0522
-0,0424
AperturaCierre
0,0015
0,1578
0,0863
0,2733
0,2617
Cierre-Cierre
-0,1908
0,1127
-0,0803
0,2235
0,2192
Gráfica 17
,3
,2
,1
Rendimiento medio
,0
-,1
-,2
cierre-apertura
apertura-cierre
-,3
cierre-cierre
lunes
martes
miércoles
jueves
viernes
Las conclusiones que se obtienen son las siguientes:
• Las cotizaciones del IBEX-35 son efectivamente diferentes en
los distintos días de la semana.
•
•
•
•
El “efecto lunes” queda claramente detectado, ya que los
rendimientos del IBEX-35, desde el cierre del viernes al cierre
del lunes son negativos (−0,1908).
Como un resultado distinto al encontrado en estudios con
otros mercados, se destaca la presencia de rendimientos
negativos entre el cierre del martes y el cierre del miércoles.
En los resultados destaca también cómo entre el cierre de un
día y la apertura del siguiente aparecen rendimientos
negativos, al contrario que en horas de mercado, en donde los
rendimientos son positivos todos los días de la semana.
El rendimiento positivo en horas de mercado es suficiente
para que los resultados de cierre a cierre sean positivos,
excepto los lunes y miércoles.
Las explicaciones sobre el “efecto lunes” no están claras. Se ha
sugerido, por ejemplo, que puede existir un sistemático cierre al alza los
viernes, que se compensaría con la bajada de los lunes. También se ha
discutido la existencia de información no pública, que se difundiría fuera
de horas de mercado.
Respecto a la volatilidad, medida por la desviación estándar del
índice IBEX-35, también presenta unas pautas sistemáticas. En la gráfica
18 se representan las desviaciones estándar, calculadas en tramos de 15
minutos, para cada día de la semana. Veamos algunas de las
conclusiones:
•
•
•
La forma que muestran las volatilidades tiene forma de U, con una
reducción muy importante en la volatilidad en la primera hora que
transcurre desde la apertura.
Las desviaciones estándar toman a continuación un valor de
alrededor del 10%, incrementándose ligeramente antes del cierre.
El comportamiento de la volatilidad es similar en todos los días de
la semana.
Camino apunta como explicación al exceso de volatilidad en la
primera hora del día a la llegada de información acumulada durante la
noche, es decir, sería consecuencia de la información que fluye durante
el período en el que el mercado permanece cerrado, manifestándose en
las primeras dos horas de la apertura. Las razones de una mayor
volatilidad al final de la jornada deberían buscarse, según Camino, en la
necesidad de algunas grandes empresas por “maquillar” artificialmente
sus cotizaciones.
Gráfica 18
,7
,6
,5
,4
Desviación Estándar
,3
Lunes
,2
Martes
Miércoles
,1
Jueves
0,0
11,00
Viernes
11.30
HORA
12.00
12.30
13.00
13.30
14.00
14.30
15.00
15.30
16.00
16.30
17.00
Relación entre media y desviación estándar: Desigualdad de Chebychev. La
desigualdad de Chebychev afirma que, para cualquier variable, la proporción de
observaciones situadas en el intervalo: [ x − k s x , x + k s x ] es como mínimo:
1−
1
k2
Aplicado el teorema a distintos valores de k tendremos, por ejemplo:
• La proporción de observaciones en el intervalo [ x − 2 s x , x + 2 s x ] es, como
mínimo del 75% de los datos.
• La proporción de observaciones en el intervalo [ x − 3 s x , x + 3 s x ] es, como
mínimo del 89% de los datos.
• La proporción de observaciones en el intervalo [ x − 4 s x , x + 4 s x ] es, como
mínimo del 93,75% de los datos.
Por tanto, si se quiere definir un intervalo centrado en la media que
comprenda, como mínimo, el 75% de las observaciones de la variable deberá
calcularse x ± 2 s x . Si el intervalo debe comprender como mínimo el 89% de las
observaciones se construirá como x ± 3 s x . Este tipo de cálculos se puede realizar
de manera exacta cuando se conoce la distribución de la variable, sea utilizando
la distribución de frecuencias empírica sea a partir de una distribución teórica. El
interés de la desigualdad de Chebychev es que no precisa del conocimiento de la
distribución, siendo válidos los intervalos construidos para cualquier variable.
Tiene el inconveniente de ser una aproximación que define los intervalos de una
manera conservadora (“…como mínimo…”). Desde el punto de vista del análisis
descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al
concepto de desviación estándar.
Ejemplo 23. Se desea detectar, empleando la desigualdad de
Chebychev, la existencia de observaciones atípicas en una variable X,
que toma los siguientes valores {27 25 26 28 25 24 27}. La media de
la variable es:
n
x=
∑X
Y su desviación estándar:
i =1
n
i
=
182
= 26
7
n
sx =
∑X
i =1
2
i
n
−x2 =
4744
− 26 2 = 1,31
7
Puesto que como mínimo un 75% de las observaciones estarán
en el intervalo x ± s x , podemos considerar observaciones extrañas
aquellas que superen esos límites. En este caso:
28,62
26 ± 2 ⋅1,31 = 
23,38
Por lo que puede considerarse que no hay observaciones
extremas.
Ejemplo 24. Dispersión de los ingresos. En el cuadro 19 se
recogen los ingresos anuales (en euros) de tres colectivos (pensionistas,
asalariados y empresarios). Empleando la desigualdad de Chebychev
calcularemos para cada colectivo el intervalo que comprendería, como
mínimo, el 75% de las observaciones.
Cuadro 19
x
sx
Pensionista
Empresario
Asalariados
s
s
9735
12236
13150
2300
5400
5537
La proporción de observaciones en el intervalo [ x − 2 s x , x + 2 s x ]
es, como mínimo del 75% de los datos. Para cada categoría tendremos,
por tanto:
14335
9735 ± 2 ⋅ 2300 = 
 5135
24224
13150 ± 2 ⋅ 5537 = 
 2076
;
23036
12236 ± 2 ⋅ 5400 = 
 1436
;
Para los pensionistas, con una media de ingresos de 9735 euros
podemos afirmar que, como mínimo, el 75% de los pensionistas ingresan
entre 5135 y 14335 euros. En los restantes grupos los resultados
pueden leerse de manera similar.
Ejemplo 25. Control de calidad. En la última etapa de control de
calidad de una empresa se quiere analizar el comportamiento de sus
cadenas de producción. Durante un período de una semana se recoge
en las cinco cadenas de producción existentes en la empresa,
información del número de unidades defectuosos detectadas sobre el
total producido. En el cuadro 20 se recoge la información del número de
unidades defectuosas, la cadena de producción y el día de la semana.
Cuadro 20
%
Lunes
Martes
Miércoles
Jueves
Viernes
Sábado
Domingo
Cadena A
160
159
158
160
159
158
160
Cadena B
158
157
150
150
157
156
158
Cadena C
170
150
159
180
150
140
170
Cadena D
160
158
157
156
158
149
160
Cadena E
149
150
152
157
158
159
160
La desigualdad de Chebychev puede emplearse para detectar en
qué día o en qué cadena se produce un número de piezas defectuosas
especial. Sabemos que como mínimo el 75% de los casos estará
comprendidos en el intervalo x ± 2 s x . Las observaciones que superen
estos límites se considera que toman valores relativamente extremos. La
representación gráfica de los valores de la variable y los límites basados
en la desigualdad facilita su detección. El número medio de piezas
defectuosas es:
n
x=
∑X
i =1
i
n
=
5502
= 157,2
35
Y la desviación estándar:
n
sx =
∑X
i =1
n
2
i
−x2 =
866546
− 157,2 2 = 6,828
35
Los límites de la desigualdad serán:
171
157,2 ± 2 ⋅ 6,828 = 
143
En la gráfica 19 aparecen en el eje vertical el número de unidades
defectuosas y en el eje horizontal los siete días de cada una de las
cadenas, destacando el comportamiento de la cadena C, en la que se
producen fuertes oscilaciones en el número de piezas anómalas.
Gráfica 19
Gráf ica de control: DEFECTOS
190
180
170
160
150
Límit e Sup.
Promedio
140
Límit e I nf .
130
DEFECTOS
A A A A A A A B B B B B B B C C C C C C C D D D D D D D E E E E E E E
Límit es basados en la regla de Cheby chev
El Diagrama de Caja. Los diagramas de cajas son representaciones gráficas que
muestran la mediana, el rango intercuartílico, los valores atípicos y los casos
extremos de la variable. Son especialmente útiles cuando se trata de comparar
distintas variables o el comportamiento sobre una misma variable de distintos
grupos. El diagrama de caja aporta información conjunta de medidas de
posición y de dispersión. En la gráfica 20 se muestra un ejemplo de diagrama de
caja correspondiente a una variable con 25 observaciones.
El diagrama de caja presenta las siguientes características:
• El eje vertical corresponde a los valores de la variable.
• En el interior del rectángulo (con una línea más gruesa) se señala la
mediana de la variable.
• Los bordes superior e inferior del rectángulo coinciden con el tercer y
primer cuartiles, respectivamente (75 y 25 percentiles). La amplitud
de ese intervalo define el rango intercuartílico (rangoIQ), que
coincidirá visualmente, por tanto, con la altura del rectángulo (el 50%
de las observaciones centrales se encuentran dentro del rectángulo; un
25% de las observaciones restantes estarán por encima y el otro 25%
por debajo).
• Para detectar la existencia de observaciones atípicas, desde las cajas
se definen, tanto por arriba como por abajo, dos límites formales (que
no se representan), ambos basados en la amplitud del rectángulo, es
decir en el rango intercuartílico de la distribución. El primer límite se
obtiene como 1,5 veces el rangoIQ, el segundo límite se sitúa en 3
veces la amplitud del rectángulo. En la gráfica se señalan como
observaciones atípicas (outliers) aquellas que superan el límite de 1,5
veces el rangoIQ sin exceder el límite superior de 3 veces el rangoIQ
(observación 18 en la gráfica). Si la observación supera el límite
superior se señalan con otro símbolo, considerándose observaciones
extremas (observación 19). No todos los programas estadísticos
distinguen entre observaciones atípicas y extremas, señalándose en
ocasiones de manera general aquellas que superan 1,5 veces el
rangoIQ.
• Los límites a los que se ha hecho referencias no son visibles en las
gráficas, por lo que si no existen observaciones que los superen no se
visualizará ninguna señal.
• Se representan en las gráficas dos líneas perpendiculares a los bordes
del rectángulo, que llegan hasta la observación más alejada (en ambas
direcciones) pero que no puede definirse como outlier (inferior a 1,5
veces el rangoIQ).
• En comparaciones entre diferentes variables o, especialmente, de la
misma variable en diversos grupos, resulta interesante disponer de una
referencia visual del número de observaciones implicadas (el número
de individuos que forman parte de cada grupo). Esto se consigue
haciendo que el área de los rectángulos sea proporcional al tamaño del
grupo.
En un diagrama de caja deben visualizarse la mediana, la amplitud
(rango y rango intercuartílico) y la existencia de observaciones atípicas y/o
extremas.
Gráfica 20
20
19
10
18
0
-10
N=
25
DIAGRAMA DE CAJA
Diagrama de caja. Ayudas para su interpretación:
• La línea que señala la mediana no tiene por qué aparecer en el centro
del rectángulo. Aparecerá en el medio cuando la distribución sea
simétrica, mientras que si es asimétrica por la derecha aparecerá más
cerca del límite inferior que del superior. Al contrario ocurrirá en una
distribución asimétrica por la izquierda.
• Si se comparan distribuciones, aquella que muestre un rectángulo de
mayor amplitud corresponderá a la distribución con mayor dispersión
(medida por el rangoIQ).
• Si no existen outliers u observaciones extremas los límites inferior y
superior vendrán señalados por las líneas externas al rectángulo.
• Muchos programas facilitan la lectura de un identificador de las
observaciones atípicas o extremas.
En las gráficas 21, 22 y 23 se muestran los diagramas de caja que
corresponden a tres distribuciones: simétrica, asimétrica por la derecha y
asimétrica por la izquierda, respectivamente. En la distribución simétrica la
mediana se sitúa de manera equilibrada entre el tercer y primer cuartil; en la
distribución asimétrica por la derecha, la mediana se encuentra más cerca del
primer cuartil que del tercero; mientras que en la distribución asimétrica por la
izquierda la mediana se acerca al tercer cuartil. La detección de observaciones
atípicas en la parte superior o inferior de la caja suele coincidir también con la
dirección de la asimetría.
Gráfica 21
4
999
2
0
-2
465
998
792
-4
N=
Gráfica 22
1000
10
2427
2756
4930
8
947
178
4620
4888
6907
1136
4446
9634
8577
5871
3061
5475
9861
5755
699
7988
4678
6685
5646
8710
932
4499
218
7088
9292
7989
3980
5219
7792
6445
7619
7643
6870
5673
8334
2899
5562
1023
1891
259
3773
7343
8682
5413
927
6608
3314
236
5185
2441
688
313
4431
2977
275
2974
8979
2258
8443
7742
7698
4688
262
7650
7030
1160
5536
3350
1145
5803
1337
9308
466
4617
8655
5557
845
1728
6814
1077
6048
6059
2887
3844
929
1473
8725
9835
91
2
5
7330
3130
4246
411
8718
6259
6722
4105
6020
238
8813
1361
4408
6317
35
8185
1805
1040
2995
3950
3003
5806
7520
7182
9996
2011
2576
4916
5801
5087
8907
6236
4358
67
5279
3049
6030
6396
926
3473
7536
6963
6765
6990
5583
8048
8890
3527
3798
3999
2395
3486
8540
4081
6107
8832
3682
9622
5410
1960
9198
7736
7539
9004
4487
1611
9340
9521
9984
5954
9925
8490
4812
5770
6934
6700
9018
9714
9615
1552
7489
3547
5624
6734
1738
3894
6897
3638
9489
8435
999
8151
2163
4360
3240
5834
2333
7978
2935
5942
7100
5376
7042
5104
1420
9285
3294
6592
1448
4239
8800
2185
3302
8498
8881
5085
1398
1970
5049
9770
5592
5617
4041
5448
4595
1058
3371
7440
4118
5092
4521
5074
2948
4185
1445
1334
9680
243
18
5186
3675
1291
7931
8075
6196
9095
9927
5875
9483
8946
2106
7712
7380
7117
6953
1435
6485
9689
7355
9700
3136
420
2077
1749
6754
7661
1924
9300
5716
7141
3483
7071
6433
8336
414
471
6489
3976
7865
9554
7862
4285
7773
855
21
2002
8918
8960
9829
2070
9404
4107
8066
8326
804
6366
2472
6834
8627
6151
6820
6551
4661
6735
8683
763
8594
4870
7079
4749
6239
1839
9822
8686
1653
4582
6093
3984
945
4816
6621
707
1641
4722
7458
5788
9906
5900
5865
2693
4997
482
1109
7438
5275
1229
9226
5843
872
9609
7820
7522
1393
5155
89
2424
6397
4946
9805
3911
6017
5619
5899
1462
6193
8542
8300
4296
9209
7699
4078
5732
2602
8822
5502
4865
3282
8654
5861
4123
7455
3884
8643
4111
2101
7172
2318
1676
1428
7572
4949
2929
4438
83
1864
5645
7854
541
1698
2867
3100
578
9563
7715
7246
136
5128
7305
4300
9215
5982
6561
5195
9491
944
1356
7168
7540
5077
167
7447
76
8615
8706
9085
3769
1055
4440
8790
2153
2450
6757
5796
2835
4412
968
571
9237
108
6125
4019
9902
170
1261
6618
7492
5582
4312
8082
7868
3310
8503
1670
5210
4724
6859
7972
3043
2715
6
4
2
0
-2
N=
10000
X3
Gráfica 23
10
0
-10
239
136
21
707
730
763
555
571
108
482
243
266
471
167
83
466
76
91
414
238
262
5
926
845
927
67
35
259
929
313
236
218
275
688
178
932
699
947
-20
N=
1000
X5
Ejemplo 26. El primer y tercer cuartiles de una variable se sitúan
en los valores 8 y 36, respectivamente. Un diagrama de caja declararía
como observaciones atípicas aquellas situadas por debajo de –34 o por
encima de 78:
8 − 1,5 ⋅ (36 − 8) = − 34

 36 + 1,5 ⋅ (36 − 8) = 78
Ejemplo 27. En la gráfica 24 se reproduce el diagrama de caja
correspondiente a los siguientes datos {9, 23, 25, 28, 32, 47, 50}.
En un ejemplo anterior ya se habían obtenido los valores de los
tres cuartiles: 23, 28 y 47. Estos valores definirían la altura del rectángulo
(el rango intercuartílico es 24) y la posición de la mediana. Se declararían
observaciones atípicas las que superaran 1,5 veces el rango
intercuartílico. Al restar esa cantidad (36) al primer cuartil y sumársela al
tercer cuartil se obtienen valores (−13 y 83) que superan el mínimo y
máximo de la variable. No existen, por tanto, observaciones extremas y
las prolongaciones de la caja llegan al mínimo y máximo de la variable.
Gráfica 24
60
50
40
30
20
10
0
N=
7
Ejemplo 28. En un estudio de una muestra de familias españolas
se ha analizado el nivel de ingresos de las familias, teniendo en cuenta
cuál es la categoría profesional del sustentador principal. Se distinguió
entre pensionistas, asalariados, profesionales y empresarios,
obteniéndose los resultados que se muestran en el cuadro 21 y en la
gráfica 25. Los diagramas de caja se han construido imponiendo que el
tamaño de la caja sea proporcional al número de observaciones.
Cuadro 21
Pensionista Asalariado Profesionale
s
s
s
8255
11236
13331
x
Mediana
7739
9497
10628
Rango
IQ
2608
6237
13282
Empresario
s
12404
12633
6681
Gráfica 25
ingresos
45000
343
Pension.
Asalaria.
Profes.
Empres.
Las características que destacan de las cuatro distribuciones de
ingresos son las siguientes:
• Los ingresos parecen aumentar, medidos por la mediana,
según el orden pensionistas, asalariados, profesionales y
empresarios.
• La dispersión de la variable aumenta en el mismo orden que
el valor de la mediana para los colectivos de pensionistas,
asalariados y empresarios. El colectivo con mayor dispersión
es el de los profesionales.
• La distribución de la categoría de jubilados es la más
simétrica, con la mediana situada cerca del centro del
rectángulo, mostrando una ligera asimetría por la derecha. Las
restantes distribuciones son claramente asimétricas, aunque
dos lo son por la derecha (asalariados y profesionales) y una
por la izquierda. Esta última distribución es la que muestra la
asimetría más pronunciada, al situarse la mediana muy cerca
del tercer cuartil.
• El número de observaciones atípicas es reducido, excepto en
el caso de los asalariados.
Ejemplo 29. El crecimiento de los países de la OCDE. En este ejemplo
se compara el PIB per capita de los países de la OCDE en 1960 y 1990. En el
cuadro 22 se muestran unos índices del PIB per capita, que toman como
referencia el PIB per capita de EEUU. Por ejemplo, el valor de España en 1960
de 31,76 se obtiene de dividir el PIB per capita español por el correspondiente a
EEUU (ambos en dólares) e indica que el PIB per capita español era el 31,76%
del de EEUU.
En la gráfica 26 reproducimos los diagramas de caja del índice en los
dos años. La posición central de la distribución de 1990 (medida por la mediana)
es muy superior a la de 1960. Ello indica que para el conjunto de países se ha
producido una aproximación a los niveles de riqueza de EEUU. La dispersión de
la distribución (medida por el rango intercuartílico) es mucho menor, señalando
una cierta convergencia en los niveles de riqueza de todos los países.
En el diagrama de caja correspondiente a 1990 se detectan tres
observaciones atípicas: Portugal, Grecia y, especialmente, Turquía, cuyos
índices del PIB per capita son bastante inferiores. Dado que no se detectaban
como atípicos en 1960, debe inferirse que el nivel de convergencia económica
alcanzado en estos países es inferior al de los restantes miembros de la OCDE.
Destaca también la posición de EEUU por la parte superior del diagrama. A
pesar de la convergencia en las sendas de crecimiento, este país se ha
separado de los demás en la riqueza alcanzada. Así por ejemplo, Suiza, que es
el país que sigue a EEUU en el valor del PIB per capita pasa de tener un valor
del índice igual a 97,20 a situarse en 95,85.
Cuadro 22
país
Alemania
PIB per capita
1960
(USA=100)
67,73
PIB per capita
1990
(USA=100)
83,61
Australia
Austria
Bélgica
Canadá
Dinamarca
España
Finlandia
Francia
Grecia
Holanda
Irlanda
Islandia
Italia
Japón
Luxemburgo
N. Zelanda
Noruega
Portugal
Reino Unido
Suecia
Suiza
Turquía
EEUU
Gráfica 26
67,25
52,03
53,27
66,59
63,17
31,76
48,57
58,81
18,97
63,50
31,22
50,05
47,23
29,91
75,18
75,13
50,10
20,77
67,85
67,26
97,20
17,43
100
73,07
75,63
74,59
86,86
75,73
53,66
75,53
79,13
33,83
72,77
49,14
76,22
73,20
80,63
91,16
61,86
73,27
38,24
72,56
77,16
95,85
23,36
100
120
100
EEUU
80
60
40
Portugal
Grecia
Turquía
20
0
N=
24
24
PIB per capita, 1960
PIB per capita, 1990
Ejemplo 30. Empleando los catálogos del año 2000 publicados por
diversos tour operadores británicos se recogieron los precios de las
ofertas que realizan para una estancia de una semana en las Islas
Baleares (en la primera semana de agosto y saliendo del aeropuerto de
Gatwick). Para cada grupo de tour operadores (Airtours, Cosmos, First
Choice, Thomas Cook, Thomson y Virgin) se ha construido su diagrama
de caja con los precios de las ofertas de estancias a media pensión en
habitación doble en un hotel de tres estrellas, con el resultado que se
muestra en la gráfica 27. En esta gráfica, el tamaño de las cajas se ha
dibujado de manera que sea proporcional al número de ofertas que
realiza el tour operador. Así, First Choice y Thomson serían los grupos
con más ofertas.
La comparación de los precios, a partir de la mediana permite detectar
importantes diferencias de precios entre los tour operadores, que posiblemente
reflejaran un poder de mercado diferente. Airtours presenta los precios más altos,
seguida de Virgin y Thomas Cook y, en un tercer nivel, Thomson, Cosmos y
First Choice. La visión de los diagramas de caja facilita la comparación de las
distribuciones.
Gráfica 27
precio ptas
198967
98281.8
airtours cosmos
firtst ch
thomas co
thomson
virgin
Ejemplo 31. Se quiere analizar si la repetición de la visita a una
zona implica una modificación del gasto realizado por el turista. A partir
de un muestra de turistas alemanes se comparan los diagramas de caja
del gasto per capita y día de los que vienen por primera vez, segunda
vez, tercera vez y cuarta o más veces. En la gráfica 28 se reproducen los
diagramas correspondientes.
Gráfica 28
total def pc/día
42110.8
800.974
una vez
dos veces
tres vece
4 o más v
La imagen comparativa muestra la igualdad de las distribuciones,
tanto en su posición central, como en los cuartiles (y rango
intercuartílico), máximos y mínimos.
Medidas de Asimetría y Curtosis
Existen medidas de forma que proporcionan información numérica sobre
dos características de la distribución, su simetría y su apuntamiento o curtosis.
El concepto de simetría de una distribución ha sido ya comentado y hemos visto
algunos ejemplos, aunque no hemos dado ninguna medida cuantitativa directa.
Discutiremos aquí los coeficientes de asimetría de Fisher y de Pearson. La idea
de apuntamiento o curtosis de una distribución se refiere a la importancia de la
concentración de las observaciones en la zona central de la variable, mostrándose
con ello una distribución más o menos apuntada.
Medida de asimetría de Fisher. En una distribución simétrica las observaciones
de la variable tienden a situarse en igual proporción a ambos lados del valor
medio. Cualquier medida que recoja alteraciones de esta situación proporcionará
una cuantificación de la asimetría de la distribución. Una primera propuesta
podría ser la siguiente:
n
∑( X
i =1
i
− x)
n
en tanto que define un promedio de las desviaciones de la variable con respecto
al valor medio. En el caso de que se dieran muchas observaciones por encima de
la media se esperaría un valor positivo, mientras que una mayor proporción de
valores por debajo de la media proporcionaría un valor negativo. Es posible que
ya se haya dado cuenta de que esta propuesta, si no se modifica, es inservible,
∑( X
n
puesto que por definición siempre
i =1
i
− x)= 0 .
Una alternativa es tomar las desviaciones de la variable respecto a la
media pero elevadas a alguna potencia. Al elevar las desviaciones al cuadrado se
obtiene la expresión de la varianza, una medida de dispersión de los valores
respecto a la media, pero que no ayuda a señalar la posición de las observaciones
a derecha o izquierda de la medida de posición central. El cubo de las
desviaciones, al respetar el signo de la diferencia X i − x sí permite promediar
tanto la importancia de la desviación, como su dirección. Se utilizaría, por tanto,
un estadístico conocido como el momento de orden tres con respecto a la media
(m3):
n
m3 =
∑( X
i =1
i
− x)3
n
O, si los datos están agrupados en frecuencias, como:
p
m3 =
∑ n (X
i =1
i
i
− x)3
n
En función del signo de m3 puede determinarse si la asimetría es por la
derecha o por la izquierda (según un número relativamente elevado de
observaciones tomen valores en la parte derecha o izquierda de la distribución).
También de habla de asimetría positiva (por la derecha) o asimetría negativa (por
la izquierda). Una distribución simétrica tenderá a un valor de m3 igual a cero.
Por tanto tendremos:
• m3 = 0 : Simetría.
• m3 > 0 : Asimetría positiva o por la derecha.
• m3 < 0 : Asimetría negativa o por la izquierda.
El estadístico de asimetría de R.A. Fisher se define a partir del anterior
estadístico, planteándose como una normalización del mismo para evitar que la
medida varíe si se produce un cambio de escala. El coeficiente se define como:
g1 =
m3
s x3
Normalizándose, por tanto, mediante el cubo de la desviación estándar.
Advierta que las características del signo no varían con respecto a lo ya expuesto.
•
•
•
g1 = 0 : Simetría.
g1 > 0 : Asimetría positiva o por la derecha.
g1 < 0 : Asimetría negativa o por la izquierda.
Medida de asimetría de Pearson. Recuerde que hemos planteado una relación
entre media, moda y mediana que permitía definir la simetría o asimetría de una
distribución. En una distribución simétrica los tres valores tienden a coincidir,
mientras que en una distribución asimétrica se presentan con un orden distinto.
Pearson propuso el siguiente estadístico:
AS =
•
•
•
x − Moda
sx
AS = 0 , la distribución es simétrica.
AS > 0 , la distribución es asimétrica por la derecha.
AS < 0 , la distribución es asimétrica por la izquierda.
Medidas de apuntamiento o curtosis. Se aplican a distribuciones simétricas y
unimodales, pretenden medir hasta qué punto las observaciones de la variable se
acumulan en la parte central de la distribución. Para medir esta acumulación de
las frecuencias se emplea como medida cuantitativa la siguiente:
n
Curtosis =
∑(X
i =1
i
− x)4 / n
s
4
x
=
m4
s x4
donde m4 definiría el momento de orden cuatro respecto a la media.
El empleo de este estadístico (o el equivalente si los datos se presentan
agrupados) se justifica porque facilita la comparación con lo que sería una
imagen que se consideraría la referencia de una distribución ni muy “achatada” ni
muy “picuda”. La distribución utilizada es la de una variable denominada
normal, que será el punto de referencia para la comparación. En la gráfica 29 se
representan los histogramas de cuatro variables que siguen este tipo de
distribución (superpuesta aparece la forma idealizada del histograma).
Es con referencia a esta imagen con respecto a la que se compara el
apuntamiento de la distribución de una variable. Si se calcula el coeficiente de
curtosis en una distribución de tipo normal el valor que se obtiene es igual a 3,
como consecuencia de la relación que existe en esta distribución concreta entre el
valor m4 y sx:
m4 = 3 s x4
Este tipo de distribución normal se estudia desde un punto de vista
matemático dentro de la estadística no descriptiva, en un marco en el que las
distribuciones de las variables se analizan desde su idealización matemática.
Gráfica 29
.089626
0
.089626
0
Histogramas Normal
Las distribuciones básicas que se pretenden detectar se corresponden a
tres tipos de imagen. La primera sería la de una distribución normal, la segunda
la de una distribución algo más achatada y la tercera la correspondiente a
distribuciones con mayor frecuencia en los valores centrales. Las distribuciones
se califican de una manera específica según este criterio, las distribuciones
parecidas a la normal se denominan mesocúrticas, las distribuciones “achatadas”
se denominan platicúrticas (vea las gráficas 30 y 31), y aquellas que muestran
más “apuntamiento” se denominan leptocúrticas (vea las gráficas 32 y 33). En
los histogramas correspondientes suele dibujarse en ocasiones la forma teórica
que correspondería a una distribución normal, con respecto a la cual se está
haciendo la comparación.
Gráfica 30
.057
0
-.1
2.6
Gráfica 31
.08
0
-2.38555
5.84201
Gráfica 32
.1403
0
-16.758
16.5001
Gráfica 33
.1142
0
-7.59041
8.28189
Es frecuente en los programas estadísticos que el coeficiente de curtosis
que se ofrezca en los resultados sea el siguiente:
g2 =
m4
−3
s x4
que permite la comparación directa con la distribución normal
Con ello se tiene el siguiente criterio:
g 2 = 0 , distribución mesocúrtica (normal).
g 2 < 0 , distribución platicúrtica (“achatada”).
g 2 > 0 , distribución leptocúrtica (“apuntada”).
•
•
•
Ejemplo 32. A partir de la información del cuadro 23 sobre la
distribución de la variable X, obtendremos los valores de la desviación
estándar y del coeficiente de asimetría de Fisher.
Cuadro 23
Xi
ni
X i ni
X i −x
( X i −x ) 2
( X i − x )2 n i
( X i − x )3 ni
0
1
2
3
4
4
5
2
2
1
0
5
4
6
4
-1,36
-0,36
0,64
1,64
2,64
1,84
0,13
0,41
2,70
6,98
7,37
0,64
0,83
5,40
6,98
-10
-0,23
0,53
8,87
18,46
4
n=14
∑ X n =19
i =1
i
4
∑( X −x) n =21,21 ∑( X − x ) n =17,63
i
i =1
x =1,357
4
2
i
i
La desviación estándar será, por tanto:
p
sx =
∑ (X
i =1
− x ) ni
2
i
n
=
21,21
=1,231
14
Y el coeficiente de asimetría de Fisher:
i =1
3
i
i
g1 =
m3 17,63 14
=
= 0,67
s x3 (1,231)3
Ejemplo 33. A partir de la información de la distribución de la
variable X que se muestra en el cuadro 24 obtendremos los valores del
coeficiente de curtosis.
Cuadro 24
Xi
ni
X i ni
X i −x
( X i − x )2 n i
( X i − x )4 n i
0
1
2
3
4
4
5
2
2
1
0
5
4
6
4
-1,36
-0,36
0,64
1,64
2,64
7,37
0,64
0,83
5,40
6,98
13,57
0,08
0,34
14,57
48,79
n=14
∑ X n =19
4
i =1
i
x =1,357
p
sx =
∑ (X
g2 =
i =1
4
4
i =1
i =1
∑( Xi −x)2 ni =21,21 ∑ ( Xi −x )4 ni =77,35
i
− x ) ni
2
i
n
=
21,21
=1,231
14
m4
77,35 14
−3=
− 3 = − 0,59
4
sx
(1,231)4
Ejemplo 34. En un estudio del índice de ocupación de la isla de
Tenerife se analizan las variaciones del índice desde enero de 1978
hasta abril de 1996, calculando las variaciones mensuales del mismo. En
el cuadro 25 aparece un análisis descriptivo de la Variación del índice de
ocupación. El histograma de la serie de variaciones del índice se
reproduce en la gráfica 34.
Cuadro 25
Variación
índice de
n
x
sx
Mínimo
Máximo
Asimetría
Curtosis
índice de
ocupació
n
219
0,009
0,136
-0,381
0,452
0,351
0,60
Gráfica 34
40
30
Frequency
20
10
-40
-20
0
20
Variación índice de ocupación
40
Las conclusiones que pueden extraerse de esta información son
las siguientes:
• La media de las tasas de variación está próxima a cero,
indicando con ello que la serie no ha sufrido en el período
analizado un crecimiento (o decrecimiento) sistemático.
• El valor de la desviación estándar de la Variación del Índice de
ocupación es elevado.
• El coeficiente de asimetría está cercano a cero, coincidiendo
con el valor esperado en una distribución simétrica de tipo
normal.
• El coeficiente de curtosis, con un valor también cercano a cero,
indica que la distribución tiene el mismo tipo de apuntamiento
que correspondería a la distribución normal.
• La semejanza de la distribución a la de tipo normal queda
también confirmada gráficamente con el histograma y la
estilización correspondiente a la distribución teórica normal.
Ejemplo 35. El histograma de la gráfica 35 corresponde al gasto
(per capita y día) de una muestra de turistas de nacionalidad española en
una zona turística.
Gráfica 35
nacionalidad española
70
60
50
40
30
Frecuencia
20
10
0
10,0
50,0
30,0
90,0
70,0
130,0
110,0
170,0
150,0
210,0
190,0
La distribución no se aleja demasiado de la que correspondería a una
normal, aunque aparece algo más apuntada en los valores centrales y con una
cierta asimetría por la derecha. El cálculo de los coeficientes de asimetría y
curtosis confirma esta impresión, con valores iguales a 1,348 (ligera asimetría
positiva) y 3,035 (distribución leptocúrtica).
Ejemplo 36. Características distribucionales de los rendimientos de
los mercados emergentes. Bekaert et al. (1998) analizan los beneficios
que se obtienen como consecuencia de invertir en nuevos mercados. Se
trata de mercados con gran variabilidad, poco ligados a los mercados
desarrollados, propios de inversiones que proporcionan altos beneficios
con un horizonte temporal a más largo plazo. Este tipo de mercado es
también más sensible a las crisis políticas, devaluaciones de la moneda y
regulaciones legislativas. Los mercados emergentes no pueden
caracterizarse únicamente mediante la media y la desviación estándar de
los rendimientos, sino que deben contemplarse además la asimetría y la
curtosis de la distribución.
Como caso particular Bekaert et al. (1998) comparan los
histogramas de la distribución de los beneficios del mercado argentino y
del mercado americano (gráficas 36 y 37, respectivamente). El período
seleccionado para recoger la información es desde abril de 1987 a marzo
de 1997. En el histograma de los rendimientos del mercado argentino
resalta una cierta asimetría, así como una curtosis elevada. Las cifras de
EEUU, por el contrario, están más próximas a la imagen idealizada de la
distribución normal.
Como parte de su análisis Bekaert et al. (1998) ofrecen diversos
estadísticos descriptivos de los rendimientos totales en distintos
mercados emergentes. Parte de esta información se reproduce en el
cuadro 26. Sobre estas cifras, los autores destacan que de veinte
países, diecisiete muestran una asimetría positiva, mientras que
diecinueve tienen un exceso de curtosis. La idea de una distribución de
tipo normal (simétrica y con curtosis cero) en la distribución de los
rendimientos no parece, por tanto, adecuada.
Estos parámetros de simetría y curtosis deberían tenerse en
cuenta al decidir las inversiones, puesto que, por ejemplo, puede
suponerse que los inversores preferirán rendimientos que presenten
asimetría por la derecha que por la izquierda. La principal propuesta de
los autores se realiza en el ámbito del diseño de una cartera de
inversiones, proponiendo un método por el que la información sobre los
momentos de tercer y cuarto orden de la distribución entran a formar
parte de los parámetros del problema de asignación.
Gráfica 36
.174051
Fraction
0
-70
-50
-30
-10
10
30
50
70
90
ARGENTINA, rendimientos mensuales
110
130
150
170
Gráfica 37
.223881
Fraction
0
-30
-10
10
EEUU, rendimientos mensuales
30
50
Cuadro 26
País
Argentina
Brasil
Chile
Colombia
Grecia
India
Jordania
Malasia
Méjico
Nigeria
Paquistán
Filipinas
Portugal
Corea del Sur
Taiwan
Tailandia
Turquía
Venezuela
Zimbaue
Media
aritmética
(%)
56.8
42.6
32.2
32.7
21.6
11.7
5.9
17.3
29.2
32.6
14.7
23.4
15.7
6.6
30.4
20.5
41.9
23.9
25.4
Media
Desviación Asimetrí
geométric
Curtosis
estándar
a
a (%)
27.2
87.9
3.32
20.22
22.1
63.9
0.25
1.09
28.2
27.6
0.28
-0.07
28.0
31.5
1.63
4.14
14.0
41.2
1.76
6.33
6.3
33.8
0.72
1.11
4.6
15.9
0.17
1.53
13.9
25.2
-0.86
2.79
17.2
45.4
-1.01
5.41
18.1
52.3
1.49
19.64
11.1
27.4
1.23
4.27
17.7
34.1
0.67
3.69
9.0
39.2
2.35
12.91
2.8
28.0
0.59
0.42
17.2
52.4
0.59
1.45
15.0
32.7
-0.19
1.81
19.7
70.5
0.97
1.04
12.9
46.9
0.25
2.23
21.0
29.3
0.02
1.25
CAPÍTULO IV. Análisis BIVARIANTE de VARIABLES CUALITATIVAS
El análisis del comportamiento de una variable casi siempre implica
discutir sobre su relación con otras variables. A continuación se estudiarán
dos tipos de relaciones bivariantes. El primer tipo comprende la relación
entre dos variables de tipo cualitativo, incluyendo en ellas variables
cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa
ordinal. El segundo, en el próximo capítulo, se refiere a la relación entre dos
variable cuantitativas. En ambos contextos se estudia la asociación entre dos
variables, añadiendo a la cuestión de su detección y medición, la posible
determinación de una relación de dependencia.
La definición estadística de una relación de dependencia entre dos
variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la
variable (independiente) que influye en la otra (dependiente). En el lenguaje
estadístico también se habla de una variable explicativa y una variable explicada.
La idea de causalidad supone algo más que la asociación entre ellas, puesto que
impone una relación de dependencia entre las variables, debiendo plantear qué
variable es dependiente y qué variable es independiente. Desde el punto de vista
estadístico existen técnicas para establecer la dirección e importancia cuantitativa
de la causalidad, pero su aplicación adquiere pleno sentido cuando se acompaña
de algún tipo de hipótesis teórica, aunque sea al nivel puramente exploratorio de
los datos.
Distribución conjunta de variables. Tabla de contingencia
Al tratar de describir la relación entre dos variables cualitativas, que
denotaremos A y B, la principal herramienta de análisis es la tabla de frecuencias
conjunta o tabla de contingencia. Se considera que cada una de las variables
puede tomar una serie de valores mutuamente excluyentes, de manera que sobre
cada individuo de la muestra puede observarse cuáles son las categorías a las que
pertenece en cada una de las variables. Como en el caso de la estadística
univariante, la primera manera de resumir la información es el puro cómputo.
Empleando una tabla de doble entrada se muestran todas las posibles
combinaciones de las categorías de las dos variable, anotando en cada una de las
celdas resultantes el número de casos que pertenecen a las dos categorías. La
presentación usual de este tipo de tablas, representando su distribución conjunta,
se muestra en el cuadro 1.
Cuadro 1
B1 B2
A1 n11 n12
A2 n21 n22
… … …
AI nI1 nI2
…
…
…
…
…
BJ
n1J
n2J
…
nIJ
En la anterior tabla se relacionan las dos variables indicadas como A y B,
cada una de ellas con un número de atributos o categorías igual a I y J,
respectivamente (Ai, i=1,…,I; Bj, j=1,…, J); nij indica el número de observaciones
que presentan simultáneamente las características i y j de las variables A y B. El
tratamiento más elemental de esta información es la obtención de las distintas
frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas
o relativas) en las que ocurren las categorías de filas y columnas. La notación
empleada no debe provocarle ninguna dificultad, aunque dado que la lectura de
los subíndices siempre resulta algo engorrosa piense que lo que se está
definiendo como tratamientos de la tabla de distribución conjunta es la
formalización de una lectura natural de la tabla: como frecuencias absolutas,
como frecuencias relativas respecto al total de observaciones y como frecuencias
relativas respecto a cada uno de los lados de la tabla.
(i) Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada
una de las variables. Para ello es suficiente con sumar todas las celdas
correspondientes a cada una de las filas o de las columnas. En el cuadro 2 se
muestra la tabla de contingencia cuando se incluyen las distribuciones
marginales. En la misma,
J
ni . = ∑ nij ,
j =1
I
n. j = ∑ nij
i =1
Cuadro 2
n11 n12
n21 n22
… …
nI1 nI2
… n1J
… n2J
… …
… nIJ
Distribución
marginal de
A
n1.
n2.
…
nI.
n.1
… n.J
n
B1
A1
A2
…
AI
Distribución
marginal de
B
B2 … BJ
n.2
(ii) Distribución de frecuencias relativas. Son las frecuencias relativas de cada
una de las celdas respecto al total de observaciones (cuadro 3).
Cuadro 3
B1
B2 … BJ
Distribución
marginal de
A
A1
n1J
n11 n12
K
n n
n
n1.
n
A2
n2 J
n21 n 22
K
n n
n
n2.
n
M
M K M
n IJ
n I1 n I 2
K
n n
n
M
nI .
n
n.1 n.2
n. J
K
n n
n
1
…
AI
Distribución
marginal de
B
(iii) Perfiles fila. Corresponde a la tabla en la que aparecen las frecuencias
relativas de cada una de las celdas con respecto al total de las filas (cuadro 4).
Cuadro 4
B1
B2
… BJ
A1
n
n11 n12
K 1J
n1. n1.
n1.
1
A2
n 21 n 22
n 2. n 2.
1
…
M
AI
nI1
nI .
Distribución
marginal de
B
K
n 21
n 2.
M K M
nI 2
n IJ
nI . K
nI .
n.1 n.2
n
K .J
n n
n
M
1
1
(iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas
con respecto al total de las columnas (cuadro 5).
Cuadro 5
B1 B2
A1
A2
…
AI
Distribución
… BJ marginal de
A
n
n11 n12
K 1J
n.1 n.2
n. J
n1.
n
n
n21 n22
K 2J
n.1 n.2
n. J
M
M K M
n
nI1 nI 2
K IJ
n.1 n.2
n. J
n2.
n
M
nI .
n
1
1
…
1
1
Ejemplo 1. Diferencias en el tamaño de las empresas industriales.
Para el sector industrial español se desea analizar si existe alguna
relación entre el tamaño de las empresas y el sector concreto al que
pertenecen. Empleando un año de la Encuesta Industrial se ha recogido
para 610 empresas, información consistente en el sector al que
pertenece la empresa (Metal, Química, Alimentación, Confección,
Madera, Papel, Minerales no metálicos, Construcción) y su tamaño,
medido en tres intervalos: de 20 a 99 empleados, de 100 a 499 y de más
de 500. Los resultados del cruzamiento de estas dos variables (sector y
tamaño) se ofrecen en el cuadro 6 (frecuencias absolutas).
Cuadro 6
20/99 100/499 más 500 Totale
s
Metal
50
73
90
213
Química
13
31
15
59
Alimentación 14
15
9
38
Confección 33
48
8
89
Madera
20
3
1
24
Papel
9
10
4
23
Minerales
11
9
5
25
Construcció 80
31
28
139
n
Totales
230
220
160
610
En el cuadro 7 se muestran los porcentajes, respecto al total de
empresas considerado en la muestra, de cada una de las celdas de la
tabla. La tabla puede representarse en un espacio de tres dimensiones
para facilitar su lectura. En la gráfica 1 se ofrece esa representación,
indicándose con la serie numérica 1 a 8 los sectores productivos
correspondientes.
Cuadro 7
20/99 100/499 más 500
Metal
8,20 11,97
14,75
Química
2,13
5,08
2,46
Alimentación 2,30
2,46
1,48
Confección 5,41
7,87
1,31
Madera
3,28
0,49
0,16
Papel
1,48
1,64
0,66
Minerales 1,80
1,48
0,82
Construcción 13,11 5,08
4,59
Totales
37,70 36,07
26,23
Totales
34,92
9,67
6,23
14,59
3,93
3,77
4,10
22,79
100,00
Gráfica 1
15,00
10,00
5,00
más 500
100 a 499
20 a 99
0,00
1
2
3
4
5
6
7
8
Sea a través de la tabla de frecuencias conjunta o por medio de
su representación puede obtenerse una visión de la importancia de cada
de los sectores y su distribución en función del tamaño de las empresas.
En un problema como el planteado aquí, en el que interesa destacar la
distribución de cada sector según el tamaño, sería de más ayuda la tabla
de perfiles fila que se muestra en el cuadro 8. En la misma es fácil
detectar que el sector del metal sería el representativo de las grandes
empresas, mientras que los sectores de la madera, construcción y
minerales no metálicos estarían caracterizados por un mayor número de
empresas pequeñas. El sector de la confección y el químico se
caracterizarían por tener empresas de tamaño mediano, mientras que el
sector del papel acumularía empresas pequeñas y medianas. El sector
de la alimentación, por último, sería el que mantendría un equilibrio
mayor entre los tres tipos de tamaño. La conclusión general es, por tanto,
que efectivamente existen claras diferencias en el tamaño de las
empresas según el sector productivo, habiendo ayudado la estructura de
perfiles fila a describir la distribución particular de cada uno de los
sectores.
Cuadro 8
Metal
Química
Alimentación
Confección
Madera
Papel
Minerales
Construcción
Totales
20 a 99 100 a 499 más 500 Totales
23,47
34,27
42,25
100,00
22,03
52,54
25,42
100,00
36,84
39,47
23,68
100,00
37,08
53,93
8,99
100,00
83,33
12,50
4,17
100,00
39,13
43,48
17,39
100,00
44,00
36,00
20,00
100,00
57,55
22,30
20,14
100,00
37,70
36,07
26,23
100,00
Advierta, sin embargo, que la lectura de la tabla en términos de
los perfiles fila, no anula los comentarios que pueden realizarse cuando
se toma la tabla en la dirección de las columnas. Aunque resulta obvio, el
hecho de que el sector de la madera sea representativo de las empresas
de pequeño tamaño, su menor número en el total de la muestra hace que
en términos de la distribución de las empresas de este tamaño entre
sectores (perfiles columna) su importancia sea pequeña (véase cuadro
9). Si se quisiese incidir de manera global en este tipo de empresas los
sectores de la construcción y el metal serían los de mayor peso. Una
discusión similar podría realizarse para las restantes columnas.
Cuadro 9
Metal
Química
20/99
21,74
5,65
100/499 más 500 Totales
33,18
56,25
34,92
14,09
9,38
9,67
Alimentación
Confección
Madera
Papel
Minerales
Construcción
Totales
6,09
14,35
8,70
3,91
4,78
34,78
100,00
6,82
21,82
1,36
4,55
4,09
14,09
100,00
5,63
5,00
0,63
2,50
3,13
17,50
100,00
6,23
14,59
3,93
3,77
4,10
22,79
100,00
La interpretación de los resultados de una tabla de contingencia obliga a
una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes
perspectivas de la misma información.
Ejemplo 2. Baleares como segunda residencia. Con el objetivo de
conocer la evolución y estructura del gasto turístico, el Govern Balear
realiza anualmente una encuesta sobre el gasto turístico en las Islas
Baleares. Entre la información que se publica para el año 1990 aparece
el deseo que los turistas tienen de seleccionar Baleares como una
posible segunda residencia. Considerando que este deseo puede estar
en función de la zona en donde se ha realizado la estancia, las
respuestas a la cuestión “¿desearía escoger Baleares como segunda
residencia?” se han cruzado con el lugar de estancia. Las posibles
respuestas a la pregunta son: (i) no; (ii) sí, en los próximos años; (iii )sí,
cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han
clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3)
Costa de Tramuntana; (4) Badia de Pollença; (5) Badia d’Alcudia; (6)
Costa de Llevant; (7) Platja de Palma-S’Arenal; (8) Menorca; (9) EivissaFormentera. La información correspondiente a los turistas llegados a la
isla en temporada alta se recoge en el cuadro 10. La distribución de
porcentajes fila y columna se muestran en los cuadros 11 y 12,
respectivamente.
Cuadro 10
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No
Sí, próx.años
Sí, jubilación
NS/NC
Totales
88
25
16
34
163
524
143
148
211
1026
36
8
8
19
71
97
37
48
39
221
395
100
167
212
874
593
182
233
249
1257
358
120
102
118
698
200
94
90
115
498
520
148
157
181
1006
2812
856
968
1178
5814
Cuadro 11
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No
Sí, próx.años
Sí, jubilación
NS/NC
Totales
3,13
2,92
1,65
2,89
2,80
18,63
16,71
15,29
17,91
17,65
1,28
0,93
0,83
1,61
1,22
3,45
4,32
4,96
3,31
3,80
14,05
11,68
17,25
18,00
15,03
21,09
21,26
24,07
21,14
21,62
12,73 7,11 18,49
14,02 10,98 17,29
10,54 9,30 16,22
10,02 9,76 15,37
12,01 8,57 17,30
100
100
100
100
100
Cuadro 12
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
53,99
Sí, próx.años 15,34
Sí, jubilación 9,82
NS/NC
20,86
Totales
100
No
51,07
13,94
14,42
20,57
100
50,70
11,27
11,27
26,76
100
43,89
16,74
21,72
17,65
100
45,19
11,44
19,11
24,26
100
47,18
14,48
18,54
19,81
100
51,29
17,19
14,61
16,91
100
40,16
18,88
18,07
23,09
100
51,69
14,71
15,61
17,99
100
48,37
14,72
16,65
20,26
100
En el cuadro 11 puede observarse la distinta afluencia de
turistas según las zonas, las que reciben mayor afluencia de visitantes
son la zona 2 (Costa de Ponent, 18%) zona 5 (Badia d’Alcudia, 15%),
zona 6 (Costa de Llevant, 22%) y zona 9 (Eivissa-Formentera, 17%),
mientras que la zona 3 (Costa de Tramuntana, 1%) y la zona 4 (Badia de
Pollença, 4%) son las que menos turistas reciben. En el cuadro 12
pueden leerse los porcentajes totales de aceptación: el 48% de los
encuestados no elegirían las islas como segunda residencia, mientras
que el 32% sí lo haría, el 15% en los próximos años y el 17% en la
jubilación. Los porcentajes según el lugar de estancia no varían en
exceso, aunque pueden observarse dos zonas en las que claramente se
supera el valor medio de aceptación: la zona 4 (Badia de Pollença, para
la que el 39% de los turistas visitantes de la zona escogerían las Islas) y
la zona 8 (Menorca, con el 37% de sus visitantes). Entre las zonas donde
se observa un rechazo a esta selección destaca la ciudad de Palma
(54% de respuestas negativas).
En los siguientes apartados se tratan algunos estadísticos de asociación
para variables de tipo cualitativo. Los dos primeros se centran en algunos
coeficientes de asociación para variables nominales u ordinales (Chi-cuadrado, C
de contingencia y lambda), mientras que en el tercero se explican algunas
medidas de asociación para cualitativas ordinales (gamma, tau-b y tau-c).
Chi-Cuadrado y C de contingencia
La lectura de los porcentajes de una tabla de frecuencias permite
averiguar si existe algún tipo de asociación entre las diversas categorías de las
variables, verificando si el hecho de pertenecer a alguna de las categorías de una
de las variables permite asegurar una frecuencia mayor o menor de la esperada
respecto a las categorías de la otra variable. Retomemos el ejemplo anterior en el
que se analiza las respuestas de los turistas de Baleares a la pregunta “¿desearía
escoger Baleares como segunda residencia?”, teniendo en cuenta la zona en la
que han pasado sus vacaciones en las islas. El total de turistas que contestan
“No” a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de
estancia no tuviese una especial influencia en esta opinión, el porcentaje de
“noes” esperado sería el mismo independientemente de la zona de vacaciones. Es
decir, tanto en la zona 1 como en la zona 2, etcétera, esperaríamos un porcentaje
de respuestas negativas muy cercano al 48%. Al observar una zona con un
porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es
cuando se detecta una asociación entre las dos variables cualitativas. Si la
distribución de frecuencias se modifica en función de la zona de estancia
podemos hablar de una asociación entre las dos variables.
Una medida sintética del grado de asociación se calcula a partir de la
comparación entre los valores observados y los valores que uno esperaría
encontrar en el caso de inexistencia de asociación. Si no se esperase ninguna
asociación entre el lugar de estancia y la posible segunda residencia, la
distribución de frecuencias relativas en términos de los perfiles columna sería la
reproducida en el cuadro 13.
Cuadro 13
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
48,37
Sí, próx.años 14,72
Sí, jubilación 16,65
NS/NC
20,26
Totales
100
No
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
48,37
14,72
16,65
20,26
100
Es decir, todos los perfiles columna serían iguales a la distribución
marginal. En términos de las frecuencias absolutas los resultados que
esperaríamos encontrar (frecuencias esperadas, eij) serían los del cuadro 14.
Cuadro 14
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No
Sí, próx.años
Sí, jubilación
79
24
27
496
151
171
34
10
12
107
33
37
423
129
145
608
185
209
338
103
116
241
73
83
487
148
167
2812
856
968
NS/NC
Totales
33
163
208
1026
14
71
45
221
177
874
255
1257
141
698
101
498
204
1006
1178
5814
Cada una de las celdas de la tabla se obtiene aplicando el porcentaje de
los totales de la última columna al número de personas que han estado en cada
zona, por ejemplo:
e11 =
2812
163 = 79
5814
;
e12 =
2812
1026 = 496
5814
; ...
e21 =
856
163 = 24
5814
;
e22 =
856
1026 = 151
5814
; ...
Si las cifras observadas son parecidas a las esperadas suponiendo
independencia de las respuestas, las diferencias entre los valores observados nij y
los esperados eij estarían próximas a cero. El estadístico de asociación chicuadrado, χ 2 , resume esta posible discrepancia para el conjunto de las celdas de
la tabla:
I
J
χ2 =∑∑
(n
ij
i =1 j =1
− eij
)
2
eij
Este estadístico suma para todas las celdas la discrepancia, elevada al
cuadrado, entre la frecuencia observada y la esperada; normalizando esa cifra
mediante el valor esperado.
Si no existe ningún grado de asociación entre las variables cualitativas
los valores esperados serían iguales a los valores observados, con lo que el valor
del estadístico en este caso sería igual a cero.
Inexistencia de asociación entre las variables ⇒ χ 2 =
I
J
∑∑
i =1 j =1
(n
ij
− eij
)
2
eij
En el cuadro 15 se leen las cifras correspondientes a las diferencias
(n
ij
− eij
eij
)
2
≅0
del ejemplo de segunda residencia.
Cuadro 15
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9
No
Sí, próx.años
Sí, jubilación
NS/NC
1,1
0,0
4,6
0,0
1,6
0,4
3,1
0,0
0,1
0,6
1,2
1,5
0,9
0,6
3,4
0,7
1,8
6,4
3,1
6,9
0,4
0,1
2,6
0,1
1,3
2,9
1,8
3,9
7
5,7
0,6
1,9
2,3
0,0
0,7
2,5
La suma de todas estas cantidades proporciona el valor del estadístico
chi-cuadrado, que en este caso es igual a 71,87. Dado que este valor no está
cercano a cero, puede afirmarse que existe algún tipo de asociación entre las dos
variables. Dicho de otra manera, puede afirmarse que lo que se opina sobre
Baleares como segunda residencia tiene algún tipo de relación con la zona de
estancia de las vacaciones.
El problema de este estadístico es que aunque tiene un límite inferior con
una interpretación muy clara, tal como está definido no proporciona un límite
superior que permita referirnos al grado de asociación existente. Como ya se ha
comentado, muchos estadísticos tienen una mayor utilidad si definen límites a los
que tomar como referencia. En este caso, el límite inferior es cero e indica la
ausencia total de dependencia entre las dos variables, pero desconocemos el
límite superior que puede tomar y, por tanto, no podríamos afirmar si la
asociación detectada es fuerte o débil.
Como una opción al estadístico chi-cuadrado, K. Pearson propuso el
coeficiente C de contingencia definido como:
C=
χ2
n+χ2
El límite superior de este estadístico no está, sin embargo, libre de
problemas. El coeficiente C toma su valor mínimo cuando χ 2 es cero, es decir si
entre las dos variables no existe asociación. El valor máximo del coeficiente, que
se da cuando existe una asociación completa entre las variables, depende del
número de modalidades de las variables. El máximo que puede alcanzar el
coeficiente es uno (correspondiente a dos variables con infinitas modalidades),
pero no siempre se alcanza. Por ejemplo, cuando se trata de una tabla cuadrada
I x I (igual número de filas que de columnas), el límite superior es igual a
(I −1)
I . En general, el límite máximo del coeficiente es igual a:
1−
1
,
mín(I , J )
mín (I , J ) ≥ 2
El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C
cercanos a cero indican un grado de asociación pequeño. Valores cercanos a uno
serían síntoma de asociación entre las variables.
Ejemplo 3. Características de los hogares unipersonales. Se desea
conocer si los hogares unipersonales son característicos de las zonas
urbanas. Para ello y utilizando datos de la EPF-90 se cruza información
sobre estas dos características del hogar. La variable denominada
unipersonal toma dos posibles atributos según el hogar sea o no sea unipersonal;
la variable zona indica si el hogar pertenece al medio rural o al medio urbano.
Los resultados del cruzamiento se ofrecen en los cuadros 16 (frecuencias
observadas) y 17 (porcentajes de filas, columnas y sobre el total, en este
orden).
Puede observar que los hogares unipersonales representan el 10,2% de
los hogares de la EPF-90, los porcentajes de este tipo de hogar según se
distinga entre su pertenencia a zona rural o urbana no son muy distintos (10,5%
y 10%, respectivamente). Una información similar se obtiene analizando los
perfiles fila. Los hogares urbanos representan el 51,9% del total de hogares,
siendo el porcentaje igual a 50,6% cuando se consideran únicamente los
hogares unipersonales. La lectura de estos porcentajes, por lo tanto, no parece
indicar una asociación importante entre las variables tipo de hogar (unipersonal
o no) y zona de residencia (rural o urbana).
Cuadro 16
Unipersonal:
No
Sí
Totales
Zona:
Rural Urbana
9070
9840
1065
1091
10135
10931
Totales
18910
2156
21066
Cuadro 17
Unipersonal:
No
Zona:
Rural
Urbana
48%
52%
89,5%
90%
43,1%
46,7%
Totales
89,8%
49,4%
10,5%
5,1%
48,1%
Sí
Totales
50,6%
10%
5,2%
51,9%
10,2%
Cuadro 18
Zona:
Unipersonal:
No
Sí
Rural
Urbana
18910
10135 = 9097,73
21066
2156
10135 =1037,27
21066
18910
10931= 9812,27
21066
2156
10931=1118,7
21066
10135
10931
Totales
Totales
18910
2156
21066
Para conocer el valor del estadístico de asociación chi-cuadrado
deben obtenerse los valores esperados de cada celda, calculados según
se muestra en el cuadro 18, siendo el valor del estadístico:
χ2 =
(9070 − 9097,73)2 (9840 − 9812,27)2 (1065 − 1037,27)2 (1091 − 1118,7 )2
9097,73
+
9812,27
+
1037,27
+
1118,7
= 1,59
Y el valor del coeficiente C:
C=
χ2
1,59
=
= 0,0087
2
21066 + 1,59
n+χ
El coeficiente C, al estar tan próximo a cero apunta la ausencia de
asociación entre las dos variables.
Lambda
Este coeficiente se define tomando como base el concepto de predicción.
Supongamos que queremos predecir la respuesta de un individuo a la pregunta de
una encuesta. Si no sabemos nada de ese individuo, una predicción razonable
sería suponer que su respuesta coincidirá con la opción que más gente haya
contestado. Al adoptar este criterio interpretaríamos como valor más probable
aquel que en la muestra se ha descubierto como el más frecuente. Así, por
ejemplo, si tuviéramos que asignar una familia española a la categoría de hogar
urbano o rural, empleando la información del cuadro 16, este criterio aconsejaría
asignarlo a la categoría más frecuente, en este caso el hogar urbano. Obviamente,
existe la posibilidad de cometer un error. ¿Puede medirse la importancia del
error? Si aplicásemos este criterio a las 21066 familias de la muestra EPF-90
realizaríamos una predicción correcta en 10931 casos (las familias que
efectivamente pertenecen a la opción mayoritaria), mientras que cometeríamos
un error en las 10135 familias restantes (las familias que no pertenecen a la moda
de la distribución).
En el caso de disponer de información adicional, la predicción podría
intentar mejorarse. Por ejemplo, si supiéramos que la familia que queremos
asignar como hogar rural o urbano tiene alguna otra característica, podríamos
utilizar esa información en el proceso de asignación. Supongamos que,
efectivamente, se conoce si en ese hogar existen o no personas con más de 60
años. ¿Podríamos mejorar el número de aciertos si utilizásemos esta
información?
En los cuadros 19 (frecuencias absolutas) y 20 (porcentajes fila) se
muestra el cruzamiento de las dos variables.
Cuadro 19
mayores de 60 años:
No
Sí
Totales
Zona:
Rural
Urbana
5318
6726
4817
4205
10135
10931
Totales
12044
9022
21066
Zona:
Rural
Urbana
44,2%
55,8%
53,4%
46,6%
48,1%
51,9%
Totales
100%
100%
100%
Cuadro 20
mayores de 60 años:
No
Sí
Totales
Si sabemos que en la familia hay miembros mayores de 60 años
modificaríamos la predicción. La distribución de la fila correspondiente a este
tipo de hogar entre rural y urbano es del 53,4% y 46,6%, respectivamente,
cuando en el total el porcentaje era del 48,1% y 51,9%. La predicción, si
mantenemos el criterio de asignar la familia al atributo más frecuente es distinta
ahora, al ser la característica de hogar rural la más frecuente entre aquellos
hogares con familias que tienen algún miembro mayor de 60 años. ¿Cuál será el
error que se cometería si se aplica la predicción a todas las familias de la
muestra? Por un lado, si en la familia hay mayores de 60 años, se asignarían
erróneamente a zonas rurales las 4205 familias que viven en zonas urbanas. Por
otro lado, si sabemos que en la familia no existe ningún miembro de 60 años,
cualquier familia para la que hagamos la predicción la situaríamos en zona
urbana, al tratarse de la categoría más frecuente (55,8% de los casos). El error
que cometeríamos en este caso sería de 5318 familias. En total, por tanto, el error
global sería de 4205+5318 familias, igual a 9523.
Al considerar dos variables puede utilizarse una de ellas para facilitar la
predicción de la otra. La predicción de la variable dependiente se realiza
condicionada a los valores de la variable independiente.
¿Se ha mejorado la predicción al tener en cuenta la variable mayores de
60 años? Manteniendo siempre como criterio de predicción la asignación de un
individuo a la característica más frecuente, cuando no se ha tenido en cuenta esta
variable el error global era de 10135 familias y cuando se ha considerado, el error
global ha sido de 9523. En consecuencia, se ha mejorado la predicción en sólo
612 familias que ahora se asignarían correctamente. Porcentualmente puede
valorarse si se ha producido una mejora mediante la siguiente medida de
reducción proporcional del error:
λ =
10135 − 9523
= 0,06038
10135
¿Cómo debe leerse este estadístico? El valor obtenido indica que
sabiendo que en la familia viven una o más personas por encima de los 60 años el
error de la predicción se reduciría un 6,04%, en este caso una cifra pequeña.
En general, el estadístico lambda se define como:
λ =
donde:
error no condicionado - error condicionado
error no condicionado
⇒ error no condicionado, es el error de predicción cometido cuando las
predicciones para los atributos de la variable dependiente no están condicionadas
a otra variable.
⇒ error condicionado, es el error de predicción cometido cuando las
predicciones para los atributos de la variable dependiente se hacen condicionadas
a los atributos de una variable independiente.
El valor mínimo de lambda es cero y se dará cuando el error no
condicionado = error condicionado, es decir, cuando el error de la predicción no
se mejora al tener información de la segunda variable. El valor máximo es igual a
1 y se da cuando el error condicionado se hace cero, es decir, cuando la
predicción condicionada reduce el error totalmente.
El estadístico lambda toma valores entre cero y uno: 0 ≤ λ ≤ 1 . Un
valor de lambda igual a cero quiere decir que la variable independiente no ayuda
a predecir la variable dependiente: no se reduce el error de predicción cuando se
usan los valores de una variable para predecir la otra; el valor de lambda igual a 1
indica una predicción condicionada que reduce el error original en un 100%.
Al cruzarse dos variables, el estadístico lambda puede calcularse de dos
maneras distintas, alternando la definición de cuál de las dos variables se
considera independiente. Es decir, que se obtiene un valor de lambda distinto
según se considere la predicción de una u otra variable. En el ejemplo numérico
al que estamos haciendo referencia hemos planteado la predicción de las
frecuencias de la variable urbano condicionadas a la variable mayores de más de
60 años. De una forma alternativa podríamos haber planteado la predicción de
mayores de 60 años condicionada a los valores de la variable urbano. Como
veremos a continuación, el valor de lambda que se obtiene es distinto.
La predicción no condicionada nos llevaría a un error (error no
condicionado) igual a 9022. Al darse una mayor frecuencia de familias con
ningún miembro de más de 60 años (12044 familias) frente a las que tienen uno o
más de uno (9022 familias) el criterio de predicción que hemos definido nos
conduciría a asignar a una familia al grupo mayoritario, lo que supondría (en caso
de aplicarse en la propia muestra) realizar una asignación incorrecta en 9022
familias. El error que cometemos al predecir de manera condicionada es la suma
de dos cantidades: si supiésemos que el hogar está en una zona rural
predeciríamos para cualquier familia que no hay ningún individuo de más de 60
años, cometiendo un error en la muestra de 4817 familias; si consideramos que el
hogar está en una zona urbana, la predicción (al ser también la frecuencia
mayoritaria) es la misma y el error igual a 4205 familias. El estadístico lambda
será por tanto:
λ =
9022 − ( 4817 + 4205 )
=0
9022
En consecuencia, tener información sobre la variable mayores de 60 años
no mejora en nada la predicción de la variable urbano.
El estadístico lambda ofrece resultados distintos según cuál de las dos
variables de la tabla de contingencia se utilice como variable dependiente.
Una síntesis de los dos estadísticos lambda es el denominado lambda
simétrico definido como una combinación de los dos anteriores. En nuestro
ejemplo tomaría el siguiente valor:
λ =
( 10135 − 9523 ) + ( 9022 − 9022 )
= 0,03195
10135 + 9022
El estadístico lambda simétrico se define como la combinación de los
lambdas simples y resume la reducción del error de predicción cuando no existe
ninguna razón para considerar a una de las dos variables como dependiente.
Ejemplo 4. Nivel de estudios y categoría socioeconómica. El nivel de
estudios alcanzado por un individuo puede entenderse como una
inversión en capital humano que debe tener su recompensa en su nivel
de ingresos o en la categoría social en la que se inserta. Como una
manera de valorar esta hipótesis se han cruzado dos variables de la
EPF-90, la primera recoge el nivel de estudios del sustentador principal
(SP), la segunda recoge su categoría socioeconómica.
Las categorías de las variables se recogen a continuación:
Nivel de estudios del SP:
1.
2.
3.
4.
5.
Analfabeto o sin estudios.
Primarios, EGB o FP-1.
BUP, COU, FP-2.
Diplomado universitario o equivalente.
Estudios superiores o equivalentes.
Categoría socioeconómica:
1. Empresarios y directivos agrarios.
2. Resto de trabajadores y miembros de cooperativas agrarias.
3. Empresarios, profesionales y trabajadores independientes no
agrarios.
4. Directores profesionales y jefes administrativos por cuenta
ajena.
5. Resto del personal de servicios y profesionales de las Fuerzas
Armadas.
6. Contramaestres, operarios cualificados y miembros de
cooperativas no agrarias.
7. Operarios sin especialización, no agrarios.
8. No clasificables.
Los resultados del cruzamiento de estas dos variables se
muestran en el cuadro 21 (frecuencias absolutas, porcentajes fila,
columna y totales). El cálculo de algunos de los estadísticos de
asociación de esta tabla son los siguientes: chi-cuadrado igual a
11231,389; coeficiente C de contingencia igual a 0,58970; lambda
simétrica igual a 0,07016; lambda con categoría socioeconómica como
variable dependiente 0,04047; lambda con nivel de educación como
dependiente 0,09137. ¿Qué conclusiones pueden obtenerse de estas
cifras?
El cálculo de los estadísticos muestra que efectivamente existe
una asociación importante entre las dos variables, mostrando el
coeficiente C de contingencia un valor alejado del cero y relativamente
próximo al valor teórico máximo del estadístico (igual a uno). Este grado
de asociación, sin embargo, no se ve reflejado en el estadístico lambda.
En concreto, dado que la relación de dependencia que nosotros hemos
planteado a priori implica una dependencia de la categoría
socioeconómica del nivel de estudios del individuo, debemos leer la cifra
correspondiente a lambda con la categoría socioeconómica como
variable dependiente, que es igual a 0,04047. El error de predicción se
reduce, por tanto, sólo en un 4,05% cuando se emplea el nivel de
estudios como variable dependiente.
Cuadro 21
Categoría socioeconómica del sustentador principal (SP):
Nivel de
estudios
del SP:
1
2
1
259
4,8
33,2
1,2
489
2
3
383 247
7,0
4,5
50,6 11,7
1,8
1,2
345 1434
4
3
0,1
0,2
0,0
228
5
6
7
256 645 113
4,7 11,8 2,1
8,2 14,8 30,9
1,2
3,1
0,5
1828 3252 235
8
9
44 3500
0,8 64,2
26,3 44,8
0,2 16,6
98 3693
Totales
5450
25,9
11602
3
4
5
Totales
4,2
62,7
2,3
22
1,1
2,8
0,1
6
0,6
0,8
0,0
4
0,4
0,5
0,0
780
3,7
3,0 12,4
45,6 67,9
1,6
6,8
22
253
1,1 12,3
2,9 12,0
0,1
1,2
6
78
0,6
7,4
0,8
3,7
0,0
0,4
1
99
0,1 10,9
0,1
4,7
0,0
0,5
757 2111
3,6 10,0
2,0
14,4
1,1
276
13,5
17,4
1,3
506
48,1
31,9
2,4
573
62,9
36,1
2,7
1586
7,5
15,8
58,5
8,7
751
36,6
24,0
3,6
191
18,2
6,1
0,9
99
10,9
3,2
0,5
3125
14,8
28,0 2,0
74,6 64,2
15,4 1,1
402
13
19,6 0,6
9,2
3,6
1,9
0,1
51
3
4,9
0,3
1,2
0,8
0,2
0,0
12
2
1,3
0,2
0,3
0,5
0,1
0,0
4362 366
20,7 1,7
0,8 31,8
58,7 47,3
0,5 17,5
16
297
0,8 14,5
9,6
3,8
0,1
1,4
7
203
0,7 19,3
4,2
2,6
0,0
1,0
2
119
0,2 13,1
1,2
1,5
0,0
0,6
167 7812
0,8 37,1
55,1
2052
9,7
1051
5,0
911
4,3
21066
Estos resultados son llamativos puesto que mientras que, por un
lado, se detecta una asociación de dependencia mediante el estadístico
chi-cuadrado, por otro, el estadístico lambda sugiere la ausencia de
mejora en la predicción cuando se utiliza una de las variables como
dependiente. Si se invierte la relación de dependencia tampoco mejoraría
el resultado, al calcularse lambda igual a 9,14%. La razón de esta
aparente contradicción es que ambos estadísticos miden el grado de
asociación con un objetivo diferente. Los valores observados y los
valores esperados bajo la hipótesis de independencia pueden ser muy
distintos, detectándose por ello un grado de asociación alto mediante el
estadístico chi-cuadrado, pero ello no tiene por qué suponer que el
conocimiento de una de las variables mejore la predicción de los valores
de la otra, al menos bajo el criterio utilizado en el estadístico lambda.
Para ilustrar esta circunstancia, Norusis (1991, pág. 320) presenta el
ejemplo que reproducimos en el cuadro 22.
Cuadro 22
variable independiente:
1
2
3
Totales
variable dependiente:
1
2
3
19
20
1
10
20
10
1
20
19
30
60
30
Totales
40
40
40
120
El valor del estadístico chi-cuadrado en esta tabla es igual a 32,4,
con una C de contingencia igual a 0,46, lo que sugiere algún grado de
asociación. Para calcular el estadístico lambda con respecto a la variable
dependiente observemos que la predicción no condicionada llevaría a un
error global igual a 30+30=60, al ser la categoría más frecuente la 2.
Para realizar la predicción condicionada debemos considerar para cada
uno de sus atributos cuál es la categoría más frecuente. En los tres
casos coincide que se trata de la 2. El error total que se cometería sería,
por tanto, la suma de las frecuencias en las categorías menos frecuentes
(19+1)+(10+10)+(1+19)=60. El estadístico lambda, por tanto, proporciona
un valor igual a cero. Con ello se señala que el conocimiento de la
variable independiente, bajo el criterio establecido de predicción, no
disminuiría el error.
Puede existir una asociación entre dos variables (medido por el
estadístico chi-cuadrado), sin que el conocimiento de la variable independiente
disminuya el error en la predicción (medido por el estadístico lambda).
Gamma, Tau-b y Tau-c
Se trata de estadísticos de asociación para variables cualitativas de tipo
ordinal. Cuando se trabaja con variables ordinales las categorías de las variables
pueden ordenarse, en algún sentido, de menos a más. Las medidas a las que se
hace referencia aquí permiten detectar además si la asociación existente es
positiva o negativa.
Los estadísticos gamma, tau-b y tau-c se utilizan como medidas de
asociación de variables cualitativas ordinales.
Pares concordantes y discordantes. Para definir los nuevos estadísticos se
deben emplear los conceptos de par concordante y par discordante. Utilizaremos
para ello un ejemplo con dos variables cualitativas de tipo nominal, que
recogerían la edad y los ingresos de una muestra de individuos. Tanto la edad
como los ingresos se pueden medir en escala continua o en escala ordinal,
considerándose en este caso como variables cualitativas. Supongamos que la
edad está definida en 9 intervalos (1, desde 20 a 25 años; 2, de 25 a 30; 3, de 30 a
35; …; 8, de 55 a 60; 9, más de 60), los ingresos en 10 intervalos (1, menos de un
millón; 2, de uno a dos millones; …; 10, más de 10 millones) y que disponemos
de nueve observaciones, con los valores del cuadro 23.
En el ejemplo aparecen nueve individuos, cada uno en un intervalo de
edad distinto (desde 1 hasta 9) y distintos niveles de ingresos. La muestra se
puede ordenar en función de los valores de una de las dos variables, por ejemplo
la edad. El resultado sería el que se observa en el cuadro 24.
Cuadro 23
individuo edad
1
4
2
2
3
3
4
5
5
1
6
6
7
9
8
8
9
7
ingresos
4
3
2
5
2
10
9
4
1
Cuadro 24
individuo edad
5
1
2
2
3
3
1
4
4
5
6
6
9
7
8
8
7
9
ingresos
2
3
2
4
5
10
1
4
9
Dos individuos de la muestra se definen como pares concordantes si los
valores que toma uno de los individuos en las dos variables son mayores que los
que toma el otro individuo. Así el individuo 5 y el 2 forman un par concordante,
al tomar el individuo número 2 en las variables edad e ingresos valores iguales a
2 y 3, mayores que 1 y 2, del individuo 5. El siguiente par que puede detectarse
como concordante sería el correspondiente a los individuos 5 y 1, ya que los
valores que toma este último son superiores en ambas variables a los del
individuo 5.
Dos individuos definen un par discordante si los valores que toma uno
de los individuos en una de las variables son mayores que los del otro, pero esa
relación se invierte en la segunda variable. Así, el par formado por los casos 5 y 9
sería discordante, al tomar el individuo 9 un valor mayor en la variable edad,
pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, serían
también un par discordante al invertirse el orden de los valores en las dos
variables.
En el caso de que los valores de una o ambas variables coincidieran el
par no se consideraría ni concordante ni discordante. El par 5, 3, por ejemplo,
sería un par igualado, ni concordante ni discordante, al tomar el mismo valor en
la variable ingresos.
Un par de observaciones se considera como un par concordante si los
valores que toma una de las observaciones en las dos variables son mayores que
los que toma la otra observación. Un par de observaciones se considera como un
par discordante si los valores que toma una de las observaciones en una de las
variables son mayores que los de la otra observación, pero esa relación se invierte
en la segunda variable. En el caso de que los valores de una o ambas variables
coincidieran, el par se consideraría como un par igualado.
Al comparar dos casos pueden darse, por tanto, cinco posibilidades:
concordancia, discordancia, igualdad en la primera variable, igualdad en la
segunda variable o igualdad en ambas variables.
Para todas las parejas de observaciones puede definirse el par como
concordante, discordante o igualado. Si muchas de las parejas son concordantes
la relación entre las dos variables deberá interpretarse como positiva, mientras
que la abundancia de pares discordantes indicará que la asociación es negativa. Si
ninguno de estos dos tipos de pareja es preponderante supondremos que no existe
asociación entre ambas variables.
Cuando se trabaja con una tabla de doble entrada es fácil controlar
el número de pares concordantes o discordantes. Imaginemos una tabla
como la que aparece en el cuadro 25, en la que A, B, …, I simbolizan las
frecuencias absolutas en cada celda.
Cuadro 25
X
1
2
3
1
A
D
G
Y
2
B
E
H
3
C
F
I
Los individuos cuyos valores son (X=1, Y=1) mostrarían valores
inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3,
Y=2), (X=3, Y=3), según se indica en el cuadro 26. Para todos los pares de
individuos formados a partir de alguno perteneciente al conjunto con valores
(X=1, Y=1) ‘ ∗ ’ y otro con valores en el rango (X ≥ 2, Y ≥ 2) ‘ ∗∗ ’ nos
encontraremos pares concordantes.
Cuadro 26
X
1
2
3
1
∗
Y
2
3
∗∗
∗∗
∗∗
∗∗
El número de pares concordantes detectados en este caso sería igual a:
A⋅ E + A⋅F + A⋅ H + A⋅ I
Otros pares concordantes se darán para otros rangos de valores. Los
individuos con valores (X=1, Y=2) tendrían valores estrictamente inferiores a
aquellos individuos con (X=2, Y=3) o (X=3, Y=3), según se indica en el cuadro
27, formando también pares concordantes.
Cuadro 27
X
1
2
3
1
Y
2
∗
3
∗∗
∗∗
Aquí el número de pares concordantes sería:
B⋅F + B⋅I
Para acabar contabilizando todos los pares concordantes deberíamos
además contar los pares que se reflejan en los cuadros 28 y 29.
Cuadro 28
X
1
2
3
1
∗
Y
2
3
∗∗
∗∗
Cuadro 29
X
1
2
3
1
Y
2
∗
3
∗∗
De igual manera pueden calcularse fácilmente los pares discordantes y
los igualados.
Medidas basadas en pares concordantes y discordantes. Hemos señalado
cómo la detección de un número proporcionalmente elevado de pares
concordantes será indicativa de una asociación positiva: cuando los valores de
una variable crecen, también lo hacen los valores de la otra variable. Un
razonamiento similar sirve para detectar una asociación negativa o la ausencia de
asociación. Para obtener medidas de asociación basadas en estos conceptos se
consideran las diferencias entre el número de pares concordantes (C) y el número
de pares discordantes (D).
⇒ Gamma. El estadístico gamma (debido a Goodman y Kruskal) se define
como:
γ=
C− D
C+ D
Si todas las parejas son concordantes ( D = 0 ), el valor de gamma sería
igual a 1, coincidiendo con el grado de asociación positivo más alto entre las dos
variables. En el caso contrario, cuando todos los pares son discordantes ( C = 0 ),
el estadístico nos proporcionaría un valor igual a -1, que coincidiría por tanto con
el grado de asociación más alto de tipo negativo. Si el número de parejas
concordantes y discordantes estuviese igualado, el estadístico estaría cercano a
cero.
El estadístico gamma proporciona valores entre -1 y 1. El grado más alto
de asociación positiva entre dos variables se da cuando γ = 1 . El grado más alto
de asociación negativa se da cuando γ = − 1 . Finalmente, γ = 0 se interpreta
como la ausencia de asociación.
⇒ Tau-b. Trata de normalizar el mismo numerador que el coeficiente gamma
pero incluyendo en el denominador el número de pares igualados (ni
concordantes ni discordantes) en una de las dos variables (no considera los pares
en los que se da la igualdad en ambas variables). Su expresión es:
τb =
C− D
(C + D + T X ) ⋅ (C + D + TY )
indicando TX , TY el número de pares igualados en las variable X o Y. Tau-b toma
valores -1 o 1 sólo en tablas cuadradas.
⇒ Tau-c. Se define como:
τc=
2m(C − D)
n 2 (m−1)
donde n es el tamaño de la muestra y m es el número menor de las filas y
columnas de la tabla. El estadístico puede alcanzar los valores límites de -1 y 1
en tablas de cualquier tamaño.
Ejemplo 5. ¿Existe relación entre la rentabilidad y el riesgo
empresarial? En una muestra de empresas se ha obtenido su
rentabilidad media y la desviación estándar de su rentabilidad en los
últimos diez años (esta última como una medida de riesgo). Las
empresas se han clasificado en cuatro grupos, según los rendimientos y
riesgo de la empresa sean inferiores o superiores a la mediana de toda la
muestra. En el cuadro 30 se muestran la tabla de contingencia que se
correspondería con la definición de los cuatro grupos.
Cuadro 30
Rendimiento inferior
Rendimiento
superior
Total
Riesgo inferior
66
Riesgo superior
68
Total
134
68
65
133
134
133
267
La información de los cuatro grupos puede analizarse como el
resultado del cruzamiento de dos variables cualitativas, rendimiento y
riesgo, con dos categorías cada una de ellas. Aunque la información de
la tabla muestra claramente la ausencia de relación entre el rendimiento
y el riesgo, calcularemos los estadísticos chi-cuadrado y gamma. Para
obtener el estadístico chi-cuadrado en el cuadro 31 se calculan las
frecuencias esperadas.
Cuadro 31
Riesgo superior
134
= 67,2509
267
133
134 ⋅
= 66,749
267
134
= 66,749
267
133
133 ⋅
= 66,2509
267
134
133
Rendimiento inferior 134 ⋅
Rendimiento
superior
Total
Tota
l
Riesgo inferior
133 ⋅
134
133
267
Los estadísticos de asociación Chi-cuadrado y C de contingencia
se muestran a continuación:
I
J
χ =∑∑
2
(n
ij
)
eij
i =1 j =1
+
− eij
2
=
(66 − 67,2509) 2 (68 − 66,749) 2
67,2509
+
(68 − 66,749) 2 (65 − 66,2509) 2
66,749
C=
+
66,2509
66,749
+
= 0,09378
χ2
0,09378
=
= 0,01874
2
267 + 0,09378
n+ χ
El estadístico gamma en esta tabla de orden 2x2 es muy rápido
de calcular:
γ=
C − D 66⋅65−68⋅68
=
=− 0,03747
C + D 66⋅65+68⋅68
Cuadro 32
Chi-cuadrado
0,09378
C de contingencia
0,01874
gamma
-0,03747
Los resultados del cuadro 32 confirman la impresión de la tabla de
contingencia, no detectándose en la muestra ninguna asociación entre la
rentabilidad y el riesgo empresarial.
Ejemplo 6. Beneficios empresariales y nivel de concentración. En el
campo de la economía industrial es objeto de discusión la relación
existente entre los beneficios empresariales y los niveles de
concentración sectorial. Según algunos autores, los beneficios
empresariales serían mayores en mercados con unos pocos productores
responsables de las ventas, que podrían ponerse de acuerdo al margen
de los mecanismos del mercado (hipótesis de colusión), favoreciendo
precios y beneficios más altos.
Con una muestra de empresas se intenta detectar la existencia de una
asociación entre los niveles de concentración y los beneficios empresariales. Las
empresas se clasifican en tres niveles de beneficios (bajo, medio y alto) y en tres
niveles de concentración de su mercado (bajo, medio y alto). Entre las dos
variables se efectúa un cruzamiento obteniéndose la tabla de contingencia que
se muestra en el cuadro 33.
Cuadro 33
Nivel de Beneficios
Nivel de
concentración
Bajo
Medio
Alto
Total
Bajo
Medio
Alto
Total
120
64
68
252
114
74
44
232
46
88
137
271
280
226
249
755
Dado que las dos variables son de tipo ordinal puede calcularse el
estadístico gamma, para ello deben obtenerse el número de pares
concordantes y de pares discordantes:
C = 120 ⋅ (74 + 88 + 44 + 137 ) + 114 ⋅ (88 + 137 ) + 64 ⋅ (44 + 137 ) + 74 ⋅137 = 88532
D = 46 ⋅ (64 + 74 + 68 + 44) + 114 ⋅ (64 + 68) + 88 ⋅ (68 + 44) + 74 ⋅ 68 = 41436
Y, por tanto:
γ =
C − D 88532 − 41436
=
= 0,3624
C + D 88532 + 41436
El valor de gamma es igual a 0.36, al tratarse de un valor positivo
se estaría detectando un grado de asociación positiva entre ambas
variables. El valor máximo se da cuando gamma es igual a 1, por lo que
puede aceptarse una asociación positiva moderada.
El estadístico lambda, tomando como variable dependiente el
nivel de beneficios, sería:
error no condicionado - error condicionado
=
error no condicionado
[252 + 232]− [(114 + 46) + (64 + 74) + (68 + 44)] = 484 − 410 = 0,15
=
[252 + 232]
484
λ beneficios =
También puede calcularse el estadístico lambda invirtiendo la
relación de dependencia, es decir, planteando como variable
dependiente el nivel de concentración, que sería consecuencia de los
niveles de beneficio alcanzado por algunas empresas:
error no condicionado - error condicionado
=
error no condicionado
[226 + 249]− [(64 + 68) + (74 + 44) + (46 + 88)] = 475 − 384 = 0,19
=
[226 + 249]
475
λ concentración =
Los valores de lambda indican que el error de predicción del
nivel de beneficios si se tiene información del nivel de concentración del
mercado, se reduciría en un 15% e invirtiendo la relación de dependencia
el error de predicción se reduciría en un 19%. El estadístico lambda
simétrico sería igual a:
λ simétrico =
(484 − 410) + (475 − 384) = 0,172
484 + 475
confirmando la existencia de una relación de dependencia moderada
entre las dos variables.
Ejemplo 7. Satisfacción y calidad del establecimiento hotelero. En
una encuesta realizada a una muestra de turistas en un municipio
turístico se les ha solicitado cuál es el nivel de satisfacción de su
estancia. La respuesta podía establecerse en tres niveles: baja
satisfacción, media y alta. Se desea analizar el grado en el que la
categoría del hotel en el que se ha alojado ha podido influir en el nivel de
satisfacción. Para ello se realiza el cruzamiento de las dos variables,
obteniéndose las frecuencias que se muestran en el cuadro 34. ¿Existe
asociación entre el nivel de satisfacción y la categoría del hotel? Para
responder a esta pregunta se calculan los estadísticos de asociación chicuadrado y gamma.
Cuadro 34
Categoría Hotel
Nivel de
Satisfacción
Bajo
Medio
Alto
Totales
*
**
***
****
Totales
43
12
8
63
36
25
23
84
48
57
22
127
63
67
40
170
190
161
93
444
Para calcular el estadístico chi-cuadrado deben obtenerse, en
primer lugar, los valores esperados bajo la hipótesis de que no hay
asociación (véase el cuadro 35).
Cuadro 35
Categoría Hotel
Nivel de
Satisfacción
*
**
***
****
Totale
s
190
190
63 = 26,96
84 = 35,95
444
444
190
190
127 = 54,35
170 = 72,75
444
444
190
Medio
161
63 = 22,84
444
161
84 = 30,46
444
161
161
127 = 46,05
170 = 61,64
444
444
161
Alto
93
63 =13,20
444
93
84 =17,59
444
93
93
127 = 26,60
170 = 35,61
444
444
93
Totales
63
84
Bajo
127
170
444
Teniendo en cuenta estos valores, el estadístico chi-cuadrado se
calcula:
χ
2
2
2
2
2
(
(
43 − 26,96) (36 − 35,95)
22 − 26,60) (40 − 35,61)
=
+
+K+
+
= 25,83
26,96
35,95
26,60
35,61
Y el estadístico C de contingencia:
C=
25,83
χ2
=
= 0,234
2
444 + 25,83
n+χ
El valor máximo de este estadístico podía llegar a ser:
1−
1
1
= 1 − = 0,816
mín(I , J )
3
por lo que C alcanza en este análisis el 28,7% de su posible máximo,
señalando con ello que existe una relación moderada entre el nivel de
satisfacción y la categoría del hotel de estancia.
El cálculo del estadístico gamma confirma que la asociación es
moderada y, además, que es de tipo positivo:
γ=
C − D 26744 − 18763
=
= 0,1754
C + D 26744 + 18763
Finalmente, puede intentar establecerse la capacidad de predicción que
tiene la categoría del hotel en el nivel de satisfacción del turista:
error no condicionado - error condicionado
=
error no condicionado
[161 + 93]− [(12 + 8) + (25 + 23) + (48 + 22) + (63 + 40)] =
=
[161 + 93]
254 − 241
=
= 0,0512
254
λ satisfacción =
El bajo valor de lambda señala que la categoría hotelera no ayuda
a la predicción del nivel de satisfacción, puesto que el error de predicción
empleando esta información sólo se reduciría en un 5%.
Ejemplo 8. Toma de decisiones familiares en la adquisición de bienes de
consumo. En un estudio se intenta determinar quién o quiénes son los
responsables de las decisiones de consumo dentro de las familias. Se
realiza, para ello, una encuesta a 557 matrimonios, preguntándoles a
cada miembro de la pareja quién toma las decisiones sobre los productos
que se compran. Las posibles respuestas a esta pregunta eran que las
decisiones las toma el hombre, la mujer o ambos. En el cuadro 36 se
cruzan el sexo del encuestado con la respuesta de quién influye más en
la compra de los automóviles.
Cuadro 36
Las decisiones las toma:
Miembro de la
pareja:
Hombre
Mujer
Total
Hombre
Ambos
Mujer
Total
179
356
535
356
178
534
22
23
45
557
557
1114
Para el conjunto de encuestados, el 48% consideraba que las
decisiones las tomaban los hombres, el 48% que la decisión era conjunta
y sólo un 4% afirmaba que la decisión la tomaba la mujer. Sin embargo,
si se consideran separadamente las respuestas dadas por los hombres y
las mujeres, estos porcentajes difieren radicalmente. ¿Existe relación
entre la respuesta dada a la pregunta y el sexo del individuo que la
contesta?
El estadístico chi-cuadrado se basa en los valores esperados que
se muestran en el cuadro 37.
Cuadro 37
Las decisiones las toma:
Miembro de la
pareja:
Hombre
Ambos
Mujer
Total
Hombre
557
535 = 267,5
1114
557
534 = 267
1114
557
45 = 22,5
1114
557
Mujer
557
535 = 267,5
1114
557
534 = 267
1114
557
45 = 22,5
1114
557
Total
535
534
45
1114
El valor del estadístico chi-cuadrado será:
χ2 =
(179 − 267,5)2 + (356 − 267)2 + K + (178 − 267)2 + (23 − 22,5)2 = 117,91
267,5
267
267
22,5
Y el estadístico C de contingencia:
χ2
117,91
C=
=
= 0,31
2
1114 + 117,91
n+χ
El máximo de C podría ser:
1−
1
1
= 1 − = 0,707
mín(I , J )
2
por lo que alcanza el 44% de su posible valor máximo, mostrando que la
opinión sobre quién influye más en la compra de un automóvil es muy
dependiente de cuál es el sexo de la persona que responde.
El cálculo del estadístico lambda será:
error no condicionado - error condicionado
=
error no condicionado
[534 + 45]− [(179 + 22) + (178 + 23) ] = 579 − 402 = 0,30
=
[534 + 45]
579
λ decisión =
El valor de lambda señala que el sexo del miembro de la pareja
ayuda a la predicción de la respuesta a quién toma la decisión, con una
reducción en el error de predicción del 30%.
Ejemplo 9. Especialización de los tour operadores. Para valorar el
grado de especialización de tres tour operadores de una zona turística,
se han recogido las ofertas que realizan en sus catálogos en función de
las distintas categorías hoteleras (una a cuatro estrellas). En el cuadro 38
se muestra la tabla de contingencia que cruza la información de estas
dos variables cualitativas y entre paréntesis los valores esperados bajo la
hipótesis de inexistencia de asociación.
Cuadro 38
Categoría Hotel
Tour
Operador
A
B
C
Total
*
**
***
****
Total
21
37
137
49
244
(17,84) (28,96) (126,29) (70,91)
32
52
179
113
376
(27,49) (44,63) (194,61) (109,26)
24
36
229
144
433
(31,66) (51,40) (224,11) (125,83)
77
125
545
306 1053
Los resultados de aplicar el estadístico chi-cuadrado:
χ
2
2
2
2
2
(
(
21 − 17,84) (37 − 28,96)
229 − 224,11) (144 −125,83)
=
+
+K+
+
= 22,997
17,84
28,96
224,11
125,83
Lo que lleva a un estadístico C de contingencia:
C=
χ2
22,997
=
= 0,146
2
1053 + 22,997
n+χ
El máximo de C podría ser:
1−
1
1
= 1 − = 0,816
mín(I , J )
3
alcanzando, por tanto, el 18% de su valor máximo. En consecuencia, no
parece, existir asociación entre los tour operadores y la categoría de la
oferta que realizan.
CAPÍTULO V. EL COEFICIENTE DE CORRELACIÓN
Cuando se dispone de dos variables cuantitativas y continuas basadas en
escala de intervalo o de cociente (en adelante variables cuantitativas) las
medidas de asociación estudiadas hasta ahora suelen ser inaplicables,
esencialmente porque el número de valores que toman este tipo de variable hace
que carezca de sentido el cómputo de frecuencias de todas las combinaciones
posibles. Aunque siempre es posible convertir estas variables cuantitativas en
variables cualitativas ordinales (construyendo intervalos), resulta adecuado
utilizar otro tipo de coeficientes de asociación. El estadístico más comúnmente
empleado es el coeficiente de correlación lineal simple (o abreviadamente, el
coeficiente de correlación). Se trata de una medida sintética del grado de
asociación lineal entre dos variables cuantitativas.
El coeficiente de correlación lineal simple mide el grado de asociación
lineal entre dos variables. Se aplica sobre variables cuya escala es de intervalo o
cociente.
Existe una segunda idea que destaca en el propio nombre del estadístico,
se trata de la palabra simple. Circunscrito al concepto de linealidad el calificativo
de simple se opone a la idea de asociación múltiple entre variables. Mediante este
coeficiente se analiza la relación entre dos variables X e Y, sin considerar la
existencia de otras variables que puedan estar relacionadas con ellas, ni la posible
incidencia de las mismas en esa relación. Por ejemplo, supongamos que tanto la
variable X como la variable Y varían cuando lo hace una tercera variable Z. El
coeficiente de correlación entre la variable X e Y revelaría una asociación entre
estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera
variable, ni de su capacidad de explicar las variaciones de X e Y.
El coeficiente de correlación lineal simple refleja de manera directa la
asociación entre dos variables y no tiene en cuenta que esa relación pueda
enmarcarse en un entorno de relaciones más complejo.
Asociación lineal entre dos variables
Cuando se habla de una relación lineal entre dos variables se está
haciendo referencia a una relación que puede representarse aproximadamente
como una línea recta. Denotando a las dos variables como X e Y, la existencia de
una relación lineal exacta entre las dos variables podría ser la siguiente:
Yi = a + b X i
i =1, ..., n
donde a y b son constantes que pueden tomar cualquier valor, excluyendo para b
el valor de 0.
No debe confundirse la existencia de una relación lineal con la
existencia de una relación causal. La relación lineal entre dos variables es
compatible tanto con una relación causal en la que se enuncie que “X es
causa de Y”, como con la relación contraria, en la que “Y es causa de X” o
incluso con la inexistencia de una relación causa-efecto. El coeficiente de
correlación sólo detecta la existencia (y grado) de la asociación entre dos
variables, sin implicar la presencia de algún tipo de relación causal.
Podemos, por tanto, detectar una relación lineal entre dos variables sin que
exista una relación causal entre ellas: “X no es causa de Y” y tampoco “Y es
causa de X”. Simplemente existiría una relación lineal entre ellas, no estando
definida la dirección causal.
La detección de una asociación lineal entre dos variables no implica que
entre ellas exista una relación causal.
Asociación lineal positiva o negativa
Entre dos variables pueden detectarse dos tipos de asociación lineal:
positiva y negativa. Visualmente estas dos situaciones quedan reflejadas en las
gráficas 1 y 2.
Gráfica 1
3
2
1
0
-1
-2
Y -3
-3
X
-2
-1
0
1
2
3
Gráfica 2
3
2
1
0
-1
-2
Y -3
-3
-2
-1
0
1
2
3
X
Las dos gráficas anteriores muestran relaciones lineales exactas entre dos
variables, X e Y. Cuando se da una relación positiva la pendiente de la recta es
positiva, mientras que una relación negativa entre las dos variables se refleja en
una pendiente de la recta negativa. El signo del valor del parámetro b de la recta
reflejaría, por tanto, el sentido de la asociación (positiva o negativa) entre las dos
variables.
También pueden existir relaciones exactas entre dos variables que sean
de tipo no lineal, como por ejemplo las representadas en las gráficas 3 y 4. En
estas gráficas se muestran relaciones exactas de tipo cuadrático y cúbico,
respectivamente. La asociación entre las dos variables es exacta en ambas
gráficas. El coeficiente de correlación no tiene por qué detectar este tipo de
relación, puesto que está diseñado con la intención de medir asociaciones
lineales.
Gráfica 3
10
0
-10
-20
Y -30
-3
X
-2
-1
0
1
2
3
Gráfica 4
40
20
0
-20
-40
-60
-80
Y -100
-3
-2
-1
0
1
2
3
X
Aunque los ejemplos anteriores se refieren a relaciones exactas entre
variables, el coeficiente de correlación no sólo sirve para detectar si la asociación
es positiva o negativa, sino que también mide el grado, la importancia, de la
misma. Las relaciones exactas señalan los grados máximos de correlación, pero
existen otros niveles menores de asociación. Por ejemplo, si se calcula el
coeficiente de correlación para las variables de la gráfica 5, éste nos informará de
la existencia de una asociación positiva, permitiéndonos valorar hasta qué punto
esa asociación está cercana a la definida por una relación exacta.
Gráfica 5
6000
5000
4000
3000
2000
1000
0
Y
-1000
-2000
-1000
X
0
1000
2000
3000
4000
5000
6000
Estadístico de covarianza
El coeficiente de correlación se puede definir a partir de otro estadístico,
el coeficiente de covarianza. En general, se habla de la covarianza entre dos
variables, X e Y, y se define formalmente como:
n
s XY =
∑( X
i =1
i
− x )(Yi − y )
n
(o dividiendo por n-1).
El sentido del estadístico resultará más claro si utilizamos la
representación gráfica de una base de datos concreta. Para ello hemos simulado
cien observaciones de dos variables X e Y, representándolas en el gráfico 6. La
asociación entre las dos variables, aunque no es exacta, es de tipo positivo:
cuando los valores de una de las dos variables aumentan, también lo hacen los de
la otra variable. Las medias de las variables X e Y son iguales a 10,09 y 13,14,
respectivamente. En la gráfica 7 se han marcado dos líneas de referencia que
corresponden a estos valores medios. ¿Qué ocurre si en lugar de expresar los
valores de las variables en sus cifras originales ( X i , en niveles), las expresamos
en diferencias respecto a la media ( X i − x )? Las líneas de referencia que
aparecían dibujadas en la gráfica 7 serán ahora los nuevos ejes de coordenadas.
El punto medio (10,09; 13,14) será ahora el punto (0;0) y un punto cualquiera
( X i ; Yi ) será ahora el punto ( X i − x ; Yi − y ).
Gráfico 6.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
Y
2
1
0
0
X
1
2
3
4
5
6
7
8
9
10
11
12
13
Gráfico 7.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
Y
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
13
X
El empleo de las variables en desviaciones respecto a la media equivale a
una traslación de los ejes de coordenadas, que pasan de estar centrados en el
punto (0;0) a estarlo en el punto ( x ; y ). Al expresar los valores de las variables
en desviaciones, el centro de coordenadas se sitúa ahora en el centro de la nube
de puntos.
En la gráfica 8 se muestra la apariencia de la nueva representación (con
las variables en desviaciones). El nuevo punto (0;0) en las antiguas coordenadas
es el punto ( x ; y ).
Volvamos ahora al estadístico de covarianza. El signo y valor de este
estadístico depende, esencialmente, de la suma de los productos
(X
i
− x )(Yi − y ) , para todas las observaciones (i=1,…,n). Centrémonos en el
signo. En el producto, el signo final depende la posición de la observación en los
cuadrantes de los ejes de coordenadas.
Las observaciones que se sitúan en los cuadrantes I y III (véase la gráfica
9) proporcionarán productos positivos (+ por + en el primer cuadrante y – por –
en el tercero). En el primer cuadrante, esto coincide con las observaciones que
tienen un valor superior a la media en ambas variables, mientras que en el tercero
se encuentran las observaciones con valores inferiores a la media, en las dos
variables. Las observaciones que se sitúan en los cuadrantes II y IV tendrán un
producto negativo (− por + en el segundo cuadrante y + por − en el cuarto). En el
segundo cuadrante, esto coincide con las observaciones que tienen un valor
inferior a la media en la variable X y superior a la media en la variable Y. En el
cuarto cuadrante, la relación se invierte.
Gráfico 8.
4
3
2
1
0
Y en desviaciones
-1
-2
-3
-4
-3
-2
-1
0
1
2
3
2
3
X en desviaciones
Gráfico 9.
4
3
II
I
III
IV
2
1
0
-1
-2
-3
-4
-3
-2
-1
0
1
El signo (y valor) de la covarianza depende del número de observaciones
que aparezcan en cada uno de los cuadrantes. Un número de observaciones
relativamente elevado en los cuadrantes I y III proporcionará, en la suma global,
una covarianza positiva; mientras que una mayoría de las observaciones en los
cuadrantes II y IV conducirá a una covarianza negativa.
En la gráfica 10 se muestra la imagen de dos variables asociadas
negativamente, es decir, cuya covarianza sería negativa como consecuencia de la
acumulación de puntos en los cuadrantes II y IV.
Debe entenderse que en el signo de la covarianza se refleja la relación
existente entre las dos variables. Si la covarianza es positiva, sabemos que
cuando un individuo tiene un valor por encima de la media en una de las dos
variables será fácil que también se encuentre por encima de la media en la otra
variable. En el caso de una covarianza negativa, este estadístico de asociación
nos indica que el ubicarse por encima del valor medio en un variable implicará,
en general, estar por debajo en la otra (o viceversa).
Gráfica 10
4
3
2
1
0
Y en desviaciones
-1
-2
-3
-4
-3
-2
-1
0
1
2
3
X en desviaciones
Junto a la existencia de asociación positiva o negativa, cabe la
posibilidad de que no exista una asociación clara entre las dos variables. Esta
sería la situación que se describe visualmente en la gráfica 11, en la que el
conjunto de observaciones se dispersa de manera más o menos homogénea sobre
los cuatro cuadrantes.
Gráfica 11
1,5
1,0
,5
0,0
Y
-,5
-1,0
-4
-3
-2
-1
0
1
2
3
X
Entre dos variables X e Y pueden establecerse cualquiera de las
siguientes asociaciones:
Covarianza positiva ⇔ s XY > 0 ⇔ Asociación lineal positiva.
Covarianza negativa ⇔ s XY < 0 ⇔ Asociación lineal negativa.
Covarianza nula ⇔ s XY = 0 ⇔ Asociación lineal inexistente.
Resaltemos de nuevo la idea de linealidad. Cuando se utiliza el
estadístico de covarianza se mide el grado de asociación lineal entre dos
variables. Si existe una relación no lineal entre dos variables, ésta no tiene
por qué detectarse mediante el estadístico de covarianza.
El valor del coeficiente de covarianza depende, entre otras cosas, de las
unidades de medida de las variables. En el cuadro 1 se muestra el cálculo del
coeficiente de covarianza de dos variables, de las que se dispone de diez
observaciones. Su representación se ofrece en la gráfica 12. La covarianza es
igual a 11,67; la asociación entre las dos variables es, por lo tanto, positiva. El
valor absoluto, sin embargo, no nos añade en este caso más información. ¿Es el
grado de asociación alto o bajo? O dicho de otra manera, ¿la asociación se acerca
mucho o poco a lo que sería una asociación positiva de tipo exacto? El problema
de la covarianza como medida de asociación es que depende de las unidades de
medida de las variables, no pudiéndose comparar rápidamente con una cifra
estándar que permita hablar de “mucha” o “poca” asociación.
Cuadro 1
(X
− x )(Yi − y )
i
Xi
Yi
Xi − x
Yi − y
1
2
3
4
5
6
7
8
9
10
12
10
11
13
15
14
12
11
19
20
14,55
12,85
13,3
13,53
18,18
18,94
16,11
13,82
23,53
23,02
-1,7
-3,7
-2,7
-0,7
1,3
0,3
-1,7
-2,7
5,3
6,3
-2,233
-3,933
-3,483
-3,253
1,397
2,157
-0,673
-2,963
6,747
6,237
x
y
s XY
13,7
16,783
11,67
i
3,7961
14,5521
9,4041
2,2771
1,8161
0,6471
1,1441
8,0001
35,7591
39,2931
Gráfica 12
24
22
20
18
16
14
12
10
8
6
4
Y
2
0
0
X
2
4
6
8
10
12
14
16
18
20
22
Si multiplicamos las variables del cuadro 1 por una constante (dos, por
ejemplo) y calculamos la nueva covarianza, tal como aparece en el cuadro 2, la
cifra de la nueva covarianza se ha multiplicado por cuatro, siendo ahora igual a
46,68. ¿Implica esta cifra un mayor grado de asociación? La respuesta es
negativa. Observe la representación de las dos nuevas variables que se ofrece en
la gráfica 13. La forma de la nube de puntos es la misma que en la gráfica 12, no
presentando una asociación más fuerte entre las nuevas variables.
Cuadro 2
i
X i*
Yi *
1
2
3
4
5
6
7
8
9
10
24
20
22
26
30
28
24
22
38
40
29,1
25,7
26,6
27,06
36,36
37,88
32,22
27,64
47,06
46,04
x*
y*
X i* − x * Yi * − y *
-3,4
-7,4
-5,4
-1,4
2,6
0,6
-3,4
-5,4
10,6
12,6
(X
-4,466
-7,866
-6,966
-6,506
2,794
4,314
-1,346
-5,926
13,494
12,474
*
i
− x * )(Yi * − y * )
15,1844
58,2084
37,6164
9,1084
7,2644
2,5884
4,5764
32,0004
143,0364
157,1724
s X *Y *
27,4 33,566
46,68
Gráfica 13
50
40
30
20
Y*
10
0
0
X*
10
20
30
40
50
La covarianza, como medida de asociación lineal tiene el inconveniente
de estar afectada por las unidades de medida de las variables.
Un mayor valor absoluto de la covarianza no puede, en consecuencia,
interpretarse de manera automática como sinónimo de mayor asociación. Deberá
tenerse en cuenta el valor medio de las variables y las unidades en las que son
medidas.
Propiedades de la covarianza
(1) La covarianza puede calcularse a partir de la siguiente equivalencia
de su numerador:
∑( X
− x )(Yi − y ) = ∑ X i Yi − n x y .
n
i =1
n
i
i =1
(2) Si se suma a la variable X una constante b y a la variable Y una
constante c, la covarianza entre las dos nuevas variables
transformadas será igual a la covarianza original:
∑( (X
n
s X +b , Y + c =
i =1
i
+ b) − ( x + b )
) ( (Y + c) − ( y + c) ) ∑ ( X
n
i
=
n
i =1
i
− x )( Yi − y )
n
= s XY
(3) Si se multiplica la variable X por una constante b y la variable Y por
una constante c, la covarianza entre las dos nuevas variables
transformadas será igual a la covarianza original multiplicada por las
constantes bc:
∑ ( bX
n
sbX , cY =
i =1
− bx )( cYi − cy ) bc∑ ( X i − x )( Yi − y )
= i =1
= b c s XY
n
n
n
i
(4) La covarianza entre una variable y una constante es cero:
n
sX a =
∑( X
i =1
i
− x )( a − a )
n
=0
Coeficiente de correlación lineal
El coeficiente de correlación lineal, también llamado coeficiente de
correlación de Pearson, lo notaremos como rXY y se define como:
∑( X
n
rXY
s
= XY =
s X sY
i =1
∑(X
n
i =1
i
i
− x )( Yi − y )
− x)
∑ (Y − y )
n
2
2
i
i =1
El coeficiente de correlación lineal entre dos variables es, por tanto, igual
a su covarianza dividida por el producto de desviaciones estándar de las dos
variables.
El signo del coeficiente de correlación será igual al signo de la
covarianza. Si entre dos variables existe una asociación lineal positiva el
coeficiente de correlación será positivo. En el caso de una asociación negativa, el
coeficiente de correlación será negativo. En el caso de ausencia de asociación, el
coeficiente de correlación será cero:
Asociación lineal positiva entre las dos variables ⇔ s XY > 0 ⇔ rXY > 0 .
Asociación lineal negativa entre las dos variables ⇔ s XY < 0 ⇔ rXY < 0 .
Ausencia de asociación lineal entre las dos variables ⇔ s XY = 0 ⇔ rXY = 0 .
Al estandarizar la covarianza mediante las desviaciones estándar se
suprime el problema de las unidades de medida. En el caso de multiplicar las
variables por cualquier constante, el numerador de rXY se multiplicará por esas
constantes, pero también en el denominador se producirán transformaciones:
∑ ( bX
n
rbX , cY =
i =1
∑ ( bX
n
i =1
i
i
− bx )( cYi − cy )
− bx )
2
∑ ( cY − cy )
n
i =1
i
=
2
∑ b( X
− x ) c ( Yi − y )
n
i =1
=
∑b ( X
−x )
n
2
i =1
i
i
∑c (Y − y )
n
2
2
=
2
i
i =1
bc∑ ( X i − x )( Yi − y )
n
i =1
=
∑( X
n
b
i =1
i
−x )
∑( Y − y )
n
2
c
=
2
bc s XY
=r
b s X c sY XY
i
i =1
El valor numérico del coeficiente de correlación entre dos variables no se
modifica si una (o ambas) variables se multiplica por una constante.
Una de las consecuencias más importantes de esta estandarización de la
covarianza es que el coeficiente de correlación toma valores en el intervalo –1 y
1. Los límites superior o inferior se alcanzan cuando entre las dos variables se da
una relación exacta del tipo:
Yi = a + b X i
i =1, ..., n .
Se puede comprobar fácilmente que si entre dos variables se da una
relación lineal exacta, su coeficiente de correlación será igual a uno (en valor
absoluto), sustituyendo esa relación en la propia definición del coeficiente.
Supongamos, en primer lugar que el parámetro b de la relación lineal es positivo:
n
rXY
∑( X
s
= XY =
s X sY
i =1
n
∑( X
i =1
∑( X
n
=
i =1
∑(X
n
i =1
i
i
i
i
− x )( Yi − y )
− x)
n
∑ (Y − y )
2
i =1
(
i
− x ) a + b X i − (a + b x )
− x)
2
=
2
)
∑ (a + b X − (a + b x ))
n
i =1
i
=
2
∑( X
− x )b ( X i − x )
n
i =1
=
∑(X
− x)
n
i =1
i
i
∑b ( X
n
2
2
i =1
n
b ∑( Xi − x )
i
− x)
=
2
2
i =1
=
n
∑( X
b
i =1
− x)
i
n
∑( X
2
i =1
i
− x)
=1
2
En el caso de que el parámetro b sea negativo, podemos definir la
relación lineal como: Yi = a − b X i , con lo cual se tendría:
n
∑( X
s
= XY =
s X sY
rXY
i =1
n
∑( X
i =1
∑( X
n
=
i =1
∑(X
i
i =1
∑(X
i =1
i
∑ (Y − y )
− x )( − b)( X i − x )
− x)
∑ ( − b) ( X
n
2
2
i =1
n
i
− x)
b
∑( X
i =1
i
− x)
2
n
∑( X
i =1
=
2
2
i =1
n
=
2
i
( − b) ∑ ( X i − x )
=
)
∑ (a − b X − (a − b x ))
i =1
i
=
2
i
i =1
n
2
∑( X
n
− x)
n
2
(
n
=
− x )( Yi − y )
− x ) a − b X i − (a − b x )
− x)
n
i =1
i
i
i
i
− x)
=−1
2
Cuando el coeficiente toma un valor igual a +1 o –1 se habla de
correlación exacta entre las dos variables. En el primer caso de correlación
positiva exacta, en el segundo de correlación exacta negativa. Entre los dos
límites, -1 y 1, el coeficiente puede tomar cualquier valor. Valores cercanos a los
límites indicarán la existencia de asociaciones fuertes o altas entre las variables.
El valor que toma el coeficiente de correlación cuando no existe una relación
lineal entre las variables será el mismo que el que toma la covarianza en igual
situación: cero. Valores del coeficiente de correlación cercanos a cero, por tanto,
señalan la ausencia de asociación lineal entre las variables.
rXY = + 1
rXY = − 1
rXY = 0
⇔
⇔
⇔
− 1 ≤ rXY ≤ + 1
Asociación lineal exacta de tipo positivo.
Asociación lineal exacta de tipo negativo.
Ausencia de asociación lineal.
Propiedades del coeficiente de correlación
(1) El valor numérico del coeficiente de correlación entre dos variables
no se modifica si una (o ambas) variables se multiplica por una
constante.
(2) El coeficiente de correlación toma valores en el intervalo –1 y 1. Los
valores máximo y mínimo se alcanzan cuando se da una relación
lineal exacta entre las dos variables, de tipo positivo o de tipo
negativo, respectivamente.
(3) Valores del coeficiente próximos a 1 indican la existencia de una
asociación positiva fuerte entre las variables; valores cercanos a –1
indican la existencia de una asociación negativa fuerte entre las
variables; valores cercanos a cero señalan la ausencia de una
asociación lineal.
(4) El coeficiente de correlación puede calcularse como:
n
rXY =
∑X
i =1
n
∑X
i =1
2
i
i
Yi − n x y
−n x2
n
∑Y
i =1
i
2
−n y2
Matriz de correlaciones
Es frecuente analizar la relación existente entre un conjunto de variables,
de manera que estemos interesados en las correlaciones entre todos los pares
posibles. Una forma de presentar estos resultados es una matriz de correlaciones,
R, definida como una matriz simétrica, con la siguiente presentación:
1 r12

1

R=



r13 K r1k 
r23 K r2 k 

1 K r3k 

O M 
1 
donde rij indica la correlación entre la i-ésima y la j-ésima variables.
Algunos errores en la interpretación del coeficiente de correlación
Aunque el resultado del cálculo de un coeficiente de correlación resulta
fácil de interpretar, debe tenerse cuidado de no emplearlo de manera errónea. En
este apartado se hace hincapié en algunas incorrecciones que pueden cometerse
en un uso poco riguroso del coeficiente.
•
La detección de asociaciones lineales entre dos variables NO SUPONE la
existencia de una relación causal.
Una correlación alta (positiva o negativa) entre dos variables no es
indicativa de una relación causal entre ellas. Son muchos los pares de variables
para los cuales pueden calcularse coeficientes de correlación altos, mostrando
con ello la existencia de algún grado de asociación y que, sin embargo, sería
disparatado intentar vincular por medio de algún tipo de relación causa-efecto.
Incluso aunque la relación causal pueda existir, este estadístico descriptivo no
pretende detectar ni su existencia ni la dirección de la causalidad.
•
El coeficiente de correlación lineal TAMBIÉN PUEDE detectar la existencia
de relaciones no lineales entre dos variables.
Es cierto que los valores (absolutos) máximos del coeficiente de
correlación se alcanzan cuando se da una relación lineal exacta, sin embargo, es
posible encontrar coeficientes de correlación entre dos variables distintos de cero
(incluso próximos a la unidad) que reflejen la existencia de una relación no
lineal. En la gráfica 14 reproducimos una relación no lineal exacta entre dos
variables. Resulta evidente que si se calcula la correlación lineal, el coeficiente
tendrá un valor cercano a la unidad (de hecho, el coeficiente de correlación entre
esas dos variables es igual a 0,9139). La explicación se encuentra en la propia
definición del coeficiente de correlación, por lo que debe tenerse en cuenta que
aunque una asociación lineal implica un coeficiente de correlación alto (en valor
absoluto), lo contrario no es cierto: un coeficiente de correlación alto no siempre
se corresponde con una relación lineal entre las variables.
Gráfica 14
30000
20000
10000
Y
0
-10000
0
10
20
30
X
•
El coeficiente de correlación entre dos variables SE VE AFECTADO por la
existencia de otras variables.
Cuando se mide el grado de asociación entre un par de variables se debe
tener en cuenta que el “movimiento” conjunto que puede detectarse en ellas
puede ser consecuencia de una tercera variable (o terceras variables). Esta
situación se denomina de correlación espuria, caracterizada por la existencia de
una tercera variable (o terceras), que influiría simultáneamente en los valores de
las variables analizadas. En situaciones de correlación espuria debe tenerse en
cuenta que la asociación se mide correctamente, pero que tendrá mayor
capacidad explicativa cualquier discusión que incida en las verdaderas relaciones
de dependencias entre las variables.
•
NO SIEMPRE tiene sentido calcular el coeficiente de correlación entre una
variable X y otras variables compuestas del tipo X + Y o X Y .
Por ejemplo, si se calcula el coeficiente de correlación entre una variable
X y otra variable W, definida como W = X +Y , puede ocurrir que aun cuando las
variables X e Y no estén correlacionadas, obtengamos valores altos de la
correlación entre X y X+Y. El resultado depende de las varianzas de las variables
X, Y: cuanto mayor sea la varianza de X en relación a la de Y, mayor será el
coeficiente de correlación entre X y X+Y.
Un fenómeno parecido de correlación espuria se produce cuando se
calcula el coeficiente entre la variable X y un cociente como X/Y. Un caso usual,
por ejemplo, es la definición de cantidades per capita, en las que las cifras de dos
variables X, Y medidas por ejemplo a nivel nacional, se dividen por el número de
individuos en la población. En general, si calculamos proporciones de la forma
X/Z, Y/Z, fácilmente se producirán correlaciones espurias entre las dos variables
transformadas. Incluso si las variables X e Y no estuviesen correlacionadas, el
coeficiente de correlación sería significativo, como consecuencia del papel de la
variable del denominador. También es posible el fenómeno contrario: entre dos
variables con un cierto grado de asociación, la estandarización puede disminuirla.
Por ello, debe tenerse un cierto cuidado cuando se trabaja con cocientes o
índices, para tener en cuenta estos posibles efectos perversos.
•
El coeficiente de correlación NO ES VÁLIDO si las observaciones procedan
de POBLACIONES DIFERENTES.
Existe una tendencia a aplicar las técnicas estadísticas de manera más o
menos automática: si se dispone de información de dos variables para un
conjunto de individuos, nada impide calcular el coeficiente de correlación entre
ambas. En ocasiones, sin embargo, es necesario tener en cuenta el origen de esas
observaciones. Al estar interesados en la relación entre las dos variables, es
deseable que las observaciones provengan de un conjunto homogéneo de
individuos, ya que lo contrario puede provocar una distorsión de la relación entre
las variables. Una imagen explicará claramente el problema.
En la gráfica 15 se muestran la situación en el plano X, Y de 30
observaciones. Puede ver que existen dos grupos diferentes de observaciones:
respecto a los valores medios de las variables, uno se situaría en el segundo
cuadrante, mientras que el otro grupo se localiza en el cuarto cuadrante.
Obviamente el coeficiente de correlación, calculado sobre el conjunto de 30
observaciones, será negativo (concretamente es igual a –0,9413). Si
conociéramos que el origen de las observaciones no es una población
homogénea, sino dos poblaciones diferentes, estaríamos más interesados en
calcular dos coeficientes de correlación, uno para el primer grupo de
observaciones y otro para el segundo. De hecho, si se calculan los coeficientes de
correlación separadamente, las cifras que se obtienen son iguales a 0,763 y 0,686
(segundo y cuarto cuadrantes, respectivamente), es decir, que presentarían
correlación positiva de parecida intensidad. El problema que se plantea es
importante, puesto que, si se tiene en cuenta la existencia de dos tipos de
observaciones, entre las dos variables se da una asociación de tipo positivo,
mientras que cuando se agrupan todas ellas sin distinción, se consigue un
coeficiente negativo.
Gráfica 15
140
120
100
80
60
Y
40
20
10
20
30
40
50
60
70
X
Piense que situaciones como la descrita pueden ser muy comunes. Por
ejemplo, suponga que estudia la relación entre superficie de la vivienda y su
precio. Para ello toma información de diversas viviendas, sin distinguir si éstas se
encuentran en una zona rural o urbana. Es posible que la posición de las
observaciones sea similar a la representada en la gráfica 15, siendo X la
superficie de la vivienda e Y el precio de la misma. El grupo del primer
cuadrante respondería a las viviendas de tipo urbano (con una baja superficie
media y alto precio), mientras que en el cuarto cuadrante aparecerían las
viviendas de tipo rural, con una mayor superficie y un menor precio medio. Sin
distinción de su ubicación, la asociación entre las dos variables sería negativa: a
mayor superficie, menor precio; sin embargo, con ello se ocultaría la relación
fundamental entre las dos variables: cuanto mayor es la superficie, mayor es el
precio de la vivienda, aunque deba tenerse en cuenta la situación geográfica para
entender que los niveles en los que se establece esa relación difieren según se
trate de zonas urbanas o rurales.
Situaciones similares pueden darse combinando diversas posiciones de
los grupos. Puede existir una relación esencial negativa entre las variables y que
por la existencia de grupos de individuos se detecte una correlación positiva, o no
existir asociación y detectarse con cualquier signo, etc. Como un segundo
ejemplo, observe la gráfica 16. En la misma aparecen dos grupos de
observaciones. Si se calcula el coeficiente de correlación, sin distinción de
grupos, se obtendrá un valor positivo y posiblemente elevado. Sin embargo, las
formas de las dos nubes en el gráfico hacen sospechar que la asociación entre las
dos variables, en el caso de análisis separados, sería nula.
Gráfica 16
60
50
40
30
Y
20
10
10
20
30
40
50
60
X
El coeficiente de correlación de rangos de Spearman
El coeficiente de correlación se puede calcular para cualquier tipo de
variable cuantitativa de tipo continuo. Una aplicación común del mismo, sin
embargo, es sobre el el cálculo del coeficiente sobre dos variables que indican,
cada una de ellas, cuál es la posición de la observación en el conjunto de la
muestra, cuando la variable se ordena de menor a mayor. Por ejemplo, los valores
de la variable X en la segunda columna del cuadro 4, ordenados de menor a
mayor proporcionarían el orden que aparece en la cuarta columna (rango de X).
El valor menor es el correspondiente a la observación 4, el siguiente a la
observación 1, etcétera. La misma ordenación se puede realizar para la variable
Y. Entre estas dos ordenaciones se puede calcular el coeficiente de correlación.
Con ello se obtiene una medida de asociación en los posicionamientos de las dos
variables.
Mientras que el coeficiente de correlación sobre las variables originales
X e Y indica el grado de asociación en los valores de las dos series de
observaciones, el coeficiente de correlación de rangos (o coeficiente de
correlación de Spearman) mide el grado de asociación del orden de las
observaciones en las dos variables.
Cuadro 4
i
1
2
3
4
5
X
4
5
7
3
8
Y
10
11
9
15
13
Rango de X
2
3
4
1
5
Rango de Y
2
3
1
5
4
¿Difiere el grado de asociación según se utilice el coeficente de Pearson
(el coeficiente calculado sobre los valores originales) o el coeficiente de
Spearman (sobre los rangos de las observaciones)? En el cuadro 5 se muestran
las cifras necesarias para calcular ambos estadísticos.
Cuadro 5
Valores originales de las variables
Xi
Yi
X i Yi
X
4
5
7
3
8
10
11
9
15
13
40
55
63
45
104
16
25
49
9
64
x
y
n
5,4 11,6
∑X
i =1
2
i
Xi
Yi
X i Yi
X i2
Yi 2
2
3
4
1
5
2
3
1
5
4
4
9
4
5
20
4
9
16
1
25
4
9
1
25
16
i
x
y
∑X
696
3
3
42
Yi
100
121
81
225
169
n
n
∑ X ∑Y
i Yi
i =1
307
Rangos de las variables
2
2
i
163
i =1
n
2
i =1
n
i Yi
∑X
i =1
55
n
2
i
∑Y
i =1
2
i
55
El coeficiente de correlación de Pearson será:
n
rPearson =
∑ X Y −nx y
i =1
n
i i
∑X
i =1
2
i
−n x
=
2
Y el coeficiente de Spearman:
307 − 5⋅ 5,4 ⋅11,6
163 − 5⋅ 5,4 2
696 − 5⋅11,6 2
= − 0,3104
n
rSpearmn =
∑ X Y −n x y
i i
i =1
n
∑X
i =1
2
i
−nx
2
=
42 − 5⋅ 3⋅ 3
55 − 5⋅ 32
55 − 5⋅ 32
= − 0,3
En este caso, por tanto, ambos coeficientes proporcionan valores
similares. Esta concidencia, sin embargo, no siempre se mantiene. Por ejemplo,
los datos del cuadro 6 mantienen la misma relación de rangos que el ejemplo
anterior, pero con distintos valores de las variables. El coeficiente de correlación
de Pearson es ahora igual a –0,153, valor ya alejado del –0,3 del coeficiente de
Spearman.
Cuadro 6
i
1
2
3
4
5
X
Y Rango de X
19 73
2
55 110
3
110 9
4
3 230
1
220 150
5
Rango de Y
2
3
1
5
4
Si existen observaciones empatadas (dos valores de X idénticos) sus
rangos se obtendrían promediando las observaciones empatadas. Por ejemplo, si
aparecen tres valores iguales a 19, y los rangos que le corresponden son 2, 3 y 4,
asignaríamos el rango 3 a todas ellas. La siguiente observación tendría un valor
del rango igual a 5. Si dos observaciones toman un valor igual y sus rangos son 2
y 3, se les asignaría el rango 2,5 y a la siguiente observación se le asignaría el
rango 4.
Dadas las características numéricas del coeficiente de Spearman (por
ejemplo, las sumas de cuadrados de las desviaciones son iguales en ambas
variables) en ocasiones (y si no hay empates en las observaciones) se utiliza
como fórmula de cálculo la siguiente:
n
rSpearman = 1 −
( )
( )
donde d i = Rango X i − Rango Yi .
6 ∑ d i2
i =1
n (n 2 − 1)
,
Ejemplo 1. La fiscalidad sobre el trabajo y el desempleo en la
OCDE. Bajo este título Doménech et al. (1997) analizan la relación entre
las tasas de desempleo en los países de la OCDE y el crecimiento de la
fiscalidad sobre el trabajo. La coincidencia entre las altas tasas de
desempleo y los impuestos sobre el trabajo han llevado a estudiar la
posible reducción del paro al disminuir estos impuestos.
Como parte de su trabajo estudian la relación entre la tasa de
desempleo de diversos países y la brecha entre el coste laboral real (a
precios de producción) y el salario real neto (a precios de consumo). La
diferencia esencial entre los dos conceptos salariales es lo que los
autores denominan cuña fiscal, que incluye los tipos efectivos de las
cotizaciones sociales del empleador y a cargo del asalariado, la
imposición indirecta y la imposición directa sobre el factor trabajo (la cuña
fiscal se define, por tanto, como la suma de estos cuatro tipos
impositivos). Para diversos países, en el cuadro 7 se muestran los
valores medios en el período 1965-1992 de la tasa de paro y de la cuña
impositiva (fuente: Doménech et al. 1997).
Los datos de los valores medios de las dos variables se han
reproducido en la gráfica 17. Puede observar que no existe una relación
clara entre la cuña fiscal y la tasa de desempleo. Como indican
Doménech et al. (1997, pág. 183 y siguientes):
•
Los países no europeos de la OCDE presentan una cuña fiscal
inferior a la de los países europeos, sin que, sin embargo, se
detecten tasas de desempleo sistemáticamente inferiores.
•
EEUU con una cuña fiscal inferior a la de Francia o
Dinamarca, tiene una tasa de desempleo promedio muy
similar.
•
Dos de los países con mayor cuña fiscal (Suecia y Noruega)
tienen unas tasas de desempleo menores que las de otros
países con menor cuña fiscal.
•
España tiene una cuña fiscal similar a la de Portugal o Nueva
Zelanda, pero su tasa de desempleo es muy superior.
•
Si se excluyen de la gráfica las observaciones de Japón, Suiza
y Nueva Zelanda, la imagen de una relación negativa entre las
variables parece que se refuerza.
De hecho, una manera sintética de medir la asociación entre las
dos series de valores es el coeficiente de correlación, que pasamos a
calcular a partir de la información del cuadro 8.
Cuadro 7
País
Alemania
Austria
Bélgica
Canadá
Dinamarca
EEUU
España
Francia
Grecia
Holanda
Irlanda
Italia
Japón
Noruega
Nueva Zelanda
Portugal
Suecia
Suiza
UK
Gráfica 17
Tasa de
desempleo
2,6
5,6
7,3
7,9
6,4
6,6
10,6
6,4
5,5
5,2
10,4
8,4
2,4
2,7
3,3
5,8
2,4
0,8
6
Cuña
impositiva
0,8
0,35
0,87
0,53
1
0,4
0,47
0,85
0,63
0,89
0,61
0,62
0,31
1,03
0,46
0,45
1,1
0,39
0,52
12
España
Irlanda
tasa de desempleo
10
Italia
Canadá
8
Bélgica
EEUU
6
Austria
Francia
Portugal
Dinamarc
UK
Grecia
Holanda
4
Nueva Ze
Noruega
Suecia
Alemania
Japón
2
Suiza
0
.2
.4
.6
.8
cuña impositiva
1
1.2
Cuadro 8
Xi
Yi
X i2
Yi 2
X i Yi
2,6
5,6
7,3
7,9
6,4
6,6
10,6
6,4
5,5
5,2
10,4
8,4
2,4
2,7
3,3
5,8
2,4
0,8
6
0,8
0,35
0,87
0,53
1
0,4
0,47
0,85
0,63
0,89
0,61
0,62
0,31
1,03
0,46
0,45
1,1
0,39
0,52
6,76
31,36
53,29
62,41
40,96
43,56
112,36
40,96
30,25
27,04
108,16
70,56
5,76
7,29
10,89
33,64
5,76
0,64
36
0,64
0,1225
0,7569
0,2809
1
0,16
0,2209
0,7225
0,3969
0,7921
0,3721
0,3844
0,0961
1,0609
0,2116
0,2025
1,21
0,1521
0,2704
2,08
1,96
6,351
4,187
6,4
2,64
4,982
5,44
3,465
4,628
6,344
5,208
0,744
2,781
1,518
2,61
2,64
0,312
3,12
n
∑ Xi
i =1
n
∑ Yi
i =1
n
∑ X i2
i =1
n
∑ Yi 2
i =1
n
∑X
i =1
i
Yi
106,3
12,28
x
y
727,65 9,0528
5,5947
0,64632
67,41
El coeficiente de correlación es:
n
rXY =
∑X
i =1
n
∑X
i =1
=
2
i
i
−n x
Yi − n x y
=
n
2
∑Y
i =1
i
2
−n y
2
67,41 − 19 ⋅ 5,5947 ⋅ 0,64632
727,65 − 19 ⋅ 5,5947 2
9,0528 − 19 ⋅ 0,64632 2
= − 0,1062
Entre las dos variables, por tanto, no parece existir ningún tipo de
asociación, pudiéndose incluso hablar de una pequeña asociación negativa,
cuando se utiliza la información promedio del período 1965-1992.
Ejemplo 2. Los costes del despido en Europa. Los costes del
despido en los países de la Unión Europea (UE) se contabilizan por
meses de salario, que varían en función de la antigüedad del trabajador
en la empresa. En el cuadro 9 se muestran los costes de despido en los
diversos países de la UE en 1996, para un trabajador con veinte años de
antigüedad (Fuente: Layard et al., 1996), distinguiendo entre despidos
procedentes y despidos improcedentes. A partir de esta información se
desea conocer si en el conjunto de países de la UE existía (los costes se
han modificado para algunos países, entre ellos España) algún tipo de
asociación entre los costes de despido procedente e improcedente.
Cuadro 9
Austria
Belgica
Dinamarca
Finlandia
Francia
Alemania
Irlanda
Costes de despido
Despidos
Despidos
procedentes improcedentes
14
20
9
12,5
5,2
9
5,2
6
4,2
15
3,4
18
5,4
24
Italia
19,6
Holanda
4
Portugal
16,1
España
8,3
Suecia
5
UK
6,7
UE
8,1
Fuente: Layard et al. (1996)
32,5
5,3
20
30
16
11
16,8
La representación de los costes de despido para el conjunto de
países se muestra en la gráfica 18. En la imagen ya se detecta la
asociación positiva entre ambos tipos de costes: los países con un coste
alto en los despidos procedentes tienen, en general, costes también
relativamente altos en los despidos improcedentes. Destaca la posición
de Italia, con costes muy elevados en ambos tipos de despido, y de
España, con un alto coste en el despido improcedente (segundo mayor
coste) pero con un coste en el despido procedente similar al de la media
de la UE.
Gráfica 18
Italia
19.6
Portugal
despidos procedentes
Austria
Belgica
España
UE
UK
Finlandi
Dinamarc
Irlanda
Suecia
Francia
Holanda
Alemania
3.4
5.3
32.5
despidos improcedentes
Cuadro 10
Xi
Yi
X i2
Yi 2
X i Yi
14
9
5,2
5,2
4,2
3,4
5,4
19,6
4
16,1
8,3
5
6,7
20
12,5
9
6
15
18
24
32,5
5,3
20
30
16
11
n
∑X
i =1
196
81
27,04
27,04
17,64
11,56
29,16
384,16
16
259,21
68,89
25
44,89
n
n
∑Y
i
∑X
i
i =1
106,1
219,3
x
y
8,1615
16,8692
3
400
156,25
81
36
225
324
576
1056,25
28,09
400
900
256
121
i =1
n
∑Y
2
i
1187,59
n
2
i
i =1
280
112,5
46,8
31,2
63
61,2
129,6
637
21,2
322
249
80
73,7
∑X
i =1
4559,59
i
Yi
2107,2
Para calcular el coeficiente de correlación entre las dos variables
aplicaremos explícitamente la expresión:
n
rXY =
∑X
i =1
n
∑X
i =1
2
i
i
Yi − n x y
−n x2
n
∑Y
2
i
i =1
−n y2
Utilizando los valores que aparecen en el cuadro 10, el coeficiente de
correlación entre los dos tipos de costes confirma numéricamente la asociación
que detectábamos al visualizar los datos:
n
rXY =
∑X
i =1
n
∑X
i =1
=
2
i
i
Yi − n x y
−n x2
=
n
∑Y
i =1
i
2
−n y2
2107,2 − 13⋅ 8,1615 ⋅16,86923
1187,59 − 13⋅ 8,16152
4559,59 − 13⋅16,869232
= 0,6034
La correlación entre ambos tipos de costes es positiva y
relativamente alta, aunque su valor implica que cualquier comentario
sobre la importancia de los costes de despido en estos países debe
distinguir entre los despidos procedentes y los improcedentes.
Ejemplo 3. Transformación de variables. Para dos variables X e Y
se conoce su coeficiente de correlación lineal, siendo igual a 0,9. Se
desea conocer el coeficiente de correlación lineal entre las variables X* =
3X-4 e Y* = 4Y-3.
El coeficiente de correlación entre las variables transformadas de
definirá a partir de las reglas que se aplican para sus covarianzas y
desviaciones estándar, por lo que se tendrá:
rXY =
sX*Y*
s X * sY *
=
3 ⋅ 4 s XY
s
= XY = rXY = 0,9
3 s X 4 sY s X sY
Es decir, que la correlación entre dos variable que se han
modificado a partir de transformaciones lineales directas de otras dos, no
modifica el valor del coeficiente.
Ejemplo 4. Beneficios de las compañías aéreas. Se desea conocer
si existe relación entre el volumen de ventas de las compañías aéreas y
su nivel de beneficios. Para ello tiene la información del cuadro 11, donde
aparecen los valores medios de diversas compañías norteamericanas en
el periodo 1987-1996 (en miles de dólares).
Cuadro 11
Xi
Yi
Ventas
Beneficios
1239
13212
6867
9023
6286
10258
9854
4200
10199
7736
31,3
18,1
9
379,4
503
14,8
55,4
71
115,1
42,3
X i Yi
X i2
38781
1535121
239137 174556944
61803
47155689
3423326 81414529
3161858 39513796
151818 105226564
545912 97101316
298200 17640000
1173905 104019601
327233 59845696
Yi 2
980
328
81
143944
253009
219
3069
5041
13248
1789
5272
5485
1799
4603
3826
12242
6442
96,1
912,1
103,8
567,5
212,8
128,9
171,5
506639 27793984
5002869 30085225
186736
3236401
2612203 21187609
814173 14638276
1577994 149866564
1104803 41499364
n
6973
n
∑ X i Yi
y
x
9235
831926
10774
322056
45284
16615
29412
n
∑ X i2
i =1
∑Y
i =1
i =1
2
i
2122738 101631667
9
9
1687012
202
El coeficiente de correlación será:
n
rXY =
∑ X Y −n x y
i =1
n
∑X
i =1
=
2
i
i
−n x 2
i
=
n
∑Y
i =1
2
i
−n y 2
21227389 − 17 ⋅ 6973 ⋅ 202
1016316679 −17 ⋅ 69732 1687012 − 17 ⋅ 202 2
= − 0,197
Es decir, que cuanto mayor es el volumen de ventas, menor
parece ser el nivel de beneficios.
Ejemplo 5. Riqueza y consumo turístico. En una discusión sobre la
importancia de las vacaciones en las familias europeas, se defiende que
los determinantes del consumo turístico no son sólo económicos, sino
culturales. Para justificar este argumento se calcula la correlación entre
un indicador de riqueza y la proporción de la población que hace
vacaciones. En el cuadro 12 se muestra la información utilizada (datos de
1990).
Cuadro 12
País
Xi
Yi
Consumo
per capita
(euros)
% población
que hace
vacaciones
X i Yi
X i2
Yi 2
España
UK
Holanda
Italia
Bélgica
Francia
Alemani
a
6172
8440
8646
9199
9872
9977
53,4
61
69,9
57,2
56
59,1
329585
514840
604355
526183
552832
589641
38093584
71233600
74753316
84621601
97456384
99540529
2852
3721
4886
3272
3136
3493
10141
68,2
691616
102839881
4651
n
y
x
8921
n
∑ X i Yi
∑ X i2
i =1
i =1
n
∑Y
i =1
2
i
3809051,9
26010,4
568538895
0
6
60,69
El coeficiente de correlación es igual a:
n
rXY =
∑ X Y −n x y
i =1
n
∑X
i =1
=
2
i
i
−n x
i
=
n
2
∑Y
i =1
i
2
−n y
2
3809052 − 7 ⋅ 8921⋅ 60,69
568538895 − 7 ⋅ 89212
26010 − 7 ⋅ 60,69 2
= 0,38
Del resultado se deduce que existe una relación entre el nivel de
riqueza del país y la cantidad de personas que hacen vacaciones, aunque
el bajo valor del coeficiente señala que deben influir también otros
factores.
Ejemplo 6. Correlaciones de los gastos familiares. Sobre una
muestra de 271 familias españolas se desea analizar las asociaciones
existentes entre su gasto familiar total, sus ingresos familiares y varias
categorías de gasto. Para cada familia se ha tomado como periodo de
referencia el trimestre anterior a la encuesta. Se han agregado los gastos
familiares correspondientes a las siguientes categorías: alimentación,
vestido y calzado, bienes no duraderos (‘vivienda, calefacción y
alumbrado’, ‘medicinas’, ‘seguros’, ‘enseñanza’, etcétera) y bienes
duraderos (‘muebles y accesorios fijos’, ‘aparatos de calefacción y
cocina’, ‘vehículo de transporte’, ‘aparatos de radio y televisión’, etcétera).
La matriz de correlaciones entre estas partidas de gasto, el gasto total y
el ingreso familiar se muestra en el cuadro 13.
Cuadro 13
Aliment.
Vestido
No durad.
Durad.
Gasto
Ingresos
Alimentación
Vestido
1
0,22
0,25
0,09
0,50
0,26
0,22
1
0,43
0,13
0,60
0,34
No duraderos Duraderos
0,25
0,43
1
0,14
0,86
0,61
0,09
0,13
0,14
1
0,51
0,16
Gasto
Ingresos
0,50
0,60
0,86
0,51
1
0,59
0,26
0,34
0,61
0,16
0,59
1
La relación entre los ingresos y los gastos totales es, obviamente,
positiva (en la gráfica 19 se muestra la relación entre las dos variables) y
relativamente alta (con un valor igual a 0,59). Esa relación, sin embargo,
no se mantiene cuando se desglosan las diversas componentes del gasto
total. Mientras que la relación entre ingresos y los gastos no duraderos
proporciona un valor similar, la relación de los niveles de ingreso y el
gasto en alimentación es muy bajo (0,25), siendo el valor del coeficiente
del gasto en vestido y calzado algo mayor (0,34). Estos valores se
corresponden con los valores esperados: tanto la partida de alimentación
como la de vestido pueden considerarse bienes de consumo necesarios
y, en consecuencia, resulta lógico que, aunque con una asociación
positiva, unos mayores ingresos no supongan un gasto en alimentación
proporcional. Es, sin embargo, llamativo el que el coeficiente de
correlación entre los ingresos y el gasto en bienes duraderos sea tan
bajo. Lo que parecería normal esperar es que, al tratarse de un tipo de
bien no necesario, un nivel alto de ingreso estuviera asociado a un alto
nivel de consumo. O dicho de otra manera, que al ir situándonos en
niveles de renta más altos, también se observarán niveles de consumo en
bienes duraderos por encima de la media. Esto ocurre así, por ejemplo,
con el gasto en bienes no duraderos, para el que el coeficiente de
correlación con los ingresos es igual a 0,61. Por el contrario, el
coeficiente asociado a los bienes duraderos es el más bajo de todos
(0,16). La visualización de los datos nos ayudará a entender lo que
ocurre.
En la gráfica 20 se puede observar que un importante número de
familias, en cualquier nivel de ingresos, no realizan ningún consumo de
bienes duraderos. La razón es que muchos de sus productos tienen una
frecuencia de compra que no abarca el trimestre. Muchas de las 271
familias encuestadas no han realizado en ese trimestre ningún gasto en
este tipo de bienes, por lo que su respuesta en esta partida es de
consumo cero. Como consecuencia de ello, el valor medido del
coeficiente de correlación no recoge la expectativa a priori sobre el
mismo. El problema de frecuencia de compra es uno de los que deben
enfrentarse cuando se desean analizar los patrones de consumo
individuales.
Gráfica 19
Gasto familiar total
3000000
2000000
1000000
0
0
1000000
Ingresos familiares
2000000
3000000
2000000
3000000
Gráfica 20
Gasto en bienes duraderos
1300000
1200000
1100000
1000000
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
0
1000000
Ingresos familiares
Ejemplo 7. ¿Por qué son más pobres los pensionistas más viejos?
En Johnson y Stears (1998) se estudia la relación que existe entre los
ingresos de los pensionistas y su edad. En muchas economías los
pensionistas aparecen entre los grupos más pobres, pero también entre
ellos parecen existir fuertes diferencias. Uno de los fenómenos más
curiosos es la relación negativa que existe entre la edad y los ingresos de
los pensionistas. Se ha comprobado que cuanto mayor es la edad del
pensionista, menores son sus ingresos. Una primera explicación ha
justificado esta relación por el hecho de que entre los pensionistas de
mayor edad el porcentaje de mujeres es mayor (al tener una mayor
esperanza de vida). Para comprobar la validez de esta explicación, los
autores han analizado los ingresos de los pensionistas de sexo
masculino, con relación a su edad. Los autores emplean información de
una encuesta anual de gastos familiares en el Reino Unido (Family
Expenditure Surveys, FES), que recoge información sobre ingresos y
gastos de unas 7000 familias. En el cuadro 14 se recogen los ingresos
totales medios de los pensionistas varones entre 65 y 85 años, en
1992/1993. Se trata de ingresos semanales, medidos en libras constantes
de enero de 1995.
Cuadro 14
66
Edad 65
Renta 197 193
77
Edad 76
Renta 153 149
67
184
78
144
68
172
79
143
69
166
80
138
70
177
81
139
71
72
172,5 164
82
83
130 130,5
73 74 75
150 152 156
84 85
125 124
En la gráfica 21 se ilustra la relación entre las dos series. Resulta
evidente a partir de la misma que la asociación entre ambas variables es
negativa y alta en valor absoluto. El coeficiente de correlación
proporciona el siguiente resultado:
n
rXY =
∑X
i =1
n
∑X
i =1
=
2
i
i
−n x
Yi − n x y
=
n
2
∑Y
i =1
i
2
−n y
2
241825 − 21⋅ 75⋅155,1905
118895 − 21⋅ 752
Gráfica 21
515066,5 − 21⋅155,19052
= − 0,9716
200
180
renta media
160
140
120
65
70
75
80
85
edad del pensionista
El cálculo del coeficiente confirma la impresión visual, con un alto
valor negativo igual a –0,9716, dado que los datos sólo incluyen a los
varones pensionistas, no parece que la relación negativa entre edad e
ingresos dependa del sexo.
Ejemplo 8. Correlación en el mercado mundial de acciones. Las
carteras internacionales de acciones se caracterizan hoy por su
diversificación. La diversificación internacional de la inversión supone una
reducción del riesgo y un aumento de los beneficios esperados. Estos
estímulos a la diversificación dependen, no obstante, del grado de
correlación de los distintos mercados, ya que si los mercados siguen una
evolución similar, los incentivos de la diversificación disminuyen. Debe
tenerse en cuenta, además, la estabilidad a lo largo del tiempo de esas
asociaciones, ya que si éstas son constantes el inversor tendrá una
garantía adicional. Michaud et al. (1996) analizan el grado de correlación
existente entre el mercado de acciones de EEUU y distintos mercados
mundiales, calculando los coeficientes de correlación entre un índice
representativo de la evolución del mercado de EEUU e índices de 15
países. Los índices empleados son los de Morgan Stanley Capital
International (MSCI) para los distintos países. Las correlaciones se han
calculado con información de dos períodos de tiempo, el primero entre
1959 y 1973, el segundo entre 1976 y 1995. En el cuadro 15 se
reproducen los resultados que ofrecen los autores, junto con el orden en
función del valor del coeficiente (desde el valor más alto del coeficiente
hasta el valor menor), para cada período.
Cuadro 15
Mercado
Australia
Correlaciones
con el mercado de
EEUU
197619591995
1973
0,40
0,23
Austria
Bélgica
Canadá
Dinamarca
Francia
Alemania
Italia
Japón
Holanda
Noruega
España
Suecia
Suiza
UK
Del análisis de los
conclusiones:
•
•
•
0,12
0,40
0,68
0,32
0,42
0,33
0,20
0,23
0,58
0,47
0,29
0,39
0,46
0,50
coeficientes
Orden de la
correlación
(de mayor a menor)
19591976-1995
1973
7
9
0,12
15
0,46
8
0,80
1
0,04
11
0,25
6
0,38
10
0,21
14
0,13
13
0,61
2
0,17
4
0,04
12
0,33
9
0,49
5
0,29
3
de correlación se extraen
13
4
1
14
8
5
10
12
2
11
14
6
3
7
las siguientes
Los mercados con las correlaciones más altas en el período 19591973 (Canadá, Holanda y Suiza) tienen correlaciones numéricamente
inferiores en el segundo período. Por el contrario, mercados como el
de España y Dinamarca, apenas correlacionados con el de EEUU en
la primera etapa, presentan correlaciones algo más altas en las
últimas dos décadas.
Si se calcula el coeficiente de correlación entre los rangos de las
correlaciones de los dos períodos se obtiene un valor igual a 0,71.
Esto es indicativo de que efectivamente parece haberse dado una
continuidad importante en las relaciones a largo plazo entre estos
mercados de acciones.
No parece existir evidencia, por lo tanto, de cambios importantes en
la correlación del mercado de EEUU con los principales mercados
mundiales. Este resultado entraría en contradicción con la creencia de
que los mercados de acciones han incrementado su sincronización,
siendo más sensibles a la influencia de factores comunes.
Ejemplo 9. Correlación entre Bolsas Mundiales ¿A quién sigue el
IBEX? Martínez y Cabezas (1997) intentan contestar a esta pregunta
calculando los coeficientes de correlación entre el índice IBEX y seis
índices internacionales, empleando para ello datos diarios de cierre
durante el período 1/1/1985 al 1/1/1996. Los índices considerados son los
siguientes:
•
•
•
•
•
DAX 30 (Alemania).
CAC 40 (Francia).
FT SE 100 (Inglaterra).
S&P 500 (EEUU).
NIKKEI 225 (Japón).
Los coeficientes de correlación no se calculan directamente sobre los
índices, sino sobre las rentabilidades logarítmicas, definidas como:
 p 
log t 
 p t −1 
donde pt indica el valor del índice en el día t.
Los coeficientes de correlación se calculan separadamente en
cuatro períodos:
• Primer período: Enero de 1985 a octubre de 1987. En octubre de
1987 se produce una importante crisis bursátil.
• Segundo período: Octubre de 1987 a agosto de 1990. En agosto
de 1990 tiene lugar la guerra de Kuwait, que provocó una crisis en
las bolsas.
•
Tercer período: Agosto de 1990 a junio de 1992. Este período
abarca desde la crisis de Kuwait al no danés a Maastricht.
• Cuarto período: Junio de 1992 a diciembre de 1996. Abarca desde
el referéndum danés hasta la última fecha analizada.
En el cuadro 16 se muestran los coeficientes de correlación
obtenidos por los autores, entre el IBEX y los cinco restantes índices
mundiales.
Cuadro 16
Correlaciones con el IBEX
Período
DAX 30
85-87
-0,1
87-90
0,3
90-92
0,4
92-96
0,5
CAC 40
-0,1
0,3
0,4
0,6
FT SE 100
S&P 500
NIKKEI 225
0,0
0,0
0,0
0,1
0,0
0,2
0,3
0,3
0,2
0,5
0,2
0,2
Los autores obtienen las siguientes conclusiones:
•
•
•
•
Coincidiendo con las crisis bursátiles más importantes de los últimos
12 años, la correlación del IBEX con las restantes bolsas ha ido
aumentando con el tiempo.
La crisis de octubre de 1987 inicia la conexión del mercado bursátil
español con los de Alemania y Francia.
La crisis de 1992 relaciona el mercado español con el mercado
europeo.
Las bolsas que mantienen una mayor relación con la española son la
francesa y alemana, estando más alejadas las bolsas de Japón y
EEUU. Este proceso sería resultado del proceso de convergencia de
la unión monetaria europea.
Ejemplo 10. Riesgo de una cartera. La rentabilidad de un activo de
renta variable puede definirse de distintas maneras. Hemos utilizado
anteriormente un concepto habitual de rentabilidad simple:
rit =
Precioit − Precioit −1
Precioit −1
que supone que en los precios ya se incorporan dividendos, derechos y
otras remuneraciones.
Cuando se trabaja con una única acción, una medida del riesgo la
constituye la varianza de su rentabilidad. Se trata ahora de generalizar el
concepto de riesgo de un activo al de una cartera de activos. Para ello,
definiremos en primer lugar la rentabilidad de una cartera. Una cartera es
una combinación de títulos, en la que cada uno de ellos participa con un
porcentaje determinado. La rentabilidad de la cartera se define como una
media ponderada de las rentabilidades individuales, en la que la
ponderación viene dada por el porcentaje que representa en el valor total
de la cartera. Así, si definimos por wi el porcentaje que representa un
activo i en el valor total de la cartera, la rentabilidad de la cartera será
(teniendo en cuenta que la suma de las ponderaciones es la unidad):
∑w r
=
=∑w r
∑w
i
Rct
it
i
i
i
it
i
i
El riesgo de una cartera se puede definir empleando de nuevo el
concepto de varianza. Para T observaciones de la rentabilidad de la cartera:
∑ (R
T
var( Rct ) =
ct
t =1
− Rc )
2
T
donde Rc indica la media de la rentabilidad de la cartera en el período:
∑ Rct
t =1
Rc =
T
T
T
T
=
∑ ∑ wi rit
t =1
i
T
=
∑ wi ∑ rit
t =1
i
T
T
= ∑ wi
∑r
it
i =1
T
i
= ∑ wi ri
i
Supongamos que la cartera está compuesta únicamente de dos
activos, cada uno de ellos con una importancia
wi y
verificando: w1 + w2 = 1 . El numerador de la varianza podría reescribirse
de la siguiente manera:
T
∑(R
ct
t =1
T
(
)
2
− Rc ) = ∑ w1 r1t + w2 r2 t − ( w1 r1 + w2 r2 ) =
2
t =1
T
(
)
= ∑ w1 (r1t − r1 ) + w2 ( r2 t − r2 ) =
t =1
(
T
2
))
(
= ∑ w12 ( r1t − r1 ) + w22 ( r2 t − r2 ) + 2 w1 w2 ( r1t − r1 )(r2 t − r2 ) =
2
t =1
T
2
T
(
T
)
= ∑ w ( r1t − r1 ) + ∑ w (r2 t − r2 ) + 2 ∑ w1 w2 (r1t − r1 )(r2 t − r2 ) =
t =1
T
2
2
1
t =1
T
2
2
2
t =1
T
= w12 ∑ ( r1t − r1 ) + w22 ∑ ( r2 t − r2 ) + 2 w1 w2 ∑
2
t =1
2
t =1
t =1
(( r
1t
− r1 )( r2 t − r2 )
)
Como consecuencia, la varianza de la rentabilidad de la cartera
será:
∑ (R
T
var( Rct ) =
T
∑ (r1t − r1 )
2 t =1
1
=w
2
T
t =1
∑ (r2 t − r2 )
2 t =1
2
ct
− Rc )
T
2
2
=
∑ ((r
T
t =1
1t
− r1 )( r2 t − r2 )
+w
+ 2 w1 w2
T
T
T
2
2
= w1 var (r1 ) + w2 var (r2 ) + 2 w1 w2 covar(r1 r2 )
)
=
Denotando var(a) la varianza de a y covar(a,b) la covarianza entre
a y b. La expresión anterior puede generalizarse a carteras de más de
dos activos. Para k activos:
k −1 k
( )
var ( Rc ) = ∑ wi2 var (ri ) + 2 ∑ ∑ wi w j covar ri r j
k
i =1
i =1 j = 2
i< j
O si se quiere, puede expresarse en función del coeficiente de
correlación (indicando en esta notación correl(a,b) la correlación entre los
rendimientos de los activos a y b)1:
k
( )
k −1 k
( )
var ( Rc ) = ∑ wi2 var ( ri ) + 2 ∑ ∑ wi w j var ( ri ) var r j correl ri r j
i =1
i =1 j = 2
i< j
Fíjese que el riesgo de la cartera depende de k varianzas y de k(k1)/2 covarianzas. De manera que cuanto mayor es el valor de k, mayor
será la importancia relativa de las covarianzas para determinar el riesgo
de la cartera. Si k=6, el número de covarianzas distintas será de 15; si
k=12, el número de covarianzas es de 66.
Al aumentar el número de activos de la cartera, el riesgo global se
aproxima a una media ponderada de las covarianzas.
De nuevo para únicamente dos activos:
var ( Rc ) = w12 var (r1 ) + w22 var (r2 ) + 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 )
Este resultado permite observar que el riesgo global de una
cartera depende del riesgo de cada uno de los activos que la forman
(ponderados según la importancia de su participación) y de un riesgo
común. Esta última componente del riesgo de la cartera juega un papel
importante para lograr disminuir el riesgo global. La situación ideal será
aquella en la que la correlación sea negativa, pues con ello disminuirá la
varianza del rendimiento de la cartera definida por la ponderación simple
de las varianzas:
1
Teniendo en cuenta que el coeficiente de correlación entre dos variables X e Y se define
como:
rXY =
s XY
s X sY
var( Rc ) = w12 var (r1 ) + w22 var (r2 ) − 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 )
Sin embargo, la correlación de tipo positivo entre los activos será
el valor más frecuente, al incidir el riesgo de mercado sobre todas ellas.
Respecto a una correlación positiva exacta, una correlación positiva e
inferior a la unidad, disminuirá comparativamente el riesgo global de la
cartera.
Ejemplo 11. Valoración de una cartera con dos acciones. En este
ejemplo vamos a aplicar directamente lo explicado en el ejemplo anterior
a una cartera con dos acciones. En el cuadro 17 se muestran las
cotizaciones de las dos series durante 12 períodos. A partir de las
mismas se han calculado los rendimientos de cada período, los valores
medios y desviaciones estándar, la covarianza y el coeficiente de
correlación de las dos series de rendimientos.
Cuadro 17
t
p At
p Bt
0
1
2
3
4
5
6
7
8
9
10
11
11
12
13
12,5
13
13,5
14
14,7
15
16
16,3
16,4
12
10
9,5
10
9
10
12
13
15
16
17
16,5
rA
rB
0,0375
0,0349
-0,001395
-0,38
covar(rA rB ) correl(rA rB )
rAt =
p At − p A t −1
p A t −1
rBt =
p Bt − p B t −1
p B t −1
0,091
0,083
-0,038
0,04
0,038
0,037
0,05
0,021
0,067
0,019
0,006
-0,167
-0,05
0,053
-0,1
0,111
0,2
0,083
0,154
0,067
0,063
-0,029
0,0348
0,1052
var(rA )
var (rB )
Mediante los estadísticos de resumen podemos observar que las
dos acciones tienen un rendimiento similar, aunque superior para la
acción A. El riesgo de la acción B (medido por su desviación estándar) es
mayor que el de la acción A. El signo negativo de la correlación entre las
dos series de rendimientos indica que su combinación en una cartera
puede resultar adecuada, aunque su valor absoluto, sin embargo, está
alejado de una correlación exacta.
Con la anterior información podemos ahora calcular los
rendimientos medios y el riesgo global de una cartera que combine de
manera diferente ambas acciones. En el cuadro 18 se muestran posibles
combinaciones de las dos acciones (en las columnas w1 , 1 − w1 ). Para
cada una de ellas se ha calculado el rendimiento medio de la cartera y el
riesgo global, según las fórmulas:
Rc = w A rA + w B rB
var( Rc ) = w 2A var(rA ) + wB2 var(rB ) + 2 w A wB var(rA ) var(rB ) correl(rA rB )
Cuadro 18
Orden
Orden
Rendimiento Rendimiento
w1 1 − w1 medio de la
(más a
cartera
menos)
0,75 0,25
0,0369
4
1
0
0,0376
1
0
1
0,0349
12
0,9
0,1
0,0373
2
0,8
0,2
0,0370
3
0,7
0,3
0,0368
5
0,6
0,4
0,0365
6
0,5
0,5
0,0362
7
0,4
0,6
0,0359
8
0,3
0,7
0,0357
9
0,2
0,8
0,0354
10
0,1
0,9
0,0352
11
Riesgo
global
0,00084
0,00121
0,01107
0,00084
0,00077
0,00100
0,00153
0,00237
0,00351
0,00495
0,00669
0,00873
Riesgo
(menos a
más)
3
5
12
2
1
4
6
7
8
9
10
11
La opción de mayor rendimiento (1, 0) sería la que opta por invertir
todo en la acción A, que es la que tiene mayor rendimiento individual y
menor riesgo. Sin embargo, esta opción no la sitúa entre las mejores a
nivel del riesgo global. Respecto a este concepto, esta combinación sería
la quinta mejor opción. La explicación de ello se encuentra en la
correlación negativa entre las dos series, que hace que algunas de las
combinaciones de las dos acciones permitan reducir el riesgo global por
debajo de lo que individualmente pueda alcanzar cualquiera de las dos
acciones. Una opción que ponderase en (0,90 y 0,1) o (0,80 y 0,20)
parecería adecuada para mantener una buena combinación de beneficio
y riesgo.
Ejemplo 12. Actividades de los turistas. En el cuadro 19 se
muestran el porcentaje de turistas que han realizado distintas actividades
durante sus vacaciones en una región. La información distingue entre
turistas que han estado por primera vez y turistas que repiten sus
vacaciones en el lugar.
Cuadro 19
%
%
rango
rango
activida participación primeros participació
repetidore
visitante n visitantes
d
primeros
s
s
repetidores
visitantes
A
58,8
1
34,7
1
B
58,6
2
27,3
3
C
51,7
3
31,7
2
D
47
4
18,9
7
E
42,1
5
17
8
F
39,6
6
21,4
6
G
37,3
7
13,8
10
H
34,1
8
25,2
4
I
31,2
9
16,4
9
J
28,1
10
12,5
11,5
K
26,1
11
11,4
13
L
24,9
12
12,5
11,5
M
24,1
13
22,6
5
N
13,2
14
10,3
14
Ñ
12,9
15
6,9
15
Los porcentajes de participación en las diferentes actividades son
muy elevados en el caso de los primeros visitantes, mientras que entre
los repetidores se detecta una limitación en las actividades.
Adicionalmente, se desea conocer si las actividades en las que los
turistas participan son muy diferentes, para lo que se han obtenido los
rangos de cada grupo. Una información útil en este contexto es la
obtención del coeficiente de correlación de rangos entre ambas
variables:
n
rSpearman =1−
6∑ d i2
i =1
2
n(n −1)
=1−
6 ⋅115,5
= 0,794
15 15 2 − 1
(
)
Aunque la importancia de la participación en las actividades sea
diferente entre los dos tipos de turistas la importancia relativa en las
mismas es bastante parecida, dado el elevado valor del coeficiente de
correlación de rangos.
Ejemplo 13. Segmentación e inversión internacional en los
mercados de valores. El caso de Benetton. Los inversores
internacionales han buscado mercados poco integrados con el resto del
mundo. Las razones para ello son, en primer lugar, porque las
oportunidades de obtener beneficios, en ocasiones, son mayores en
estos mercados aislados; en segundo lugar, porque invirtiendo en ellos
se puede reducir el riesgo de una cartera de inversión. Akdogan (1997)
analiza el valor de las acciones de la empresa Benetton, una compañía
italiana dedicada a la producción y distribución de artículos de moda.
Akdogan discute el grado de asociación que tiene la evolución del precio
de las acciones de este grupo con la de diversos mercados nacionales
(incluyendo el propio mercado italiano). Con ello desea valorar, desde el
punto de vista del impacto que el mercado mundial puede tener en ella,
el nivel de seguridad de esta acción. Entre otros análisis, Akdogan
calcula la matriz de correlaciones entre las variaciones del precio de las
acciones de Benetton y las variaciones de los índices de cotizaciones de
diversos países.
En el cuadro 20 aparecen las correlaciones de las cotizaciones
del grupo Benetton (BEN.) y los índices de mercado de Bélgica, Europa,
Francia, Alemania, Italia, Holanda, España, Suecia, Suiza, UK, EEUU y
un índice mundial, calculadas con información diaria del año 1994. Las
correlaciones entre las cotizaciones de la empresa y los distintos
mercados nacionales son muy bajas, lo que también ocurre incluso con
respecto a la propia bolsa italiana. Dos de las correlaciones (con los
índices de Japón y Suiza) presentan signos negativos. Si nada más
tuviésemos en cuenta estos resultados, podría aceptarse que las
cotizaciones de Benetton son una buena opción para diversificar una
cartera de inversiones, al encontrarse su cotización aislada de la
evolución de los mercados internacionales.
Cuadro 20
Bélg.
BEN.
Italia
1,00
0,04
0,65
0,53
0,58
0,11
Japón
0,17
Holanda
0,61
0,40
0,45
Bélgica
BENETTON
Europa
Francia
Alemania
España
Suecia
Suiza
UK
EEUU
Mundo
1,00
0,06
0,10
0,03
0,03
0,19
0,02
0,00
0,03
0,09
0,12
Euro.
Fran.
Alem.
Italia
Japón Holanda
1,00
0,82 1,00
0,80 0,60 1,00
0,07 0,06 0,03 1,00
0,28 0,14 0,33 0,02 1,00
0,32
0,15
0,15
0,06
0,02
0,40
0,15
0,07 0,15 0,15 0,00 0,03
0,03
0,06
0,35
0,66 0,49 0,54 0,05 0,73
0,05
0,86 0,70 0,71 0,02
0,69 0,67 0,45 0,10
0,67 0,53 0,47 0,08
0,01
0,22
0,02 0,00
0,81 0,65 0,45 0,08
Cuadro 20 (continuación)
Suecia
Suiza
UK
EEUU
Mundo
Bélgica
BENETTON
Europa
Francia
Alemania
Italia
Japón
Holanda
España
Suiza
1,00
0,03
UK
0,48
EEUU
0,11
Mundo
0,42
Suecia
España
1,00
1,00
0,03
0,29 1,00
0,07
0,55 0,49
0,07
1,00
1,00
0,56
0,56
1,00
0,54
0,00
0,01
0,63
0,56
0,11
0,29
0,62
0,52
CAPÍTULO VI. AJUSTE DE UNA RECTA
El coeficiente de correlación mide la asociación existente entre dos
variables continuas. Hemos insistido en que la asociación entre dos variables no
implica causalidad entre ellas y que proponer una relación causal supone añadir
una hipótesis adicional a la descripción de las variables. Esta hipótesis puede
plantearse, especialmente, apoyándose en algún tipo de argumentación teórica.
Si disponemos de una hipótesis de causalidad, cuando escribimos la
relación:
Yi = a + b X i
i =1,..., n
ya no sólo se tratará de una manera de describir la forma de una nube de puntos.
Ahora, además, deberá entenderse que esa expresión matemática tácitamente está
afirmando que “cuando la variable X varía, ocasiona variaciones en la variable
Y”, o, de manera más breve, que “X causa Y”. La relación Yi = a + b X i nos
definirá a partir de ahora una relación causal entre las variables X e Y.
Yi = a + b X i
X→
→Y
La variable Y se denomina variable endógena, variable explicada o
variable dependiente, mientras que la variable X se denomina variable exógena,
variable explicativa o variable independiente.
Si se dispone de n > 2 observaciones de X e Y es posible ajustar una recta
como la definida por Yi = a + bX i a esos puntos. Ajustar una recta supone
determinar de alguna manera los valores de a y b. La recta que se quiere ajustar
se conoce en estadística como recta de regresión simple.
La idea de “ajustar” una recta lleva implícito el supuesto de que los
puntos no se encontrarán de una manera exacta sobre ella. Al aceptar la existencia
de una relación causal entre dos variables debemos suponer que la situación
normal será que la relación no sea exacta. Las observaciones se pueden llegar a
situar “más o menos” sobre una recta, aunque difícilmente lo harán de manera
perfecta. Esto hace que en el modelo debamos distinguir entre los valores
observados de Yi y los valores que le corresponderán en el ajuste: a + bX i , que
no tienen por qué coincidir. La diferencia entre el valor observado y el valor
ajustado define el error del ajuste:
ei = Yi − a − b X i
En función de este criterio de aproximación (de ajuste) de la recta al
conjunto de los puntos, la relación causal la podemos escribir con mayor sentido
de la realidad como:
Yi = a + bX i + ei
donde el último término define la discrepancia entre el valor observado y la recta
ajustada.
En este marco de causalidad resulta necesario disponer no sólo de una
medida del grado de asociación (el coeficiente de correlación lineal), sino además
de los valores numéricos de a y b. Estos parámetros tienen un interés especial en
las relaciones económicas, especialmente el segundo. La pendiente de la recta, b,
mide el impacto que una variación en una unidad de la variable X tiene sobre la
variable Y. Matemáticamente podemos escribir:
∂ Yi
=b .
∂ Xi
En términos discretos, se entiende que b, la pendiente de la recta, mide la
variación que sufre Y, como consecuencia de la variación en una unidad de X.
El valor de a no es más que el valor que toma la variable Y cuando el
valor de X es cero. Se conoce como término independiente de la regresión.
En la gráfica 1 se muestra, para una recta con pendiente positiva, cuáles
son las interpretaciones gráficas de a y b. El término independiente es la distancia
desde el centro de coordenadas al punto de corte del eje de ordenadas. La
pendiente de la recta mide la importancia de los cambios de Y consecuencia de las
variaciones de X. En el caso de una asociación negativa entre las dos variables, el
valor de b sería inferior a cero, para proporcionar una pendiente negativa. En este
caso, al aumentar en una unidad el valor de X, Y disminuiría en una cantidad igual
a b. Si la pendiente de la regresión tomara un valor igual a cero, la relación causal
no existiría, puesto que variaciones de la variable exógena no afectarían a la
variable endógena y la recta adoptaría una posición horizontal.
Gráfica 1
100
90
80
70
60
b
50
40
30
20
10
Y
a
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
32
X
De la propuesta de causalidad a la recta de regresión. El ejemplo más
utilizado en economía para ilustrar una relación causal sencilla es la existente
entre consumo y renta. La teoría del consumidor más básica propone una relación
del tipo:
Consumoi = f ( Renta i ) ,
en la que se enuncia que, para un consumidor i, sus niveles del consumo
dependen de su nivel de renta. Esta relación puede desear medirse. El primer paso
será definir una forma funcional concreta. Si se visualizan los datos para distintas
observaciones puede comprobarse si una forma lineal resulta adecuada. En ese
caso (y sólo en ese caso) la relación entre las variables podrá escribirse
empleando la recta de regresión:
Consumoi = a + b Rentai
El coeficiente b es, en este caso, la propensión marginal al consumo
(pmgc), que tendrá el mismo valor para todas las observaciones:
pmgc =
∂ consumoi
=b
∂ renta i
Desde la perspectiva de la teoría económica, la pmgc de un bien normal
debe ser positiva, e inferior a la unidad. Con ello se afirma que al incrementar en
una unidad la renta, el consumo también aumentará, pero lo hará en menos de una
unidad, es decir, que el incremento es menos que proporcional. Para un
economista, disponer de estimaciones de la pmgc (del cálculo de b en una
muestra de observaciones) resultará interesante por diversas razones. Confirmará,
por ejemplo, si sus expectativas teóricas sobre el valor del parámetro se cumplen.
Le permitirá hacer predicciones sobre en cuánto aumentará el consumo de un
bien si aumenta la renta. O le permitirá clasificar los bienes en función del valor
calculado de b. Veamos otros ejemplos.
• Un analista puede estar interesado en valorar cómo afectan a las ventas
de su empresa las fluctuaciones cíclicas de la economía. La hipótesis de
causalidad que establece es que el ciclo económico tiene un efecto directo en las
fluctuaciones de las ventas de su empresa. Esta relación causal la puede
establecer relacionando las variaciones de las series del pib nacional y las tasas de
variación de las ventas:
 pibt − pibt −1 
ventast − ventast −1

=f
ventast −1
pibt


De nuevo, una manera de valorar esta relación causal puede ser la de
concretarla en una forma lineal:
 ventast − ventast −1 
 pibt − pibt −1 

 =a +b

ventast −1
pibt




De manera que b definiría el impacto, si es que efectivamente existe, de
las fluctuaciones de la economía en la evolución de las ventas de la propia
empresa.
• Otra relación a la que los economistas prestan especial atención es la
existente entre la cantidad consumida de un bien y el precio del mismo. La teoría
establece que la relación causal es la siguiente:
q dA = f ( p A )
en donde q dA indicaría la cantidad demandada del bien A y p A el precio del
mismo. La relación funcional es de tipo inverso: a mayor precio del bien, menor
será la cantidad demandada del mismo. Normalmente, la representación teórica
de esta relación es la de una curva como la de la gráfica 2. Con ello se quiere
reflejar que las respuestas a variaciones en los precios no son uniformes. Si el
precio es muy bajo, las cantidades demandadas son altas y pequeños aumentos en
los precios producirán importantes disminuciones de la demanda. Por el
contrario, cuando el precio es muy alto, fuertes variaciones en el mismo
provocarán impactos relativamente poco importantes en las cantidades
demandadas. Desde el punto de vista de nuestro actual planteamiento estadístico,
deberíamos conformarnos con ajustar una línea recta a esta curva. Se trata de una
aproximación incorrecta, pero que puede ser válida en el tramo central de la
curva. Este intervalo será probablemente para el que dispondremos de
observaciones muestrales reales.
Gráfica 2
q
p
Puede ser aceptable, por tanto, ajustar en una muestra concreta de
observaciones la relación lineal:
q dA = a + b p A
El parámetro b medirá ahora el impacto que una variación unitaria en el
precio tiene sobre la cantidad demandada. La medida de este efecto es importante
como información del comportamiento del propio mercado de una empresa, a la
vez que el ajuste puede permitir hacer predicciones de cuál es la cantidad
demandada que uno puede esperar para un nivel determinado del precio.
• Una empresa puede estar interesada en analizar la relación existente
entre los costes en uno de sus inputs productivos y el volumen de producción. En
general, los costes en un input pueden descomponerse en una parte fija, que no
depende del nivel de producción, y de una parte variable, que dependería del
volumen de actividad:
costes = CF + CV
donde CF indicaría los costes fijos y CV los costes variables. Esta última cantidad
podría, por tanto, expresarse como:
CV = f ( producción )
Si la relación entre costes variables y el volumen de producción es
proporcional, es decir, si al aumentar la producción los costes variables aumentan
proporcionalmente, se tendrá:
CV =CVMe⋅ producción ,
siendo CVMe un parámetro constante, que definiría los costes variables medios
(los costes variables por unidad de producto, que serían constantes fuese cuál
fuese la cantidad producida). Bajo esta hipótesis, podría calcularse la siguiente
regresión:
costes = a + b ⋅ producción
en donde a serían los costes fijos y b estimaría los costes variables medios. Esta
información le facilitará (siempre que realmente los costes variables medios sean
constantes) el impacto que futuros aumentos en la producción ocasionarán en los
costes variables asociados a cada uno de los inputs.
Obtención de a y b por mínimos cuadrados ordinarios. Mínimos cuadrados
ordinarios (mco) es un criterio estadístico que permite obtener valores de a y b en
una muestra concreta. La idea de este criterio, en general, es que si se desea
calcular el valor de un parámetro, y se dispone únicamente de una muestra de
observaciones, se utilizará como una aproximación a ese parámetro (una
estimación del parámetro) aquel valor que, de alguna manera, minimice el error
global (el error al cuadrado o la suma de errores elevados al cuadrado) que se
comete. En este apartado explicaremos la aplicación de esta criterio en el caso de
la regresión lineal simple.
Suponga que disponemos de una muestra con n=10 observaciones de las
variables X e Y, y que a partir de ella queremos averiguar los valores de a y b.
Para seguir nuestra argumentación nos basaremos en las observaciones recogidas
en el cuadro 1. La nube de puntos que forman estas observaciones es la que se
muestra en la gráfica 3.
Cuadro 1
X 17 20
Y 59 71
Gráfica 3
23
72
24
79
24
77
25
81
25
79
26
89
28
95
30
93
100
90
80
70
60
Y
50
16
18
20
22
24
26
28
30
32
X
Si calculamos el coeficiente de correlación entre las dos variables X, Y el
resultado que se obtiene muestra la fuerte correlación positiva, con un valor igual
a 0,9567. La forma de la nube y el alto coeficiente de correlación sugieren que
sería apropiada una relación lineal entre las dos variables. Supongamos que
establecemos la existencia de una relación causal entre X e Y, en la que X causa
Y:
Yi = a + b X i
i =1 ,...,10
¿Cómo podemos calcular los valores de a y b? La manera de hacerlo es
establecer un criterio estadísticamente lógico para ajustar la recta y derivar a
partir de él las expresiones matemáticas, que podrán aplicarse en cada muestra
concreta.
El criterio que se va a exponer aquí se conoce como mínimos cuadrados
ordinarios y aunque puede justificarse de manera más o menos formal,
emplearemos aquí una argumentación muy sencilla.
Si queremos ajustar una recta en la nube de puntos de la gráfica 3
podríamos imaginar por dónde debería pasar esa recta. De una manera visual, si
tuviéramos que trazar una recta sobre los puntos, intentaríamos que la recta se
asentara de manera equilibrada sobre ellos. En la gráfica 4 se dibujan tres
posibles rectas. Resulta obvio que ni la recta 1 ni la 2 son alternativas atrayentes.
Ninguna de ellas es representativa de la nube de puntos, al contrario que la 3, que
parece ajustarse razonablemente bien a la nube.
Esta impresión visual puede formalizarse algo más. Lo que hace que una
de las rectas resulte mejor que las otras es la impresión que uno recibe de que
pasa más cerca de la mayoría de los puntos. Si los puntos no están alineados de
manera exacta sobre una recta, ningún ajuste conseguirá pasar por todos ellos,
pero puede ajustarse una recta que pase lo más cerca posible de todos los puntos.
Gráfica 4
100
90
3
80
1
70
2
60
Y
50
16
18
20
22
24
26
28
30
32
X
Para concretar esta idea de máxima proximidad de la recta al conjunto de
los puntos retomemos el concepto de error del ajuste. Para una observación
concreta, el error del ajuste lo hemos definido como la distancia desde un punto a
la recta, en el sentido en que se representa en el gráfico 5, en el que ei indicaría el
error en el ajuste de la observación i-ésima.
Si para la observación i-ésima se observa el par
regresión asignaría a esa observación el par ( X i , a +b X i ) .
(X
i
, Yi ) , la recta de
El error del ajuste, ei , se define como la distancia entre el valor
observado de la variable endógena para un individuo, Yi , y el valor que la recta
asignaría a ese individuo: a + b X i .
Gráfica 5
100
ei
90
80
ei
70
60
Y
50
16
18
20
22
24
26
28
30
32
X
Para las n observaciones se producirá un error. Nuestro objetivo es que,
globalmente, el conjunto de los errores sea mínimo. Formalmente:
Una manera de reducir el error global de un ajuste es emplear los valores
de a y b que minimizan la siguiente expresión:
∑ ei2 = ∑ (Yi − a − b X i )
n
n
i =1
i =1
2
Este es un problema que, matemáticamente, no resulta difícil de resolver.
Se trata de obtener el mínimo de una función. Los parámetros a y b deben
elegirse para que se alcance el mínimo de la suma de cuadrados de los errores:
n
n
i =1
i =1
mínimo ∑ ei2 = ∑ (Yi −a−b X i )
2
a, b
Derivando la función con respecto a los parámetros a y b, igualando a
cero y resolviendo el sistema obtendremos los valores que minimizan la suma de
los errores elevados al cuadrado. Este principio se denomina de mínimos
cuadrados ordinarios (mco) y las fórmulas para a y b se conocen, en un contexto
estadístico más amplio que el que contemplamos ahora, como estimadores por
mínimos cuadrados ordinarios.
(Un paréntesis para la recta de regresión poblacional. En la introducción de este
libro hemos discutido brevemente la diferencia entre un parámetro y un
estadístico. Por parámetro, decíamos, se entiende cualquier característica
numérica de una población que la determina en algún sentido: indicando su
posición central, su dispersión, simetría, etc. Estas características numéricas
pueden calcularse también en una muestra, en un conjunto de observaciones
representativas de la población, calificándolas normalmente como estadísticos.
Estos estadísticos (por ejemplo la media o la varianza muestrales) pretenden ser
buenas aproximaciones a los valores de los parámetros, de manera que muchas
veces nos referimos a los estadísticos del análisis muestral como estimadores de
los parámetros poblacionales. La media muestral sería un estimador de la media
poblacional, la varianza muestral lo sería de la varianza poblacional. De la misma
manera, la recta de regresión que ajustamos en un conjunto de observaciones
muestrales podría considerarse como una “estimación” de una recta poblacional.
Dicho de otra manera, si dispusiéramos de todas las observaciones de la
población podríamos establecer los valores de a y b válidos para toda la
población. Si sólo disponemos de una muestra nos deberemos contentar con
estimar esos parámetros. En este sentido se ha empleado en el párrafo anterior la
palabra estimadores para referirnos a los valores de a y b que minimizan la suma
de cuadrados de los errores).
Derivación de las expresiones de mco para a y b. Obtendremos ahora las
expresiones de a y b que verifican el objetivo de minimizar la suma de cuadrados
de los errores:
n
n
mínimo ∑ ei2 = ∑ (Yi −a−b X i )
i =1
i =1
a,b
2
La suma anterior se puede expresar como:
n
n
∑ e = ∑ (Y − a − bX )
2
i
i =1
i =1
i
i
2
=
n
= ∑ ( Yi 2 + a 2 + b 2 X i2 − 2aYi − 2bX i Yi + 2abX i ) =
i =1
n
= ∑ Yi + na + b
2
i =1
2
n
2
∑X
i =1
2
i
n
n
n
i =1
i =1
i =1
− 2a ∑ Yi − 2b ∑ X i Yi + 2ab ∑ X i
Las condiciones de primer orden para un mínimo serán:
n
∂ ∑ ei2
i =1
∂a
n
∂ ∑ ei2
=0
i =1
∂b
=0
Que se concretan en el siguiente sistema:
n

ei2
∂
∑

n
n
i =1

= 2 n a − 2 ∑ Yi + 2 b ∑ X i = 0
∂a

i =1
i =1
 n
 ∂ ∑ ei2
n
n
n
 i =1
2
 ∂ b = 2 b ∑ X i − 2 ∑ X i Yi + 2a ∑ X i = 0
i =1
i =1
i =1

Este sistema se conoce como sistema de ecuaciones normales. A partir
de la primera ecuación podemos obtener el valor de a en función del aún
desconocido b:
n
n
2na − 2∑ Yi + 2b∑ X i = 0
i =1
n
i =1
n
na − ∑ Yi + b∑ X i = 0
i =1
n
a−
∑Y
i =1
i
i =1
n
∑X
i =1
i
+b
=0
n
n
a − y +b x =0
a = y −b x
La solución depende de un valor de b. Para obtenerlo sustituiremos la
anterior solución en la segunda ecuación:
n
n
n
i =1
i =1
2 b ∑ X − 2 ∑ X i Yi + 2 a ∑ X i = 0
i =1
2
i
Dividiendo por dos:
n
n
n
i =1
i =1
i =1
b ∑ X i2 − ∑ X i Yi + a ∑ X i = 0
Sustituyendo el valor de a = y − b x :
n
n
n
i =1
i =1
b ∑ X − ∑ X i Yi + ( y − bx ) ∑ X i = 0
i =1
2
i
Reordenando términos y sacando factor común de b:
n
n
n
n
i =1
i =1
b ∑ X i2 − ∑ X i Yi + y ∑ X i − b x ∑ X i = 0
i =1
i =1
n


b  ∑ X i2 − x ∑ X i  − ∑ X i Yi + y ∑ X i = 0
 i =1
 i =1
i =1
i =1
n
n
n
n
n
 n
 n
b  ∑ X i2 − x ∑ X i  = ∑ X i Yi − y ∑ X i
 i =1
 i =1
i =1
i =1
n
Y teniendo en cuenta que
∑X
i =1
=n x :
i
n
 n 2
2 
b  ∑ X i − n x  = ∑ X i Yi − n y x
 i =1
 i =1
Se obtiene:
n
b=
∑ X Y −n y x
i =1
n
i i
∑X
i =1
2
i
−n x2
Las expresiones mco de a y b son:
n
a = y −b x ;
b=
∑ X Y −n y x
i =1
n
i i
∑X
=
2
i
−n x2
Una expresión alternativa para b es la siguiente:
∑( X
n
i =1
b=
i
− x )(Yi − y )
∑(X
− x)
n
i =1
i
2
Que se deriva inmediatamente a partir de las equivalencias de los
siguientes sumatorios:
∑ ( X i − x )(Yi − y ) = ∑ X i Yi − n x y
n
n
i =1
i =1
∑( X
n
i =1
− x ) = ∑ X i2 − nx 2
2
i
n
i =1
Advierta que b puede también escribirse en relación a dos estadísticos
conocidos, la covarianza entre las variables X e Y y la varianza de la variable X:
∑( X
n
b=
i =1
i
− x )(Yi − y ) n
∑(X
n
i =1
i
− x)
2
n
=
covar ( X , Y )
var ( X )
=
s xy
s x2
(Para que efectivamente estemos obteniendo expresiones de a y b que
minimizan la suma de cuadrados de los errores, deberíamos también demostrar
que efectivamente se trata de un mínimo, es decir, que las segundas derivadas son
mayores que cero. Este resultado queda como ejercicio para el lector interesado).
Ejemplos de cálculo de la recta de regresión. Retomemos los datos del cuadro
1 para aplicar las fórmulas que hemos obtenido de a y b. Fíjese que tal como se
han definido las fórmulas, primero será preciso calcular b y, a partir de su valor,
aplicar la fórmula para a. Con las observaciones originales precisaremos calcular
n
previamente: x , y ,
∑ X i Yi ,
i =1
Cuadro 2
n
∑X
i =1
2
i
.
Xi
Yi
X i Yi
X i2
17
20
23
24
24
25
25
26
28
30
59
71
72
79
77
81
79
89
95
93
1003
1420
1656
1896
1848
2025
1975
2314
2660
2790
289
400
529
576
576
625
625
676
784
900
n
n
n
n
∑ X ∑Y ∑ X Y ∑ X
i
i =1
i =1
i
242
795
x
y
24,2
79,5
i =1
i i
19587
i =1
2
i
5980
Una vez obtenidos los sumatorios y valores medios, la aplicación de las
expresiones es inmediata:
n
b=
s xy
s
2
x
=
∑ X Y −n x y
i =1
n
i i
∑X
i =1
2
i
−nx2
=
19587 − 10 ⋅ 24,2 ⋅ 79,5
= 2,815534
5980 − 10 ⋅ 24,2 2
a = y − b x = 79,5 − 2,815534 ⋅ 24,2 = 11,36408
En la gráfica 6 se muestra el ajuste de la recta, manteniendo idéntica
escala en los dos ejes.
El punto de corte de la recta con el eje de coordenadas es
aproximadamente igual a 11, siendo el valor de la pendiente de la recta alto,
cercano a tres. Una recta que definiera un ángulo de 45º describiría una relación
causal en la que el aumento de una unidad en la variable exógena supondría el
aumento de una unidad en la variable exógena. Un valor de 2,8, como el
calculado aquí, supone que la respuesta en la variable endógena será
comparativamente más fuerte. La mayor pendiente de la recta refleja esa reacción
superior.
Gráfica 6
Y
100
90
80
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
X
Para familiarizarnos con las expresiones de cálculo de la recta de
regresión se presentan a continuación un par de ejercicios numéricos adicionales.
•
Nuestro primer ejemplo utiliza los datos del cuadro 3.
Cuadro 3
X 17 20 23 24 24 25 25 26 28 30
Y -21 -20 -23 -24 -30 -31 -25 -18 -27 -29
Es recomendable representar los datos, para valorar si es adecuado ajustar
una recta. En la gráfica 7 se puede observar la representación de los puntos. La
relación entre las dos variables muestra una pendiente negativa, aunque el ajuste
de una recta no parece tan adecuado como en el anterior ejemplo. Los datos
necesarios para calcular a y b aparecen en el cuadro 4.
Gráfica 7
-16
-18
-20
-22
-24
-26
-28
-30
y
-32
16
x
18
20
22
24
26
28
30
32
Cuadro 4
Xi
Yi
X i Yi
X i2
17
20
23
24
24
25
25
26
28
30
-21
-20
-23
-24
-30
-31
-25
-18
-27
-29
-357
-400
-529
-576
-720
-775
-625
-468
-756
-870
289
400
529
576
576
625
625
676
784
900
n
n
n
∑ Xi
∑ Yi
∑ X i Yi
242
-248
-6076
x
y
24,2
-24,8
i =1
i =1
i =1
n
∑X
i =1
2
i
5980
A partir de los mismos:
n
b=
s xy
s
2
x
=
∑ X Y −nx y
i =1
n
i i
∑X
i =1
2
i
−n x2
=
− 6076 − 10 ⋅ 24,2 ⋅ ( − 24,8)
= − 0,60194
5980 − 10 ⋅ 24,2 2
a = y − b x = − 24,8 − ( −0,60194) ⋅ 24,2 = − 10,233
El ajuste de la recta se visualiza en la gráfica 8. La pendiente estimada es
negativa e inferior, en valor absoluto, a la unidad. Un incremento en una unidad
en la variable exógena disminuiría en –0,6 unidades el valor de la variable
endógena. Sin embargo, como se intuía al representar las observaciones, la
imagen final no presenta un ajuste lineal tan apropiado como en el caso anterior.
Gráfica 8
0
- 10
Y - 20
- 30
- 40
0
10
20
30
40
X
• El siguiente ajuste se realiza sobre los datos del cuadro 5, representados en
la gráfica 9.
Cuadro 5
X 17 20
Y
2
6
23
6
24
2
24
7
25
5
25
3
26
4
28
6
30
6
Gráfica 9
8
7
6
5
4
3
2
y
1
16
x
18
20
22
24
26
28
30
32
La nube de puntos hace poco apropiado el ajuste lineal. Las estimaciones
del modelo se obtienen a partir del cuadro 6:
n
b=
s xy
s
2
x
=
∑ X Y −n x y
i i
i =1
n
∑X
i =1
2
i
=
−n x2
1160 − 10 ⋅ 24,2 ⋅ 4,7
= 0,182848
5980 − 10 ⋅ 24,2 2
a = y − b x = 4,7 − 0,182848 ⋅ 24,2 = 0,275081
Cuadro 6
Xi
Yi
X i Yi
X i2
17
20
23
24
24
25
25
26
28
30
2
6
6
2
7
5
3
4
6
6
34
120
138
48
168
125
75
104
168
180
289
400
529
576
576
625
625
676
784
900
n
n
n
n
∑ X ∑Y ∑ X Y ∑ X
i =1
i
i =1
242
47
x
y
24,2
4,7
i
i =1
i i
1160
i =1
2
i
5980
La pendiente de la recta tiene un valor cercano a cero, indicando con ello
que las variaciones en la variable exógena no afectan de una manera importante a
la variable endógena. En la gráfica 10 se muestra la imagen del ajuste.
Gráfica 10
35
30
25
20
Y
15
10
5
0
0
5
10
15
20
25
30
35
X
Ajustes no lineales. A pesar de la insistencia en la forma lineal del modelo de
regresión, es posible ajustar relaciones no lineales utilizando este modelo lineal.
Esta aparente paradoja es sencilla de deshacer si pensamos en que las variables X,
Y del modelo pueden ser cualquier valor numérico. Si definimos X como la
inversa de una variable, por ejemplo Z:
X=
1
Z
la relación lineal que calcularemos:
Yi = a + b X i
expresaría tácitamente la siguiente:
 1
Yi = a + b   .
 Zi 
Una relación de económica de este tipo es la denominada curva de
Phillips, que relaciona las tasas de variación de los salarios con las tasas de
población en paro:

1
Tasa de variación salarios t = a + b 
 Tasa de parot

 , b < 0

La relación indicaría que a medida que crece la tasa de desempleo, la tasa
de variación de los salarios disminuiría (ya que se supone una pendiente
negativa), hasta alcanzar un valor mínimo, situado en a.
Otros ejemplos de relaciones no lineales, que pueden linealizarse de
manera inmediata son los siguientes:
• Yi = a ⋅ X ib
→
log ( Yi ) = log (a ) + b ⋅ log ( X i )
• Yi = e a + b ⋅ X i
→
log ( Yi ) = a + b ⋅ X i
→
log ( Yi ) = a + b ⋅
• Yi = e
a + b⋅
1
Xi
1
Xi
¿Siempre es posible un buen ajuste? Un buen ajuste responde a la idea de
conseguir una recta que genere un error global reducido. El criterio de mco
garantiza que el dibujo de la recta pasa “lo más cerca posible” de todos los
puntos, pero, aún así, el error que se comete puede ser importante. Es preciso
medir de alguna manera si el ajuste es correcto, es decir, si la recta ha conseguido
una descripción suficiente de la nube de puntos. Antes de hacerlo, sin embargo,
resulta conveniente considerar algunas de las razones por las que no siempre se
consigue una descripción adecuada:
(1) La existencia de una relación no lineal. Antes de realizar el cálculo de la
recta es necesario representar los datos para valorar si un ajuste lineal tiene
sentido. Si la relación es no lineal (cuadrática, cúbica, etc.) no será lógico ajustar
una recta.
(2) Elementos que perturban la relación causal. Al iniciar el modelo de ajuste
lineal ya hemos aceptado que difícilmente encontraremos los puntos sobre una
recta y que, por ello, era preciso definir una forma de aproximarnos a ella. Las
observaciones se sitúan de una manera más o menos errática con referencia a lo
que sería la relación “determinista” definida por el ajuste. El error del ajuste (la
diferencia entre el valor observado y el valor ajustado) proviene de diversas
fuentes: el hecho de que la relación entre las variables no es exacta, el trabajar
con una muestra y no con la población, la aproximación a la forma funcional, etc.
Como consecuencia de todo ello, el ajuste no es todo lo bueno que uno podría
desear.
(3) La existencia de otras variables exógenas. La regresión lineal que hemos
estudiado la hemos denominado regresión lineal simple. El calificativo pretende
incidir en que se supone que únicamente una variable es la causa de las
variaciones de la variable endógena. Es obvio que esto no será cierto en muchas
ocasiones. El modelo más general que uno puede encontrar definirá diversas
variables causales. En un contexto de linealidad hablaríamos de un modelo de
regresión múltiple en el que k variables influirían en la endógena:
Yi = a 0 + a1 X 1i + a 2 X 2i + ... + a k X ki
Y
X1 X2
…
Xk
Si la relación causal es más compleja de la que se diseña en el modelo
simple, el ajuste resultará incompleto, ya que todas las variables causa no
contempladas pasarían a formar parte del “ruido” de la relación, produciendo una
descripción insuficiente de la asociación causal.
Y
X1 X2
…
Xk
De las tres causas responsables de un mal ajuste, tanto la primera (la
forma funcional es no lineal) como la última (hay más variables causales) serían
fruto de una equivocación y, por tanto, deben eludirse. La forma de evitar el
primer error puede ser plantear algún ajuste no lineal entre las variables. Si el
problema es la existencia de múltiples causas, la alternativa debería ser el ajuste
de una regresión múltiple.
El modelo de regresión lineal simple supone la existencia de una relación
causal de tipo lineal entre únicamente dos variables. Si la relación causal incluye
más variables o si la relación no es lineal, el modelo está incorrectamente
especificado y, en consecuencia, las conclusiones que se extraigan del ajuste no
serán fiables.
Aceptando que los factores de “ruido” en el modelo son de carácter no
sistemático y que por su propio contexto siempre van a estar presentes, se hace
precisa una medida de la bondad del ajuste, un estadístico que nos permita valorar
hasta qué punto la recta que dibujamos es aceptable en cuanto a la descripción
que hace de los datos. Antes de centrarnos en esta medida destacaremos algunas
características del error del ajuste.
Algunas propiedades del error del ajuste. El error del ajuste se ha definido
como:
ei = Yi − a − bX i .
Si los valores de a y b se obtienen por mco, el error tiene dos
características especiales. La primera es que la media del error, para todas las
observaciones muestrales, es cero. La segunda, que la covarianza entre la variable
exógena y el error es también igual a cero. Las dos propiedades se deducen del
sistema de ecuaciones normales, a partir del cuál se han obtenido las expresiones
de mco.
Las características del error del ajuste cuando a y b se calculan
basándonos en mco son:
(1) La media del error del ajuste es cero:
n
e=
∑e
i
i =1
n
=0.
(2) El error del ajuste tiene covarianza nula con la variable exógena:
∑(X
n
s xe =
i =1
i
− x )(ei − e )
n
=0.
Medida de bondad del ajuste: Coeficiente de determinación R2
La medida más común de bondad del ajuste es el coeficiente de
determinación o coeficiente de bondad del ajuste y se simboliza como R 2 . Este
estadístico mide hasta qué punto la variable exógena de la regresión determina la
evolución de la variable endógena. Su definición se basa en los conceptos de
variación total, variación explicada y variación no explicada.
∑ (Y − y )
n
La variación total ( VT ) se define como
i =1
i
2
, y es la variación
total de la variable dependiente. Esta cantidad se puede descomponer en dos
partes: (1) la variación explicada ( VE ), que es la parte de la variación total que
el modelo de regresión es capaz de explicar; (2) la variación no explicada ( VE ),
que es aquella parte de la variación total que la relación causal no es capaz de
explicar:
VT = VE + VE
La interpretación de esta descomposición es la siguiente. La variable
endógena presenta una variación total (una dispersión respecto a su valor medio),
que se desea explicar mediante una relación causal. El modelo supone que las
variaciones de la variable exógena explican las variaciones de la endógena. De
hecho, el modelo se puede escribir:
Yi = a + bX i + ei

 y = a + bx
→
Yi − y = b ( X i − x ) + ei
Cuando X varía (respecto a su valor medio) se produce como efecto una
variación en Y (también medida respecto a su media). El valor y signo del
impacto dependerá del valor y signo de b. Junto a esta variación explicada por la
relación causal, en ei existe una parte de la variación total de Y que no puede
explicarse por las variaciones de X: es la variación no explicada por el modelo.
En la gráfica 11 se muestran los datos del cuadro 1. Las líneas de
referencia en el espacio de coordenadas se corresponden a la media de cada una
de las variables X e Y. La idea que subyace a la relación causal es la de que
cuando una observación se sitúa, por ejemplo, por encima de la media de la
variable exógena, la consecuencia de ello será que la variable endógena se alejará
también de su valor medio. Si la asociación entre las variables es positiva
(pendiente positiva), un valor por encima (por debajo) de la media en X se
acompañará de un valor por encima (por debajo) de la media en Y. Si la pendiente
es negativa, un valor por encima (por debajo) de la media de X se acompañará de
un valor por debajo (por encima) de la media de Y.
Gráfica 11
100
Yi − y
90
80
y
Xi − x
70
60
y
x
50
16
18
20
22
24
26
28
30
32
x
El modelo de regresión estructura una relación lineal sobre la nube de
puntos, pudiéndose distinguir entre la distancia vertical desde el punto a la recta
de ajuste y la distancia desde la recta al punto medio. La distancia desde el punto
al valor medio, Yi − y , se vería así descompuesta, como se muestra en la gráfica
12, en un componente de error, ei , y una parte de la variación explicada por la
recta, b( X i − x ) .
Gráfica 12
100
ei
90
b( X i − x )
80
70
60
y
50
16
x
18
20
22
24
26
28
30
32
El coeficiente de determinación se define como la proporción entre la
variación explicada y la variación total:
VE
VT
R2 =
O dicho de otra manera, como el porcentaje en que el ajuste de la recta
explica las variaciones de la endógena. Así, por ejemplo, un valor del R 2 igual a
0,60, indicará que el ajuste explica el 60% de la variación total de la variable
endógena.
El cálculo de la variación explicada y de la variación no explicada se
basa en la siguiente igualdad (que no demostraremos aquí), que relaciona la VT ,
la VE y la VE .
n
∑ (Y − y )
i =1
i
2
n
n
= b 2 ∑ ( X i − x ) + ∑ ei2
2
i =1
i =1
donde las variaciones explicada y no explicada son:
VE = b
n
2
∑( X
i =1
i
− x)
n
VE = ∑ ei2
2
i =1
El coeficiente de bondad del ajuste puede calcularse, por tanto, como:
b2 ∑ ( Xi − x)
n
R2 =
VE
=
VT
i =1
n
∑ (Y − y )
i =1
2
2
i
También se expresa en función de la variación no explicada:
R2 =
VE VT − V E
VE
=
=1 −
VT
VT
VT
Límites del coeficiente de determinación. Por la propia definición del
coeficiente de determinación, éste tiene como límites 0 y 1. Se trata de dos
situaciones extremas: el límite inferior R 2 = 0 corresponde a un modelo en el que
la variación explicada sería cero, mientras que el límite superior R 2 = 1
correspondería a un modelo capaz de explicar toda la variación de la endógena.
0 ≤ R 2 ≤1
R 2 = 0 ⇔ El modelo NO es EXPLICATIVO
R 2 =1 ⇔ El modelo EXPLICA toda la variación de Y
La interpretación de estos límites resulta clara si tenemos en cuenta la
definición del coeficiente. Si la variable X no explica las variaciones de Y será
porque el parámetro b es igual a cero:
Yi − y = b ( X i − x ) + ei
Yi − y = 0 ( X i − x ) + ei
Yi − y = ei
De manera que toda la variación respecto al valor medio quedaría
definida como error del ajuste: la recta no tiene pendiente y las variaciones de X
no van acompañadas de variaciones de Y.
Si las variaciones de X explican completamente las variaciones de Y será
porque no existe error del ajuste:
Yi − y = b ( X i − x )
Y, como consecuencia, la variación total será igual a la variación
explicada:
∑ (Y − y )
n
i =1
i
2
=b
∑(X
n
2
i =1
i
− x)
2
El siguiente cuadro resume estas conclusiones.
{ VE = 0 ↔ VT = V E } ⇒
{ V E = 0 ↔ VT =VE } ⇒
R2 =0
R 2 =1
La imagen de un ajuste que “no explica nada” es la de una recta “plana”,
con pendiente nula, en la que las variaciones de X no causarían variaciones en Y.
En las gráficas 13 y 14 se muestran dos ajustes que presentarían una pendiente
nula y cuyo coeficiente de determinación sería cero.
Gráfica 13
Gráfica 14
26
26
24
24
22
22
20
20
18
18
16
y
16
y
14
16
18
20
22
24
26
28
30
32
x
14
16
18
20
22
24
26
28
30
32
x
El coeficiente de determinación igual a 1 se dará cuando los puntos estén
situados de manera exacta sobre una recta con pendiente distinta de cero. No
importa si la pendiente de la recta es positiva o negativa. Lo que es importante es
que se trataría de situaciones en las que de manera exacta se cumpliría:
Yi = a + b X i ,
b≠0
siendo los errores de ajuste igual a cero, para todas las observaciones. Ya hemos
indicado que esta circunstancia de correlación exacta es difícil encontrarla con
variables económicas reales, aunque no es extraño encontrarse con variables que
mantienen una relación casi perfecta.
De hecho es en los valores intermedios del intervalo 0 ≤ R 2 ≤ 1 en donde
nos encontraremos normalmente el coeficiente de determinación de nuestros
modelos. Cuanto más cerca de cero se encuentre el valor del coeficiente, peor
consideraremos el ajuste realizado. Cuanto más cerca se encuentre el R 2 de la
unidad, mejor será el ajuste. Existe una cierta ambigüedad con relación al valor
del R 2 a partir del cuál considerar que el modelo tiene un buen ajuste. ¿Es
suficiente con que el modelo explique un 40% de la variación total de Y, o es
necesario que como mínimo explique un 70%? ¿Un porcentaje de variación
explicada igual al 10%, debe interpretarse como que el modelo es inservible?
En principio, como para otros estadísticos, no se debe pretender que éstos
puedan dar más información que la que contienen. El porcentaje de variación que
el analista puede considerar como “suficiente” (tanto para declarar que tiene un
“buen” ajuste, como para decidir que se trata de un “mal” ajuste) depende del
problema y de la muestra que se esté analizando.
Análisis gráfico de los errores del ajuste. Si se está interesado en comprobar
que el ajuste de una recta ha sido adecuado, la representación de los errores del
ajuste, con respecto a la variable exógena puede ayudar a ello. La idea es que si
una recta es una forma funcional adecuada, los errores del ajuste se comportarán
de una manera no sistemática, mientras que si la forma funcional no es correcta o
si existen otras variables causales que se han omitido, el error del ajuste tendrá un
comportamiento sistemático.
En las gráficas 15 a 18 se muestran varias gráficas que relacionan los
errores con la variable exógena de diversas regresiones. Advierta que en las dos
últimas se puede detectar un comportamiento sistemático en la posición de los
errores. La presencia de errores “sistemáticos” debería ponernos en la pista de
algún error en los supuestos del modelo (bien en la forma funcional, bien en la
existencia de otras variables causales).
Gráfica 15
Gráfica 16
6
8
6
4
4
2
2
0
Errores del ajuste
Errores del ajuste
0
-2
-4
-6
16
18
20
22
24
26
28
30
-2
-4
-6
32
16
x
18
20
22
24
26
28
30
32
28
30
32
x
Gráfica 17
Gráfica 18
60
4
2
40
0
20
0
-20
-40
16
x
18
20
22
24
26
28
30
32
Errores del ajuste
Errores del ajuste
-2
-4
-6
-8
16
x
18
20
22
24
26
¿Existe alguna relación entre el coeficiente de correlación y el coeficiente de
determinación? El coeficiente de determinación mide la bondad del ajuste de
una recta a una nube de puntos. El coeficiente de correlación lineal mide el grado
de asociación lineal entre dos variables. Un coeficiente de correlación lineal igual
a 1 o –1 indica que los puntos están situados sobre una recta (con pendiente
positiva o negativa, respectivamente) y esta situación se reflejaría en el
coeficiente de determinación con un valor igual a 1 (ajuste perfecto de la recta).
Si el coeficiente de correlación lineal o el coeficiente de determinación son
iguales a 0, no existirá una relación lineal entre las dos variables.
Se da, por lo tanto, una relación entre rxy y R 2 , que formalmente es la
siguiente:
R 2 = rxy2
⇔
R 2 = rxy
• Si no existe una relación lineal entre X e Y : rxy = 0 y R 2 = 0 .
• Si se da una relación positiva exacta: rxy =1 y R 2 = 1 .
• Si se trata de una relación negativa exacta: rxy = − 1 y R 2 = 1 .
Dos ejemplos numéricos sobre el coeficiente de determinación
•
En el cuadro 7 aparecen los datos sobre los que queremos ajustar la recta de
regresión.
Cuadro 7
X 17 20 23 24 24 25 25 26 28 30
Y 48 60 68 71 66 70 74 83 83 89
La imagen de las observaciones se muestra en la gráfica 19. Dada su
posición en el plano, la intención de ajustar una recta a estos datos resulta
apropiada. Los datos necesarios para realizar el ajuste y obtener la medida del
coeficiente de determinación se ofrecen en el cuadro 8.
Gráfica 19
90
80
70
60
50
y
40
16
18
20
22
24
26
28
30
x
Cuadro 8
Xi
Yi
X i2
Yi 2
X i Yi
17
20
23
24
24
25
25
26
28
30
48
60
68
71
66
70
74
83
83
89
289
400
529
576
576
625
625
676
784
900
2304
3600
4624
5041
4356
4900
5476
6889
6889
7921
816
1200
1564
1704
1584
1750
1850
2158
2324
2670
n
n
n
∑ X ∑Y ∑ X
i =1
i
i =1
i
242
712
x
y
24,2
71,2
i =1
n
2
i
5980
∑Y
i =1
n
2
i
52000
∑X Y
i =1
i i
17620
32
El cálculo de los parámetros de la recta será:
∑( X
n
b=
i =1
i
− x )(Yi − y )
∑( X
n
i =1
i
− x)
2
n
=
∑ X Y −n x y
i i
i =1
n
∑X
i =1
2
i
−n x2
=
17620 − 10 ⋅ 24,2 ⋅ 71,2 389,6
=
= 3,1521
123,6
5980 − 10 ⋅ 24,2 2
a = y − b x = 71,2 − 3,1521⋅ 24,2 = − 5,0809
Empleando el valor de b puede obtenerse la variación explicada y el
coeficiente de determinación:
n
 n

2
VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 − n x 2 =3,15212 ⋅ 5980−10⋅24,2 2 =1228,06
i =1
 i =1

(
n
)
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =52000−10⋅71,2 2 =1305,6
2
i =1
i =1
R2 =
1228,06
= 0,9406
1305,6
El R 2 indica que la variación explicada en el ajuste representa una
proporción del 94,06% de la variación total, por lo que debe concluirse que la
recta describe bien el comportamiento de la variable endógena. La pendiente de la
recta es positiva y mayor que uno: un aumento en una unidad en la variable
exógena ocasionará un incremento en algo más de tres unidades en la endógena.
Para comprobar que no nos pasa desapercibida alguna irregularidad en la
regresión se han representado los errores del ajuste en la gráfica 20, no
detectándose en ellos ningún comportamiento de tipo sistemático.
Gráfica 20
8
6
4
2
Errores del ajuste
0
-2
-4
-6
16
x
18
20
22
24
26
28
30
32
•
Realizaremos un nuevo cálculo numérico con los datos del cuadro 9. La
representación de las variables (en la gráfica 21) ilustra una relación negativa.
Dada la dispersión de los datos, el ajuste no deberá ser especialmente correcto,
puesto que los puntos se alejan de la imagen ideal de la recta. En el cuadro 9 se
muestran también los valores precisos para realizar los cálculos del modelo.
Cuadro 9
Xi
Yi
X i2
Yi 2
X i Yi
17
20
23
24
24
25
25
26
28
30
35
34
32
30
31
33
35
33
31
28
289
400
529
576
576
625
625
676
784
900
1225
1156
1024
900
961
1089
1225
1089
961
784
595
680
736
720
744
825
875
858
868
840
n
n
n
∑ X ∑Y ∑ X
i =1
i
i =1
i
242
322
x
y
24,2
32,2
i =1
n
∑Y
2
i
i =1
5980
n
2
i
10414
∑X Y
i =1
i i
7741
Gráfica 21
36
34
32
30
28
y
26
16
18
20
22
24
26
x
El cálculo de los parámetros de la recta será:
28
30
32
∑ ( X i − x )(Yi − y )
n
b=
i =1
∑( X
n
i =1
i
− x)
2
n
=
∑ X Y −nx y
i i
i =1
n
∑X
i =1
2
i
=
−n x2
7741 − 10 ⋅ 24,2 ⋅ 32,2 − 51,4
=
= − 0,41586
123,6
5980 − 10 ⋅ 24,2 2
a = y − b x = 32,2 + 0,41586 ⋅ 24,2 = 42,264
Y para obtener la variación explicada, la variación no explicada y el
coeficiente de determinación:
n
 n

2
2
VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 − nx 2 =(− 0,41586) ⋅ 5980−10⋅24,2 2 =21,3753
i =1
 i =1

(
n
)
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10414−10⋅32,2 2 =45,6
2
i =1
i =1
VE = VT − VE = 45,6 − 21,3753 = 24,225
21,375
R2 =
= 0,4687
45,6
El modelo explica el 46,87 % de la variación total de la endógena.
La representación de los errores aparece en la gráfica 22. La imagen
muestra una cierta componente sistemática, al aparecer dos series de errores
continuas con el mismo signo (primero negativos y después positivos). Esta
forma de los residuos podría señalar la omisión de alguna variable causal que no
se ha tenido en cuenta en el modelo simple.
Gráfica 22
4
3
2
1
Errores del ajuste
0
-1
-2
-3
16
x
18
20
22
24
26
28
30
32
Ejemplo 1. En la gráfica 23 se muestra la serie de turistas
alemanes que han visitado una determinada zona turística durante los
últimos once años. En la gráfica además de la serie histórica se muestra
el ajuste de una recta por mco. La serie muestra una clara tendencia
lineal, que aunque no pueda extrapolarse hacia un futuro lejano, permite
realizar una predicción para el año siguiente. Para ello deben, en primer
lugar, calcularse los valores a y b de la recta de regresión. En el cuadro
10 aparece la información necesaria.
Gráfica 23
Número de turistas alemanes (en miles)
5000
4000
3000
2000
1000
1
2
3
4
5
6
7
8
9
10
11
año
Cuadro 10
Xi
Yi
X i Yi
X i2
Yi 2
1
2
3
4
5
6
7
8
9
10
11
1897,6
2054,3
2063,2
2231,2
2682,2
2868,3
3130,7
3339,4
3635,5
4008
3934,2
1897,6
4108,6
6189,6
8924,8
13411
17209,8
21914,9
26715,2
32719,5
40080
43276,2
1
4
9
16
25
36
49
64
81
100
121
3600885,76
4220148,49
4256794,24
4978253,44
7194196,84
8227144,89
9801282,49
11151592,4
13216860,3
16064064
15477929,6
x
y
n
∑X
i =1
n
i Yi
∑X
i =1
n
2
i
∑Y
i =1
i
2
6
2894,96
216447,2
506
98189152,4
Los coeficientes de la recta serán:
n
n
∑ ( X i − x )(Yi − y ) ∑ X iYi −n x y
b= i =1
n
∑ (X
i =1
i
−x )
2
= i =1n
∑X
i =1
=
2
i
−n x 2
=
216447,2 −11 ⋅ 6 ⋅ 2894,96
=
506 − 11 ⋅ 6 2
25379,84
= 230,726
110
a = y −b x =2894,96 − 230,726 ⋅ 6 = 1510,604
Y las variaciones explicada, total y el coeficiente de bondad del ajuste:
n
 n

2
VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 =
i =1
 i =1

2
2
=(230,726) ⋅ 506 −11 ⋅ 6 = 5855793,6
(
n
)
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =98189152,4−11 ⋅2894,96 2 = 6000424,983
i =1
2
i =1
R2 =
VE
5855793,6
=
= 0,976
VT 6000424,983
El alto valor del coeficiente de determinación confirma el buen
ajuste de la tendencia lineal.
La predicción para el año siguiente, el año 12, será:
Y12predicción = 1510,604 + 230,726 ⋅12 = 4279,316
Que el resultado de la predicción sea correcto dependerá del
mantenimiento de la tendencia. Normalmente métodos de predicción de este tipo
pueden ser útiles si la predicción es a corto plazo, pero no tendría sentido hacer
predicciones a medio o largo plazo con esta técnica.
Ejemplo 2. En la gráfica 24 se relaciona el número de turistas de
una nacionalidad llegados al Reino Unido con la evolución del tipo de
cambio entre sus monedas. El índice del tipo de cambio se ha definido
con base 100 en 1990, respecto al mismo, un valor de 90 indicaría que la
libra está más barata para los turistas, mientras que un valor de 110
correspondería a una libra más cara. En la gráfica se representa el ajuste
lineal, mostrando cómo cuando la libra se fortalece el número de turistas
disminuye.
Gráfica 24
1200000
1100000
Número Turistas
1000000
900000
800000
90
100
110
120
130
Índice del tipo de cambio
Cuadro 11
Xi
Yi
X i Yi
X i2
Yi 2
100
95,12
92,68
97,56
109,76
124,39
129,27
126,83
114,63
109,76
1176
1117
1137
1058
1019
1039
901
862
862
823
117600,00
106249,04
105377,16
103218,48
111845,44
129241,21
116472,27
109327,46
98811,06
90332,48
10000,00
9047,81
8589,58
9517,95
12047,26
15472,87
16710,73
16085,85
13140,04
12047,26
1382976
1247689
1292769
1119364
1038361
1079521
811801
743044
743044
677329
n
n
n
n
∑ X ∑Y
∑X Y
1100 9994
1088474,60
i =1
i
i =1
i
∑X
i i
i =1
i =1
n
∑Y
2
i
i =1
122659,356
2
i
10135898
y
x
110 999,4
Si se quiere cuantificar cuál es el efecto de las variaciones del tipo
de cambio, podemos aproximar la relación mediante un ajuste lineal y
discutir el valor de su pendiente. En el cuadro 11 se ofrecen los datos
necesarios y sus transformaciones (el número de turistas se presenta en
miles).
n
b=
∑ (X
i =1
− x )(Yi − y )
n
∑ (X
i =1
=
i
i
−x )
2
n
=
∑ X Y −n x y
i =1
n
i i
∑X
i =1
2
i
−n x
=
2
1088474,6 −10 ⋅110 ⋅ 999,4 − 10865,4
=
= − 6,54796
1659,356
122659,356 − 10 ⋅110 2
a = y −b x =999,4 + 6,54796 ⋅ 110 = 1719,6756
VE =b 2
n


n
∑ ( X i − x )2 =b 2  ∑ X i2 −n ⋅ x 2 =
i =1
 i =1

=(− 6 ,54796) ⋅(122659 ,356 −10 ⋅110 ) = 71146 ,183
2
n
2
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10135898−10 ⋅999,4 2 = 147894,4
i =1
2
i =1
R2 =
VE 71146,183
=
= 0,48
VT 147894,4
El incremento en una unidad del índice del tipo de cambio supone
una disminución de 6,55 en la variable endógena o, dado que el número
de turistas está medido en miles, de 6547 turistas de esa nacionalidad.
Ejemplo 3. Para valorar el servicio de restaurante de un hotel, se
ha realizado una pequeña encuesta en la que se ha solicitado el nivel de
satisfacción respecto al servicio de restaurante (1-nada satisfactorio, 10-
muy satisfactorio) y el número de veces que lo habían utilizado. Se desea
valorar si existe una relación positiva entre el nivel de satisfacción y el
grado de repetición. En el cuadro 12, X es el número de veces que ha
usado el restaurante e Y el nivel de satisfacción. Se propone realizar el
ajuste de una recta.
Cuadro 12
Xi
Yi
X i Yi
X i2
Yi 2
3
2
3
3
1
1
1
1
2
9
7
8
7
7
5
5
7
5
27
14
24
21
7
5
5
7
10
9
4
9
9
1
1
1
1
4
81
49
64
49
49
25
25
49
25
n
n
n
n
∑ X ∑Y ∑ X Y ∑ X
i
i =1
i =1
i
17
60
x
y
1,889
6,667
i =1
i i
120
i =1
n
2
i
39
∑Y
i =1
2
i
416
El cálculo de los parámetros de la recta será:
n
n
∑ ( X i − x )(Yi − y ) ∑ X iYi −n x y
b= i =1
n
∑ (X
i =1
i
−x )
2
= i =1n
∑X
i =1
2
i
−n x 2
=
120−9⋅ 1,889⋅6,667 6,6543
=
= 0,967
6,8851
39−9⋅ 1,889 2
a = y −b x =6,667 − 0,967⋅1,889=4,84
Aunque la regresión no puede interpretarse como una relación causal
estricta, el valor de la pendiente permite una descripción útil de lo que ocurre en
la muestra. La pendiente indica que la relación entre las dos variables es
positiva, puesto que el aumento en una unidad del número de visitas incrementa
en casi un punto el nivel de satisfacción de la estancia.
La variación explicada, variación no explicada y el coeficiente de
determinación serán:
n
 n

2
2
VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 =(0,967 ) ⋅ 39−9 ⋅1,889 2 =6,438
i =1
 i =1

(
n
)
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =416−9 ⋅6,667 2 =15,96
2
i =1
i =1
V E =VT −VE =15,96−6,438= 9,522
R2 =
6,438
=0,403
15,96
El modelo explica el 40,3 % de la variación total de la endógena,
señalando con ello que el grado de satisfacción estaría asociado al nivel de
repetición, pero que sería preciso tener en cuenta otros factores explicativos.
Ejemplo 4. Análisis de las características de los mercados
bursátiles emergentes. Las distribuciones de los beneficios de los nuevos
mercados bursátiles presentan formas más asimétricas y con mayor
curtosis que las de los mercados consolidados. Bekaert et al. (1998), con
información de distintos mercados (véase el cuadro 13), plantean la
relación entre el coeficiente de asimetría y dos variables que pueden
explicar su evolución: el crecimiento de la economía del país (medido por
el PIB, 1987:04-1997:03) y el valor de su mercado de capitales (millones
de $ USA, 1987:03).
Cuadro 13
País
Argentina
Brasil
Chile
Colombia
Grecia
India
Jordania
Malaisia
Tasa de
Coeficiente de
Crecimiento
Asimetría
PIB
3,30
0,30
0,20
3,70
0,30
3,40
1,60
4,10
1,80
1,90
0,70
4,50
0,20
6,90
-0,90
5,50
Mercado
Capitales
1,214
6,555
2,219
0,677
0,824
5,373
1,240
11,969
-1,00
3,70
5,611
México
1,50
-0,60
0,576
Nigeria
1,20
6,50
0,643
Paquistán
0,70
1,80
1,495
Filipinas
2,40
2,80
1,591
Portugal
0,60
7,70
6,490
Corea sur
0,60
8,60
7,267
Taiwan
-0,20
6,40
2,004
Tailandia
1,00
4,10
0,487
Turquía
0,20
0,70
1,298
Venezuela
0,00
3,00
0,200
Zimbabwe
Para describir las relaciones se utiliza el modelo de regresión
simple. En las gráficas 25 y 26 se muestran las nubes de puntos y la línea
ajustada por mco.
Gráfica 25
4
argentina
3
portugal
2
grecia
colombia
nigeria
1
filipinas
corea sur taiwan
chile
brasil
zimbabwe
venezuela
0
asimetría
paquistán
turquia
india
jordania
tailandia
méxico
-1
malaysia
-2
-2
crecimiento pib
Gráfica 26
0
2
4
6
8
10
4
argentina
3
portugal
2
grecia
colombia
nigeria
paquistán
turquia
1
f ilipinas
india
corea surtaiwan
asimetría
venezuela
jordania chile
babwe
0
tailandia
brasil
malasia
méxico
-1
-2
0
2
4
6
8
10
12
14
mercado de capitales
Los valores de la pendiente de las regresiones simples y los coeficientes
de determinación se derivan empleando las cantidades del cuadro 14.
Cuadro 14
Coeficiente
Mercado
∆ PIB
asimetría
Capitales
Yi
3,3
0,2
0,3
1,6
1,8
0,7
0,2
-0,9
-1
1,5
1,2
0,7
2,4
0,6
0,6
-0,2
Xi
0,3
3,7
3,4
4,1
1,9
4,5
6,9
5,5
3,7
-0,6
6,5
1,8
2,8
7,7
8,6
6,4
Zi
1,214
6,555
2,219
0,677
0,824
5,373
1,240
11,969
5,611
0,576
0,643
1,495
1,591
6,490
7,267
2,004
X i Yi
X i2
0,99
0,74
1,02
6,56
3,42
3,15
1,38
-4,95
-3,7
-0,9
7,8
1,26
6,72
4,62
5,16
-1,28
0,09
13,69
11,56
16,81
3,61
20,25
47,61
30,25
13,69
0,36
42,25
3,24
7,84
59,29
73,96
40,96
Z i Yi
Zi2
Yi 2
4,006
1,474 10,89
1,311
42,968 0,04
0,666
4,924
0,09
1,083
0,458
2,56
1,483
0,679
3,24
3,761
28,869 0,49
0,248
1,538
0,04
-10,772 143,257 0,81
-5,611 31,483
1
0,864
0,332
2,25
0,772
0,413
1,44
1,046
2,235
0,49
3,818
2,531
5,76
3,894
42,120 0,36
4,360
52,809 0,36
-0,401
4,016
0,04
1
0,2
0
4,1
0,7
3
0,487
1,298
0,2
4,1
0,14
0
n
n
y
x
∑X
z
i =1
0,74737
3,94737
3,0386
16,81
0,49
9
i
Yi
36,23
∑X
i =1
0,487
0,260
0
0,237
1,685
0,04
n
n
2
i
411,76
∑Z Y ∑Z
i =1
i
i
11,275
i =1
1
0,04
0
n
2
i
362,068
∑Y
i =1
2
i
30,9
Los cálculos correspondientes a las respectivas pendientes serán:
n
bx =
∑ X Y −nx y
i i
i =1
n
∑X
i =1
2
i
=
−n x2
36,23 − 10 ⋅ 3,94737 ⋅ 0,74737
= − 0,1713
411,76 − 19 ⋅ 3,94737 2
n
bz =
∑Z Y −nz y
i i
i =1
n
∑Z
i =1
2
i
=
−nz2
11,275 − 10 ⋅ 3,0386 ⋅ 0,74737
= − 0,17077
362,068 − 19 ⋅ 3,0386 2
Y los de los coeficientes de determinación:
 n

b 2  ∑ X i2 −n x 2 
2
2
VE
 = (− 0,1713) (411,76−19⋅3,94737 )= 3,396 =0,16739
R x2 = =  ni =1
20,287
VT
30,9−19⋅0,74737 2
∑ Yi 2 −n y 2
i =1
VE
=
R =
VT
2
z

 n
b 2  ∑ Z i2 − n z 2 

 i =1
n
∑Y
i =1
i
2
−n y2
=
(− 0,17077) 2 ( 362,068 − 19 ⋅ 3,0386 2 )
30,9 − 19 ⋅ 0,74737 2
=
5,4428
= 0,2683
20,287
Como conclusión, parece que, efectivamente, la característica de
asimetría de los rendimientos es específica de un tipo de mercado. Al
aumentar el grado de desarrollo del país y/o aumentar la importancia del
mercado de capitales, la asimetría de la distribución se corrige,
aproximándose a coeficientes de asimetría cercanos a cero o incluso
negativos. Una información que ofrecen los autores es que en el período
1971-1977, la media del coeficiente de asimetría en todos los mercados
mundiales era igual a –0,23. La tendencia de los mercados emergentes
debería ser, por tanto, hacia esta ligera asimetría negativa. Esta tendencia
estaría marcada, entre otros, por factores como el crecimiento económico
del país y del propio mercado de capitales.
Ejemplo 5. Estructura del paro femenino: empleo a tiempo parcial.
El aumento del número de trabajadores con dedicación parcial puede
haber tenido un efecto positivo en la reducción del paro en la Unión
Europea (UE). Esta hipótesis puede ser cierta especialmente en el caso
de las mujeres, las principales demandantes de este tipo de empleo. Las
diferentes regulaciones del empleo a tiempo parcial (sobre todo en cuanto
a su nivel de protección frente al despido) no permiten, a priori, asegurar
la validez de esta hipótesis. Moltó y Uriel (1997) analizan la relación entre
la tasa de paro y la tasa de empleo a tiempo parcial, en ambos casos
para la población femenina, empleando información del período 19871995. La relación entre las dos variables y el ajuste por mco se muestra
en la gráfica 27.
Gráfica 27
30
España
20
Italia
Irlanda
Francia
Bélgica
tasa paro femenino
Grecia
Holanda
10
Dinamarca
Alemania
Reino Unido
Portugal
0
0
10
20
30
tasa empleo tiempo parcial
La recta ajustada es la siguiente:
40
50
60
70
(Tasa Paro Femenino) = 16,66 − 0,1513⋅ (Tasa empleo femenino a tiempo parcial )
El valor del coeficiente de determinación es igual a 0,20, es decir, que las
variaciones de las tasas de paro femenino vendrían explicadas en un 20% por
las variaciones en la tasa de empleo con dedicación parcial. Una conclusión que
parece desprenderse del anterior análisis es la de que un aumento de la
flexibilidad del mercado laboral, favoreciendo el empleo a tiempo parcial, tendría
un impacto positivo, al reducir la tasa de paro femenina.
Ejemplo 6. Relación entre el crecimiento del PIB de las Comunidades
Autónomas y el crecimiento español y comunitario. Raymond (1994) analiza la
evolución del PIB de las Comunidades Autónomas españolas (CCAA) con
relación al crecimiento del PIB nacional y europeo. Una de las cuestiones que
plantea en su trabajo es hasta qué punto la evolución de las CCAA es más
sensible a lo que sucede en la Unión Europea, que a lo que ocurre en el conjunto
nacional. Su hipótesis inicial es que debería darse un esquema causal en el que
los shocks de crecimiento en el ámbito europeo se trasladarían a la economía
española de una manera global. En una segunda etapa, la definición de una
política coyuntural española afectaría a las diecisiete autonomías. Su propuesta
para valorar esta hipótesis es la de realizar dos regresiones simples para cada
autonomía. En cada regresión, la variable endógena sería el crecimiento del PIB
(a precios constantes) de cada comunidad y, como variable explicativa,
aparecerían bien el crecimiento del PIB nacional, bien el europeo (también a
precios constantes). En el caso de que su hipótesis sea cierta, el crecimiento de
las CCAA estaría mejor explicado por el crecimiento español que por el europeo.
Los resultados que obtiene se reproducen en el Cuadro 15.
Cuadro 15
Crecimiento PIB CCAA
CCAA
Andalucía
Aragón
Asturias
Baleares
Canarias
Cantabria
Castilla-La Mancha
Castilla-León
Catalunya
f (Crecimiento PIB español )
Pendiente
0,92
0,96
0,83
1,24
0,98
0,70
0,99
0,81
1,21
Correlación
0,92
0,89
0,91
0,74
0,66
0,79
0,90
0,79
0,98
f (Crecimiento PIB europeo )
Pendiente
1.36
1,43
1,18
2,34
2,11
1,13
1,45
1,03
1,72
Correlación
0,79
0,77
0,75
0,82
0,84
0,75
0,77
0,58
0,81
C. Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
País Vasco
La Rioja
0,82
0,55
0,74
1,23
0,95
1,04
1,18
0,67
0,81
0,49
0,92
0,92
0,86
0,90
0,88
0,73
1,41
0,91
1,13
1,66
1,56
1,46
1,44
1,16
0,83
0,48
0,82
0,73
0,82
0,74
0,62
0,74
Como principales conclusiones Raymond (1994) apunta las siguientes:
• Las CCAA, en general, presentan un alto grado de dependencia, tanto del
PIB nacional como europeo.
• Las correlaciones entre el crecimiento del PIB de las CCAA y el crecimiento
del PIB español son superiores a las mantenidas con respecto a la Unión
Europea.
• Baleares y Canarias son las únicas excepciones claras. Su dependencia del
turismo justificaría este efecto específico.
• Entre las regresiones sobre el PIB español, las de Baleares, Catalunya,
Madrid, Navarra y el País Vasco presentan un coeficiente b superior a la unidad.
Esto debe interpretarse como que el efecto del crecimiento nacional tiene en
estas comunidades un impacto aún mayor. Raymond (1994, pág. 56) sugiere
que para cada una de estas comunidades existe una explicación individualizada.
Así, en el caso del País Vasco puede ser la existencia de un fuerte sector
industrial ligado a la industria pesada; en Catalunya, la importancia de un sector
industrial muy sensible a la coyuntura económica; en el caso de Madrid, la
existencia de un sector servicios dependiente de la evolución del sector
industrial.
En consecuencia, puede afirmarse que las CCAA son altamente
dependientes de las fluctuaciones económicas a escala nacional y europea. Al
ser las correlaciones con España superiores, debe interpretarse que este es el
efecto principal, aunque ello no implica que el crecimiento europeo no deba ser
también una referencia en la evolución de las CCAA.
Ejemplo 7. El crecimiento de los países de la OCDE. Con datos de los
países de la OCDE en el período 1960-1990, en este ejemplo se analiza si existe
alguna relación entre el crecimiento del PIB y la posición inicial de riqueza de la
que se parte. Aunque en este período se ha dado un proceso de convergencia
en los niveles de riqueza, no todos los países han crecido con igual intensidad.
Son precisamente algunos de los países que partían de posiciones no
especialmente buenas en el índice PIB pc del año 1960, los que han conseguido
las mejores tasas de crecimiento.
En el cuadro 16 se recoge un índice del PIB per cápita del año 1960 y las
tasas de crecimiento de esta variable entre 1960 y 1990. El índice del PIB per
capita toma como referencia a EEUU, siendo el resultado de dividir el PIB per
capita de cada país por el correspondiente a EEUU (ambos en dólares).
Para valorar la relación entre la posición relativa de riqueza y el
crecimiento económico, se ajusta la siguiente regresión simple:
Tasa ∆ PIB pc = a + b ⋅ PIB pc
Los datos necesarios para el cálculo se presentan en el cuadro 17.
Cuadro 16
país
Alemania
Australia
Austria
Bélgica
Canadá
Dinamarca
España
Finlandia
Francia
Grecia
Holanda
Irlanda
Islandia
Italia
Japón
Luxemburgo
PIB per capita
1960
(USA=100)
67,73
67,25
52,03
53,27
66,59
63,17
31,76
48,57
58,81
18,97
63,50
31,22
50,05
47,23
29,91
75,18
Tasa
crecimiento
PIB per capita
1960-1990
2,65
2,22
3,21
3,08
2,84
2,56
3,75
3,45
2,94
3,96
2,40
3,49
3,44
3,44
5,39
2,62
75,13
50,10
20,77
67,85
67,26
97,20
17,43
100
N. Zelanda
Noruega
Portugal
Reino Unido
Suecia
Suiza
Turquía
EEUU
1,31
3,23
4,08
2,16
2,40
1,89
2,96
1,94
Cuadro 17
n
∑ X i2
y
x
i =1
55,041
2,975
n
∑ Yi 2
i =1
84019,975 229,493
n
∑X
i =1
i
Yi
3581,841
Los coeficientes del ajuste serán:
n
∑ (X
b = i =1
i
− x ) (Yi − y )
n
∑ (X
i =1
i
−x)
2
n
∑ X Y −n x y
i
= i =1n
∑X
i =1
i
2
i
−n x 2
=
3581,841− 24⋅ 55,041 ⋅ 2,975 − 348,086
=
= − 0,0307
84019,975 − 24 ⋅ 55,0412 11311,695
a = y −b x =2,975 + 0,0307 ⋅ 55,041 = 4,665
Y el coeficiente de determinación:
n
 n

2
2
VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 =(− 0,0307 ) ⋅(84019,975−24 ⋅55,0412 )=10,661
i =1
 i =1

n
n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =229,493−24 ⋅2,975 2 =17,078
i =1
2
i =1
10,661
R2 =
=0,624
17,078
En la gráfica 28 se representa el ajuste de la tasa de crecimiento del PIB
per capita respecto al índice de 1960. La posición de partida describe, por tanto,
bastante bien cuál es la tasa de crecimiento que los países han alcanzado en el
período. Cuanto mejor situado estaba el país en 1960, menor ha sido su tasa de
crecimiento en los siguientes años. Resulta llamativo observar que de los seis
países en peor posición en 1960 (España, Irlanda, Japón, Portugal, Grecia y
Turquía) cinco de ellos se encuentran entre los primeros en su tasa de
crecimiento (Japón, 1; Portugal, 2; Grecia, 3; España, 4; Irlanda, 5).
Curiosamente, es EEUU, el país con mayor nivel de riqueza, el que presenta una
de las menores tasas de crecimiento en el período.
Gráfica 28
6
tasa crecimiento PIB per capita
5
4
3
2
1
0
20
40
60
80
100
120
PIB per capita, 1960 (USA=100)
Ejemplo 8. Convergencia económica. Barro (1991) para valorar
empíricamente la existencia de convergencia en los niveles de renta de
distintos países, propuso realizar una regresión entre sus tasas de
crecimiento y los niveles de renta de los que partían:
(Tasa de crecimiento de la renta )
i
= α + β ( Nivel de renta )i
para i = 1,…,n regiones.
Si el coeficiente β es negativo (y normalmente inferior en valor
absoluto a uno) se podrá interpretar que cuanto mayor es el nivel de renta
de un país, menor será su tasa de crecimiento. Dicho de otra manera, las
regiones más pobres crecerían más que las más ricas, obteniéndose como
resultado final una convergencia en sus niveles de renta. Por el contrario,
si β es mayor que la unidad, cuanto mayor fueran los niveles de variable,
mayores serían sus tasas de crecimiento. Para diversos países y distintos
períodos de tiempo se han calculado unas tasas de convergencia bastante
parecidas (Sala-i-Martin, 1994), de alrededor del 2% anual (coeficiente β
igual a -0,02).
Para cualquier variable, el concepto de β -convergencia se puede definir
sobre un modelo como el siguiente:
log( yit ) − log( yit −1 ) = a + b log( y t −1 ) + eit
La hipótesis de β-convergencia estaría de acuerdo con un valor de
la pendiente negativo. Indicando que la tasa de crecimiento de la variable
(el incremento de la variable en logaritmos) depende negativamente de
su nivel en el momento inicial del tiempo. Cuanto mayor sea el valor de la
pendiente (en términos absolutos) mayor será la tendencia hacia la
convergencia.
Friedman (1992) sugiere que la evolución de la renta de un
conjunto de países puede seguirse mejor analizando las
transformaciones del coeficiente de variación a lo largo del tiempo. El
coeficiente de variación es una medida de dispersión. Si se calcula para
un conjunto de países en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendrá un indicador de convergencia en sus
niveles de renta. Sala-i-Martin (1994) denomina a este tipo de
convergencia σ-convergencia, mostrando cómo ambos conceptos están
relacionados.
La relación entre β-convergencia y σ-convergencia se puede establecer, en primer
lugar, modificando el modelo de regresión de la siguiente manera:
log( yit ) − log( yit −1 ) = a + b log( y t −1 )
log( yit ) = a + b log( y t −1 ) + log( y t −1 )
log( yit ) = a + ( b + 1) log( y t −1 )
En segundo lugar, definiremos la varianza sobre la variable
transformada en logaritmos:
(
1 n
s = ∑ log( yit ) − log( y t )
n i =1
2
t
)
2
Sustituyendo en ella la expresión del logaritmo de la variable (y de su
valor medio), tendremos:
st2 =
(
1 n
∑ log( yit ) − log( y t )
n i =1
)=
2
(
)=
1
= ∑ (a + ( b + 1) log( y ) − a − ( b + 1) log( y ) ) =
n
1
= ∑ ((b + 1) (log( y ) − log( y ) )) =
n
=
1 n
∑ a + (b + 1) log( yit −1 ) − a − (b + 1) log( yt −1 )
n i =1
2
2
n
it −1
i =1
t −1
2
n
i =1
it −1
t −1
(
1 n
= (b + 1) ∑ log( yit −1 ) − log( y t −1 )
n i =1
2
)
2
=
= (b + 1) st2−1
2
Es decir que la varianza en un momento del tiempo t se puede
expresar en función de la varianza en el momento t-1. La pendiente b,
que define la convergencia en la regresión aparece también en la
relación. Puede comprobarse que cuanto más próximo este b a –1, más
rápida será la convergencia, puesto que menor será la dispersión de la
variable en el tiempo. Si b fuese positiva no se daría β-convergencia y
tampoco convergerían las varianzas, pues cada vez sería mayor la
dispersión de la variable en el tiempo.
Ejemplo 9. Análisis del cambio en el salario medio industrial de las
regiones españolas: 1978-1990. En este ejemplo reproduciremos parte
del trabajo de Pérez Domínguez (1995) que analiza la convergencia de
los salarios en las comunidades autónomas españolas. En el cuadro 18
se muestra un índice de los salarios industriales medios del año 1978
para las comunidades españolas (media nacional igual a 100). Se
dispone también de la tasa de variación de esta variable, para el período
1978-1990 y se desea comprobar si ha existido en esta etapa un proceso
de convergencia.
El ajuste por mco del modelo que nos permitirá verificar si se ha
producido la convergencia en los salarios industriales será el siguiente:
(Tasa variacion salario)
i
= a + b Salarioi
Los resultados necesarios para el cálculo de a y b y el
correspondiente coeficiente de determinación se ofrecen en el cuadro 19.
Cuadro 18
CCAA
Asturias
País Vasco
Salario
industrial
medio 1978
(media
nacional
igual a 100)
127,97
123,31
Tasa de
variación
1978-1990
2,827
2,966
Madrid
Cantabria
Catalunya
Navarra
Aragón
Castilla-León
Andalucía
Canarias
Galicia
Valencia
La Rioja
Murcia
Baleares
Castilla –La Mancha
Extremadura
Fuente: Pérez Domínguez
Encuesta Industrial del INE.
111,74
3,119
106,11
2,869
103,86
2,979
103,22
2,858
96,46
3,104
94,05
3,136
89,87
2,870
88,91
2,732
88,59
2,824
85,37
2,693
82,32
2,688
76,05
2,590
74,28
2,962
73,15
2,740
62,70
2,873
(1995), empleando la
Cuadro 19
n
∑X
i =1
n
∑X
i Yi
i =1
4578,949
n
2
i
153395,785
∑Y
i =1
2
i
140,657
x
y
93,409
2,872
Los valores de b y a serán:
n
b=
∑X
i =1
n
i
∑X
i =1
Yi − n x y
2
i
−nx2
=
4578,949 − 17 ⋅ 93,409 ⋅ 2,872
= 0,0036
153395,785 − 17 ⋅ 93,409 2
a = y − b x = 2,872 − 0,0036 ⋅ 93,409 = 2,5357
Y el coeficiente de determinación será:
VE
=
R =
VT
2
 n

b 2  ∑ X i2 − n x 2 
 i =1

n
∑Y
i =1
i
2
−n y
2
=
0,0036 2 (153395,785 − 17 ⋅ 93,409 2 )
140,657 − 17 ⋅ 2,872 2
= 0,15
El ajuste explica un 15% de la variación total, con un parámetro b
positivo. En la gráfica 29 se representan las observaciones y la recta
ajustada. La conclusión que se deriva del análisis es la de que, durante
este período, no se ha producido en las comunidades autónomas una
convergencia en los salarios de la industria.
Gráfica 29
3,2
Cast.-León
Aragón
Madrid
3,1
Crecimiento salario medio (1978-1990)
3,0
Catalunya
Baleares
2,9
Extremadura
Andalucía
País Vasco
Cantabria
Navarra
Asturias
Galicia
2,8
Cast.-Mancha
Canarias
Valencia
La Rioja
2,7
Murcia
2,6
2,5
50
60
70
80
90
100
110
120
130
140
Salario medio (1978)
Ejemplo 10. Esperanza de vida en la OCDE. En el cuadro 20 se
dispone de la información de la esperanza media de vida en los distintos
países de la OCDE (calculada en el año 1989). La intensidad de la
inversión sanitaria en cada país puede ser un factor explicativo de las
diferentes esperanzas de vida. Como variables cercana a ese concepto,
en el cuadro 20 aparece el número de camas por mil habitantes. Se
plantea explicar la esperanza de vida en función del número de camas.
En el cuadro 21 se muestran los valores necesarios para realizar el
ajuste, que finalmente se representa en la gráfica 30.
Cuadro 20
Camas por
Esperanza
mil
País
de vida
habitantes
76,70
9,90
Australia
75,60
10,70
Austria
74,80
8,30
Bélgica
76,80
6,90
Canadá
75,10
6,10
Dinamarca
74,90
77,10
75,90
76,20
77,20
74,40
76,00
78,70
74,60
77,10
74,50
76,20
74,10
76,40
77,20
77,60
75,40
75,90
75,00
Finlandia
Francia
Alemania
Grecia
Islandia
Irlanda
Italia
Japón
Luxemburgo
Holanda
Nueva Zelanda
Noruega
Portugal
España
Suecia
Suiza
Turquía
UK
EEUU
13,50
10,20
10,90
5,20
14,80
6,40
7,50
15,60
12,50
11,70
9,00
15,30
4,70
4,40
13,30
9,90
2,10
6,50
5,10
Cuadro 21
n
y
x
∑X
i =1
9,1875
75,975
n
∑Y
2
i
i =1
2355,21
n
2
i
138564,7
∑X
i =1
i
Yi
16799,23
Los valores de b y a serán:
n
∑ X Y −n x y
b= i =1n
i
∑X
i =1
i
2
i
−n x 2
16799,23 −24 ⋅ 9,1875 ⋅ 75,975 46,7425
=
=
= 0,142
329,366
2355,21−24 ⋅ 9,1875 2
a = y −b x =75,975 − 0,142 ⋅ 9,1875 = 74,67
Y el coeficiente de determinación:
 n

b 2  ∑ X i2 −n x 2 
0,142 2 2355,21 − 24 ⋅ 9,1875 2
i =1


2 VE
=
= 0,21
R = =
n
VT
138564,7 − 24 ⋅ 75,975 2
2
2
∑ Yi −n y
(
i =1
)
Gráfica 30
79
Japón
78
Suiza
Holanda
Francia
77
Canadá
Suecia
Australia
España
Grecia
Esperanza de vida
Noruega
Italia
UK
76
Islandia
Alemania
Austria
Turquía
EEUUDinamarca
75
Finlandia
Bélgica
Luxemburgo
N. Zelanda
Irlanda
Portugal
74
1
3
5
7
9
11
13
15
17
Camas (por mil habitantes)
Según este análisis descriptivo, el aumento del número de camas
por cada mil habitantes estaría asociado a una mayor esperanza de vida.
Como conclusión del análisis deberíamos extraer que, efectivamente,
parece existir una relación positiva entre la esperanza de vida y la
inversión del país en sanidad si se mide ésta mediante el número de
camas por mil habitantes. Incrementar en 10 las camas por cada mil
habitantes tendría como consecuencia el aumento de 1,42 años en la
esperanza de vida.
BIBLIOGRAFÍA
Akdogan, H., 1997, “International security selection under segmentation: Theory
and application”, The Journal of Portfolio Management, vol. 24, n. 1, págs. 8292.
Barro, R.J., 1991, “Economic growth in a cross section of countries”, Quaterly
Journal of Economics, nº. vol. 106, nº. 2, págs. 407-443.
Bekaert, G., C.B. Erb, C.R. Harvey y T.E. Viskanta, 1998, “Distributional
Characteristics of Emerging Market Returns and Asset Allocation”, The Journal
of Portfolio Management, vol. 24 nº. 2, Winter, págs. 102-116.
Boyle, G.E. y T.G. McCarthy, 1997, “A simple measure of β-convergence”,
Oxford Bulletin of Economics and Statistics, vol. 59, nº. 2, págs.257-264.
Camino, D., 1997, “Efectos intradía y día de la semana en la Bolsa de Madrid.
Información y Volumen de contratación”, Revista Española de Financiación y
Contabilidad, vol. XXVI, nº 90, págs. 51-75.
Doménech, R., M. Fernández y D. Taguas, 1997, “La fiscalidad sobre el trabajo y
el desempleo en la OCDE”, Papeles de Economía Española, nº. 72, págs. 178191.
Ferruz, L. y J.L. Sarto, 1997, “Revisión crítica de las medidas clásicas de
performance de carteras y propuesta de índices alternativos. Aplicación a fondos
de inversión españoles (1990-1995)”, Boletín de Estudios Económicos, vol. LII,
nº. 162, Diciembre, págs. 549-573.
Friedman, M., 1992, “Do old fallacies ever die?”, Journal of Economic
Literature, vol. 30, págs. 2129-2132.
Govern Balear, 1991, El gasto turístico 1990, Direcció General d’Economia,
Palma de Mallorca.
Johnson, P. y G. Stears, 1998, “Why are older pensioners poorer?”, Oxford
Bulletin of Economics and Statistics, vol. 60, nº 3, págs. 271-290.
Juhn, C. y K.M. Murphy, 1996, “Wage inequality and family labor supply”,
Working Paper 5450, NBER Working Paper Series, Cambridge, MA.
Layard, R., S. Nickell y R. Jackman, 1996, “Combating unemployment: is
flexible enough?”, CEP Working Paper, 293, London School of Economics.
Martínez Abascal, E. y C. Cabezas, 1997, “Correlación entre Bolsas Mundiales.
¿A quién sigue el IBEX?, Análisis Financiero, nº. 73, 3er cuatrimestre, págs. 3442.
Michaud, R.O., G.L. Bergstrom, R.D. Frashure y B.K. Wolahan, 1996, “Twenty
years of International Equity Investing”, The Journal of Portfolio Management,
vol. 23, n. 1, págs. 9-22.
Moltó, M.L. y E. Uriel, 1997, “El problema del paro en la Unión Europea por
sexos”, Papeles de Economía Española, nº. 72, págs. 122 a 136.
Norusis, M.J., 1991, The SPSS Guide to Data Analysis for SPSS/PC+, 2nd
Edition, SPSS Inc., Chicago.
Pena, B., J. Callealta, J.M. Casas, A. Merediz y J. Nuñez, 1996, Distribución de
la Renta en España, Ediciones Pirámide, Madrid.
Pérez Domínguez, C., 1995, “Cambios en el salario industrial medio de las
regiones españolas: Un análisis para el período 1978-1990”, Boletín de Estudios
Económicos, Vol. L, nº. 155, agosto, págs. 239-262.
Raymond, J.L., 1994, “Condicionantes externos de la evolución de la economía
española”, Documentos de Trabajo nº. 104/1994, Fundación FIES.
Rute, A., 1997, “Workers or employers: Who is shaping wage inequality?”,
Oxford Bulletin of Economics and Statistics, vol. 59, nº 4, págs. 523-547.
Sala-i-Martin, X., 1994, Apuntes de Crecimiento Económico, Antoni Bosch,
editor, Barcelona.

Documentos relacionados