tema 4: regresión y correlación.

Transcripción

tema 4: regresión y correlación.
TEMA 4: REGRESIÓN Y CORRELACIÓN.
4.1. Regresión y correlación lineal simple.................................................. 1
4.2. El método de los mínimos cuadrados y las ecuaciones normales. ........ 3
4.3. Regresión lineal: recta de regresión (mínimos cuadrados). ................. 4
4.3.1. Propiedades de las rectas de regresion. ........................................ 6
4.4. Regresión no lineal. ............................................................................. 6
4.4.1. Ajuste parabólico........................................................................... 6
4.4.2. Ajuste Hiperbólico. ........................................................................ 7
4.4.3. Ajuste Exponencial. ....................................................................... 8
4.4.4. Ajuste Potencial............................................................................. 8
4.5. El coeficiente de determinación correlación. El coeficiente de
correlación lineal. ..................................................................................... 10
4.5.1. La varianza residual. Coeficiente de determinación. .................... 10
4.5.2. Valores del coeficiente de determinación. ................................... 12
4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas
de las rectas de regresión. .................................................................... 12
4.6. Predicción.......................................................................................... 15
4.1. Regresión y correlación lineal simple.
Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que
estudia. Estas relaciones se traducen en expresiones matemáticas. Así si
observamos varias veces el tiempo que tarda un móvil en recorrer una distancia y
su velocidad (supuesto que se desplaza con velocidad uniforme), los valores
observados están claramente relacionados y esa relación puede expresarse
matemáticamente como v = s / t (v t = s).
No obstante, existen otras variables como inflación y tipo de interés, oferta y
demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una
relación, pero no existe una función matemática que verifiquen rigurosamente.
Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una
dependencia funcional, y en el segundo (inflación y tipo de interés) una
dependencia estadística.
La diferencia es que en la primera la relación entre las variables es estricta y
perfecta, y en la segunda el modelo matemático al que lleguemos deberá aproximar
la relación entre variables razonablemente, por lo que deberemos determinar su
forma y contrastar su “bondad”.
Las dependencias de tipo estadístico, son muy frecuentes en economía, y en
general en todas las ciencias sociales.
A las técnicas estadísticas utilizadas para determinar modelos o expresiones que
relacionen el comportamiento de varias variables se les denomina técnicas de
regresión.
Previamente a la aplicación de técnicas de regresión, se requiere un análisis teórico,
que relacione las variables objeto de estudio, que de consistencia al análisis
estadístico:
Este análisis es necesario porque es posible distinguir distintos tipos de
dependencia entre variables:
A) Al azar: a la vista de la información disponible se plantea una relación absurda
entre variables.
Ejemplo: los ciclos económicos y las manchas solares:
Una de las teorías cíclicas mas atrevidas fue puesta sobre la mesa por Stanley
Jewons a finales del siglo xix; esta (avanzada) teoría atribuía las causas ultimas del
desarrollo de los ciclos económicos a la evolución de las manchas solares.
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
1-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que,
cuando están en su fase álgida, generan un mayor numero de manchas solares que
inducen alteraciones meteorológicas en latierra; estos ciclos de actividad solar que
– según lo calculado – tenían una duración media de 10,45 años y precisamente la
misma duración media (10,46 años) que los ciclos económicos habidos entre 1.721
y 1.878, de acuerdo conlos cálculos de Jewons. Obviamente tal coincidencia en
cuanto a la dimensión temporal de estos fenómenos, se debe a la casualidad, ya
que la correlación, no tiene por que implicar necesariamente causalidad. Sin
embargo Jewons pensó que la correlación entre los dos ciclos era demasiado
estrecha para ser accidental, y en función de ello sugirió la causalidad generadora
de los ciclos, es decir la evolución de la actividad solar, determinaría la evolución de
la actividad económica.
B) Una tercera variable influye sobre las dos variables consideradas: cuando dos
variables se ponen en dependencia, se supone que una explicara el
comportamiento de la otra, pero es posible que exista una tercera variable, que
actúe como motor de esa relación. Así es evidente la relación entre consumo y
ahorro de las familias, pero ello no implica que una explique la otra, ya que es
una tercera variable (la renta), la que determina su relación. (no hay relación
causa-efecto entre las dos primeras variables consideradas).
C) Una variable influye en la otra: así por ejemplo el gasto en carne de una familia
vendrá determinado (aunque no de modo exclusivo) por el numero de
miembros de la unidad familiar.
Si dos variables presentan una dependencia estadística, es decir, no funcional, no
es posible encontrar una ecuación, tal que los valores que puedan presentar dichas
variables la satisfagan. Gráficamente, equivale al hecho de que no es posible
encontrar una función, tal que su grafica pase por todos los puntos
correspondientes al diagrama de dispersión asociado a las variables observadas.
35
3
EDAD
30
25
1
20
15
10
5
0
30
40
50
60
2
70
80
90
100
PESO
*el diagrama de dispersión consiste en representar gráficamente nuestros pares
de observaciones (xi , yi).
Representaremos en el eje de abcisas los posibles valores de una variable(x), en el
eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico
serán las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto
de puntos obtenido se le denomina nube de puntos.
Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la
nube, la función cuya grafica más se aproxime a los datos observados expresara
mejor la relación entre los mismos. En nuestro ejemplo la función grafica (1)
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
2-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
expresa mejor la relación que la (2), pero si tenemos que decidir entre la (1) y la
(3), la elección no seria tan elemental. Esto indica que el método grafico puede ser
de gran ayuda, pero no es suficiente para determinar la mejor función, por ello
recurriremos a métodos matemáticos, que no dependan de opiniones subjetivas.
A la variable que se quiere predecir se le denomina dependiente o endógena y a
la variable a partir de la cual queremos hacer la predicción, se le llama
independiente, exógena o explicativa.
Cuando solo utilicemos una variable independiente, estaremos ante la
regresión y correlación simple. Si interviene más de una la regresión o
correlación se denomina múltiple.
Una de las aplicaciones mas interesantes de la regresión en economía es la de
predecir, esto es, conociendo el valor de una de las variables, estimar el valor que
presentara otra variable relacionada con la primera.
Hay que advertir, que una relación estadística fuerte entre variables, no implica la
existencia de una relación causa-efecto entre ellas.
Por ejemplo existe una fuerte correlación entre el número de burros (de 4 patas) y
el número de licenciados universitarios. Ello es fruto de la dependencia común de
ambas variables de una tercera variable (el desarrollo económico industrial), sin
que en ningún caso podamos afirmar que una es causa de la otra.
4.2. El método de los mínimos cuadrados y las ecuaciones normales.
EDAD
Hacer regresión, consiste en ajustar lo mejor posible una función a una serie de
valores observados, gráficamente equivale a encontrar una curva (recta) que
aunque no pase por todos los puntos de la nube, al menos este lo mas próxima
posible a ellos. Supongamos que para poder predecir “y” en base al conocimiento
de “x”, se ha ajustado una función que expresa de la mejor forma posible el
comportamiento de “Y” en función de “X” (Y = f(X)):
y=f(x)
35
30
25
20
15
10
5
0
30
40
50
60
70
80
90
100
PESO
Pues bien utilizando la mencionada función, pronosticaríamos que si X= xi entonces
la variable Y tendría una valor esperado yˆ i = f ( x i ) . Este valor posiblemente no
coincidirá con el que realmente ha presentado la variable Y, yi, de manera que en
dicha predicción se habrá cometido un error;
e i = y i − yˆ i
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
3-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
Esta diferencia se denomina residuo, y nos da una medida del error cometido en el
ajuste para cada punto del diagrama de dispersión.
Un criterio para obtener un buen ajuste que evite que se compensen residuos de
signo positivo con residuos de signo negativo y que sea manejable
(algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es
decir, hacer mínima la suma:
n
n
n
i =1
i =1
i =1
∑ ei2 = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − f ( xi )) 2
Este criterio de minimizar la suma de cuadrados es el conocido como criterio de
mínimos cuadrados.
Se puede observar que el desarrollo anterior consiste en la búsqueda de un
procedimiento para medir la distancia de un conjunto finito de puntos a una curva.
Las funciones que se ajustan con más frecuencia y sus ecuaciones generales, son:
Recta:
y = ax + b
Parábola:
y = a + bx + cx2
Polinomio de grado n :
y = a + bx + cx2 + dx3 + ... + zxn
Hipérbola equilátera:
y = a + b/x
Función potencial:
y =axb
Función exponencial:
y = abx
Curva logística:
y = a/(1 + be-cx)
Exponencial modificada:
y = a + be cx
Si la función es una recta, la regresión se denomina lineal.
4.3. Regresión lineal: recta de regresión (mínimos cuadrados).
Vamos a encontrar entre todas las rectas, cuya ecuación general es y = a + bx,
cual es la que según el método de mínimos cuadrados mejor se ajusta a los datos
observados para una variable bidimensional (x, y).
Conocido el valor xi de la variable X, el valor esperado de y será:
ŷ i = a +bxi,
cometiéndose un error respecto del valor observado de ei = yi – a – bxi.
El método de mínimos cuadrados, en el caso de la recta, trata de encontrar los
coeficientes a y b que hagan mínima la expresión:
S ( a, b ) = Σ ei2 = Σ( yi – a – bxi )2
Para que exista un mínimo en el punto (a0, b0) la condición necesaria, es que se
anulen las derivadas parciales de primer orden en dicho punto, es decir:
δS ( a0 , b0 ) = - 2 Σ( yi – a – bxi ) = 0
δa
(1)
δS( a0 , b0 ) = - 2 Σ( yi – a – bxi ) xi = 0
δb
(2)
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
4-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales
de la recta, y la solución del sistema que forman (sistema de 2 ecuaciones con dos
incógnitas) será un punto (a0, b0) donde S(a,b) se hace mínima.
Este sistema también lo podemos escribir como:
Σ yi = n a + b Σxi
Σ yi xi = a Σxi+ b Σxi2
Vamos a despejar los valores de a y b solución del sistema.
Para ello dividimos las dos ecuaciones por n y nos encontramos con:
⎧ y = a + bx
⎨
⎩a11 = ax + ba X 2
Despejando “a” de la primera ecuación:
a = y − bx
Y sustituyendo en la segunda ecuación:
a11 = ( y − bx ) x + ba X 2 = yx − bx 2 + ba X 2 = yx + b(a X 2 − x 2 ) = yx + bS X2
Si ahora despejamos “b” en esta expresión, tenemos;
b=
a11 − yx S XY
= 2
S X2
SX
Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuación
general de la recta (y=a+bx), obtenemos;
y = (y −
S
S XY
x ) + XY2 x
2
SX
SX
Que podemos expresar como;
y− y =
S XY
(x − x)
S X2
A la expresión dentro del recuadro se le llama recta de regresión de Y/X.
De modo análogo podríamos haber obtenido la recta de regresión de X/Y llegando a
una expresión de la forma;
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
5-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
x−x =
S XY
( y − y)
S Y2
De las ecuaciones de las dos rectas de regresión se deduce que ambas pasan por el
punto ( x , y ) , pudiéndose dar dos alternativas: que coincidan (sus pendientes
deberán ser iguales) o que se corten solo en dicho punto.
4.3.1. Propiedades de las rectas de regresion.
Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media también),
esto es:
Demostración:
Σ ei = 0
Σ ei = Σ( yi – a – bxi ) = Σ yi - Σ a – b Σ xi= Σ yi - n a – b Σ xi = 0
Ya que a y b son solución de la primera ecuación del sistema.
Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las
dos rectas de regresión son coincidentes.
Propiedad 3: La covarianza de las variables Y y e vale 0.
Sey= 0
Sey = a11 –a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastará
demostrar que a11 = 0 (sin demostración).
4.4. Regresión no lineal.
Aunque la regresión lineal, tiene aplicación en muchos problemas, en algunos
casos, la relación que liga las variables exige la utilización de ajustes no lineales. No
obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la
regresión lineal aprovechando el que casi toda función (curva) puede aproximarse
por una recta en un pequeño dominio.
4.4.1. Ajuste parabólico.
Si predecimos la variable y mediante una parábola de ecuación general y = a + b x
+ c x2 el valor esperado será:
ŷ i = a + b xi + c xi 2
Y el error cometido será: ei = yi - ŷ i = yi – a - b xi - c xi 2.
El método de mínimos cuadrados nos conduce a la parábola que hace mínima la
función:
S( a, b, c ) = Σ ei2 = Σ( yi – a – bxi - c xi 2)2
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
6-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
Para que esa función suma S(a,b,c,) alcance un mínimo, sus derivadas parciales
deberán valer 0:
(1)
(2)
(3)
δS( a0 , b0, c0 )
= - 2
Σ( yi – a – bxi - c xi 2) = 0
δa
δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi
δb
δS( a0 , b0, c0 ) = - 2 Σ( yi – a – bxi - c xi
2
2
) xi = 0
) xi2 = 0
δc
Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos
un sistema de tres ecuaciones con tres incógnitas, cuya resolución nos
proporcionara los coeficientes a, b, y c de nuestra parábola de ajuste:
y = a + b x + c a20
a11 = a x + b a20+ c a30
a21 = a a20 + b a30+ c a40
Este tipo de ajuste se utiliza por ejemplo en microeconomía para la curva de costes
marginales en función del volumen de producción (que tiene forma de “U”).
Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado
superior a 2, que tendrá una expresión general: y = b0 + b1 x + b2 x2 +.....+ bn xn
El método de mínimos cuadrados nos conducirá a un sistema similar al anterior,
pero con n ecuaciones y n incógnitas, cuya resolución nos proporcionara los valores
de b0, b1, b2,....., bn
4.4.2. Ajuste Hiperbólico.
Si predecimos la variable y mediante una hipérbola de ecuación general:
y = a + b (1/x)
El valor esperado será:
ŷ i
= a + b (1/xi )
Y el error cometido será: ei = yi -
ŷ i = yi – a – b (1/ xi).
El método de mínimos cuadrados nos conduce a la hipérbola que hace mínima la
función:
S( a, b ) = Σ ei2 = Σ( yi – a – b(1/xi ))2
Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo
la variable z = 1 /x con lo que transformamos la hipérbola en la recta y = a + bz
obteniendo un sistema de ecuaciones normales:
Σ yi = n a + b Σ(1/xi )
Σ yi (1/xi )= a Σ(1/xi )+ b Σ(1/xi2)
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
7-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
Que resolveremos de modo análogo al realizado en el ajuste lineal.
Esta es una manera alternativa, pero podíamos haber efectuado el mismo
razonamiento que para el ajuste parabólico.
La curva de Engel que expresa la demanda de un bien en función de la renta,
adopta en ocasiones la forma de una hipérbola equilátera.
4.4.3. Ajuste Exponencial.
Si predecimos la variable y mediante una exponencial de ecuación general:
y = a ebx
El valor esperado será:
yˆ i = ae bx
ˆ i = y i − ae bx
Y el error cometido será: ei = y i − y
i
i
Al igual que en el caso anterior tenemos dos alternativas:
Bien obtener el mínimo de la función:
S( a, b ) = Σ ei2 = Σ( yi – a – ebx )2
(Este método nos conduce a un sistema de ecuaciones imposible de resolver).
O bien transforma la función exponencial en una función lineal. Esto se hace
tomando logaritmos en la ecuación general.
Nos decantamos por este procedimiento:
Lny = Ln(ae bx ) = Lna + Lne bx = Lna + bx
Llamando:
Y = ln y
;
A = ln a
;
b=b
;
x=x
Podemos presentar la ecuación:
Y=A+bx
Cuyo sistema de ecuaciones normales seria:
Σ ln yi = n Lna + b Σxi
Σ xi ln yi = Lna Σxi + b Σxi2
4.4.4. Ajuste Potencial.
Si predecimos la variable y mediante una potencial de ecuación general y = a xb el
valor esperado será:
Y el error cometido será: ei =
yˆ i = ax ib
y i − yˆ i = y i − ax ib
Nuevamente tenemos dos alternativas:
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
8-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
A) Hacer mínima la suma de los cuadrados de los residuos (da lugar a un sistema
de ecuaciones que no podemos resolver).
B) Transformar la función en una función lineal (tomando logaritmos):
Ln y =ln( a xb) = ln a + b lnx
Llamando:
Y = ln y
;
A = ln a
;
b=b
;
X = ln x
Podemos presentar la ecuación:
Y=A+bX
Cuyo sistema de ecuaciones normales seria:
Σ ln yi = n Ln a + b Σln xi
Σ lnxi ln yi = Lna Σlnxi + b Σ(ln xi)2
Ejercicio: ajustar a una función potencial y a una función exponencial, los siguientes
datos:
2
4
3
1
Xi
Yi
6
5
1
3
Para ajustar a una función potencial:
A) y = a xb ⇒ ln y = ln a + b ln x⇒ Y= A + b X
Para ajustar a una función exponencial:
B) y = a ebx ⇒ ln y = ln a + bx ⇒ Y = A + b x
Ampliamos nuestra tabla con los datos que faltan:
Yi
Ln xi
Ln yi
Lnxiln yi Xi ln yi
Xi
2
6 0.693
1.79
1.24
3.58
4
5 1.386
1.61
2.23
6.44
3
1 1.099
0
0
0
1
3
0 1.099
0
1.099
10 Sumas
3.178
4.5
3.47 11.119
Xi2
4
16
9
1
30
(ln xi)2
0.48
1.92
1.21
0
3.61
a) FUNCION POTENCIAL:
SLn x Ln y
Ln x Ln y
B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326
S2 Ln x
S2 Ln x
SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION
DE AJUSTE POTENCIAL:
Y = 3.326 X-0.0967
b)
FUNCION EXPONENCIAL:
S x Ln y
Sx Ln y
B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190
S2 x
S2x
a = Exp A=3.289
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
9-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION
DE AJUSTE EXPONENCIAL:
Y = 3.289 e-0.0262 X
4.5. El coeficiente
correlación lineal.
de
determinación
correlación.
El
coeficiente
de
Antes de enunciar y describir brevemente otras formas de ajuste deberemos
plantearnos lo siguiente:
La regresión nos permite ajustar una nube de puntos a una recta (ajuste lineal) o
curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan
las variables. De otra manera, la regresión determina la mejor de las rectas o
curvas establece una relación entre dos variables, pero el hecho de que sea la
mejor posible, no quiere decir que sea “buena” (puede ocurrir que los errores que
estemos cometiendo sean elevados), ya que es posible que exista otra función
matemática que modelice mejor la relación entre las variables.
Por tanto tan importante será conocer la forma en que se relacionan las variables
(de eso se ocupa la regresión), como conocer el grado de asociación/dependencia
de dichas variables (de esto se ocupa la correlación), y encontrar alguna medida o
coeficiente que nos mida el grado de bondad o de representatividad de la relación
que hemos establecido mediante técnicas de regresión.
4.5.1. La varianza residual. Coeficiente de determinación.
El método de mínimos cuadrados toma como medida del error que se comete,
cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado:
n
∑e
i =1
2
i
n
n
i =1
i =1
= ∑ ( y i − yˆ i ) 2 = ∑ ( y i − f ( xi )) 2
Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste.
En el caso de funciones lineales (recta, parábola, hipérbola, etc.), la media de los
residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos
dividida por n no es otra cosa que la varianza de la variable “e”y se denomina
varianza residual:
n
∑ ei2
i =1
n
n
=
∑ (e
i =1
i
− e)
n
= S e2
Veamos el significado de esta varianza residual:
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
10-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
e i = y i − yˆ i ⇒ y i = yˆ i + ei ⇒ S y2 = S y2ˆ + S e2
El primer sumando a la derecha de la igualdad se denomina varianza explicada por
la regresión y nos indica en qué medida queda explicada la variable dependiente (y)
mediante el modelo de ajuste, pudiéndose interpretar el segundo sumando -que es
la varianza residual- como una medida de lo que queda sin explicar después de
haber efectuado la regresión.
Esta varianza residual presenta el problema de determinar a partir de que valores
es suficientemente pequeña o grande como para admitir un buen o mal ajuste: la
respuesta a este interrogante nos la dará el coeficiente de determinación R2.
R =
2
S y2ˆ
=
S y2
S y2 − S e2
S y2
= 1−
S e2
S y2
Antes de estudiar el rango de variación de este coeficiente, veamos una forma
cómoda de calcular se 2 para el caso particular de un ajuste lineal:
n
n
n
2
∑ y i − a ∑ y i − b ∑ xi y i
R =
2
S y2ˆ
S y2
=
S y2 − S e2
S y2
=
S y2 − i =1
i =1
i =1
n
S y2
Si sustituimos a y b por sus valores: a = y − bx ; b =
S xy
S x2
y tenemos en cuenta
que:
n
∑y
i =1
n
2
i
n
∑x y
n
=S +y
2
y
2
∑ yi
i =1
;
n
=y
i
i =1
;
n
i
= S xy + x y
Tenemos que:
n
R2 =
S y2ˆ
S
2
y
=
S y2 − S e2
S
2
y
S −
=
2
y
∑ y i2 − ( y −
i =1
S XY
S X2
n
x )∑ y i −
i =1
n
S
2
y
S XY
S X2
n
∑x y
i =1
i
i
=
⎡
⎤
S
S
S
S
S
S y2 − ⎢( S Y2 + y 2 ) − ( y − XY2 x ) y − XY2 ( S xy + x y )⎥ − XY2 x y + XY2 S xy + XY2 x y )
SX
SX
SX
SX
SX
⎣
⎦
=
=
2
2
Sy
Sy
⎛ S
= ⎜⎜ XY
2
2
S X SY ⎝ S X SY
2
S XY
⎞
⎟⎟
⎠
2
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
11-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
A
S xy
SxS y
se le denomina coeficiente de correlación lineal y se denota con la letra
“r”:
r=
S xy
Sx Sy
Por tanto, en el caso (y únicamente en este caso) de un ajuste lineal, se tiene que:
R2 = r 2
4.5.2. Valores del coeficiente de determinación.
El coeficiente de determinación toma valores entre 0 y 1;
•
Toma el valor “0” cuando la regresión no explica nada de la variabilidad de
los valores observados y por tanto el ajuste obtenido no modeliza
adecuadamente (ni siquiera minimamente) la relación entre variables.
R =
2
•
S yˆ2
S
2
y
= 0 ⇒ S yˆ2 = 0 ⇔ S y2 = S e2
Toma el valor “1” cuando el ajuste efectuado recoge toda la variabilidad de
la variable original, y por tanto el ajuste es perfecto.
R =
2
•
0 ≤ R2 ≤ 1
S yˆ2
S
2
y
= 1 ⇒ S yˆ2 = S y2 ⇒ S e2 = 0
Para valores entre “0” y “1”, el ajuste es tanto mejor cuanto más se
aproxima a 1 el coeficiente de determinación. Los ajustes se consideran
razonables cuando R ≥ 0,75 .
2
4.5.3. Valores del coeficiente de correlación lineal: Posiciones relativas de
las rectas de regresión.
El coeficiente de correlación lineal puede utilizarse como medida
alternativa al coeficiente de determinación para evaluar la bondad del
ajuste exclusivamente en el caso de regresión lineal. Veamos las posiciones
relativas de las rectas de regresión de Y/X y de X/Y y su relación con los valores del
coeficiente de correlación lineal.
Dado que el coeficiente de correlación lineal se define como:
r=
Podemos asegurar que:
S xy
Sx Sy
con
R2 = r 2
0 ≤ r 2 ≤ 1 ⇒ −1 ≤ r ≤ 1
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
12-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
A) Cuando r = 0, esto supone únicamente que no existe relación lineal alguna entre
x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de
función por ejemplo x2 + y2 = 1(ver figura).
Y/X
X/Y
Conclusión: por tanto cuando r = 0 el ajuste lineal no será el indicado.
Esta conclusión y la exposición son también aplicables al ajuste hiperbólico,
considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x.
B) r = ±1. Cuando r = ±1, ⇒ r2 = 1, entonces la varianza residual s2e=0
Esto implica que todos los errores o residuos son nulos y que las rectas de
regresión pasan por todos los puntos que se han observado. Por tanto las dos
rectas coinciden. Si r=1 la pendiente de las rectas será positiva y si r=-1 la
pendiente de las rectas será negativa (ver figura).
r = 1(corr.perfecta +)
r = -1(corr.perfecta -)
C) –1 < r < 0 ó 0 < r < 1. Estas situaciones intermedias serán las que mas veces
se presenten en la práctica. A medida que r se aleja de 0 mejor será el ajuste por
una recta de mínimos cuadrados.
NOTAS:
* Si consideramos las rectas de regresión Y / X ≡ Y = aX + b y X / Y ≡ X = cY + d
sus pendientes son respectivamente a =
S xy
S x2
;c =
S xy
S y2
y por tanto el coeficiente de
correlación lineal al cuadrado viene determinado como el producto de las
pendientes de las dos recta de regresión:
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
13-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
⎛ S xy
r =⎜
⎜S S
⎝ x y
2
2
⎞
S S
⎟ = xy xy = bc
⎟
S x2 S y2
⎠
(
)
* Ambas rectas se cortan en el punto x, y . Es decir las dos rectas de regresión
siempre se cortan y lo hacen en ese punto:
y
x
* Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la
siguiente situación:
y
x
* Si las variables son independientes su covarianza valdrá 0 y por tanto las dos
rectas de regresión serán de la forma: Y / X ≡ y = y y X / Y ≡ x = x
y
x
* Bondad del ajuste de la parábola.
Debido a que la recta es un caso particular de parábola (la parábola tiene por
ecuación y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se
obtendrán siempre mejores ajustes mediante parábolas que mediante funciones
lineales (rectas), siendo el coeficiente de determinación para la parábola siempre
mayor que el de la recta (recordemos que en la recta r2 = R2).
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
14-15
TEMA 4: REGRESIÓN Y CORRELACIÓN.
Por este mismo razonamiento puede pensarse que considerando polinomios de
mayor grado se consiguen mejores ajustes (recordemos que la parábola es un
polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el
orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como
se quiera. La bondad del ajuste dependerá del mayor o menor grado de asociación
entre las variables en estudio, si estas no presentan apenas relación (de cualquier
tipo) no podremos encontrar funciones que ajusten bien los datos observados.
4.6. Predicción.
Como ya indicamos, la predicción es una de las aplicaciones más importantes de la
regresión. La predicción consiste en determinar(a partir del modelo ajustado), el
valor de la variable dependiente para un valor dado de la variable independiente.
Cuando la estimación/predicción se hace para un valor de la variable independiente
dentro del rango de nuestras observaciones se denomina interpolación y si se hace
para un valor de la variable fuera del rango se denomina extrapolación.
Para la interpolación la fiabilidad de los valores pronosticados será tanto mayor
cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de
que exista relación/asociación entre las variables.
Cuando hacemos predicciones para valores de la variable muy alejados del rango
de variación de la variable independiente, se corre el riesgo de que el modelo
ajustado no sea valido para dichos valores en la medida dada por R2.
Bibliografía básica
* Mª Angeles palacios, Fernando A. López Hernández , José García Córdoba y
Manuel Ruiz Marín. “INTRODUCCIÓN A LA ESTADÍSTICA PARA LA EMPRESA”.
Librería Escarabajal
* Martín-Pliego López, Fco. “Introducción a la estadística económica y empresarial”.
Ed. Thomson
* Casas, J. M., Callealta, J., Núñez, J., Toledo, M. y Ureña, C. (1986). Curso Básico
de Estadística Descriptiva. I.N.A.P.
* Hermoso Gutiérrez, J. A. y Hernández Bastida, A. (1997). Curso Básico de
Estadística Descriptiva y Probabilidad. Ed. Némesis.
Para saber más o aclarar dudas:
http://www.monografias.com/trabajos26/estadistica-inferencial/estadisticainferencial.shtml
http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre
sion_correlacion/Indice.htm
http://campusvirtual.uma.es/estadcomp/Cap2.pdf
http://www.elprisma.com/apuntes/curso.asp?id=5946
http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf
http://www.eui.upm.es/~acorral/material/regresion.pdf
http://www3.uji.es/~mateu/t2-ig12.doc
DEPARTAMENTO DE MÉTODOS CUANTITATIVOS E INFORMÁTICOS
FACULTAD DE CIENCIAS DE LA EMPRESA
UNIVERSIDAD POLITÉCNICA DE CARTAGENA
15-15

Documentos relacionados