Regresión Lineal Simple - Semana 03
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Escuela de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 35
Validación de los supuestos sobre los errores
εi
del modelo de RLS
Recuerde que los supuestos sobre los errores asumidos en el modelo de RLS se pueden
resumir como:
εiiid.
N0, σ2,i=1,...,n,
donde, iid. es la abreviación de independiente e idénticamente distribuido.
2 / 35
Para la validación del modelo se deben probar los supuestos:
Los errores del modelo tienen media cero.
Los errores del modelo tienen varianza constante.
Los errores del modelo se distribuyen normal.
Los errores del modelo son independientes.
3 / 35
Para ello se usan los residuales del modelo
ei=Yib
Yi,i=1,...,n,
que son “seudo” estimaciones de los errores del modelo εi.
4 / 35
Los errores del modelo tienen media cero
Usando los residuales del modelo podemos probar que:
n
X
i=1
ei=
n
X
i=1
(Yib
Yi) =
n
X
i=1
(Yib
β0b
β1Xi)
=
n
X
i=1hYi¯
Yb
β1¯
Xb
β1Xii
=
n
X
i=1hYi¯
Yb
β1Xi¯
Xi
=
n
X
i=1Yi¯
Y
| {z }
=0
b
β1
n
X
i=1Xi¯
X
| {z }
=0
=0
por lo tanto, el supuesto de media cero de los errores siempre se cumple.
5 / 35
Los errores del modelo tienen varianza constante
El supuesto de varianza constante (homogeneidad de varianza) se puede validar a través
de un gráfico de residuales vs. valores ajustados o predichos, donde se quiere probar:
H0:Vεi=σ2
H1:Vεi=σ2
La siguiente figura muestra algunos patrones comunes en la nube de puntos de los
gráficos de residuales, estos patrones sirven para detectar si este supuesto se cumple,
incluso en algunas ocasiones sirven para detectar un mal ajuste del modelo lineal.
6 / 35
Patrones comunes en residuales: (a) y (b) Modelo no lineal. (c), (d), (e) y (f)
Varianza No Constante del error. (g) Modelo Lineal y Varianza Constante.
7 / 35
También se puede recurrir a pruebas analíticas de Homogeneidad de Varianza, una de
ellas es la prueba de Levene Modificada, que No depende del supuesto de normalidad.
La prueba de Levene Modificada es aplicable cuando la varianza se incrementa o
disminuye con Xy los tamaños de muestra necesitan ser suficientemente grandes para
que la dependencia entre los residuales pueda ser ignorada.
En este curso usaremos solo la Prueba Gráfica basada en el gráfico de Residuales
vs. Valores Predichos.
8 / 35
Algunas soluciones al problema de “Varianza No Homogénea”
1. Mínimos Cuadrados Ponderados cuando la Varianza del Error Varía de forma
sistemática.
En la función objetivo de mínimos cuadrados, las diferencias entre los valores
observados y esperados de
yi
se multiplican por pesos o factores de ponderación
ωi
,
tomados en forma inversamente proporcional a la varianza de
yi
, esto es, la función
de mínimos cuadrados considerada es:
S(β0, β1) =
n
X
i=1
ωi(Yiβ0+β1Xi)2
9 / 35
2. Usar Transformaciones en Yque estabilicen la varianza. En algunos tipos de
relaciones la asimetría y la varianza del error se incrementan con la respuesta media.
A veces es necesario sumar una constante a los valores de Ycuando la
transformación es logarítmica, específicamente cuando existen valores negativos.
Se debe tener en cuenta también que cuando la varianza no es constante pero la
relación de regresión es lineal, no es suficiente transformar a Y, pues en ese caso
aunque se estabilice la varianza, también cambia la relación lineal a una curvilínea
y por ende, se requerirá también una transformación en X; sin embargo, este caso
puede manejarse también usando mínimos cuadrados ponderados.
10 / 35
Los errores del modelo se distribuyen normal
En la validación del supuesto de normalidad se evalúa:
H0:εiNormal
H1:εi∼ Normal
Esto se puede realizar bien sea examinando los p-valores arrojados por una prueba
específica de normalidad, como la prueba de Shapiro-Wilk, o mediante un gráfico de
normalidad, en el cual se evalúa si la nube de puntos en la escala normal se puede
ajustar por una línea recta.
11 / 35
Algunas soluciones al problema de “No Normalidad”
La desviación del supuesto de normalidad frecuentemente va de la mano con la no
homogeneidad de la varianza, por ello, a menudo una misma transformación de los
valores de Y, logra estabilizar la varianza y una aproximación a la normalidad. En estos
casos se debe usar primero una transformación que estabilice la varianza y evaluar si el
supuesto de normalidad se cumple para los datos transformados.
Entre las transformaciones que logran corregir la no normalidad se tienen las
transformaciones de potencia Box-Cox:
Yλ
, que incluye la transformación de logaritmo
natural (caso λ=0). Otra solución es trabajar con métodos no paramétricos de
regresión.
12 / 35
Los errores del modelo son independientes
Para probar el supuesto de independencia es necesario conocer el orden de las
observaciones en el tiempo. En tal caso, podemos analizar el supuesto a través del
gráfico de residuales vs. el tiempo u orden de recolección de los datos.
Buscamos patrones sistemáticos como ciclos, rachas, y cualquier otro comportamiento
que indique correlación entre los valores de la serie o secuencia de los residuales.
13 / 35
También existen pruebas para no-correlación como la prueba de Durbin Watson para
autocorrelación de orden 1, en donde se define el modelo autorregresivo de orden 1 para
los errores del modelo
εt=ϕ1εt1+at
con
atiid.
N(0, σ2)
y
|ϕ1|
1; y básicamente se
prueba si la constante de autocorrelación ϕ1es igual a cero.
Note que esta prueba sólo detecta correlación entre observaciones sucesivas por
tanto el no rechazar ϕ1=0 no implica no-correlación entre observaciones separadas
k>1 unidades (en el tiempo u orden de observación).
14 / 35
Nota: Recuerde que no-correlación no implica independencia estadística, pero
independencia estadística si implica no-correlación. Sin embargo, si el par de variables
no-correlacionadas se distribuyen conjuntamente en forma normal, entonces son
independientes!.
En general, mientras sea desconocido el orden de recolección u observación de los datos,
asumimos como válido el supuesto de independencia.
15 / 35
Algunas soluciones al problema “no-independencia de los errores”
1. Trabajar con modelos con errores correlacionados.
2. Adicionar variables de tendencia, estacionalidad.
3. Trabajar con primeras diferencias.
Temática abordada en detalle en el curso de Estadística III.
16 / 35
Prueba de Falta de Ajuste
Además de los supuestos sobre los errores en el modelo de RLS, se asume implícitamente
que el modelo real de regresión entre la variable respuesta y la variable predictora es
lineal en los parámetros del modelo.
La violación de este supuesto puede identificarse gráficamente a través del gráfico de
Residuales vs. Valores Predichos o versus Valores de la Variable Predictora, de
manera que cuando ocurre esta violación, el gráfico exhibe un patrón en el cual los
residuales se desvían de cero en forma sistemática, por ejemplo, cuando la nube de
puntos de estos gráficos presentan una forma de U o una forma de U invertida, como se
observó en la Figura de los patrones de gráficos de residuales, partes (a) y (b).
17 / 35
Otra forma de probar la No Linealidad del Modelo, es mediante la prueba de Falta o
Carencia de Ajuste, la cual prueba que un tipo específico de función de regresión ajusta
adecuadamente a los datos.
Para el caso de la RLS, se quiere probar:
H0:E(Yi) = E(Y|Xi) = β0+β1Xi
H1:E(Yi) = E(Y|Xi)=β0+β1Xi
La prueba asume que los valores de Ydado Xson:
Independientes.
Se distribuyen en forma normal.
Tienen Varianza Constante.
Para esta prueba se requiere que en al menos un valor de Xse haya tomado más de una
observación de Y, ie. que se tengan réplicas.
18 / 35
Para explicar en qué consiste esta prueba, es necesario establecer una nueva
notación, así:
m: El número de valores distintos de X, denominados niveles.
n
i
: El número de observaciones de Ytomadas en el i-ésimo nivel de X. Por tanto,
el número total de observaciones ntomadas cumple que n=Pm
i=1ni.
Yij : La j-ésima observación de la respuesta Yen el i-ésimo nivel de X,
i=1,...,m,j=1,...,ni.
Xi: El i-ésimo nivel de X,i=1,...,m.
¯
Yi
=
1
niPni
j=1
Y
ij
: promedio muestral de las n
i
observaciones de Y tomadas en en el
i-ésimo nivel de X,i=1,...,m.
19 / 35
Para entender el significado de esta prueba, considere en la tabla ANOVA una nueva
partición de la variabilidad, esta vez, del término del error, representada por la suma de
cuadrados del error
SSE =
n
X
i=1
(yib
yi)2=
m
X
i=1
ni
X
j=1
(yij b
yi)2,
en dos componentes: una debida a la falta de ajuste (LOF) y otra debida a lo que
denomina un error puro (PE).
Veamos gráficamente como se da esta nueva partición de la variabilidad, para ello en la
nueva notación consideremos las desviaciones yij b
yi.
20 / 35
Variabilidad en Yal incluir el modelo de RLS.
Observe que: m=6 y ni=3i,i=1,...,m.
21 / 35
Ilustración de la nueva descomposición de la variabilidad.
22 / 35
De ahí que podamos escribir cada diferencia yij b
yicomo:
yij b
yi= (¯yib
yi)+(yij ¯yi)
y reemplazando en la SSE, se obtiene:
SSE =
m
X
i=1
ni
X
j=1
(yij b
yi)2=
m
X
i=1
ni
X
j=1(¯yib
yi)+(yij ¯yi)2
=
m
X
i=1
ni
X
j=1
(¯yib
yi)2+
m
X
i=1
ni
X
j=1
(yij ¯yi)2
=
m
X
i=1
ni(¯yib
yi)2+
m
X
i=1
ni
X
j=1
(yij ¯yi)2
Tarea: comprobar que 2 Pm
i=1Pni
j=1(¯yib
yi) (yij ¯yi) = 0
23 / 35
Así, la suma de cuadrados del error SSE queda expresada mediante la suma de
dos componentes, a saber:
Pm
i=1ni(¯yib
yi)2, que está relacionada con las diferencias entre los promedios de
Yen cada nivel de la predictora Xy los valores ajustados por el modelo de
regresión, y que representan el desajuste del modelo lineal, al cual se le conoce
como Suma de Cuadrados de la Falta de Ajuste, abreviado SSLOF.
Pm
i=1Pni
j=1(yij ¯yi)2, que está relacionada con las diferencias entre las
observaciones de la respuesta y los promedios de Yen cada nivel de la predictora
X, por lo que a esta componente se le conoce como Suma de Cuadrados del
Error Puro, abreviado SSPE.
De donde, se obtiene que: SSE =SSLOF +SSPE.
24 / 35
Cada una de estas sumas de cuadrados tiene asociados unos grados de libertad
(g.l):
Se sabe que SSE tiene n2 g.l.
Analizando la expresión para SSPE, se tienen las mismas nobservaciones y se
estiman mmedias de Y(una en cada nivel de la predictora X) y así SSPE tiene
nmg.l.
Finalmente, SSLOF tiene mobservaciones (los promedios estimados) y se estiman
los dos parámetros del modelo, de donde SSLOF tiene m2 g.l.
A los grados de libertad (g.l) de las sumas de cuadrados también forman una
identidad, así:
g.l(SSE) =g.l(SSLOF) +g.l(SSPE)
(n2) = (m2) + (nm)
25 / 35
A continuación, se definen los cuadrados medios como la razón entre las sumas de
cuadrados y sus respectivos grados de libertad. Esto es,
MSLOF =SSLOF/g.l(SSLOF) =SSLOF/(m2).
MSPE =SSPE/g.l(SSPE) =SSPE/(nm).
Se puede demostrar que:
E[MSPE] = σ2.
E[MSLOF] = σ2+Pm
i=1niE(Yi)β0β1xi2
m2.
26 / 35
Note que, bajo H0tanto MSLOF como MSPE son estimaciones independientes de σ2.
De lo anterior, se considera el siguiente estadístico de prueba:
F0=MSLOF
MSPE =SSLOF/(m2)
SSPE/(nm)Fm2,nm
que bajo la hipótesis nula H0:E(Yi) = β0+β1xi, se distribuye como una Fcon
(m2)y(nm)grados de libertad.
Así, a un nivel de significancia αse rechaza la hipótesis nula de que el modelo
lineal es adecuado (en favor de la hipótesis de que el modelo lineal tiene falta de
ajuste) si F0>Fα,m2,nm.
27 / 35
En la tabla ANOVA presentada en clases anteriores, se puede incluir la prueba de falta
de ajuste que descompone el SSE del modelo, así:
Análisis de varianza que incorpora la prueba de falta de ajuste en el modelo de
RLS
Fuente de Suma de Grados de Cuadrado F
Variación Cuadrados Libertad Medio Calculado
Regresión SSR 1MSR =SSR
1=SSR F0=MSR
MSE
Error SSE n2MSE =SSE
n2
Falta de Ajuste SSLOF m 2MSLOF =SSLOF
m2F0=MSLOF
MSPE
Error Puro SSPE n m MSPE =SSPE
nm
Total SST n 1
28 / 35
Las expresiones para obtener las nuevas sumas de cuadrados son:
SSLOF =Pm
i=1ni(¯yib
yi)2
SSPE =Pm
i=1Pni
j=1(yij ¯yi)2
29 / 35
NOTAS:
En general, en el cálculo de la SSPE sólo se utilizan aquellos niveles ide Xen los
cuales hay réplicas.
En general, la prueba de falta de ajuste puede aplicarse a otras funciones de
regresión, sólo se requiere modificar los grados de libertad del SSLOF, que en
general corresponden a mp, donde pes el número de parámetros en la función
de regresión. Para el caso específico de la regresión lineal simple, p=2.
Cuando se concluye que el modelo de regresión en H0es apropiado, la práctica
usual es usar el MSE y no el MSPE como un estimador de la varianza, debido a que
el primero tiene más grados de libertad.
Cualquier inferencia sobre los parámetros del modelo lineal, por ejemplo la prueba
de significancia de la regresión, solo debe llevarse a cabo luego de haber probado
que el modelo lineal es apropiado.
30 / 35
Algunas soluciones al problema “el modelo de regresión lineal no es
apropiado”
Abandonar el modelo de regresión lineal y desarrollar un modelo más apropiado.
Emplear alguna transformación en los datos de manera que el modelo de regresión
lineal sea apropiado a los datos transformados (modelos intrínsecamente lineales).
Se pueden usar curvas de regresión no paramétricas también llamadas curvas
suavizadas, para explorar y/o confirmar la forma de la función de regresión, por
ejemplo el método LOESS. En este caso la curva suavizada se grafica junto con las
bandas de confianza del modelo de regresión; si la primera cae entre las segundas,
entonces se tiene evidencia de que el modelo ajustado es apropiado.
31 / 35
Transformaciones: Modelos Intrínsecamente Lineales
Un modelo de regresión se considera lineal cuando lo es en los parámetros, por ello las
transformaciones en las variables no implican modelos no lineales. Modelos
intrínsecamente lineales son aquellos que relacionan Ycon Xpor medio de una
transformación en Yo en X, originando un modelo de la forma Y=β0+β1X+ε,
donde YyXson las variables transformadas.
32 / 35
Casos comunes de modelos Intrínsecamente Lineales
Modelo Denominación Transformación
Y=β0eβ1XεModelo
exponencial
multiplicativo
Se ajusta Y=
β
0+β1X+εcon Y= ln(Y)
Y=β0Xβ1εModelo potencial
multiplicativo
Se ajusta Y=β
0+β1X+
εcon Y= ln(Y)yX= ln(X)
Y=β0+β1ln(X) + εModelo
logarítmico
Se ajusta Y=
β0+β1X+εcon X= ln(X)
Y=β0+β1(1/X) + εModelo recíproco Se ajusta Y=
β0+β1X+εcon X=1/X
33 / 35
34 / 35
NOTAS:
1. Los modelos exponenciales y de potencia aditivos: Y=β0eβ1X+ε,
Y=β0Xβ1+εno son intrínsecamente lineales.
2. El supuesto necesario es que cuando el término de error εes transformado, esta
variable transformada deberá ser iid N0, σ2, por ello deben examinarse los
residuales del modelo transformado.
3. En los casos con modelos exponenciales y potenciales multiplicativos, si σes
pequeño se puede obtener un intervalo de confianza aproximado para la respuesta
media tomando antilogaritmos sobre los límites del intervalo hallado para la
respuesta media Y. Sin embargo, cuando hacemos esto, en términos generales,
estamos hallando un intervalo de confianza para la mediana de Y(recordar la
distribución lognormal).
35 / 35