Regresión Lineal Múltiple - Semana 07
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 33
Inferencias sobre la respuesta media y valores futuros
Suponga que se desea estimar la respuesta media para los valores en las predictoras
X1=x01,X2=x02,...,Xk=x0k.
Sea Y0la respuesta desconocida en tal conjunto de valores, si se define el vector fila:
x0
= [
1x01 x02 . . . x0k
], entonces se puede escribir Y
0
=
x0β
+
ε0
,por lo tanto
la respuesta media en tal punto es:
µY|x0=E[Y|x0] = x0β=β0+β1x01 +β2x02 +··· +βkx0k.
Este valor es estimado por la correspondiente respuesta o valor ajustado,
b
Y0
, que puede
escribirse como:
b
Y0=x0b
β=b
β0+b
β1x01 +b
β2x02 +··· +b
βkx0k,
2 / 33
el cual tiene las siguientes propiedades:
Ehb
Y0i=Ehx0b
βi=x0Ehb
βi=x0β=E[Y|x0], esto es, b
Y0es un estimador
insesgado de la respuesta media E[Y|x0].
Var hb
Y0i=Var hx0b
βi=x0Var hb
βix
0=σ2x0XX1x
0, que es estimada por:
d
Var hb
Y0i=MSE x0XX1x
0.
Bajo el supuesto de normalidad en los errores, b
Y0es una variable aleatoria normal,
debido a que es una combinación lineal de los b
βj’s que también son normales.
En resumen:
b
Y0NE[Y|x0], σ2x0XX1x
0
3 / 33
Luego, se tiene que el estadístico T=b
Y0E[Y|x0]
se(b
Y0)tnp, con se(b
Y0) = qd
Var[b
Y0],
lo cual permite demostrar lo siguiente:
Para la respuesta media E[Y|x0]en un vector apropiado x0.
Pruebas de hipótesis sobre la respuesta media para un nivel de significancia α
Juego de hipótesis Estadístico de prueba Criterio de rechazo
H0:µY|x0=c
H1:µY|x0=c
con cR
T0=b
Y0c
se b
Y0bajo H0
tnpSe rechaza H0si
|T0|>t1α/2,np
donde t1α/2,npes el percentil 1 α/2 de la distribución t-Student con npgrados
de libertad.
4 / 33
IC del (1 α)100% para la respuesta media E[Y|x0]:
Basados de nuevo en que el estadístico:
T=b
Y0E[Y|x0]
se(b
Y0)tnp
lo cual implica que:
P tα/2,np<b
Y0E[Y|x0]
se(b
Y0)<tα/2,np!=1α
De donde se obtiene que un IC del (1 α)100% para la respuesta media:
µY|x0=E[Y|x0]es:
b
y0±tα/2,npse(b
Y0).
5 / 33
Considere ahora el problema de predecir un valor futuro Y
0
(no observado en la muestra)
de la variable respuesta, en X1=x01,X2=x02,...,Xk=x0k.
Claramente, usando el modelo ajustado, predecimos de manera puntual tal valor por
b
Y0
,
pero sabemos que no es un estimador insesgado de Y
0
, por lo que siempre se genera un
error de predicción dado por: Y0b
Y0.
Note que el error de predicción tiene media cero y dado que el valor futuro y su
pronóstico son independientes, entonces la varianza del error de predicción
b
Y0
Y
0
está
dada por:
Var hY0b
Y0i=Var [Y0] + Var hb
Y0i=σ2h1+x0XX1x0i,
que es estimada por: d
Var hb
Y0Y0i=MSE h1+x0XX1x0i.
6 / 33
Con esto podemos hallar los siguientes resultados:
Para un valor futuro Y0en un vector apropiado x0:
IP del (1 α)100% para un valor futuro Y0:
Basados en este caso en que el estadístico:
T=Y0b
Y0
se(Y0b
Y0)tnp,
con se(Y0b
Y0) = qd
Var[Y0b
Y0], lo cual implica que:
P tα/2,np<Y0b
Y0
se(Y0b
Y0)<tα/2,np!=1α
De donde se obtiene que un IP del (1 α)100% para un valor futuro Y0es:
b
Y0±tα/2,npse(Y0b
Y0)
7 / 33
Notas:
Los intervalos de predicción estiman los posibles valores para un valor particular de
la variable respuesta (no para su media) en un vector dado x0.
Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y
por tanto, no fue utilizado en la regresión.
Si Y0es un valor futuro y b
Y0=x0b
βes su estimador, entonces estas dos variables
aleatorias son estadísticamente independientes, dado que Y0no fue utilizado para
hallar los parámetros estimados, de ahí el estadístico y los límites del intervalo de
predicción.
8 / 33
Precaución:
Deben evitarse las extrapolaciones por fuera del rango de experimentación en el espacio
de las predictoras, para lo cual no basta con evaluar si cada valor componente del vector
x0
se encuentra dentro del rango usado (u observado) para la correspondiente predictora,
sino que es necesario evaluar si x0pertenece a la región de observación conjunta.
Para ello basta con verificar si:
h00 =x0XX1x
0<max
1in{hii }
con hii el i-ésimo elemento de la matriz ‘hat’ H
n×n=X(XTX)1XT.
9 / 33
Validación de los supuestos del modelo de RLM
Para la validación de supuestos se usan generalmente los residuales del modelo, los
cuales sabemos que se definen así:
ei=yiˆyi,i=1,...,n
Observe que, la magnitud de los residuales eidepende de la escala de medida de la
respuesta Y, lo cual no permite determinar cuando un residual es ‘grande’. Para resolver
este problema en lugar de usar los residuales crudos definidos arriba, se recomienda
utilizar residuales escalados que transforman a los anteriores para tener media cero y
varianza unitaria.
10 / 33
Residuales escalados
Se han definido varias versiones de residuales escalados, entre los que se destacan:
Residuales estandarizados: para su definición se considera el supuesto sobre los
errores, que establece que
εi
se distribuye con media cero y varianza
σ2
. Por tanto,
los residuales estandarizados, denotados dise definen como:
di=ei
MSE,i=1,...,n
Si el supuesto es adecuado los valores de d
i
deben oscilar entre -3 y 3. Por tanto, Un d
i
grande (|di|>3) es indicio de una observación potencialmente atípica.
11 / 33
Residuales estudentizados: para su definición se considera el hecho de que
realmente los residuales eien general no son independientes ni tienen varianza
constante como los errores εi. Veamos,
Sabemos que,
e
= (
IH
)
Y
, donde
IH
es una matriz simétrica e idempotente.
Luego,
E[e] = E[(IH)Y]=(IH)E[Y]=(IH)Xβ
=XβHXβ=XβXXX1XXβ=0
Var [e] = Var [(IH)Y]=(IH)Var [Y] (IH)=σ2(IH)
De donde: V(ei) = σ2(1hii )y cov(ei,ej) = σ2hij .
12 / 33
Por tanto, mientras que los errores εitienen varianza constante σ2y son
incorrelacionados, los residuales no necesariamente tienen la misma varianza y pueden
ser correlacionados.
De esta forma, los residuales estudentizados, denotados ri, se definen como:
ri=ei
pMSE(1hii ),i=1,...,n.
Este residual, con mayor razón debe moverse entre -3 y 3. Se considera atípica aquella
observación con un rigrande (|ri|>3).
13 / 33
NOTAS:
Si el modelo de RLM especificado es correcto los ritienen varianza
aproximadamente constante!! igual a 1.
En conjuntos grandes de datos la varianza de los rise puede estabilizar en 1 y así
no hab mucha diferencia entre éstos y los di.
Si todos los supuestos del modelo se cumplen, se espera que aproximadamente el
68% de los residuales d
i
ór
i
, estén entre
1 y +1, aproximadamente el 95% entre
2 y +2 y aproximadamente 99.7% entre 3 y +3.
La validación de los supuestos vista en regresión lineal simple se mantiene, solo que
ahora se recomienda utilizar residuales escalados (dió preferiblemente ri) en lugar de
utilizar los residuales crudos ei.
14 / 33
Validación de los supuestos en los errores
Recuerde que en los modelos de regresión se han impuesto las siguientes cuatro
condiciones sobre el término de error:
Los errores son variables aleatorias normales.
Los errores tienen media cero.
Los errores tienen varianza constante.
Los errores son mutuamente independientes.
15 / 33
Recuerde que en esta asignatura asumiremos el supuesto de independencia de los errores
y en virtud de que usando los residuales del modelo el supuesto de media cero siempre se
cumple, entonces se define lo siguiente:
El supuesto de normalidad puede chequearse bien sea con el gráfico de probabilidad
normal de los residuales o con alguna de las pruebas analíticas de normalidad, entre
las cuales se tienen las de Shapiro Wilk, Kolmogorov Smirnov, Cramér von Mises y
Anderson Darling.
Para chequear el supuesto de varianza constante, resulta útil un gráfico de
residuales versus valores ajustados de la respuesta.
16 / 33
Falta de ajuste en el modelo de RLM
La falta de ajuste también puede ser evaluada y para el modelo de regresión múltiple se
quiere saber si:
EYX1,X2,...,Xk=β0+β1X1+β2X2+··· +βkXk,
es una superficie de respuesta apropiada, es decir, se quiere probar:
H0:EYX1,X2,...,Xk=β0+β1X1+β2X2+··· +βkXk
H1:EYX1,X2,...,Xk=β0+β1X1+β2X2+··· +βkXk
Para llevar a cabo esta prueba, se necesitan replicaciones de la respuesta en las
combinaciones de niveles de las variables predictoras. El procedimiento es el mismo que
se estudió en RLS y se basa en la descompocisión de la SSE:
SSE =SSLOF +SSPE
17 / 33
El procedimiento de prueba se resume en la siguiente tabla:
ANOVA con prueba de falta de ajuste en el modelo de RLM
Fuente de Suma de Grados de Cuadrado F
Variación Cuadrados Libertad Medio Calculado
Regresión SSR k =p1MSR =SSR
k=SSR F0=MSR
MSE
Error SSE np MSE =SSE
np
Falta de Ajuste SSLOF m p MSLOF =SSLOF
mpF0=MSLOF
MSPE
Error Puro SSPE n m MSPE =SSPE
nm
Total SST n 1
Se rechaza H0a un nivel de significancia αsi F0>f1α;mp,nm. En tal caso se
concluye que la superficie de respuesta no es apropiada.
18 / 33
Medidas Remediales
Las medidas remediales descritas en el caso de RLS también son aplicables en RLM. Con
el fin de superar las deficiencias del modelo se pueden realizar transformaciones sobre la
variable respuesta y/o sobre las variables predictoras.
Las transformaciones sobre la respuesta pueden ayudar en el caso de que los errores no
resulten normales o la varianza no sea constante. Transformaciones sobre las variables
predictoras resultan útiles cuando la superficie de respuesta es curvilínea.
Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna
transformación resulta útil y/o interpretable, existe otra alternativa, los llamados
modelos lineales generalizados con los cuales se pueden modelar respuestas que no se
distribuyen normales; sin embargo, tales modelos están más allá del alcance de este
curso.
19 / 33
Identificación de observaciones extremas en el modelo de RLM
Además de la validación de supuestos en los errores de un modelo de RLM, se debe
chequear la presencia de observaciones extremas, tales como:
Observaciones atípicas (outliers)
Puntos de balanceo
Observaciones influenciales
20 / 33
Observaciones atípicas
Una observación atípica (o outlier) es aquella que está separada (en su valor de la
respuesta Y) del resto de las observaciones y por tanto puede afectar los resultados del
ajuste del modelo de regresión.
Interesa identificarlas para luego, si es posible analizar si se tratan de observaciones
malas (por errores de registro o medición) que pueden ser descartadas, o si realmente
son datos correctos pero extraños que no deben ser eliminados del conjunto de datos.
Para detectar observaciones atípicas se usan los residuales escalados definidos
anteriormente. Se considera que una observación es atípica cuando su residual
estudentizado ri, es tal que: |ri|>3.
Muchos outliers en los datos pueden causar niveles de confianza reales menores de lo
esperado.
21 / 33
La siguiente figura ilustra el caso de dos observaciones atípicas.
22 / 33
Puntos de balanceo
Un punto de balanceo es una observación en el espacio de las predictoras, alejada del
resto de la muestra y que puede controlar ciertas propiedades del modelo ajustado.
Este tipo de observaciones posiblemente no afecte los coeficientes de regresión
estimados pero las estadísticas de resumen como el R2y los errores estándar de los
coeficientes estimados.
Los puntos de balanceo son detectados mediante el análisis de los elementos de la
diagonal principal de la matriz
H
, los h
ii
, que proporcionan una medida estandarizada de
la distancia de la i-ésima observación al centro del espacio definido por las predictoras.
23 / 33
Se tiene lo siguiente:
La media de los hii es:
¯
h=
n
P
i=1
hii
n=traza (H)
n=p
n
con pel número de parámetros del modelo de RLM.
Se asume que la observación ies un punto de balanceo si hii >2p/n, pero si
2p/n>1 este criterio no funciona pues los hii siempre son menores que 1.
Observaciones con h
ii
grandes y residuales r
i
también grandes, probablemente serán
influenciales.
24 / 33
La pxima figura ilustra el caso de una observación de balanceo.
25 / 33
Observaciones influenciales
Una observación es influencial si tiene un impacto notable sobre los coeficientes de
regresión ajustados, esto es, una observación influencial se dice que hala al modelo en su
dirección, es decir, una observación es influencial si su exclusión del modelo causa
cambios importantes en la ecuación de regresión ajustada.
Estas observaciones se caracterizan por tener un valor moderadamente inusual tanto en
el espacio de las predictoras como en la respuesta.
Después de identificar las observaciones que están alejadas con respecto a los valores de
Y(atípicas) y/o con respecto a sus valores en X(puntos de balanceo) evaluamos si
éstas son influenciales.
26 / 33
La figura siguiente ilustra el caso de una observación influyente
27 / 33
Para la evaluación se cuenta con las siguientes medidas:
Distancia de Cook.
Diagnóstico DFFITS.
Diagnóstico DFBETAS.
A continuación se presentan los diagnósticos para detectar observaciones influenciales.
28 / 33
1. Distancia de Cook: es una medida de la distancia cuadrática entre, el estimador
de βpor mínimos cuadrados basado en las nobservaciones, y el estimador de β
obtenido eliminando la i-ésima observación, así:
Di=b
β(i)b
βXXb
β(i)b
β
pMSE =r2
i
phii
1hii ,i=1,...,n
donde, b
β(i)es el vector de parámetros estimados obtenido cuando no se considera
en el ajuste del modelo a la observación i.
Note que si Dies alto entonces la observación itiene influencia sobre el vector de
parámetros estimados b
β.
29 / 33
NOTAS:
Si D
i
=f
0.5;p,np
entonces, al eliminar el punto ise movería
b
β(i)
hacia la frontera
de una región de confianza aproximada del 50% para β, basándose en el conjunto
completo de datos, lo cual es un desplazamiento grande e indica que el estimador
por mínimos cuadrados es sensible al i-ésimo punto de datos.
Como f0.5,p,np1se dice que la observación iserá influencial si Di>1.
30 / 33
2.
Diagnóstico DFFITS: es el número de desviaciones estándar que el valor ajustado
b
yise mueve si la observación ies omitida:
DFFITSi=b
Yib
Y(i)
qMSE(i)hii
=ei
qMSE(i)(1hii )hii
1hii 1/2
donde, b
Y(i)es el i-ésimo valor ajustado obtenido cuando no se considera en el
ajuste del modelo a la observación iy MSE(i)es el cuadrado medio del error
obtenido cuando no se considera en el ajuste del modelo a la observación i.
Una observación será influencial si |DFFITSi|>2qp
n.
31 / 33
3.
Diagnóstico DFBETAS: indica cuánto cambia el j-ésimo coeficiente de regresión
estimado
b
βj
en unidades de desviación estándar, si se omite la i-ésima observación:
DFBETASj(i)=b
βjb
βj(i)
qMSE(i)cjj
donde cjj es el j-ésimo elemento en la diagonal principal de la matriz: (XX)1y
MSE(i)es el MSE de la regresión sin la observación i.
Una observación será influencial si |DFBETASj(i)|>2/n.
32 / 33
NOTA: Tanto los D
i
, como los DFFITS y los DFBETAS se pueden afectar tanto por un
error de ajuste grande como por un gran balanceo, por eso, los puntos que sean
detectados por estos criterios deben ser investigados.
33 / 33