Regresión Lineal Múltiple - Semana 06
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 40
Valores ajustados y residuales
Con los valores ajustados b
Yise construye el vector de valores ajustados dado por
b
yn×1=X
n×pb
β
p×1
=
b
Y1
b
Y2
.
.
.
b
Yn
n×1
Note que el vector b
yse puede reescribir como:
b
y=Xb
β=XXX1Xy
|{z }
b
β
=
H
z }| {
XXX1Xy=Hy
Con Hn×n=XXX1X, donde a la matriz Hse le conoce como la matriz hat
debido a que su multiplicación por el vector de observaciones
y
lleva al vector de valores
ajustados b
y(yhat”).
2 / 40
Realmente, la matriz Hes una matriz de proyección ortogonal (cuadrada, simétrica e
idempotente) que proyecta a yen el plano ajustado. Esta matriz juega un papel muy
importante en regresión tanto en la estimación como en la determinación de valores
extremos, que será desarrollada más adelante.
Los residuales del modelo corresponden como en el caso de RLS a las diferencias entre
los valores observados y los valores ajustados, esto es, ei=Yib
Yiy el vector de
residuales es:
en×1=yb
y=
e1
e2
.
.
.
en
n×1
El vector de residuales también puede expresarse en términos de la matriz H, ya que
e=yb
y=yHy = (InH)y.
3 / 40
Estimación de la varianza
Bajo los supuestos relativos a los errores del modelo
εi
iid
N0, σ2,i=1,2,...,n,
el estimador insesgado de la varianza corresponde a:
b
σ2=MSE =SSE
np,
donde p=k+1 es el número de parámetros del modelo y la suma de cuadrados del
error SSE corresponde a:
SSE =
n
X
i=1
e2
i=
n
X
i=1
(yib
yi)2= (yb
y)(yb
y) = y(IH)y.
4 / 40
Análisis de varianza
Al igual que en RLS en RLM se tiene un procedimiento de prueba basado en el análisis
de varianza para probar la significancia de la regresión, que establece el siguiente juego
de hipótesis:
H0:β1=β2=· · · =βK=0,vs.
H1:algún βj=0,j=1,...,K.
En este enfoque todavía es válida la identidad de suma de cuadrados que establece que:
SST =SSR +SSE
n
X
i=1
(yi¯y)2=
n
X
i=1
(b
yi¯y)2+
n
X
i=1
(yib
yi)2
5 / 40
En RLM, las sumas de cuadrados se pueden expresar en forma matricial, así:
Sumas de cuadrados en forma matricial
En las siguientes rmulas
J
es una matriz de dimensión n
×
ncuyas entradas son todas
iguales a 1, e Ies la matriz identidad de orden n, ie. Jn×neIn×n:
Fuente Suma de cuadrados
Regresión SSR =yhH1
nJiy
Error SSE =y(IH)y
Total SST =yhI1
nJiy
6 / 40
El procedimiento de prueba se resume en la siguiente tabla.
Tabla de análisis de varianza para el modelo de RLM
Fuente de Suma de Grados de Cuadrado F
Variación Cuadrados Libertad Media Calculado
Regresión o Modelo SSR k =p1MSR =SSR
kF0=MSR
MSE
Error o Residual SSE n p MSE =SSE
npF0
BajoH0
Fk,np
Total SST n 1
Se rechaza H0a una significancia dada αsi F0>fα,k,np, donde fα,k,npes el cuantil
1αde la distribución fk,np.
O equivalentemente si se define el valor-P para la prueba como
vp
=P(f
k,np>
F
0
), se
rechaza H0si vp < α. Al rechazar H0, se prueba que existe una relación de regresión,
sin embargo, esto no garantiza que el modelo resulte útil para hacer predicciones.
7 / 40
El coeficiente de determinación múltiple
Denotado por R2y definido como:
R2=SSR
SST =1SSE
SST,
mide la proporción de la variabilidad total observada en la respuesta que es explicada por
el modelo propuesto (esto es, la asociación lineal con el conjunto de variables
X1,X2,...,Xk).
Por ser una proporción, esta cantidad varía entre 0 y 1:
Siendo igual a 0, si todos los coeficientes de regresión ajustados son iguales a cero, y
Siendo igual a 1, si todas las observaciones caen sobre la superficie de regresión
ajustada.
8 / 40
Aunque es usado como una medida de bondad del ajuste de la función de regresión, es
necesario tener presente que:
Valores grandes de R2no implican necesariamente que la superficie ajustada sea
útil. Puede suceder que se hayan observado pocos niveles de las variables
predictoras y por tanto la superficie ajustada no sería útil para hacer extrapolaciones
por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todavía el
MSE podría ser muy grande y por tanto las inferencias tendrían poca precisión.
Cuando se agregan más variables predictoras al modelo, el R
2
tiende a no decrecer,
aún cuando existan dentro del grupo de variables, un subconjunto de ellas que no
aportan significativamente.
9 / 40
Como medida de bondad de ajuste se prefiere usar otros estadísticos que
penalicen al modelo por el número de variables incluidas, entre ellos se tienen el
MSE, y el R
2
ajustado, estas dos medidas son equivalentes, dado que éste último se
define como:
R2
adj =1
SSE
np
SST
n1
=MSE
SST
n1
El R2
adj ajustado disminuye cuando en el modelo se ingresan variables predictoras sin
lograr reducir al SSE, y causando la pérdida de grados de libertad para este último.
Entre dos modelos ajustados se considera mejor el de menor MSE o equivalentemente el
de mayor R2
adj .
10 / 40
Inferencias sobre los parámetros del modelo de regresión
Se puede demostrar que bajo los supuestos del modelo de regresión, se cumple que:
Tj=b
βjβj
se b
βjtnp,j=0,1,...,k,()
con se b
βj=rd
Var b
βjytnpuna variable aleatoria t-Student con npgrados de
libertad.
Basados en este resultado se pueden construir pruebas de hipótesis e intervalos de
confianza para los parámetros del modelo de RLM como se describe a continuación.
11 / 40
Pruebas de hipótesis sobre los parámetros del modelo de RLM
Se tienen en total p=k+1 pruebas de hipótesis sobre los coeficientes individuales del
modelo de RLM. Veamos el procedimiento para el j-ésimo parámetro (j=0,1,...,k).
Se quiere probar:
H0:βj=βj,0
H1:βj=βj,0con βj,0R
En resumen, para βjse tiene que:
Estadístico de prueba Criterio de rechazo
Tj,0=b
βjβj,0
se b
βjbajo H0
tnpRechazar H0si |Tj,0|>|tα/2,np|con nivel de
significancia α
donde tα/2,npes el cuantil 1 α/2 de la distribución t-student con npgrados de
libertad.
12 / 40
NOTA: Un caso particular de las pruebas de hipótesis anteriores son las conocidas
pruebas de significancia de los parámetros individuales, donde el procedimiento de
prueba es idéntico al anteriormente mostrado haciendo βj,0=0. Acá, las hipótesis son:
H0:βj=0
H1:βj=0
cuyo procedimiento de prueba se resume como:
Estadístico de prueba Criterio de rechazo
Tj,0=b
βj
se b
βjbajo H0
tnpRechazar H0si |Tj,0|>|tα/2,np|con nivel de
significancia α
donde tα/2,npes el cuantil 1 α/2 de la distribución t-student con npgrados de
libertad.
13 / 40
Intervalos de confianza para los parámetros del modelo de RLM
De nuevo con base en el resultado dar cick aqui: ()un intervalo de confianza (IC) del
(1α)% para el j-ésimo parámetro βj(j=0,1,...,k), es:
b
βj±tα/2,npse b
βj
donde
tα/2,np
es el percentil 1
α/
2 de la distribución t-Student con n
pgrados de
libertad.
14 / 40
Prueba de la significancia de un subconjunto de coeficientes de la
regresión
Considere el caso en que se desea probar simultáneamente la significancia de 2 ó más
coeficientes de la regresión, reunidos en el subconjunto A, en la presencia de otros
coeficientes de regresión, reunidos en el subconjunto B. Para lo cual, se debe separar la
importancia de los coeficientes de regresión del subconjunto Adado que los coeficientes
de regresión en el subconjunto Bestán presentes en el modelo.
Una forma de medir la importancia de un subconjunto de coeficientes en un modelo de
RLM es a través de las denominadas:sumas de cuadrados extra osumas extra de
cuadrados.
15 / 40
Una suma de cuadrados extra (SSextra) mide la reducción marginal en la SSE (o el
incremento marginal en la SSR) producida por uno o varios coeficientes de regresión,
dado que los otros coeficientes de regresión están presentes en el modelo.
Una notación para las SSextra en un modelo de RLM debe definir:
El subconjunto Ade coeficientes de regresión del que se quiere obtener la SSextra.
El subconjunto Bde coeficientes de regresión que acompañan al subconjunto Aen
el modelo.
Se debe cumplir que ABdebe estar incluido en el conjunto de todos los coeficientes
de regresión del modelo, y AB=ϕ.
Así, una suma de cuadrados extra para el subconjunto Adado un subconjunto Bse
denota y calcula como:
SSR (A|B)=SSR (AB)SSR (B)=SSE (B)SSE (AB)
16 / 40
Ejemplos de sumas de cuadrados extra
Suponga un modelo de regresión múltiple de una respuesta Yen función de tres
variables predictoras X1,X2,X3, esto es,
Y=β0+β1X1+β2X2+β3X3+ε
Veamos algunas de las posibles sumas de cuadrados extras:
SSRβ1β0, β2, β3=SSR (β0, β1, β2, β3)SSR (β0, β2, β3)
=SSE (β0, β2, β3)SSE (β0, β1, β2, β3)
es la suma de cuadrados extra de
β1
dado que
β0
,
β2
y
β3
están presentes en el modelo
de regresión.
17 / 40
SSRβ1, β2β0, β3=SSR (β0, β1, β2, β3)SSR (β0, β3)
=SSE (β0, β3)SSE (β0, β1, β2, β3)
es la suma de cuadrados extra de β1yβ2dado que β0yβ3están presentes en el
modelo de regresión.
SSRβ1β0, β3=SSR (β0, β1, β3)SSR (β0, β3)
=SSE (β0, β3)SSE (β0, β1, β3)
es la suma de cuadrados extras de
β1
dado que
β0
y
β3
están presentes en el modelo de
regresión.
(Tarea: defina la suma de cuadrados extra SSRβ2β0, β1)
18 / 40
Volviendo al objetivo inicial donde se desea probar simultáneamente la significancia de 2
o más coeficientes de la regresión, por ejemplo, en el modelo
Y=
β0
+
β1
X
1
+
β2
X
2
+
β3
X
3
+
β4
X
4
+
β5
X
5
+
ε
, se desea probar si el subconjunto de
coeficientes de regresión β1, β2yβ5es significativo en el modelo, esto es, se desea
probar que:
H0:β1=β2=β5=0
H1:Algún βj=0,j=1,2,5.
Para este tipo de pruebas se requiere calcular las sumas de cuadrados extra asociada al
subconjunto de los coeficientes de regresión de A=
{β1, β2, β5}
dado el subconjunto de
coeficientes restante B={β0, β3, β4}.
19 / 40
Esto es,
SSRβ1, β2, β5β0, β3, β4
=SSR (β0, β1, β2, β3, β4, β5)SSR (β0, β3, β4)
=SSE (β0, β3, β4)SSE (β0, β1, β2, β3, β4, β5)
Note que en este cálculo se pueden definir dos modelos:
Un modelo completo: que incluye todos los coeficientes de regresión que se
consideran inicialmente en el modelo (el conjunto AB). Para el ejemplo es:
Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+ε.
Un modelo nulo o reducido: que se obtiene al aplicar lo establecido en H0al
modelo completo, es decir, eliminando los coeficientes de regresión en A(quedando
los coeficientes de regresión en B). Para el ejemplo es:
Y=β0+β3X3+β4X4+ε.
20 / 40
Al igual que en las sumas de cuadrados vistas en la tabla ANOVA, las sumas de
cuadrados extra tienen asociados unos grados de libertad, que en este caso se obtienen
como el tamaño del subconjunto Aque se está probando, o equivalentemente como la
diferencia en grados de libertad de la SSR (o SSE) de los dos modelos definidos
anteriormente.
Para el ejemplo:
g.l SSRβ1, β2, β5β0, β3, β4
=g.l SSR (β0, β1, β2, β3, β4, β5)g.l SSR (β0, β3, β4)
=52=3(k=p1)
=g.l SSE (β0, β3, β4)g.l SSE (β0, β1, β2, β3, β4, β5)
= (n3)(n6)(np)
=3
21 / 40
También se define el cuadrado medio extra (MSextra) como la razón entre la suma de
cuadrados extra y sus respectivos grados de libertad. Para el ejemplo:
MSRβ1, β2, β5β0, β3, β4=SSRβ1, β2, β5β0, β3, β4
3
Finalmente, el estadístico de prueba es igual a la razón del cuadrado medio extra sobre
la media cuadrática de error del modelo completo. Para el ejemplo, sería:
F0=MSRβ1, β2, β5β0, β3, β4
MSEβ0, β1, β2, β3, β4, β5
=SSRβ1, β2, β5β0, β3, β4/3
MSE1
A un nivel de significancia
α
, el criterio de rechazo es F
0>
f
α,3,n6
, donde f
α,3,n6
es el
cuantil 1 αde la distribución f3,6.
1siempre en el denominador esta el MSE del modelo completo.
22 / 40
Recordemos que el valor de
α
en el valor crítico anterior representa la probabilidad a la
derecha de un distribución F, así como se muestra en la siguiente figura.
23 / 40
Otro ejemplo:
En el modelo Y=
β0
+
β1
X
1
+
β2
X
2
+
β3
X
3
+
β4
X
4
+
β5
X
5
+
ε
, para probar la hipótesis:
H0:β2=β4=0
H1:Algún βj=0,j=2,4.
se usa como estadístico de prueba a
F0=SSRβ2, β4β0, β1, β3, β5/2
MSE
bajo H0
F2,n6
y con un nivel de significancia αel criterio de rechazo de la hipótesis nula es
F0>fα,2,n6, donde fα,2,n6es el cuantil 1 αde la distribución f2,n6.
24 / 40
Uso de SSextra para la prueba de significancia de un coeficiente
individual
En un modelo de RLM con kpredictoras, esta prueba establece que:
H0:βj=0
H1:βj=0,j=1,2,...,k,
donde A={βj}yB={β0, β1, β2, . . . , βj1, βj+1, βj+2, . . . , βk}. Luego, usando
SSextra el estadístico de prueba es:
Fj,0=SSRβjβ0, β1, β2, . . . , βj1, βj+1, βj+2, . . . , βk
MSE .
Observe que la SSextra solo tiene un grado de libertad, de forma que es igual al
MSextra, y bajo la hipótesis nula F
j,0
f
1,np
, por lo cual, a un nivel de significancia
α
,
el criterio de rechazo de la hipótesis nula es: F
j,0>
f
α1,np
, donde f
α,1,np
es el cuantil
1αde la distribución f1,np.
25 / 40
La prueba anterior es equivalente a la prueba tdefinida en una clase anterior. De hecho
se puede demostrar que.
Fj,0=T2
j,0.
Si se calculan los valores-P de los dos procedimientos de prueba, se llega a que:
vpF=P(f1,np>Fj,0)P(|tnp|>|Tj,0|) = vpT
Por otro lado, también se puede ver la prueba de significancia de la regresión como un
caso particular de una prueba basada en SSextra donde A={β1, β2, . . . , βk}y
B={β0}.
26 / 40
Prueba de la hipótesis lineal general
Suponga un modelo de RLM con kvariables predictoras,
Y=β0+β1X1+· · · +βkXk+ε, al que llamaremos modelo completo (FM).
En este modelo se tiene una suma de cuadrados de la regresión
SSR(FM) = SSR (β0, β1, . . . , βk)con k=p1 g.l y una suma de cuadrados del error
SSE(FM) = SSE (β0, β1, . . . , βk)con (np)g.l.
Considere además una matriz m×pde constantes L, con rmfilas linealmente
independientes. Se puede formular una prueba de hipótesis lineal general como:
H0:Lβ=0vs. H1:Lβ=0,
donde, 0es un vector de ceros de dimensión m×1.
27 / 40
Lβ
=
0
es simplemente un sistema de ecuaciones donde se formulan mhipótesis que se
prueban simultáneamente.
Si al modelo completo se le aplica lo establecido en H0se llega a un modelo reducido
(RM), que tiene asociado tanto una suma de cuadrados de la regresión
SSR
(
RM
)como
una suma de cuadrados del error SSE(RM).
Para probar la hipótesis se debe definir una suma de cuadrados debida a la hipótesis
(SSH) que se calcula como la diferencia entre las sumas de cuadrados de la regresión (o
del error) de los modelos completo y reducido. Esto es,
SSH =SSE(RM)SSE(FM) = SSR(FM)SSR(RM),
que tiene tantos grados de libertad como el número rde filas linealmente independientes
en L. O equivalentemente:
r=g.l SSE(RM)g.l SSE(FM) = g.l SSR(FM)g.l SSR(RM)
28 / 40
Luego, se define el cuadrado medio debido a la hipótesis (MSH) como:
MSH =SSH
r.
Finalmente, se define como estadístico de prueba a la razón entre el cuadrado medio de
la hipótesis y la media cuadrática de error del modelo completo:
F0=MSH
MSE (β0, β1, . . . , β4)=SSH/r
MSE Fr,np
Se puede demostrar que bajo H0el estadístico F0Fr,np. Lo cual permite a un nivel
de significancia
α
, rechazar H
0
si F
0>
f
α,r,np
, donde f
α,r,np
es el cuantil 1
α
de la
distribución fr,np.
29 / 40
Recordemos que el valor de
α
en el valor crítico anterior representa la probabilidad a la
derecha de un distribución F, así como se muestra en la siguiente figura.
30 / 40
Ejemplo 1
Suponga un modelo de RLM con k=4 variables predictoras, entonces se puede formular
la siguiente prueba de hipótesis:
H0:β1=β2, β3=β4vs. H1:β1=β2óβ3=β4
Podemos reescribir la hipótesis nula de la siguiente manera:
H0:β1β2=0, β3β4=0,
de manera que la hipótesis nula contiene m=2 ecuaciones y se puede escribir como:
H0:(β1β2=0
β3β4=0
31 / 40
que en forma matricial se puede expresar como:
H0:"0 1 1 0 0
0 0 0 1 1#
β0
β1
β2
β3
β4
="0
0#
por tanto, se tiene una prueba de hipótesis lineal general, con:
L="0 1 1 0 0
0 0 0 1 1#,
que tiene r=2 filas linealmente independientes (observe que una fila no puede escribirse
como un múltiplo escalar de la otra).
32 / 40
El modelo reducido en este caso es:
RM: Y=β0+β1(X1+X2) + β3(X3+X4) + ε
=β0+β1X1,2+β3X3,4+ε,
donde X1,2=X1+X2, y X3,4=X3+X4.
En este modelo se tiene una suma de cuadrados del error SSE(RM) = SSE (β0, β1, β3)
con (n3)grados de libertad.
Luego, la SSH se calcula como:
SSH =SSE(RM)SSE(FM),
que tiene 2 grados de libertad, de manera que el cuadrado medio debido a la hipótesis es:
MSH =SSH
2.
33 / 40
Finalmente, se define como estadístico de prueba a:
F0=MSH
MSE =SSH/2
MSE F2,n5
NOTA: Observe que en el denominador se encuentra la media cuadrática de error (o
cuadrado medio de error) del modelo completo que tiene n5 grados de libertad.
Bajo H
0
y los supuestos sobre los errores, F
0
F
2,n5
. Se rechaza para valores grandes
de este estadístico, esto es, si VP =P(f2,n5>F0)es pequeño. O bien, si
F0>fα,2,n5, el valor crítico a un nivel de significancia α.
34 / 40
Ejemplo 2
Bajo el mismo modelo de RLM con k=4 considere la siguiente prueba:
H0:β1=β2=0, β3=β4vs. H1:β1=0 ó β2=0 ó β3=β4
Como en el ejemplo anterior, también se puede reescribir la hipótesis nula en términos
de ecuaciones igualadas a cero:
H0:β1=0, β2=0, β3β4=0
Luego, en H0se tiene un sistema de m=3 ecuaciones que se puede expresar como:
H0:
0 1 0 0 0
0 0 1 0 0
0 0 0 1 1
β0
β1
β2
β3
β4
=
0
0
0
35 / 40
por tanto, se tiene una prueba de hipótesis lineal general, con:
L=
0 1 0 0 0
0 0 1 0 0
0 0 0 1 1
,
que tiene r=3 filas linealmente independientes (compruebe que ninguna de las filas se
puede escribir como combinación lineal de las otras dos filas).
Entonces, el modelo nulo es:
RM: Y=β0+β3(X3+X4) + ε
=β0+β3X3,4+ε,
donde X3,4=X3+X4.
36 / 40
El estadístico de prueba es,
F0=SSH/3
MSE F3,n5
Bajo H
0
y los supuestos sobre los errores, F
0
F
3,n5
. Se rechaza para valores grandes
de este estadístico, esto es, si VP =P(f3,n5>F0)< α, donde αes el nivel de
significancia de la prueba. O bien, si F0>fα,3,n5.
37 / 40
Ejemplo 3
Considere ahora la prueba de significancia del modelo de RLM con k=4 variables
predictoras:
H0:β1=β2=β3=β4=0 vs. H1:Algún βj=0,j=1,2,3,4.
Note que H0se puede reescribir como:
H0:β1=0, β2=0, β3=0, β4=0.
En este caso también se puede reformular la hipótesis nula en la forma de una hipótesis
lineal general, considerando las m=r=4 ecuaciones linealmente independientes como
sigue:
H0:
01000
00100
00010
00001
β0
β1
β2
β3
β4
=
0
0
0
0
38 / 40
El modelo reducido es simplemente RM:Y=β0+ε, donde el intercepto representa la
media de la variable respuesta. Así el estimador de mínimos cuadrados del intercepto es
simplemente la media muestral de Y, es decir, b
β0=¯
Y, por tanto, b
Y=¯
Y, y en
consecuencia tiene una suma de cuadrados del error igual a la suma de cuadrados totales
(
SSE (β0)
=
SST
) con (n
1)grados de libertad, mientras que la suma de cuadrados de
la regresión es igual a cero (SSR (β0) = 0).
Al calcular la SSH en función de la diferencia entre las SSE de los modelos RM y FM, se
obtiene: SSH =SSE (β0)SSE (β0, β1, β2, β3, β4)
=SST SSE (β0, β1, β2, β3, β4)
=SSR (β0, β1, β2, β3, β4) = SSR
,
con r=m=k=4=p1 grados de libertad, cuyo MSextra coincide con el MSR del
modelo completo.
39 / 40
Así, el estadístico de prueba coincide con el visto en la prueba de significancia de la
regresión
F0=MSH
MSE =SSH/4
MSE =SSR/4
MSE =MSR
MSE F4,n5
Por lo tanto, bajo H0y los supuestos sobre los errores se cumple que, F0F4,n5. Se
rechaza para valores grandes de este estadístico, esto es, si VP =P(f4,n5>F0)< α,
donde αes el nivel de significancia de la prueba. O bien, si F0>fα,4,n5.
Tarea: comprobar que una prueba de significancia individual o para un subconjunto de
coeficientes de regresión son casos particulares de la prueba de hipótesis lineal general.
Nota: También es posible probar hipótesis lineales generales del tipo
H0:Lβ=cvs. H1:Lβ=c, donde ces un vector de constantes arbitrario.
40 / 40