Regresión Lineal Múltiple - Semana 05
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 37
Regresión lineal múltiple
En análisis de regresión usualmente se utiliza más de una variable predictora para
modelar el valor de una variable respuesta de interés Y. Si la relación funcional entre la
respuesta Yy las variables predictoras es lineal en los parámetros, se llega al caso de la
regresión lineal múltiple (RLM).
En el ajuste y análisis de este modelo se obtienen resultados que son extensiones de los
que se obtuvieron en regresión lineal simple.
A continuación se introducen nociones preliminares relacionados con vectores de
variables aleatorias, que permite un manejo matemático simplificado del modelo de RLM.
2 / 37
Nociones reliminares relacionados con vectores de variables
aleatorias
Para facilitar la notación y el desarrollo de algunas pruebas se utiliza con frecuencia una
escritura del modelo en forma matricial, la cual requiere establecer algunas definiciones
que se presentan a continuación.
3 / 37
Vectores aleatorios
Sean y1,y2,...,ynvariables aleatorias con medias µ1, µ2, . . . , µny varianzas
σ2
1, σ2
2, . . . , σ2
n, respectivamente.
Sean σij =Cov [yi,yj] = E[(yiµi) (yjµj)] la covarianza entre las variables yieyj,
con i,j=1,2,...,n.
Se define el vector y= [y1,y2,...,yn], el cual se dice es un vector aleatorio con
media o vector de medias yvarianza o matriz de varianzas-covarianzas dadas por:
µy=EhyiyVar(y) = Σy:
µy=
E[y1]
.
.
.
E[yn]
=
µ1
.
.
.
µn
yΣy=
σ11 σ12 · · · σ1n
σ21 σ22 · · · σ2n
.
.
..
.
.....
.
.
σn1σn2· · · σnn
4 / 37
Observe que en la matriz Σylos elementos:
σij =σji , es decir, la matriz Σyes una matriz simétrica.
σii =σ2
i, es decir, los elementos de la diagonal principal de Σycorresponden a las
varianzas de las variables yi.
Por lo tanto se puede escribir,
Σy=
σ2
1σ12 · · · σ1n
σ12 σ2
2· · · σ2n
.
.
..
.
.....
.
.
σ1nσ2n· · · σ2
n
5 / 37
En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una
matriz:
Cuadrada y simétrica, de orden igual al tamaño del vector aleatorio.
La diagonal principal contiene las varianzas asociadas a cada elemento del vector
aleatorio.
Por fuera de la diagonal están las covarianzas entre los pares de elementos del
vector aleatorio.
6 / 37
Algunas propiedades del valor esperado y la varianza de un vector
aleatorio
Sea
y
un vector aleatorio n
×
1 con media (vector de medias)
µy
y varianza (matriz de
varianzas-covarianzas) Σy, como fueron definidos antes.
Sean Auna matriz m×nde constantes y bun vector m×1 de constantes, entonces:
1. EhAyi=AEhyi=Aµy.
2. EhAy +bi=EhAyi+E[b] = Aµy+b.
3. Var hAyi=AVar hyiA=AΣyA.
4. Var hAy +bi=Var hAyi+Var [b] = AΣyA+0=AΣyA.
7 / 37
Observe que se conservan las propiedades de la esperanza y la varianza del caso
univariado, por ejemplo.
E[b] = b, es decir, la esperanza de un vector constante es el mismo vector
constante.
Var [b] = O, donde Oes una matriz nula (cuyos elementos son todos cero) de
orden m
×
m. Así, la varianza de un vector constante es una matriz cuadrada nula
de orden correspondiente al número de elementos del vector constante.
Var hAyi=AΣyA, es decir, la varianza de un vector aleatorio por una matriz
constante resulta en una forma cuadrática de la matriz constante que involucra a la
varianza del vector aleatorio.
8 / 37
Algunas definiciones básicas en teoría matricial
Sean Aybmatrices de constantes de orden n×nym×nrespectivamente.
Sean
x
=
[x1,...,xn]
un vector de variables de orden n
×
1;
a
un vector de constantes
de orden n×1; y Ila matriz identidad de orden n.
Entonces:
1. (BA)=AB, la traspuesta de un producto es igual al producto invertido de las
traspuestas.
2. Aes simétrica si A=A.
3. Aes idempotente si AA =A2=A.
9 / 37
4. Si Aes simétrica e idempotente, entonces (IA)también es simétrica e
idempotente.
5. Forma cuadrática: la función xAx =Pn
i=1Pn
j=1aij xixjse le llama forma
cuadrática de x, donde aij es la ij-ésima componente de la matriz A.
6. Matriz definida positiva y semidefinida positiva: la matriz Ase dice que es:
a) Definida positiva, si xAx >0,x.
b) Semidefinida positiva si xAx 0,x.
10 / 37
Algunas propiedades de derivadas vectoriales o matriciales
Sean Auna matriz de constantes de orden n×n;x= [x1,...,xn]un vector de
variables de orden n×1; y aun vector de constantes de orden n×1.
Entonces:
1. (ax)
x=(xa)
x=a.
2. (xx)
x=2x.
3. (xAx)
x=Ax +Ax, pero si Aes simétrica, entonces (xAx)
x=2Ax.
11 / 37
Algunos resultados distribucionales para vectores aleatorios
Sea yun vector aleatorio normal n-variado con media µyy matriz de
varianzas-covarianzas no singular Σy, es decir, yNnµy,Σy.
Sean Auna matriz n×nde constantes y Uuna forma cuadrática de ydefinida como:
U=yAy.
Se tienen los siguientes resultados:
1. Si AΣyóΣyAes una matriz idempotente de rango p, entonces
Uχ2
p
donde, λ=µ
yAµyes el parámetro de no centralidad de la distribución
chi-cuadrado.
12 / 37
2. Si Σy=σ2IyAes idempotente y de rango p, entonces
U
σ2χ2
p
donde, λ=µ
yAµy2.
3. Sean Buna matriz m×nyWuna forma lineal definida como: W=By,
entonces la forma cuadrática U=yAy yWson independientes si
BΣyA=O
donde Oes la matriz nula de orden m×n.
Nota: Si Σy=σ2I, entonces UyWson independientes si BA =O.
13 / 37
4.
Sean
B
una matriz n
×
ny
V
=
yBy
otra forma cuadrática de
y
, entonces las dos
formas cuadráticas UyVson independientes si
AΣyB=O
Nota: Si Σy=σ2I, entonces UyVson independientes si AB =O.
14 / 37
Definición del modelo de regresión lineal múltiple (RLM)
Considere el caso en el cual se desea modelar la variabilidad total de una variable
respuesta de interés, en función de relaciones lineales con dos o más variables
predictoras, formuladas simultáneamente en un único modelo.
Suponemos en principio que las variables predictoras guardan poca asociación lineal
entre sí, es decir, cada variable predictora aporta información independiente de las
demás predictoras presentes en el modelo (hasta cierto grado, la información aportada
por cada una no es redundante).
La ecuación del modelo de regresión en este caso es:
Yi=β0+β1Xi1+β2Xi2+· · · +βkXik +εi,i=1,2,...,n.
15 / 37
Este modelo es de primer orden ya que no se presentan efectos de interacción entre las k
variables predictoras, donde:
β0, β1, . . . , βk: son los pparámetros del modelo (uno por cada variable predictora
más uno por el intercepto, esto es p=k+1).
Xi1,Xi2,...,Xik , son los valores en la i-ésima observación muestral, de las k
variables predictoras consideradas en el modelo.
εi
iid
N0, σ2,i=1,2,...,n.
16 / 37
Estadísticamente, se establece que la respuesta media está dada por:
E(Y|X1,X2,...,Xk) = β0+β1X1+β2X2+· · · +βkXk,
la cual representa un hiperplano en un espacio de dimensión
k+1
, llamado superficie de
regresión o superficie de respuesta.
Similar al modelo de regresión lineal simple, bajo los supuestos de normalidad,
independencia y varianza constante de los errores, se tiene que:
Yi|Xi1,...,Xik
ind
Nβ0+β1Xi1+· · · +βkXik , σ2,i=1,2,...,n.
17 / 37
Significado de los coeficientes
El parámetro β0, el intercepto Ydel plano, representa la respuesta media de Y
cuando en el conjunto de observaciones se incluye la coordenada
(X1,X2,...,Xk)=(0,0,...,0),
de lo contrario si tal coordenada no es observada o no está incluida en el rango
experimental, entonces β0no será interpretable.
Los parámetros βj,j=1,2,...,k, indican el cambio en la respuesta media de Ypor
unidad de incremento en la respectiva variable Xj, cuando las demás predictoras
permanecen constantes (sin importar en qué nivel son fijadas estas últimas).
18 / 37
Como los efectos de una predictora sobre la respuesta media no dependen del nivel de
las demás, tales efectos son denominados efectos aditivos. Los parámetros βj, son
también llamados coeficientes de regresión parcial porque reflejan el efecto parcial de
una variable predictora sobre la respuesta media en presencia de las demás predictoras
que aparecen en el modelo.
NOTA: El término modelo lineal significa que el modelo es lineal en los parámetros, lo
cual no hace referencia a la forma de la superficie de respuesta.
19 / 37
Tipos de variables y de efectos en los modelos
Las variables predictoras pueden ser:
Cuantitativas, caso en el cual se supone se miden sin error (o el error es
despreciable).
Cualitativas o categóricas, en este caso su manejo en el modelo se realiza a través
de la definición de variables indicadoras, las cuales toman valores de 0 ó 1.
En general, una variable cualitativa con cclases se representa mediante
c1
variables
indicadoras, puesto que cuando en una observación dada, todas las c1 primeras
indicadoras son iguales a cero, entonces la variable cualitativa se haya en su última clase.
20 / 37
Por ejemplo, suponga que en un modelo de regresión para el gasto mensual por familia
en actividades recreativas, se tiene entre las variables predictoras el estrato
socioeconómico, definido en cinco niveles, luego, basta definir las primeras cuatro
indicadoras de la siguiente forma:
I1=(1 familia en estrato 1
0 otro caso I2=(1 familia en estrato 2
0 otro caso
I3=(1 familia en estrato 3
0 otro caso I4=(1 familia en estrato 4
0 otro caso
21 / 37
En el caso con variables predictoras cuantitativas, existe la llamada regresión polinomial
en la que se utilizan términos cuadráticos y de orden superior de estas variables, como
en los diseños experimentales para optimización de procesos mediante la metodología de
superficie de respuesta.
A pesar de la naturaleza no lineal de tales superficies de respuesta, estos modelos hacen
parte del modelo de regresión lineal múltiple.
Algunos modelos pueden usar funciones de respuesta curvilíneas, en los cuales se utilizan
variables transformadas de forma compleja, para linealización del modelo.
22 / 37
Otros modelos pueden incluir efectos de interacción, es decir cuando los efectos de una
variable predictora depende de los niveles de otras variables predictoras incluidas en el
modelo.
Por ejemplo, suponga un modelo de regresión con las variables predictoras
X1
y
X2
, que
incluye tanto los efectos principales como el efecto de interacción de estas dos variables.
Este modelo corresponde a:
Yi=β0+β1Xi1+β2Xi2+β3X1X2+εi.
El término de interacción es representado por
β3X1X2
. Para expresar el anterior modelo
en términos del modelo lineal múltiple, definimos simplemente
X3=X1X2
y rescribimos
el modelo como:
Yi=β0+β1Xi1+β2Xi2+β3X3+εi.
23 / 37
En este último tipo de modelo los coeficientes de regresión de los términos individuales
Xjya no tienen el significado dado antes, debido a la presencia de la interacción, es
decir, ya no representan el cambio en la respuesta media cuando se incrementa en una
unidad la respectiva variable predictora, manteniendo constante a las demás.
Para el ejemplo, puede mostrarse mediante derivación, que cuando
X1
se incrementa en
una unidad mientras X2se deja fija, el cambio en la respuesta promedio es β1+β3X2.
Así, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo
de la otra, dependen del nivel en que se halle esta última.
Tenga presente que cualquier modelo que pueda rescribirse en términos del modelo lineal
múltiple, puede trabajarse mediante las técnicas de estimación de mínimos cuadrados, de
lo contrario, el modelo se considera no lineal y sólo pueden obtenerse estimaciones
mediante métodos numéricos complejos.
24 / 37
Chequeo de posibles asociaciones
Inicialmente, puede ser útil realizar chequeos gráficos de la naturaleza y la fuerza de las
asociaciones entre las variables predictoras con la variable respuesta, y aún entre
predictoras.
Una matriz de gráficas de dispersión es la herramienta más útil para visualizar rápida y
simultáneamente estas relaciones. Si las variables predictoras se asocian linealmente a la
variable respuesta, los gráficos de dispersión respectivos deben presentar las nubes de
puntos tendiendo a una línea recta. También se puede chequear si existen relaciones de
tipo no lineal entre las distintas variables, y la presencia de observaciones atípicas.
25 / 37
Por otra parte, se espera que entre las predictoras no existan relaciones lineales fuertes,
pues de lo contrario, habría información que podría ser redundante en el modelo, y se
tendría un problema de multicolinealidad, lo cuál se estudia en mayor detalle más
adelante en la asignatura.
A veces es útil también acompañar este análisis gráfico con la matriz de correlaciones de
las variables del modelo, la cual muestra los coeficientes de correlación entre la variable
respuesta con cada una de las predictoras y también todas las correlaciones entre las
predictoras.
26 / 37
En la siguiente figura se presentan algunas matrices de gráficos de dispersión para un
conjunto de datos sobre tres variables.
27 / 37
Estimación por mínimos cuadrados de los parámetros
Note que cuando se tienen nobservaciones para el modelo lineal
Yi=β0+β1Xi1+β2Xi2+· · · +βkXik +εi,i=1,...,n,
en realidad se tiene un sistema de necuaciones con p=k+1 incógnitas
correspondiendo al intercepto y los kcoeficientes de regresión, donde los Yiy las Xij
toman valores conocidos en cada caso.
i=1:y1=β0+β1X11 +β2X12 +· · · +βkX1k+ε1
i=2:y2=β0+β1X21 +β2X22 +· · · +βkX2k+ε2
.
.
..
.
.
i=n:yn=β0+β1Xn1+β2Xn2+· · · +βkXnk +εn
28 / 37
Tal sistema expresado en forma matricial corresponde a:
y=Xβ+ε
donde:
y=
Y1
Y2
.
.
.
Yn
es el vector n×1 de observaciones.
β=
β0
β1
.
.
.
βk
es el vector de p×1 parámetros.
29 / 37
X
=
1X11 X12 · · · X1k
1X21 X22 · · · X2k
.
.
..
.
..
.
.· · · .
.
.
1Xn1Xn2· · · Xnk
es una matriz n
×
pcon los valores de predictoras.
ε=
ε1
ε2
.
.
.
εn
es el vector de errores aleatorios.
Los supuestos del modelo sobre los errores establecen que:
εi
iid
N0, σ2,i=1,2,...,n
30 / 37
Lo cual en forma matricial establece que el vector ε(de los errores aleatorios) es un
vector aleatorio normal n-variado con valor esperado E(ε) = 0y matriz de varianzas
covarianzas Var (ε) = σ2In, donde Ines la matriz identidad de orden n.
Observe que E(ε) =
0
0
.
.
.
0
yVar (ε) =
σ20· · · 0
0σ2· · · 0
.
.
..
.
.....
.
.
0 0 · · · σ2
.
Por tanto el vector aleatorio
y
tiene valor esperado
Xβ
y la misma matriz de varianzas
covarianzas de ε.
31 / 37
Para la estimación por mínimos cuadrados se buscan los valores estimados de los
parámetros tales que se minimice la suma de cuadrado del error:
Sβ=
n
X
i=1
ε2
i=
n
X
i=1
(Yiβ0β1Xi1β2Xi2 · · · βkXik )2.
Matricialmente,
Sβ=εε=yXβyXβ
=yyyXββxy+βxXβ
=yy2βxy+βxXβ,
y el estimador de mínimos cuadrados se obtiene al resolver
d S β
dβ=0β=b
β
2xy+2xxb
β=0
32 / 37
De donde las ecuaciones normales de mínimos cuadrados para el modelo de RLM son:
xXb
β=xy,
y el vector de los estimadores es b
β= (xx)1xy, cuyos elementos corresponden a los
estimadores de mínimos cuadrados para los parámetros del modelo de RLM. Esto es,
b
β=hb
β0b
β1· · · b
βki
Luego, la ecuación de regresión ajustada igual a
b
Yi=b
β0+b
β1X1+b
β2X2+· · · +b
βkXk=xib
β.
donde, xies la i-ésima fila de la matrix x.
33 / 37
Algunas propiedades de los estimadores de los parámetros
Los estimadores de mínimos cuadrados corresponden a los estimadores de máxima
verosimilitud, bajo el modelo lineal normal.
b
βes un estimador insesgado del vector de parámetros β, es decir
Ehb
βi=Ehxx1xyi=β
En efecto, sea
A
=
(xx)1x
una matriz p
×
nde valores fijos (constantes). Entonces,
Ehb
βi=EhAyi=AEhyi=A Xβ=xx1xXβ=β
34 / 37
La matriz de varianzas covarianzas de b
βes
Var b
β=σ2XX1
En efecto,
Var hb
βi=Var hAyi=AVar hyiA=Aσ2InA
=σ2xx1xInhxx1xi
=σ2xx1xxhxx1i=σ2xx1,
La cual tiene en su diagonal principal a las varianzas de los estimadores de los
parámetros, Var b
βj,j=0,1,...,k, y por fuera de su diagonal principal a las
covarianzas entre tales estimadores.
35 / 37
Note que b
β=Ay implica que cada parámetro estimado es una combinación lineal de
las observaciones, así que
b
βj
es una variable aleatoria con distribución normal (ya que los
yi’s son normales).
En resumen, se tiene que:
b
βNβ, σ2xx1,
y en el caso particular del estimador del j-ésimo parámetro del modelo se tiene que:
b
βjNβj, σ2cjj ,j=0,1,...,k.
Observe que en las expresiones anteriores σ2es desconocido, de manera que debe
estimarse.
36 / 37
Un estimador de σ2surge del método de máxima verosimilitud al igual que en RLS, el
cual se define como:
ˆσ2=MSE =Pn
i=1(yib
yi)2
np=SSE
np.
Luego, una estimación de la matriz de varianzas-covarianzas es:
d
Var b
β= ˆσ2xx1=MSE xx1,
cuyos elementos en la diagonal principal corresponden a las estimaciones de las varianzas
de los respectivos estimadores b
βj, esto es,
d
Var b
βj=MSE cjj ,
donde cjj , es el j-ésimo elemento de la diagonal de la matriz (xx)1.
37 / 37