Regresión Lineal Múltiple - Semana 09
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 25
¿Se pueden comparar los efectos (β) de las variables?
Considere el modelo de RLM:
Yi=β0+β1Xi1+β2Xi2+··· +βkXik +εi,con εi
i.i.d
N0, σ2.
1. Si las variables predictoras no están en una misma escala de medida, no podemos
determinar cual tiene mayor o menor efecto parcial sobre la respuesta promedio, en
presencia de las demás, esto es, la magnitud de
βj
refleja las unidades de la variable
Xj.
2. Para hacer comparaciones en forma directa de los coeficientes de regresión se
recurre al uso de variables escaladas, tanto en la respuesta como en las predictoras.
2 / 25
Escalamiento de longitud unitaria
Cada variable se puede escalar restando su media muestral y dividiendo esta diferencia
por la raiz cuadrada de la suma de cuadrados corregida de cada variable, es decir,
Y
i=Yi¯
Y
sn
P
h=1Yh¯
Y2=Yi¯
Y
pSyy
,X
ij =Xij ¯
Xj
sn
P
h=1Xhj ¯
Xj2=Xij ¯
Xj
Sxx
,
con (i=1,2,...,n
j=1,2,...,k
3 / 25
Escalamiento normal unitario
Cada variable se puede escalar restando su media muestral y dividiendo esta diferencia
por la desviación muestral cada variable, es decir,
Y
i=Yi¯
Y
Sy
,X
ij =Xij ¯
Xj
Sj
,
con (i=1,2,...,n
j=1,2,...,k
4 / 25
¿Qué hace luego de tener las variables escaladas?
Luego, se ajusta el modelo de RLM sin intercepto:
Y
i=β
1X
i1+β
2X
i2+··· +β
kX
ik +εi,con εi
i.i.d
N0, σ2
5 / 25
Los coeficientes β
json llamados coeficientes de regresión estandarizados, y estos
pueden ser comparados directamente teniendo en cuenta que siguen siendo coeficientes
de regresión parcial, es decir, β
jmide el efecto de X
jdado que las demás variables
predictoras están en el modelo.
Además, los
β
j
pueden servir para determinar la importancia relativa de X
j
en presencia
de las demás variables, en la muestra o conjunto de datos particular considerado para el
ajuste.
6 / 25
Multicolinealidad
Multicolinealidad es la existencia de dependencia casi lineal entre variables predictoras en
el modelo de RLM.
Si existiera dependencia lineal exacta entre dos o más variables predictoras, la matriz
XXsería singular y por tanto no podríamos hallar los estimadores de mínimos
cuadrados!
7 / 25
Causas de la multicolinealidad
1. El método de recolección de datos que se empleó (subespacios).
2. Restricciones en el modelo o en la población (variables correlacionadas de hecho).
3. Especificación del modelo (polinomios).
4. Un modelo sobredefinido (más variables que observaciones).
8 / 25
Efectos de la multicolinealidad
Algunos de los efectos más notorios de la multicolinealidad son:
1. Inflación de las varianzas de los estimadores: consiste en la inflación de los
valores c
jj
en las varianzas de los estimadores Var (
b
β
j
) =
σ2
c
jj
,cuando se considera
un modelo con variables escaladas de longitud unitaria, en cuyo caso se puede
demostrar que:
c
jj =1
1R2
j
,
donde R2
jes el coeficiente de determinación muestral obtenido de una regresión de Xj
(como respuesta) en función de las otras variables predictoras consideradas en el modelo
(actuando como predictoras de la primera).
9 / 25
2. b
βjmuy grandes en términos absolutos: esto se manifiesta en una traza muy
grande de la matriz XX1, donde: traza XX1=Pp
j=11
λj, λj>0 es el
j-ésimo valor propio (usualmente ordenados de mayor a menor) de la matriz XX.
Si la
traza XX1
es muy grande, mayor es la distancia entre el vector de parámetros
estimados y el verdadero valor del vector de parámetros.
10 / 25
3. Valores de los coeficientes con signo contrario a lo esperado: esto puede ser
causado por la presencia de multicolinealidad.
4. Regresión significativa pero ninguna variable individualmente significativa:
otra de las maneras en que se puede manifestar la multicolinealidad grave es cuando
el modelo de regresión ajustado es significativo (según la prueba Fde la tabla
ANOVA) pero individualmente, ninguno de los coeficientes asociados a las variables
predictoras resulta significativo (según las pruebas Tde significancia individual).
11 / 25
Diagnósticos de la multicolinealidad
Entre los diagnósticos más usados para detectar multicolinealidad en un modelo se
tienen:
1. Examinar la matriz de correlaciones entre las predictoras: sea Cor(X)una
matriz cuyo elemento (j,k) corresponde a la correlación entre las predictoras Xjy
Xk, Cor (Xj,Xk).
Esta matriz resulta útil para detectar multicolinealidad si en ésta no intervienen más de
dos variables en una dependencia casi lineal.
También valores de Cor (Xj,Xk)pequeños no necesariamente implican la ausencia de
multicolinealidad.
12 / 25
2. Factores de Inflación de Varianza: se denota como VIFj,j=1,...,ky se
calculan como: VIFj=c
jj =1
1R2
j
. El valor de R2
jes el coeficiente de
determinación cuando se hace una regresion de X
j
como respuesta versus las demás
covariables.
A continuación se establece el criterio para detectar la multicolinealidad de acuerdo a
esta medida.
Si VIFj5 no hay problemas de multicolinealidad.
Si 5 <VIFj10 hay problemas de multicolinealidad moderada.
Si VIFj>10 hay problemas de multicolinealidad graves.
13 / 25
3.
Análisis de los valores propios de X
X: se trata de evaluar si hay valores propios
con valores cercanos a cero. Para ello se definen las medidas que se presentan a
continuación:
Número de condición: mide la dispersión en el espectro de los valores propios de la
matriz XX. Se calcula como: κ=λmaxmin. En Rse obtienen valores en raíz
cuadrada, es decir, κ,para el cual el criterio para detectar multicolinealidad es:
Si κ10 no hay problemas de multicolinealidad.
Si 10 <κ31.62 hay problemas de multicolinealidad moderada.
Si κ > 31.62 hay problemas de multicolinealidad graves.
14 / 25
Índice de condición: es una medida útil para determinar el número de dependencias
casi lineales en XX. Se calcula como: κj=λmaxj,j=1,...,p(en Rse obtienen
los valores κj). El criterio para detectar multicolinealidad es:
Si κj10 j, no hay problemas de multicolinealidad.
Si al menos para un j, 10 <κj31.62, entonces hay problemas de
multicolinealidad moderada.
Si al menos para un j,κj>31.62, entonces hay problemas de multicolinealidad
graves (por lo menos hay una asociación casi lineal entre dos o más predictoras).
15 / 25
Proporciones de descomposición de varianza: denotados πij representan la
proporción de la varianza de cada b
βj(o de cada factor de inflación de varianza) debida
al i-ésimo valor propio de la matriz XX.
Proporciones altas (
πij >
0
.
5) para dos o más coeficientes de regresión asociados con un
mismo valor propio pequeño es evidencia de multicolinealidad entre las variables
correspondientes a tales coeficientes.
NOTA: El análisis de valores propios se puede realizar usando datos centrados o con los
datos originales.
16 / 25
Selección de variables (construcción de un modelo)
En algunos estudios observacionales o exploratorios se parte de un modelo de regresión
en el que se considera un conjunto grande de variables predictoras potenciales para luego
identificar un subconjunto entre tales variables, que resulte potencialmente útil para
construir el modelo de regresión final.
Dependiendo de los usos que se deseen dar a un modelo de regresión varia el
subconjunto de variables seleccionadas. Por ejemplo, desde el punto de vista del ajuste,
cierto subgrupo de variables serán útiles, en tanto que desde el punto de vista del
pronóstico, otro subconjunto podría resultar ser mejor. Es necesario fijar un criterio de
selección del mejor subconjunto de variables.
17 / 25
Método de todas las regresiones posibles
Este procedimiento consiste en correr todos los 2
k
1 modelos posibles (con intercepto)
de la variable respuesta vs. los posibles subconjuntos de variables predictoras,
k
1!=kmodelos de una predictora
k
2!modelos de dos predictoras
.
.
.
k
k!=1 modelo de kpredictoras
2k1 modelos posibles,
y comparar tales modelos con base en criterios estadísticos.
18 / 25
Criterios estadísticos en la comparación de modelos
R2
p
: el mejor modelo es aquel con el mayor valor en este estadístico, sin embargo, al
ser una función no decreciente del número de predictoras, tiende a señalar al
modelo con todas las predictoras.
Con el fin de resolver esta dificultad, se busca un modelo con un menor número de
variables cuyo R2no cambie significativamente al aumentar el número de predictoras.
19 / 25
Ilustración criterio R2
p
(Fuente: Mongomery et al. (2002))
20 / 25
R2
adj,p (o MSEp): el mejor modelo es aquel con mayor (menor) valor en este
estadístico.
(Fuente: Mongomery et al. (2002))
21 / 25
Cpde Mallows: el mejor modelo es aquél para el cual Cpes el más pequeño
posible (es decir, el modelo con el menor número de variables predictoras posible) y
tal que la diferencia |Cpp|es mínima, con pigual al número de parámetros del
modelo considerado, incluyendo el intercepto.
Este estadístico es una medida del sesgo en el modelo de regresión, es decir, de
Eb
Yiµi, y es tal que a mayor sesgo, mayor Cp. Este estadístico se calcula como:
Cp=SSEp
MSE (β0, β1, . . . , βk)(n2p)
donde SSEpes la suma de cuadrados del error del modelo considerado y
MSE (β0, β1, . . . , βk)es el cuadrado medio del error para el modelo de regresión con
todas las kvariables.
22 / 25
Ilustración criterio Cp
(Fuente: Mongomery et al. (2002))23 / 25
PRESSpo suma de cuadrados de predicción: mide qué también el uso de los
valores ajustados por un submodelo puede predecir las respuestas observadas.
Mientras menor sea esta medida, mejor se considera el modelo.
El PRESS es como un SSE, pero en el cual el valor ajustado para cada observación Y
i
se
halla estimando el submodelo sin considerar dicha observación, tales valores ajustados se
denotan por b
Y(i); así el PRESS es la suma de cuadrados de los residuales de predicción
e(i)=Yib
Y(i), es decir, PRESSp=n
P
i=1
e2
(i).
24 / 25
Para cada submodelo, la definición del error de predicción implica correr nregresiones
separadas (cada una con n
1 datos) con cada observación eliminada en cada caso, sin
embargo, basta con correr una vez el modelo con todas las observaciones, hallar sus
residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular
e(i)=ei/(1hii ).
Si se usan dos o más criterios de selección de modelos, es posible que cada criterio lleve
a modelos distintos.La decisión final debe basarse en el análisis de residuales y otros
diagnósticos, además de complementar con el conocimiento y la experiencia de personas
expertas en el ámbito en el cual está inmerso el problema.
25 / 25