Regresión Lineal Múltiple - Semana 10
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 27
Métodos de selección automática
Básicamente, existen tres métodos de selección automática, los cuales son
computacionalmente menos costosos que el procedimiento de selección basado en
ajustar todas las regresiones posibles:
1. Método de selección hacia delante o Forward.
2. Método de eliminación hacia atrás o Backward.
3. Método de selección paso a paso o Stepwise (combinación de los dos anteriores).
2 / 27
Método de selección hacia delante (Forward)
Inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el
de menor MSE pero tal que la respectiva variable resulte significativa, luego va
agregando variables, una por vez, buscando reducir también en forma significativa la
suma de cuadrados de los errores, lo cual es evaluado a través de pruebas Fen las que
se involucra el cálculo de sumas de cuadrados extras de una nueva variable dadas las
demás que previamente se ingresaron en el modelo. Entre varias variables candidatas a
ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca más
significativamente el SSE. El procedimiento se detiene cuando entre las variables
restantes que no han sido ingresadas hasta el paso previo, ninguna contribuiría
significativamente en la reducción del SSE si fuese ingresada.
3 / 27
Proceso método forward
4 / 27
Método de eliminación hacia atrás (Backward)
Parte del modelo completo con todas las variables disponibles y elimina secuencialmente
de a una variable, buscando que el SSE no se reduzca significativamente. La variable
que se elimina en cada paso, es aquella que no resulta significativa en presencia de las
demás variables del modelo de regresión que se tiene en ese momento. También se
recurre a pruebas Fbasadas en sumas de cuadrados extras, y entre varias variables
candidatas a salir del modelo, se retira la de menor significancia.El algoritmo se detiene
cuando todas las variables que aún permanecen en el modelo son significativas en
presencia de las demás.
5 / 27
Proceso método backward
6 / 27
Método de selección paso a paso (Stepwise)
Comienza agregando variables, una a la vez, la nueva variable es ingresada según el
método forward, pero una vez ingresada una nueva variable, se evalúa que las demás que
ya estaban en el modelo sigan siendo significativas, es decir, aplica el principio del
método backward. Así, en un paso dado puede ingresar una variable y salir otra que en
un paso previo ya había sido ingresada, es más, puede suceder que una misma variable
entre, salga y vuelva a ser ingresada en pasos subsiguientes del algoritmo. El algoritmo se
detiene cuando ya no hay más variables para ingresar que contribuyan significativamente
a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas.
7 / 27
Proceso método stepwise
8 / 27
Algunas Recomendaciones
Como se anotó antes, el modelo final no solamente debe ser el resultado de estos
métodos de selección automáticos, también es necesario usar el juicio y el
conocimiento previo que se tenga sobre el problema en el cual se está inmerso.
Cuando una o más variables predictoras de tipo cualitativas son consideradas en un
modelo de regresión mediante un conjunto de variables indicadoras, en estos
procesos de selección de variables se recomienda mantener a éstas juntas, como un
solo grupo, aún si un subconjunto de ellas resulta mejor de acuerdo al criterio de
selección empleado.
9 / 27
Esta recomendación también aplica en el caso de modelos en los cuales se incluyen
términos polinomiales de una variable, es decir, términos lineales, cuadráticos, etc.
Si un término polinómico de orden bde una variable dada va a ser dejado en el
modelo, entonces todos los términos de orden inferior de esa misma variable
también se recomienda dejarlos en el modelo, así no sean significativos según el
criterio de selección aplicado.
Similarmente, si se tienen incluidos términos de interacción entre variables
predictoras, los términos de interacción de menor orden y los términos lineales de
las variables involucradas en tales interacciones, también deben permanecer en el
modelo.
10 / 27
Regresión con Variables Indicadoras
Considere el caso de una variable predictora Wmedida en una escala nominal u ordinal
(una variable categórica o cualitativa) definida en ccategorías.
Por ejemplo, en un estudio sobre la calidad de vida, aparece la variable W: estrato
socioeconómico del grupo familiar, definida en las categorías 1, 2, 3, 4, 5 y 6.
Aquí los valores 1 a 6 no representan información numérica y deben ser considerados
como simples etiquetas.
11 / 27
Suponga que se desea realizar una regresión lineal entre una variable cuantitativa Yvs.
la variable categórica W.
Dado la naturaleza cualitativa de ésta última no podemos simplemente formular el
modelo de regresión como:
Y=β0+β1W+ε, ε iid
N(0, σ2).
¿Cuál es la estrategia a seguir?
12 / 27
Uso de Variables Indicadoras para representar a W
Para cada categoría de Wse define una variable indicadora, es decir, una variable que
toma el valor de 1 ó 0 según si la categoría considerada es o no observada,
respectivamente, en una unidad experimental u de observación:
sean las variables Ij,j=1,...,c, tales que:
Ij=(1 si en la unidad experimental es observada la categoría j
0 si en la unidad experimental no es observada la categoría j.
Es decir, Ijes la variable indicadora de la categoría jde la variable cualitativa W.
13 / 27
Para una misma unidad experimental o de observación sólo una de las variables
indicadoras puede tomar el valor de 1, es decir, para la i-ésima observación se cumple
que: Pc
j=1Iij =1, de aquí que no es necesario considerar las cindicadoras
conjuntamente, ya que el valor de cualquiera de ellas en la unidad de observación i,
digamos de Iic , puede hallarse como Iic =1Pc1
j=1Iij .
Inicialmente, se puede proponer el siguiente modelo de RLM para modelar la relación de
Yvs. Wa través del uso de las variables indicadoras antes definidas, así:
Y=β0+β1I1+β2I2+. . . +βcIc+ε, ε iid
N(0, σ2)
14 / 27
Considere de nuevo el caso donde Wes el estrato socioeconómico y sea Yel gasto
medio mensual total de la familia. Suponga que se obtuvo una muestra aleatoria de dos
familias por cada estrato, para un total de n=12 observaciones (familias), entonces se
tiene un sistema de ecuaciones como el que se muestra a continuación:
Y1
Y2
Y3
Y4
Y5
Y6
Y7
Y8
Y9
Y10
Y11
Y12
=
1100000
1100000
1010000
1010000
1001000
1001000
1000100
1000100
1000010
1000010
1000001
1000001
β0
β1
β2
β3
β4
β5
β6
+
ε1
ε2
ε3
ε4
ε5
ε6
ε7
ε8
ε9
ε10
ε11
ε12
Y=Xβ+ε,
15 / 27
Note que, en el sistema de ecuaciones anterior se tiene una dependencia lineal perfecta
entre la primera columna de la matriz Xy el resto de las columnas, ya que la primera se
puede escribir como la suma de las 6 restantes, lo cual hace a la matriz Xsingular y por
tanto que XX1
no exista y en consecuencia no se podría estimar el vector de
parámetros.
Para solucionar este inconveniente, se tienen tres posibles alternativas:
1. Eliminar el intercepto β0de la ecuación del modelo:
Y=β1I1+β2I2+· · · +βcIc+ε, ε iid
N(0, σ2)
En este caso, los βjrepresentan la media de Yen la categoría j, es decir,
E[Y|Ij=1] = βj.
16 / 27
2.
Eliminar una de las variables indicadoras, por ejemplo, aquella asociada a la última
categoría. En este caso, el coeficiente βj,j=c, representa el efecto o diferencia
promedio de la respuesta en la categoría jcon relación a la categoría c(nivel de
referencia). Entonces, tendríamos como modelo,
Y=β0+β1I1+β2I2+· · · +βc1Ic1+ε, ε iid
N(0, σ2)
3. Introducir la restricción Pc
j=1βj=0. Aquí, cada coeficiente βj,j=1,2,...,c
representa el efecto de la categoría jcon respecto a la media general de la
respuesta (intercepto):
Y=β0+β1I1+β2I2+· · · +βcIc+ε, ε iid
N(0, σ2)s.a.
c
X
j=1
βj=0
De estas tres alternativas usaremos la segunda.
17 / 27
Ahora suponga que se desea modelar la relación de una variable respuesta cuantitativa
Yvs. X, siendo Xcuantitativa, en presencia de una variable categórica W. Es decir, se
quiere determinar si la relación lineal entre YyXdepende de la variable categórica W.
Asumiendo que Wes observada en ccategorías, podemos considerar las dos siguientes
situaciones:
1. El efecto promedio de Xsobre la respuesta Yes el mismo en todas las categorías
de Wpero la media general de Yno es igual en todas las categorías. (cambios solo
de intercepto)
2.
El efecto promedio de Xsobre la respuesta Ycambia según la categoría en que W
sea observada. (cambios tanto de intercepto como de pendiente)
18 / 27
Caso 1. Modelo Básico
En el primer caso, el modelo a considerar es dado por
Y=β0+β1X+β2I1+β3I2+· · · +βcIc1+ε, ε iid
N(0, σ2)
donde el efecto promedio de Xsobre la respuesta es el mismo sin importar la categoría
en que sea observada W, sin embargo, la media de Yno es la misma en todas las
categorías, es decir, las crectas resultantes son paralelas, así:
Si I1=1, Y= (β0+β2) + β1X+ε.
Si I2=1, Y= (β0+β3) + β1X+ε.
.
.
.
Si Ic1=1, Y= (β0+βc) + β1X+ε.
Si I1=I2=· · · =Ic1=0 Ic=1), Y=β0+β1X+ε.
19 / 27
Caso 2. Modelo General con Interacciones
En el caso 2 es necesario considerar además de las c1 variables indicadoras para
representar las categorías de la variable W(y así evitar el problema de la dependencia en
las columnas de la matriz de diseño), los términos de interacción (multiplicación) entre
la variable cuantitativa Xy las indicadoras que representan a Wen el modelo de
regresión, es decir, se postula el modelo
Y=β0+β1X+β2I1+β3I2+· · · +βcIc1
+β1,1XI1+β1,2XI2+· · · +β1,c1XIc1+ε, ε iid
N(0, σ2)
donde XI
j
=X
I
j
, es el término de interacción entre Xy la j-ésima variable indicadora,
j=1,...,c1.
Observe que la ecuación anterior define crectas de regresión de Yvs. X, una por cada
categoría de la variable cualitativa W.
20 / 27
Si I1=1, entonces el resto de indicadoras son iguales a cero y se obtiene,
Y= (β0+β2)+(β1+β1,1)X+ε
Si I2=1, entonces el resto de indicadoras son iguales a cero y se obtiene,
Y= (β0+β3)+(β1+β1,2)X+ε
.
.
.
Si Ic1=1, entonces el resto de indicadoras son iguales a cero y se obtiene,
Y= (β0+βc)+(β1+β1,c1)X+ε
Finalmente, si I1=I2=· · · =Ic1=0 implica que Ic=1, y se obtiene,
Y=β0+β1X1+ε
21 / 27
Ejemplo Ilustrativo
Un gran almacén realizó un experimento para investigar los efectos de los gastos por
publicidad sobre las ventas semanales de sus secciones de ropa para caballeros (A), para
niños (B) y para damas (C).
A las variables son:
Ventas semanales (respuesta Ycuantitativa, en miles de dólares).
Gastos de publicidad (predictora Xcuantitativa, en cientos de dólares).
Sección de ropa (predictora Wcualitativa) con tres niveles: Apara caballeros, B
para niños y Cpara damas.
22 / 27
Para representar la sección de ropa W, se deben definir dos variables indicadoras, así:
I1=(1,si la sección de ropa es A(caballeros)
0,en otro caso.
I2=(1,si la sección de ropa es B(niños)
0,en otro caso.
Note que el nivel de referencia es la sección de ropa C(damas).
Con el fin de considerar las dos opciones de modelo se deben definir las interacciones
entre la predictora cuantitativa y las variables indicadoras que representan la predictora
cualitativa, así:
XI1=XI1.
XI2=XI2.
Veamos las dos alternativas de modelamiento para este ejemplo.
23 / 27
Caso 1. Modelo Básico Sin Interacciones
El modelo básico se plantea como:
Yi=β0+β1Xi+β2Ii1+β3Ii2+εi, εi
iid
N(0, σ2)i.
De donde se pueden extraer las rectas en cada nivel de W, así:
Si Ii1=1,Ii2=0Yi= (β0+β2) + β1Xi+εi.
Si Ii1=0,Ii2=1Yi= (β0+β3) + β1Xi+εi.
Si Ii1=0,Ii2=0Yi=β0+β1Xi+εi.
24 / 27
Gráfico Ilustrativo Modelo Básico
0 2 4 6 8 10
5
10
15
20
X
Y
Sección A
Sección B
Sección C (NR)
25 / 27
Caso 2. Modelo General con Interacciones
El modelo general se plantea como:
Yi=β0+β1Xi+β2Ii1+β3Ii2+β4XiIi1+β5XiIi2+εi, εi
iid
N(0, σ2)i.
De donde se pueden extraer las rectas en cada nivel de W, así:
Si Ii1=1,Ii2=0Yi= (β0+β2)+(β1+β4)Xi+εi.
Si Ii1=0,Ii2=1Yi= (β0+β3)+(β1+β5)Xi+εi.
Si Ii1=0,Ii2=0Yi=β0+β1Xi+εi.
26 / 27
Gráfico Ilustrativo Modelo General
0 2 4 6 8 10
5
10
15
20
X
Y
Sección A
Sección B
Sección C (NR)
27 / 27