Ejercicios adicionales sobre selección de variables
1) Ejercicio basado en el ejemplo sección 9.3 de Neter (2004). Considere la tabla 9.2 mostrada abajo en la cual
se muestran diferentes indicadores para todos los modelos de regresión posibles para explicar la variable 𝑌
en función de cuatro covariables.
a. ¿Cuál es el mejor modelo según el Cp de Mallows?
b. ¿Cuál es el mejor modelo según el AIC?
c. ¿Cuál es el mejor modelo según la estadística PRESS?
d. ¿Cuál es el mejor modelo según el R2 ajustado con 𝑝 variables?
e. ¿Cuál es el mejor modelo según el AIC pero que contiene a X2?
Rtas: para responder se debe saber la dirección que debe tomar la métrica para elegir el modelo, luego es simplemente
mirar el máximo (o mínimo) por columna y listo.
2) En la clínica más importante de la ciudad se realizó un estudio para relacionar el peso de los bebes al nacer con la raza
de la madre y el peso de las madres. A continuación se definen las variables usadas en el modelo:
bwt: birth weight in grams.
race: mother's race (white, black, other).
lwt: mother's weight in pounds at last menstrual period.
En la siguiente salida se muestra el modelo ajustado con R.
a. Escriba el modelo (o ecuación) ajustado.
b. ¿Cuál es el nivel de referencia de la variable cualitativa usada en el modelo?
c. ¿Cuántas variables dummy o artificiales tiene la matriz 𝑿?
d. Estime el peso de los bebés para cinco madres con la siguiente información.
En la siguiente salida de R aparecen todos los posibles modelos que se pueden crear a partir del modelo ajustado en la clínica.
e. ¿Cuáles son los términos (no las covariables) que generan el modelo con el mejor R2 ajustado?
f. ¿Cuáles son los términos (no las covariables) que generan el modelo con el mejor Cp?
g. Considere una prueba estadística para decidir si al estudiar la relación entre el peso del bebé y el peso de la madre,
es importante considerar la raza de la madre. ¿Cuál sería la hipótesis nula y alterna?
Rtas: a) la ecuación solicitada se escribe usando las estimaciones de la tabla, no olvide poner el símbolo ^ a la variable respuesta,
b) blanca, c) dos, d) 2805.144, 2743.991, 3600.808, 3017.453, y 2601.180, e) raceother lwt raceblack:lwt, f) misma respuesta
anterior.
g) La solución se muestra abajo.