Ejercicios adicionales sobre regresión lineal con variables cualitativas
1) La base de datos Cars93 del paquete MASS de R contiene la información de 27 variables para 93 vehículos en Estados
Unidos. En la tabla de abajo se presentan los 10 primeros registros de la base de datos. El objetivo es ajustar un modelo de
regresión lineal para estudiar la relación entre el precio de vehículo (miles de dólares) y las variables origen del vehículo,
airbags y rendimiento en la ciudad (millas por galón). Abajo se presenta como ilustración una parte de la base de datos,
diez observaciones y 4 variables solamente.
Obs
Origin
AirBags
MPG.city
Price
1
non-USA
None
25
15.9
2
non-USA
Driver & Passenger
18
33.9
3
non-USA
Driver only
20
29.1
4
non-USA
Driver & Passenger
19
37.7
5
non-USA
Driver only
22
30.0
6
USA
Driver only
22
15.7
7
USA
Driver only
19
20.8
8
USA
Driver only
16
23.7
9
USA
Driver only
19
26.3
10
USA
Driver only
16
34.7
a) ¿Cuál es la variable respuesta en este problema?
b) ¿Cuáles son las covariables? Diga cuáles son cualitativas y cuáles cuantitativas.
c) La variable Origin tiene dos niveles (non-USA y USA) y se quiere que el nivel USA sea el de referencia. La variable airbags
tiene tres niveles, siendo el nivel de referencia lógico none. Escriba o defina las variables ficticias o dummy que R
internamente crea para manejar las variables cualitativas.
d) A continuación se presentan dos boxplot para el precio dado el origen y para precio dado airbags. ¿Qué conclusiones puede
usted obtener de estos boxplot?
Los resultados obtenidos al ajustar el modelo de interés se presentan a continuación.
Call:
lm(formula = Price ~ Origin + AirBags + MPG.city, data = Cars93)
Residuals:
Min 1Q Median 3Q Max
-11.536 -4.042 -1.292 2.938 30.136
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.8211 3.3182 9.891 6.01e-16 ***
Originnon-USA 5.1283 1.3878 3.695 0.000381 ***
AirBagsDriver only 5.6636 1.5298 3.702 0.000372 ***
AirBagsDriver & Passenger 11.0745 2.0606 5.374 6.23e-07 ***
MPG.city -0.9084 0.1312 -6.922 6.92e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.457 on 88 degrees of freedom
Multiple R-squared: 0.5726, Adjusted R-squared: 0.5531
F-statistic: 29.47 on 4 and 88 DF, p-value: 1.5e-15
e) Escriba la ecuación ajustada para el modelo estudiado.
f) ¿Cuántas variables explicativas tiene el modelo? ¿Cuántos coeficientes tiene el modelo? ¿Por qué no coinciden el número
de variables y el número de coeficientes?
g) ¿En cuánto se incrementa el precio medio de un vehículo de origen no estadounidense en relación a uno de Estados
Unidos?
h) ¿Cómo cambia el precio promedio de un vehículo con airbag para el conductor frente a uno con airbags para el conductor y
el pasajero?
i) ¿Cuál sería el precio medio estimado para un vehículo alemán sin airbags y con un rendimiento de combustible en ciudad
de 30 millas por galón?
Respuestas. A) Precio. B) Origin (cualitativa), Airbags (cualitativa) y MPG.city (cuantitativa). C) Se crean 3 variables dummy. D) El auto
de mayor precio es non-usa con dos airbags, es mayor la variabilidad del precio de los autos non-usa, la distribución de los precios de
los autos non-usa es sesgada a la derecha, el auto de menor precio es de USA y sin airbag, a medida que aumenta el número de airb
ags el precio de los autos aumenta, a medida que aumentan los airbags la variabilidad de los precios aumenta. E)  
    F) Tres y cinco. G) En cinco mil ciento veintiocho dólares con treinta
centavos de dólar. H) Aumenta en cinco mil cuatrocientos diez dólares con noventa centavos de dólar. I) Sería de 10.9474 miles de d
ólares.
2) Una institución educativa realizó un estudio observacional durante el último año para indagar sobre la nota promedio de los
aspirantes en la prueba de matemáticas del examen de admisión. Para esto la institución recolectó información sobre
cuatro variables que son: Math nota obtenida (en puntos) por cada aspirante en la prueba de matemáticas; Age edad en
años del aspirante al presentar la prueba; Race raza del candidato (1: blanco, 2: negro, 3: mestizo y 4: indígena) y Female, 1
si el candidato era mujer, 0 caso contrario. La institución educativa contrató un profesional en estadística para que le
asesorara en el ajuste del modelo. Los resultados que obtuvo el profesional usando R fueron los siguientes:
Call:
lm(formula = math ~ age + female + race)
Residuals:
Min 1Q Median 3Q Max
-15.5008 -3.6491 0.1459 4.7396 15.9861
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.9390 1.3508 37.710 <2e-16 ***
age 4.7529 0.3280 14.491 <2e-16 ***
female1 -0.7020 0.8896 -0.789 0.0310
race2 1.9614 2.3425 0.837 0.4035
race3 1.1841 1.8930 0.626 0.5324
race4 2.9723 1.3937 2.133 0.0342 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.214 on 26 degrees of freedom
Multiple R-squared: 0.571, Adjusted R-squared: 0.56
F-statistic: 51.65 on 5 and 26 DF, p-value: < 2.2e-16
a) ¿Cuál fue el número de observaciones utilizadas en el análisis de regresión?
b) ¿Cuál fue el número de covariables en el estudio?
c) ¿Cuántos coeficientes tiene el modelo?
d) ¿Cuál es el valor de la varianza estimada de los errores?
e) ¿Cuántas variables dummy asociadas a la variable Race hay en el modelo?
f) ¿Cuál es el número total de variables dummy en el estudio?
g) ¿Cuál es el valor predicho o ajustado en la prueba de matemáticas para un aspirante hombre de 20 os de edad y
proveniente de la comunidad indígena Guane?
h) A la institución se presentó una candidata de 23 años de raza blanca. ¿Cuál es la nota media esperada en la prueba de
matemáticas para la candidata?
i) Construya un IC del 95% para el coeficiente de la raza mestiza.
j) Construya un IC del 95% para el coeficiente de la edad.
k) ¿Cuál es la mayor subestimación del modelo?
l) ¿Qué se puede concluir de la prueba de significancia de la regresión? Considere  .
m) ¿Es significativa para el modelo la variable Race? Considere .
n) Interprete el coeficiente asociado a la variable edad.
o) ¿Qué se puede concluir del coeficiente de determinación?
NOTA: la relación (con como el número de variables cuantitativas) se cumple solo si todas la variables con cuantitativas.
Cuando hay variables cualitativas aparecen variables dummy que destruyen la relación (ahí representa el número de variables REA
LES, cuantitativas o dummies), sin embargo, el número de parámetos del modelo corresponde a la cantidad de ’s. Para construir I
C para uno de los parámetros debe usar la siguiente fórmula:
󰆹

󰆹
󰆹
󰇛
󰆹󰇜
Respuestas. A) Como n-k-1=26 entonces n=33. B) Tres. C) Seis. D) 38.613. E) Tres. F) Cuatro. G) 50.93+4.75*0+2.97= 148.9. H)
50.93+4.75*23-0.70=159.48. I) (-2.70, 5.07). J) (4.07, 5.42). K) 15.9861 puntos. L) A un nivel de significancia del 5% se concluye que al
menos uno de los coeficientes es diferente de cero. M) Si es significativa la variable Race porque una de las variables dummy
asociadas es significativa, la variable race4. N) Por cada año adicional en la edad del aspirante se espera que su nota media en la
prueba aumente 4.75 puntos siempre que las demás variables se mantengan constantes. O) El módelo solo alcanza a explicar el 56%
de la variabilidad del puntaje de la prueba.
3) En la sección 39 de Behar y Grima (2011) se presenta la siguiente tabla de datos relacionada al peso y altura de un grupo de
hombres y mujeres.
a. Usando los datos de la tabla reconstruya en R la figura 39.1 mostrada a continuación.
Escriba al menos 5 conclusiones que se pueden obtener de la figura 39.1.
b. Ajuste en R el siguiente modelo a los datos.
󰇛 󰇜
 

c. Escriba la ecuación de ajustada para el modelo anterior.
d. Replique en R la figura 39.5 del artículo que es mostrada a continuación.
4) Clasificar cada una de las siguientes afirmaciones como verdadero o falso.
1. La regresión lineal con variables cualitativas se conoce como regresión múltiple.
2. Las variables dummy o indicadoras pueden tomar valores de 0 o 1 para representar la presencia o ausencia de una
categoría.
3. En un modelo de regresión lineal con variables dummy, el coeficiente de cada variable dummy representa el cambio
en la variable de respuesta cuando la variable dummy cambia de 0 a 1, manteniendo todo lo demás constante.
4. Cuando se incluyen variables dummy en un modelo de regresión lineal, se debe omitir una de las categorías para
evitar la multicolinealidad perfecta.
5. La interpretación de los coeficientes de las variables dummy es similar a la interpretación de los coeficientes de las
variables cuantitativas en un modelo de regresión lineal.
Respuestas:
R1: Falso. La regresión lineal con variables cualitativas se conoce como regresión con variables dummy o indicadoras.
R2: Verdadero. Las variables dummy o indicadoras se utilizan para codificar variables cualitativas en un formato numérico, donde 0
representa la ausencia de una categoría y 1 representa la presencia.
R3: Verdadero. Los coeficientes de las variables dummy en un modelo de regresión lineal múltiple representan el cambio en la
variable de respuesta cuando la variable dummy cambia de 0 a 1, mientras se mantienen constantes las demás variables del modelo.
R4: Verdadero. Para evitar la multicolinealidad perfecta en un modelo de regresión lineal con variables dummy, se debe omitir una
de las categorías. La categoría omitida se conoce como categoría de referencia.
R5: Falso. La interpretación de los coeficientes de las variables dummy es diferente a la interpretación de los coeficientes de las
variables cuantitativas. Los coeficientes de las variables dummy representan el cambio en la variable de respuesta cuando la variable
dummy cambia de 0 a 1, mientras que los coeficientes de las variables cuantitativas representan el cambio en la variable de
respuesta cuando la variable cuantitativa aumenta en una unidad.
5) Se ha ajustado un modelo de regresión lineal para predecir el ingreso anual (en miles de dólares) de empleados
en función de su nivel educativo (Bachillerato, Licenciatura, Maestría) y años de experiencia. A continuación se
muestra la salida del `summary()` del modelo:
¿Cuál de las siguientes afirmaciones es correcta?
A) El nivel educativo "Bachillerato" es la categoría de referencia en el modelo.
B) El coeficiente para "educacionLic" indica que los empleados con Licenciatura ganan, en promedio, $10,250 menos que
los empleados con Bachillerato.
C) La variable "experiencia" tiene un coeficiente positivo, lo que indica que a medida que aumenta la experiencia, el
ingreso anual disminuye.
D) El modelo explica el 75.3% de la variabilidad en los ingresos anuales.
Respuesta Correcta
A) El nivel educativo "Bachillerato" es la categoría de referencia en el modelo.
Explicación de las Respuestas:
- A) Correcta. En un modelo de regresión con variables categóricas, la categoría que no aparece en los coeficientes es la categoría de referencia.
- B) Incorrecta. El coeficiente para "educacionLic" indica que los empleados con Licenciatura ganan, en promedio, $10,250 más que los empleados con Bachillerato.
- C) Incorrecta. El coeficiente para "experiencia" es positivo, lo que indica que a medida que aumenta la experiencia, el ingreso anual aumenta.
- D) Incorrecta. El modelo explica el 74.0% de la variabilidad en los ingresos anuales, al ser regresión lineal múltiple se debe usar el R2 ajustado por el número de covariables.
6) Se ha ajustado un modelo de regresión lineal para predecir el rendimiento académico (en puntos) de
estudiantes en función de las horas de estudio (variable cuantitativa) y el tipo de programa (Ciencias, Artes) en
el que están matriculados. A continuación se muestra la salida del `summary()` del modelo:
¿Cuál de las siguientes afirmaciones es correcta?
A) El coeficiente de "horas_estudio" indica que cada hora adicional de estudio aumenta el rendimiento académico en 3.5
puntos, independientemente del programa.
B) La interacción entre "horas_estudio" y "programa" sugiere que el efecto de las horas de estudio en el rendimiento
académico es el mismo para ambos programas.
C) El coeficiente de la interacción "horas_estudio:programaArtes" indica que, para los estudiantes de Artes, cada hora
adicional de estudio aumenta el rendimiento académico en 2.3 puntos.
D) El modelo explica el 45.67% de la variabilidad en el rendimiento académico.
E) Ninguna de las afirmaciones es verdadera.
Respuesta Correcta
D) El modelo explica el 68.2% de la variabilidad en el rendimiento académico.
Explicación de las Respuestas:
- A) Incorrecta. El coeficiente de "horas_estudio" (3.5) se aplica solo a los estudiantes de Ciencias, ya que la interacción modifica ese efecto para los estudiantes de Artes.
- B) Incorrecta. La interacción indica que el efecto de las horas de estudio sobre el rendimiento académico es diferente según el programa, lo que se refleja en el coeficiente de la interacción.
- C) Incorrecta. El coeficiente de la interacción "horas_estudio:programaArtes" es -1.2, lo que significa que para los estudiantes de Artes, el efecto total de cada hora adicional de estudio se
calcula como 3.5 - 1.2 = 2.3 puntos, en otras palabras, la ecuación de los estudiantes de artes es Rend^=52 + 2.3 horas_estudio, la pendiente es positiva, no negativa.
- D) Incorrecto. El valor de R-squared ajustado es 67%.
- E) Correcta.
Dibuje la recta de regresión general, la recta de regresión para Ciencias y la recta de regresión para Artes.