Ejercicios adicionales sobre regresión lineal con variables cualitativas

1) La base de datos Cars93 del paquete MASS de R contiene la información de 27 variables para 93 vehículos en Estados

Unidos. En la tabla de abajo se presentan los 10 primeros registros de la base de datos. El objetivo es ajustar un modelo de

regresión lineal para estudiar la relación entre el precio de vehículo (miles de dólares) y las variables origen del vehículo,

airbags y rendimiento en la ciudad (millas por galón). Abajo se presenta como ilustración una parte de la base de datos,

diez observaciones y 4 variables solamente.

Obs

Origin

AirBags

MPG.city

Price

non-USA

None

15.9

non-USA

Driver & Passenger

33.9

non-USA

Driver only

29.1

non-USA

Driver & Passenger

37.7

non-USA

Driver only

30.0

USA

Driver only

15.7

USA

Driver only

20.8

USA

Driver only

23.7

USA

Driver only

26.3

USA

Driver only

34.7

a) ¿Cuál es la variable respuesta en este problema?

b) ¿Cuáles son las covariables? Diga cuáles son cualitativas y cuáles cuantitativas.

c) La variable Origin tiene dos niveles (non-USA y USA) y se quiere que el nivel USA sea el de referencia. La variable airbags

tiene tres niveles, siendo el nivel de referencia lógico none. Escriba o defina las variables ficticias o dummy que R

internamente creará para manejar las variables cualitativas.

d) A continuación se presentan dos boxplot para el precio dado el origen y para precio dado airbags. ¿Qué conclusiones puede

usted obtener de estos boxplot?

Los resultados obtenidos al ajustar el modelo de interés se presentan a continuación.

Call:

lm(formula = Price ~ Origin + AirBags + MPG.city, data = Cars93)

Residuals:

Min 1Q Median 3Q Max

-11.536 -4.042 -1.292 2.938 30.136

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 32.8211 3.3182 9.891 6.01e-16 ***

Originnon-USA 5.1283 1.3878 3.695 0.000381 ***

AirBagsDriver only 5.6636 1.5298 3.702 0.000372 ***

AirBagsDriver & Passenger 11.0745 2.0606 5.374 6.23e-07 ***

MPG.city -0.9084 0.1312 -6.922 6.92e-10 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.457 on 88 degrees of freedom

Multiple R-squared: 0.5726, Adjusted R-squared: 0.5531

F-statistic: 29.47 on 4 and 88 DF, p-value: 1.5e-15

e) Escriba la ecuación ajustada para el modelo estudiado.

f) ¿Cuántas variables explicativas tiene el modelo? ¿Cuántos coeficientes tiene el modelo? ¿Por qué no coinciden el número

de variables y el número de coeficientes?

g) ¿En cuánto se incrementa el precio medio de un vehículo de origen no estadounidense en relación a uno de Estados

Unidos?

h) ¿Cómo cambia el precio promedio de un vehículo con airbag para el conductor frente a uno con airbags para el conductor y

el pasajero?

i) ¿Cuál sería el precio medio estimado para un vehículo alemán sin airbags y con un rendimiento de combustible en ciudad

de 30 millas por galón?

Respuestas. A) Precio. B) Origin (cualitativa), Airbags (cualitativa) y MPG.city (cuantitativa). C) Se crean 3 variables dummy. D) El auto

de mayor precio es non-usa con dos airbags, es mayor la variabilidad del precio de los autos non-usa, la distribución de los precios de

los autos non-usa es sesgada a la derecha, el auto de menor precio es de USA y sin airbag, a medida que aumenta el número de airb

ags el precio de los autos aumenta, a medida que aumentan los airbags la variabilidad de los precios aumenta. E)    

      F) Tres y cinco. G) En cinco mil ciento veintiocho dólares con treinta

centavos de dólar. H) Aumenta en cinco mil cuatrocientos diez dólares con noventa centavos de dólar. I) Sería de 10.9474 miles de d

ólares.

2) Una institución educativa realizó un estudio observacional durante el último año para indagar sobre la nota promedio de los

aspirantes en la prueba de matemáticas del examen de admisión. Para esto la institución recolectó información sobre

cuatro variables que son: Math nota obtenida (en puntos) por cada aspirante en la prueba de matemáticas; Age edad en

años del aspirante al presentar la prueba; Race raza del candidato (1: blanco, 2: negro, 3: mestizo y 4: indígena) y Female, 1

si el candidato era mujer, 0 caso contrario. La institución educativa contrató un profesional en estadística para que le

asesorara en el ajuste del modelo. Los resultados que obtuvo el profesional usando R fueron los siguientes:

Call:

lm(formula = math ~ age + female + race)

Residuals:

Min 1Q Median 3Q Max

-15.5008 -3.6491 0.1459 4.7396 15.9861

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 50.9390 1.3508 37.710 <2e-16 ***

age 4.7529 0.3280 14.491 <2e-16 ***

female1 -0.7020 0.8896 -0.789 0.0310

race2 1.9614 2.3425 0.837 0.4035

race3 1.1841 1.8930 0.626 0.5324

race4 2.9723 1.3937 2.133 0.0342 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.214 on 26 degrees of freedom

Multiple R-squared: 0.571, Adjusted R-squared: 0.56

F-statistic: 51.65 on 5 and 26 DF, p-value: < 2.2e-16

a) ¿Cuál fue el número de observaciones utilizadas en el análisis de regresión?

b) ¿Cuál fue el número de covariables en el estudio?

c) ¿Cuántos coeficientes tiene el modelo?

d) ¿Cuál es el valor de la varianza estimada de los errores?

e) ¿Cuántas variables dummy asociadas a la variable Race hay en el modelo?

f) ¿Cuál es el número total de variables dummy en el estudio?

g) ¿Cuál es el valor predicho o ajustado en la prueba de matemáticas para un aspirante hombre de 20 años de edad y

proveniente de la comunidad indígena Guane?

h) A la institución se presentó una candidata de 23 años de raza blanca. ¿Cuál es la nota media esperada en la prueba de

matemáticas para la candidata?

i) Construya un IC del 95% para el coeficiente de la raza mestiza.

j) Construya un IC del 95% para el coeficiente de la edad.

k) ¿Cuál es la mayor subestimación del modelo?

l) ¿Qué se puede concluir de la prueba de significancia de la regresión? Considere  .

m) ¿Es significativa para el modelo la variable Race? Considere   .

n) Interprete el coeficiente asociado a la variable edad.

o) ¿Qué se puede concluir del coeficiente de determinación?

NOTA: la relación      (con  como el número de variables cuantitativas) se cumple solo si todas la variables con cuantitativas.

Cuando hay variables cualitativas aparecen variables dummy que destruyen la relación (ahí  representa el número de variables REA

LES, cuantitativas o dummies), sin embargo, el número de parámetos del modelo  corresponde a la cantidad de ’s. Para construir I

C para uno de los parámetros debe usar la siguiente fórmula:



󰆹 



󰆹   

󰆹 

󰇛

󰆹󰇜

Respuestas. A) Como n-k-1=26 entonces n=33. B) Tres. C) Seis. D) 38.613. E) Tres. F) Cuatro. G) 50.93+4.75*0+2.97= 148.9. H)

50.93+4.75*23-0.70=159.48. I) (-2.70, 5.07). J) (4.07, 5.42). K) 15.9861 puntos. L) A un nivel de significancia del 5% se concluye que al

menos uno de los coeficientes es diferente de cero. M) Si es significativa la variable Race porque una de las variables dummy

asociadas es significativa, la variable race4. N) Por cada año adicional en la edad del aspirante se espera que su nota media en la

prueba aumente 4.75 puntos siempre que las demás variables se mantengan constantes. O) El módelo solo alcanza a explicar el 56%

de la variabilidad del puntaje de la prueba.

3) En la sección 39 de Behar y Grima (2011) se presenta la siguiente tabla de datos relacionada al peso y altura de un grupo de

hombres y mujeres.

a. Usando los datos de la tabla reconstruya en R la figura 39.1 mostrada a continuación.

Escriba al menos 5 conclusiones que se pueden obtener de la figura 39.1.

b. Ajuste en R el siguiente modelo a los datos.





󰇛 󰇜





  







c. Escriba la ecuación de ajustada para el modelo anterior.

d. Replique en R la figura 39.5 del artículo que es mostrada a continuación.

4) Clasificar cada una de las siguientes afirmaciones como verdadero o falso.

1. La regresión lineal con variables cualitativas se conoce como regresión múltiple.

2. Las variables dummy o indicadoras pueden tomar valores de 0 o 1 para representar la presencia o ausencia de una

categoría.

3. En un modelo de regresión lineal con variables dummy, el coeficiente de cada variable dummy representa el cambio

en la variable de respuesta cuando la variable dummy cambia de 0 a 1, manteniendo todo lo demás constante.

4. Cuando se incluyen variables dummy en un modelo de regresión lineal, se debe omitir una de las categorías para

evitar la multicolinealidad perfecta.

5. La interpretación de los coeficientes de las variables dummy es similar a la interpretación de los coeficientes de las

variables cuantitativas en un modelo de regresión lineal.

Respuestas:

R1: Falso. La regresión lineal con variables cualitativas se conoce como regresión con variables dummy o indicadoras.

R2: Verdadero. Las variables dummy o indicadoras se utilizan para codificar variables cualitativas en un formato numérico, donde 0

representa la ausencia de una categoría y 1 representa la presencia.

R3: Verdadero. Los coeficientes de las variables dummy en un modelo de regresión lineal múltiple representan el cambio en la

variable de respuesta cuando la variable dummy cambia de 0 a 1, mientras se mantienen constantes las demás variables del modelo.

R4: Verdadero. Para evitar la multicolinealidad perfecta en un modelo de regresión lineal con variables dummy, se debe omitir una

de las categorías. La categoría omitida se conoce como categoría de referencia.

R5: Falso. La interpretación de los coeficientes de las variables dummy es diferente a la interpretación de los coeficientes de las

variables cuantitativas. Los coeficientes de las variables dummy representan el cambio en la variable de respuesta cuando la variable

dummy cambia de 0 a 1, mientras que los coeficientes de las variables cuantitativas representan el cambio en la variable de

respuesta cuando la variable cuantitativa aumenta en una unidad.

5) Se ha ajustado un modelo de regresión lineal para predecir el ingreso anual (en miles de dólares) de empleados

en función de su nivel educativo (Bachillerato, Licenciatura, Maestría) y años de experiencia. A continuación se

muestra la salida del `summary()` del modelo:

¿Cuál de las siguientes afirmaciones es correcta?

A) El nivel educativo "Bachillerato" es la categoría de referencia en el modelo.

B) El coeficiente para "educacionLic" indica que los empleados con Licenciatura ganan, en promedio, $10,250 menos que

los empleados con Bachillerato.

C) La variable "experiencia" tiene un coeficiente positivo, lo que indica que a medida que aumenta la experiencia, el

ingreso anual disminuye.

D) El modelo explica el 75.3% de la variabilidad en los ingresos anuales.

Respuesta Correcta

A) El nivel educativo "Bachillerato" es la categoría de referencia en el modelo.

Explicación de las Respuestas:

- A) Correcta. En un modelo de regresión con variables categóricas, la categoría que no aparece en los coeficientes es la categoría de referencia.

- B) Incorrecta. El coeficiente para "educacionLic" indica que los empleados con Licenciatura ganan, en promedio, $10,250 más que los empleados con Bachillerato.

- C) Incorrecta. El coeficiente para "experiencia" es positivo, lo que indica que a medida que aumenta la experiencia, el ingreso anual aumenta.

- D) Incorrecta. El modelo explica el 74.0% de la variabilidad en los ingresos anuales, al ser regresión lineal múltiple se debe usar el R2 ajustado por el número de covariables.

6) Se ha ajustado un modelo de regresión lineal para predecir el rendimiento académico (en puntos) de

estudiantes en función de las horas de estudio (variable cuantitativa) y el tipo de programa (Ciencias, Artes) en

el que están matriculados. A continuación se muestra la salida del `summary()` del modelo:

¿Cuál de las siguientes afirmaciones es correcta?

A) El coeficiente de "horas_estudio" indica que cada hora adicional de estudio aumenta el rendimiento académico en 3.5

puntos, independientemente del programa.

B) La interacción entre "horas_estudio" y "programa" sugiere que el efecto de las horas de estudio en el rendimiento

académico es el mismo para ambos programas.

C) El coeficiente de la interacción "horas_estudio:programaArtes" indica que, para los estudiantes de Artes, cada hora

adicional de estudio aumenta el rendimiento académico en 2.3 puntos.

D) El modelo explica el 45.67% de la variabilidad en el rendimiento académico.

E) Ninguna de las afirmaciones es verdadera.

Respuesta Correcta

D) El modelo explica el 68.2% de la variabilidad en el rendimiento académico.

Explicación de las Respuestas:

- A) Incorrecta. El coeficiente de "horas_estudio" (3.5) se aplica solo a los estudiantes de Ciencias, ya que la interacción modifica ese efecto para los estudiantes de Artes.

- B) Incorrecta. La interacción indica que el efecto de las horas de estudio sobre el rendimiento académico es diferente según el programa, lo que se refleja en el coeficiente de la interacción.

- C) Incorrecta. El coeficiente de la interacción "horas_estudio:programaArtes" es -1.2, lo que significa que para los estudiantes de Artes, el efecto total de cada hora adicional de estudio se

calcula como 3.5 - 1.2 = 2.3 puntos, en otras palabras, la ecuación de los estudiantes de artes es Rend^=52 + 2.3 horas_estudio, la pendiente es positiva, no negativa.

- D) Incorrecto. El valor de R-squared ajustado es 67%.

- E) Correcta.

Dibuje la recta de regresión general, la recta de regresión para Ciencias y la recta de regresión para Artes.