Ejercicios adicionales a los propuestos en el capítulo 4
Se recomienda hacer los ejercicios propuestos en el libro de Montgomery, D.; Peck, E.; Vining, G. (2002) Introducción al Análisis de
Regresión Lineal.
si se encuentra este símbolo en alguno de los ejercicios significa que el ejercicio es de nivel avanzado, en ese caso puede saltarse el
ejercicio.
1. Ejercicio para hacer en el tema de regresión lineal múltiple. El objeto table.b1 del paquete MPV que acompaña el texto guía
tiene la información sobre el desempeño de equipos de futbol americano en una temporada pasada, para más detalles de la base
de datos escriba help(table.b1) en la consola de R. Abajo una descripción de las variables.
Construya un modelo para explicar el número de juegos ganados en función de las yardas por aire y yardas por tierra del contrario.
a) Suponga que queremos determinar si se estaría cometiendo extrapolación oculta o no al estimar el número de juegos
ganados para un equipo A con 1750 yardas por aire y 1568 yardas por tierra del contrario. Para esto se calculan todos los 
de los cual se obtiene que  es igual a _________, luego se obtiene que para el equipo A el valor  es de _________ y
por lo tanto se concluye que _______ se está cometiendo extrapolación oculta.
b) Al calcular los residuales estandarizados y los residuales PRESS para el modelo se encontró que el equipo u observación
número ____ presentó los residuales más alejados del cero. Para este equipo se obtuvo que fue de __________ y el valor
encontrado para 󰇛󰇜 fue de _________. De los resultados anteriores se puede decir que este equipo _____ (si/no) es punto
atípico y que ______ (si/no) es un punto de influencia.
c) Para determinar que observaciones o filas son influyentes en el modelo se usó la Distancia de Cook. Al calcular esta distancia
se encontró que las observaciones __________________ fueron las que presentaron distancias superiores a la cota
calculada de __________, por lo tanto se concluye que estas observaciones ______ (si/no) son influyentes.
d) Para determinar la capacidad del modelo para predecir nuevas observaciones se calculó el coeficiente R2 de predicción el
cual arrojó un valor de ______ por lo tanto se puede decir que el modelo 2 es ________ para predecir nuevas observaciones.
2. El objeto table.b3 del paquete MPV que acompaña el texto guía tiene la información sobre el rendimiento de la gasolina para
32 automóviles en función de covariables de los mismos, para más detalles de la base de datos escriba help(table.b3) en la
consola de R. Abajo una descripción de las variables.
Se ajustó un modelo lineal simple para explicar el rendimiento en función de la relación de compresión. Como el diagrama de
dispersión no muestra una nube en forma recta se decide aplicar la prueba formal para la falta de ajuste. Al aplicar esta prueba se
encuentra que el estadístico toma el valor de _________ con un valor-P de ________, por lo tanto se concluye que
__________________________________________.
3. La base de datos cars de R contiene información de la distancia (pies) necesaria para que un vehículo frene y la velocidad
(millas/hora) a la iba cuando se pisaron los frenos. Un ingiero decide aplicar un modelo de regresión lineal simple para modelar
la distancia en función de la velocidad. Este ingeniero decide no usar la función lm para entrenar el modelo sino la función rsm
del paquete rsm. El ingeniero prefirió usar esa función porque el summary del modelo ya contiene la tabla anova de significancia
y la tabla anova de falta de ajuste. A continuación del código usado por el ingeniero.
with(cars, plot(x=speed, y=dist, pch=19))
library(rsm)
mod2 <- rsm(dist ~ FO(speed), data=cars)
summary(mod2)
FO significa first order, en otras palabras, FO(X) significa que se incluye la variable X elevada a la uno. Corra el código anterior para
responder las siguientes preguntas.
a) ¿Cuál es el valor estimado del intercepto? ¿Cómo se puede interpretar el intercepto en este modelo?
b) ¿Cuáles son las unidades de la pendiente? ¿Tiene sentido que la estimación sea positiva?
c) El ingeniero decide aplicar la prueba de falta de ajuste. ¿Qué puede concluir el ingeniero con un ?
d) El ingeniero decide repetir los cálculos anteriores con la función lm y la función lack_fit_test del paquete model. Abajo
está el código, córralo en su sesión de R. ¿Qué diferencia existe entre las tablas anova cuando se usa rsm y cuando se usa
lack_fit_test?
mod1 <- lm(dist ~ speed, data=cars)
summary(mod1)
devtools::install_github('fhernanb/model', force=TRUE)
library(model)
lack_fit_test(mod1)
4. La siguiente salida corresponde al summary obtenido de un modelo de RLS creado con el paquete rsm. El modelo ajustado
involucra dos variables, diámetro del árbol (girth) medio en pulgadas y altura del árbol (height) medida en pies. En total se tenían
31 árboles, abajo una figura ilustrativa de una de las medidas.
Call:
rsm(formula = Girth ~ FO(Height), data = trees)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.188395 -------- -1.0383 0.307717
Height 0.255747 0.078158 ------ 0.002758 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multiple R-squared: 0.2697, Adjusted R-squared: 0.2445
F-statistic: ------ on 1 and 29 DF, p-value:-------
Analysis of Variance Table
Response: Girth
Df Sum Sq Mean Sq F value Pr(>F)
FO(Height) -- ------ 79.665 ------ ------
Residuals -- ------ ------
Lack of fit 19 138.295 7.279 0.9395 0.567132
Pure error 10 77.477 -----
a) ¿Cuál es el error estándar del intercepto estimado?
b) ¿Cuál es el t value para la pendiente estimada?
c) ¿Cuál es el valor del estadístico de la prueba F o prueba de significancia de la regresión?
d) ¿Cuál es el valor-P de la prueba de significancia de la regresión?
e) ¿Cuál es la suma de cuadrados de los residuales?
f) ¿Cuál es el cuadrado medio del error puro?
g) Con un , ¿hay falta de ajuste en el modelo?
5. En la siguiente tabla se presentan los gráficos de residuales de cuatro modelos. ¿Cuáles modelos cumplen los supuestos de
regresión lineal?
M1
M2
M3
M4
6. Un investigador ajustó un modelo de regresión lineal y construyó los gráficos de diagnóstico que se muestran a conti
nuación.
a) ¿Se viola fuertemente la suposición de normalidad de los errores?
b) ¿Qué opina del cumplimiento de la homocedasticidad?
c) ¿Cuáles son las observaciones más influyentes?
d) ¿Cuántos regresores tiene el modelo ajustado?
e) ¿Cuántas observaciones tiene el modelo ajustado?
7. A continuación se presenta un gráfico de residuales. ¿Problema(s) observa usted?
8. Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación
de éstas y la renta nacional. Para investigar la relación cuenta con los siguientes datos:
189
190
208
227
239
252
257
274
293
308
316
402
404
412
425
429
436
440
447
458
469
469
representa la renta nacional en millones de euros e representa las ventas de la compañía en miles de euros en el per
iodo que va desde 1990 hasta 2000 (ambos inclusive).
a) Escriba la ecuación de regresión ajustada para este problema.
b) Complete la siguiente tabla de residuales.
c) Dibuje los gráficos de residuales. ¿Qué observa de los gráficos?
Valores ajustados
Residual
ordinario

Residual
standarizado
Residual
studentizado
1
402
402.77
-0.77
0.28
2
404
403.30
0.70
0.27
3
412
-0.93
0.18
4
425
0.12
5
429
-0.51
0.10
6
436
0.09
7
440
0.86
0.09
8
447
0.12
9
458
-0.40
0.18
10
469
466.43
0.26
11
469
470.71
-1.71
0.31
Respuestas
1. Abajo las respuestas.
a) Suponga que queremos determinar si se estaría cometiendo extrapolación oculta o no al estimar el número de juegos
ganados para un equipo A con 1750 yardas por aire y 1568 yardas por tierra al contrario. Para esto se calculan todos los 
de los cual se obtiene que  es igual a 0.3006904, luego se obtiene que para el equipo A el valor  es de 0.1428355 y
por lo tanto se concluye que no se está cometiendo extrapolación oculta.
b) Al calcular los residuales estandarizados y los residuales PRESS para el modelo se encontró que el equipo u observación
número 1 presentó los residuales más alejados del cero. Para este equipo se obtuvo que fue de 2.29818678 y el valor
encontrado para 󰇛󰇜 fue de 4.30005708. De los resultados anteriores se puede decir que este equipo no (si/no) es punto
atípico y que si (si/no) es un punto de influencia.
c) Para determinar que observaciones o filas son influyentes en el modelo 2 se usó la Distancia de Cook. Al calcular esta distancia
se encontró que las observaciones n° ninguna fueron las que presentaron distancias superiores a la cota calculada de
0.173913, por lo tanto se concluye que estas observaciones no (si/no) son influyentes.
d) Para determinar la capacidad del modelo 2 para predecir nuevas observaciones se calculó el coeficiente R2 de predicción el
cual arrojó un valor de 0.9989339 por lo tanto se puede decir que el modelo 2 es bueno para predecir nuevas observaciones.
2. Se ajustó un modelo lineal simple para explicar el rendimiento en función de la relación de compresión. Como el
diagrama de dispersión no muestra una nube en forma recta se decide aplicar la prueba formal para la falta de
ajuste. Al aplicar esta prueba se encuentra que el estadístico toma el valor de 0.7538876 con un valor P de
0.5912081, por lo tanto se concluye que el modelo describe los datos en forma adecuada.
3. -17.58 es la estimación pero NO se puede interpretar. Horas*pies/millas, si tiene sentido que sea positiva la pendiente, a
mayor velocidad se requiere más distancia para detenerse. No hay falta de ajuste porque el valor-P de la prueba es 0.2948 y
es mayor al nivel de significancia, el modelo ajustado es apropiado. La apariencia es muy diferente pero los resultados son
los mismo. ¿Cuál usaría usted?
4. 5.9601; 3.2721; 10.7071; 0.002758; 215.772; 7.7477; no se rechaza la hipótesis “Ho: el modelo es apropiado a los datos”.
5. M1 y M4.
6. A) No. B) Se viola fuertemente. C) La 211, 96 y 76. D) No se sabe. E) Parece que 224 o algo así.
7. Se viola seriamente la normalidad.
8. A)  . C) Se observa que los errores no siguen una distribución normal y que parece haber indi
cios de heterocedasticidad, se necesita un conjunto de observaciones mayor para verificar esto.