Ejercicios adicionales a los propuestos en el capítulo 3
Se recomienda hacer los ejercicios propuestos en el libro de Montgomery, D.; Peck, E.; Vining, G. (2002) Introducción al Análisis de
Regresión Lineal.
si se encuentra este símbolo en alguno de los ejercicios significa que el ejercicio es de nivel avanzado, en ese caso puede saltarse
el ejercicio.
1) En Montgomery et al. (2005) el ejercicio propuesto 3.5.a estudia la relación de dos variables sobre el rendimiento de la
gasolina para un conjunto de autos. La tabla B3 del apéndice muestra la base de datos para el problema y para acceder a
ellos usted debe instalar la librería MPV en R usando el siguiente código:
install.packages("MPV") # Instala la librería
require(MPV) # Carga la librería
data(table.b3) # Dispone los datos de la tabla B3
head(table.b3) # Para ver las primeras líneas de los datos
a) ¿Cuál es el código en R para ajustar el modelo solicitado en el literal (a) del ejercicio 3.5?
b) Escriba la ecuación del modelo ajustado.
c) ¿Cuál es la dimensión de la matriz de diseño X?
d) ¿Cuál es el resultado de la prueba de la significancia de la regresión? Use un nivel de significancia del 5%.
e) ¿Es la variable número de gargantas del carburador importante en el modelo?
f) El coeficiente que acompaña a X6 es mayor en valor absoluto que el coeficiente de X1 y sin embargo la variable X6 no es
significativa. ¿Cómo se puede explicar esto?
g) Suponga que el gerente de la empresa quiere explicar la variable rendimiento del combustible en función de los caballos de
fuerza, el torque, el desplazamiento y la razón de compresión. Un asesor del gerente le sugiere que es mejor un modelo con
los regresores caballos de fuerza y razón de compresión. ¿Podría usted como estadístico ayudarles al gerente y al asesor a
tomar una decisión? Solucione este problema usando la prueba F parcial.
2) Suponga que se ajusta el modelo de regresión lineal dado por la expresión:
Y = β0 + β1 X1 + β2 X2 + ε,
en el cual Y representa el tiempo en minutos para entregarle a un tendero su pedido de gaseosas, X1 representa el número
de cajas de gaseosas solicitado y X2 la distancia (pies) entre la tienda y el camión repartidor. La tabla de resumen entregada
por R para el ajuste del modelo anterior es la siguiente:
Residuals:
Min 1Q Median 3Q Max
-5.7880 -0.6629 0.4364 1.1566 7.4197
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.341231 1.096730 2.135 0.044170 *
x1 1.615907 0.170735 9.464 3.25e-09 ***
x2 0.014385 0.003613 3.981 0.000631 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.259 on 22 degrees of freedom
Multiple R-squared: 0.9596, Adjusted R-squared: 0.9559
F-statistic: 261.2 on 2 and 22 DF, p-value: 4.687e-16
a) ¿Qué conclusión puede obtener sobre la prueba de significancia de la regresión? Escriba Ho para este problema y asuma
α=5% para concluir.
b) ¿Cuál es el tiempo esperado para atender un tendero cuya tienda está a 850 pies y pidió nueve cajas de gaseosa?
c) El camión repartidor de gaseosas se estaciona a la misma distancia de dos tiendas llamadas A y B. El pedido de la tienda A
fue de 10 canastas de gaseosa mientras que la tienda B pidel doble de canastas. ¿Cuánto tiempo a más se espera que el
repartidor de gaseosas demore en atender la tienda B con respecto a la tienda A?
3) En una planta un ingeniero hizo un experimento para determinar la influencia de la presión, temperatura, flujo de CO2,
humedad y tamaño de partícula de los cacahuates sobre el rendimiento total de aceite por lote de cacahuate. En este
experimento x1 representa la presión (bar), x2 representa la temperatura (°C), x3 la humedad (% en peso), x4 el flujo
(Lt/min), x5 representa el tamaño de partícula (mm) mientras que y representa el rendimiento (Lt/lote). Al ajustar un
modelo de regresión de y contra todos los regresores se encontró que, ni x3 ni x4 no eran significativas, por esta razón se
ajustó un segundo modelo y los resultados se muestran a continuación.
Residuals:
Min 1Q Median 3Q Max
-12.625 -4.500 0.125 5.688 8.875
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 53.32905 14.17446 3.762 0.002709 **
x1 0.05556 0.02740 2.028 0.065404 .
x2 0.28214 0.05284 5.339 0.000177 ***
x5 -16.06498 1.33536 -12.030 4.7e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.398 on 12 degrees of freedom
Multiple R-squared: 0.9366, Adjusted R-squared: 0.9208
F-statistic: 59.12 on 3 and 12 DF, p-value: 1.848e-07
a) Identifique e interprete el coeficiente de determinación ajustado.
b) El modelo ajustado a veces subestima y otras veces sobrestima los valores de rendimiento. ¿De cuánto fue la mayor
sobrestimación de los rendimientos?
c) Escriba la ecuación de regresión en términos de los nombres de las variables originales.
d) En la planta de procesamiento se acaban de recibir dos lotes de cacahuates los cuales son muy similares en sus
características, la única diferencia es que el lote proveniente de la región XW tiene tamaño de partícula de 16 mm mientras
que el lote proveniente de la región ZY tiene la mitad del tamaño de partícula que el lote de XW. ¿En cuántos litros de
aceite por lote se espera que difieran los dos lotes provenientes de XW y ZY? ¿Cuál lote generará mayor rendimiento?
e) ¿Cuál debe ser el rendimiento esperado para un lote bajo las condiciones tamaño de partícula de 4.05 mm, humedad de
12% en peso, presión de 350 bar y 89 °C?
4) En la tabla B.3 del texto guía aparecen los datos recolectados de un estudio observacional sobre autos y sus características.
El objetivo del estudio fue tratar de explicar el rendimiento del combustible del auto en función de sus características. Los
datos están disponibles en el objeto table.b3 del paquete MPV que acompaña al texto guía. Una descripción breve de las
variables es la siguiente:
Para todos los análisis siguientes elimine las filas de la base de datos que contengan NA’s, es decir, identifique las observaciones con
NA y sáquelas de la base datos antes de hacer cualquier análisis.
Complete cada una de las siguientes afirmaciones escribiendo sobre la línea horizontal ________ lo que falta para que la afirmación
sea verdadera.
a) Al ajustar un modelo 1 de regresión para explicar el rendimiento de combustible en función de todas las covariables
(excepto la covariable cualitativa) se encontró que la prueba significancia de la regresión __________ (rechaza/no rechaza)
la hipótesis Ho: ___________________________________ debido a que el valorP de la prueba fue de __________.
b) El coeficiente de determinación apropiado para este modelo fue de ____________ y del él se puede concluir que
_______________________________________________________________________.
c) La covariable menos significativa (a un nivel de significancia del 10%) en este modelo 1 fue _______ debido a que su valor P
fue de ________.
d) El analista decide ser cuidadoso y ajusta un nuevo modelo 2 sin aquellas covariables cuyo valor P fue mayor o igual a 50%.
De este nuevo modelo el analista encuentra que la(s) covariable(s) ____________________ es(son) ahora significativa(s) al
mismo nivel de significancia, de aquí el analista puede concluir que las covariable(s) extraída(s) estaban _______________
el efecto de la(s) covariable(s) significativa(s).
e) En este momento analista toma un enfoque arriesgado y construye un nuevo modelo 3 usando sólo las covariables peso del
vehículo, relacion eje trasero y longitud total. De este nuevo modelo encuentra que el coeficiente de determinación es
________, la estimación para la varianza de los errores es ________ y que todas la covariables son ___________ al nivel de
significancia manejado.
f) La mayor sobreestimación (en valor absoluto) de este último modelo fue de __________ millas por galón.
g) Escriba la expresión para el modelo ajustado final.
h) Al construir un intervalo de confianza del 90% para el coeficiente asociado a la longitud del vehículo se encontró que el
intervalo es ( _______ , ______ ).
i) Un informe publicado hace dos años en la revista Motor indicaba que por cada libra adicional en un vehículo éste disminuia
su rendimiento de combustible en 0.01 millas por galón. El analista desea usar la información de su modelo para probar si la
afirmación de la revista ha cambiado o no, para esto plantea la hipótesis nula como _______________ y la hipótesis alterna
como _______________, el analista encuentra que el estadístico para esta prueba es de _________ con un valor P de
_________ y por lo tanto concluye que las evidencias indican que ______________ (rechaza/no rechaza) Ho.
j) Según el último modelo el rendimiento estimado para un vehículo con una potencia de 190 Hp, relación de eje trasero de
2.5, una longitud de 200 pulgadas y un peso de 4000 libras es de ____________.
k) Para el último modelo se observa que la observación número ______ es la que tiene el mayor valor de hii.
l) El valor de hii para la nueva observación del literal (j) es de ________ , por lo tanto se puede decir que al estimar el valor de
Y para ese vehículo ________ (si/no) se está comentiendo extrapolación oculta.
5) En la tabla B.4 del texto guía aparecen los datos recolectados de un estudio observacional sobre propiedades y sus
características. El objetivo del estudio fue tratar de explicar el precio de venta del inmueble en función de sus
características. Los datos están disponibles en el objeto table.b4 del paquete MPV que acompaña al texto guía. Una
descripción breve de las variables es la siguiente:
Complete cada una de las siguientes afirmaciones escribiendo sobre la línea horizontal ________ lo que falta para que la afirmación
sea verdadera.
a) Al ajustar un modelo 1 de regresión para explicar el precio del inmueble en función de todas las covariables se encontró
que la prueba significancia de la regresión __________ la hipótesis Ho: ___________________________________ debido a
que el valorP de la prueba fue de __________.
b) El coeficiente de determinación apropiado para este modelo fue de ____________ y del él se puede concluir que
_______________________________________________________________________.
c) La covariable menos significativa (a un nivel de significancia del 10%) en este modelo 1 fue _______ debido a que su valor P
fue de ________.
d) El analista decide ser cuidadoso y ajusta un nuevo modelo 2 sin aquellas covariables cuyo valor P fue mayor o igual a 50%.
De este nuevo modelo el analista encuentra que la(s) covariable(s) ____________________ es(son) ahora significativa(s) al
mismo nivel de significancia, de aquí el analista puede concluir que las covariable(s) extraída(s) estaban _______________
el efecto de la(s) covariable(s) significativa(s).
e) En este momento analista toma un enfoque arriesgado y construye un nuevo modelo 3 usando sólo las covariables cantidad
de recámaras, cantidad de baños, impuestos y cantidad de cajones en cochera. De este nuevo modelo encuentra que el
coeficiente de determinación es ________, la estimación para la varianza de los errores es ________ y que solo las
covariables ___________ son significativas al nivel de significancia manejado.
f) La mayor sobreestimación de este último modelo fue de __________.
g) La expresión para el modelo ajustado final (3) con todas las covariables usadas para ese modelo es la siguiente:
h) Al construir un intervalo de confianza del 90% para el coeficiente asociado a impuesto se encontró que el intervalo es (
_______ , ______ ).
i) Un informe publicado hace dos años en la revista La Lonja indicaba que por cada recámara adicional en un inmueble éste
disminuia su precio en dos mil unidades monetarias (asuma proporcional al de recámaras). El analista desea usar la
información de su modelo para probar si la afirmación de la revista ha cambiado o no, para esto plantea la hipótesis nula
como _______________ y la hipótesis alterna como _______________, el analista encuentra que el estadístico para esta
prueba es de _________ con un valor P de _________ y por lo tanto concluye que las evidencias indican que
______________ Ho.
j) Según el último modelo el precio estimado para un inmueble con impuestos de 4.5, dos baños, tres chimeneas, cuatro
recámaras y tres cajones en cochera es de ____________
k) Para el último modelo se observa que la observación número ______ es la que tiene el mayor valor de hii.
l) El valor de hoo para la nueva observación del numeral (10) es de ________ y por lo tanto se puede considerar al estimar el
valor de Y para ese inmueble si se está comentiendo ______________________________.
6) Complete correctamente el siguiente crucigrama con los conceptos importantes del curso.
7) El objeto usair del paquete gamlss.data contiene información sobre contaminación del aire de Estados Unidos. Use la
función help( ) para conocer los detalles de la base de datos.
a) Ajuste inicialmente un modelo #1 de regresión lineal múltiple (usando la función lm) para explicar la concentración de
dióxido de azufre en función de todas las covariables de la base de datos. Luego de hacer esto construya la tabla de
resumen del modelo y elimine la covariable menos significativa en el modelo #1 a un nivel de significancia del 6% (sí, seis
por ciento) y ajuste un nuevo modelo #2. Repita el proceso anterior sacando la variable menos significativa hasta que solo
queden las covariables significativas. El modelo resultante se puede llamar modelo refinado, este modelo refinado tiene la
siguiente expresión matemática para la concentración de dióxido de azufre promedio:
b) Al aplicar la prueba F parcial para comparar el modelo #1 y modelo refinado del ejercicio anterior, las hipótesis de interés
son ___________________________________ y ____________________________________. Al realizar la prueba se
encuentra que el estadístico de prueba es igual a ____________________ con valor P de _________________. A un nivel
de significancia del 10% se concluye que ________________________________, y por lo tanto se sugiere usar como
modelo final el modelo ___________ (#1/refinado).
c) Suponga que queremos estimar la concentración de dióxido de azufre promedio para las situaciones A y B usando el modelo
final. En la siguiente tabla se muestran los valores en ambas situaciones A y B.
Situación
X1
X2
X3
X4
X5
X6
A
52
35
72
6
41
145
B
40
37
70
6
42
130
Usando sólo la información relevante para el modelo final, se obtiene que la concentración de dióxido de azufre promedio para A es
de _________ mientras que para la situación B la concentración de dióxido de azufre promedio es _________.
d) Para determinar si se está cometiendo extrapolación oculta en la estimación de la concentración de dióxido de azufre promedio
en las situaciones A y B se calcula el valor de . Para la situación A se obtiene un valor de  de ________ mientras que para la
situación B el valor es de _________. El valor de referencia  es __________, por lo tanto, se puede concluir que
______________________________________________________________________________.
e) Para el modelo final se desea ahora aplicar la prueba de significancia de la regresión. Complete la tabla siguiente.
Fuente de
variación
Suma de
cuadrados
Cuadrado
medio
Fo
Valor-P
Regresión
Residual
Total
Usando un nivel de significancia del 10%, de la prueba se puede concluir que __________________________
_________________________________________________________________________________________
f) Considere el modelo final para responder esta pregunta. En Estados Unidos se había creído hasta ahora que, por cada mil
personas adicionales que tenga una ciudad, la concentración de dióxido de azufre promedio disminuye en 0.06, sin embargo,
observando los resultados del modelo final, parece indicar que esta disminución se ha reducido. Para probar esta afirmación se
decide realizar una prueba de hipótesis en la cual las hipótesis de interés son _____________ y ______________. Al
realizar la prueba se encontró un estadístico con valor de ________ y valor-P de ____________. A un nivel de significancia del
10% se puede concluir que ____________________________.
g) Para determinar la capacidad del modelo final para predecir nuevas observaciones se calculó el coeficiente de predicción, el
cual arrojó un valor de ________, por lo tanto, se puede decir que el modelo final es __________(apropiado/malo) para
predecir nuevas observaciones.
h) Como la variable respuesta del problema analizado es concentración de dióxido de azufre, sería razonable ajustar un modelo en
el cual ella tenga una distribución positiva en lugar de la distribución normal asumida en los modelos anteriores. Una posible
distribución sería la distribución gamma (de parámetros y ) con la parametrización del paquete gamlss, para conocer los
detalles de esta distribución use help(GA). En esta parametrización el valor esperado está dado por ___________ mientras que
la varianza está dada por ___________.
Ajuste un modelo con gamlss asumiendo variable respuesta gamma, modele el parámetro de la variable respuesta en función de
todas las covariables pero dejando constante al parámetro . Luego de hacer esto siga el mismo procedimiento del numeral 1 y
saque una a una las covariables comenzando por la menos significativa a un nivel de significancia del 6% (sí, seis por ciento). El
modelo final ajustado tiene las siguientes expresiones:
i) La función Rsq de gamlss calcula una versión del para modelos con respuesta diferente a la normal, este se denomina
pseudo . Al calcular el pseudo para el modelo ajustado con gamlss se encuentra un valor de ___________ mientras que el
para el modelo final del punto 1 fue de ______________.
j) Para comparar los resultados del modelo final con lm y el modelo final con gamlss, se podrían calcular algunos indicadores de
desempeño. Complete la siguiente tabla con el coeficiente de correlación entre la variable observada y la estimación de
cada modelo, calcule también el Mean Squared Error para cada modelo.
Modelo
Coeficiente de correlación lineal
de Pearson entre and
Mean Squared Error 󰇛󰇜
Modelo lineal con
respuesta Normal
Modelo gamlss con
respuesta gamma
8) El objeto table.b1 del paquete MPV que acompaña el texto guía contiene información sobre el desempeño de equipos
de futbol americano en una temporada, para conocer las variables de la base de datos puede escribir en la consola de R
help(table.b1)o consultar el apéndice A del texto guía.
a) Ajuste inicialmente un modelo #1 de regresión lineal múltiple (usando la función lm) para explicar el número de juegos
ganados en función de todas las covariables. Luego de hacer esto construya la tabla de resumen del modelo y elimine
simultáneamente todas las covariables que resultaron no significativas en el modelo #1 a un nivel de significancia del
10% y ajuste un nuevo modelo #2. El modelo #2 ajustado tiene la siguiente expresión matemática para el número
promedio de juegos ganados:
b) Al aplicar la prueba F parcial para comparar el modelo #1 y modelo #2 del ejercicio anterior, las hipótesis de interés son
_________________________________________ y ___________________________________________. Al
realizar la prueba se encuentra que el estadístico de prueba es igual a ____________________ con valor P de
_________________. A un nivel de significancia del 10% se concluye que ________________________________, y por
lo tanto se sugiere usar como modelo final el modelo #_____.
c) Suponga que queremos estimar el mero promedio de juegos ganados para los equipos A y B usando el “modelo
sugerido” en numeral anterior. En la siguiente tabla se muestra algunos datos de los equipos A y B.
Equipo
Yardas por tierra
Yardas por aire
Promedio de pateo
Yardas por tierra de contrario
A
1100
1750
35.6
1568
B
1600
1697
41.3
1756
Usando sólo la información relevante para el modelo sugerido” se obtiene que el número estimado de partidos
ganados para el equipo A es de _________ mientras que para el equipo B el número estimado de partidos ganados es
de _________.
d) Para el “modelo sugerido” se desea ahora aplicar la prueba de significancia de la regresión. Complete la tabla siguiente.
Fuente de
variación
Suma de
cuadrados
Cuadrado
medio
Fo
Valor-P
Regresión
Residual
Total
Usando un nivel de significancia del 10%, de la prueba se puede concluir que __________________________
_________________________________________________________________________________________
e) Considere el “modelo sugerido” anterior para responder esta pregunta. En la Liga Nacional se había creído hasta ahora
que por cada yarda por tierra del contrario, el equipo que la recibe disminuye en 0.01 el número de juegos ganados, sin
embargo, observando los resultados del “modelo sugerido” parecen indicar que esta relación ha disminuido. Para
probar esta afirmación se decide realizar una prueba de hipótesis en la cual las hipótesis de interés son
_____________ y _________________. Al realizar la prueba se encontró un estadístico con valor de ________ y
valor-P de ____________. A un nivel de significancia del 10% se puede concluir que _________________.
f) Para determinar la capacidad del “modelo sugerido” para predecir nuevas observaciones se calculó el coeficiente de
predicción el cual arrojó un valor de ______ por lo tanto se puede decir que el modelo es ________ para predecir
nuevas observaciones.
g) Como la variable respuesta del problema analizado es número de juegos ganados, sería razonable ajustar un modelo en
el cual ella tenga una distribución discreta y positiva en lugar de la distribución normal asumida en los modelos
anteriores. Ajuste un modelo #3 gamlss con respuesta Poisson para explicar el mero de juegos ganados en función
de todas las covariables. Luego de hacer esto, elimine simultáneamente todas las covariables que resultaron no
significativas a un nivel de significancia del 10% y ajuste un nuevo modelo #4. El modelo #4 ajustado tiene la siguiente
expresión matemática para el número promedio de juegos ganados:
h) Para comparar los resultados del “modelo sugerido” y del modelo gamlss, se podrían calcular algunos indicadores de
desempeño. Complete la siguiente tabla con el coeficiente de correlación entre la variable observada y la estimación
de cada modelo, calcule también el Mean Squared Error para cada modelo.
Modelo
Coeficiente de correlación
lineal de Pearson entre
and
Mean Squared Error

Modelo lineal con
respuesta Normal
Gamlss con respuesta
Poisson
Revise regularmente para encontrar más ejercicios
Respuestas
1) Abajo las respuestas.
a) mod <- lm(y ~ x1 + x6, data=table.b3).
b)   
c) La matriz de diseño X tiene 32 filas por 3 columnas
d) Se rechaza  porque el valor-P tiene un valor de 1.79e-10.
e) La variable número de gargantas NO es significativa, es decir, no aporta información para explicar la media del
rendimiento del combustible.
f) Esto sucede porque el error estándar del coeficiente estimado de X6 es 109 veces mayor que el de X1.
g) Usando la prueba F parcial se obtiene que ….
2) Abajo las respuestas.
a) a)  y como valor-P obtenido fue pequeño entonces los regresores son importantes en el modelo.
b) b) 29.1115 minutos.
c) c) 16.15 minutos aproximadamente y no se necesita saber el valor de la otra covariable para responder.
3) Abajo las respuestas.
a) a) El modelo final explica el 92% de la variabilidad del rendimiento de los cacahuates.
b) b)12.625 porque este es el mayor residual negativo.
c) c) 
= 53.32905 + 0.05556 Presión + 0.28214 Temperatura 16.06498 Tamaño.
d) d) se espera que el lote de XW genere 8x16.06=128.48 litros de aceite MENOS que el lote de ZY.
e) e) 32.82103 Lt/lote.
4) Abajo las respuestas.
a) Al ajustar un modelo 1 de regresión para explicar el rendimiento de combustible en función de todas las covariables
(excepto la covariable cualitativa) se encontró que la prueba significancia de la regresión rechaza (rechaza/no rechaza)
la hipótesis Ho:  debido a que el valorP de la prueba fue de 1.634e-05.
b) El coeficiente de determinación apropiado para este modelo fue de 0.7483 (o 74.83%) y del él se puede concluir que el
modelo logró explicar un 74.83% de la variabilidad de y (rendimiento de combustible).
c) La covariable menos significativa (a un nivel de significancia del 10%) en este modelo 1 fue X6 debido a que su valor P
fue de 0.8184.
d) El analista decide ser cuidadoso y ajusta un nuevo modelo 2 sin aquellas covariables cuyo valor P fue mayor o igual a
50%. De este nuevo modelo el analista encuentra que la(s) covariable(s) X5 y X8 es(son) ahora significativa(s) al mismo
nivel de significancia, de aquí el analista puede concluir que las covariable(s) extraída(s) estaban enmascarando (o
ocultando) el efecto de la(s) covariable(s) significativa(s).
e) En este momento analista toma un enfoque arriesgado y construye un nuevo modelo 3 usando sólo las covariables
peso del vehículo, relacion eje trasero y longitud total. De este nuevo modelo encuentra que el coeficiente de
determinación es 0.7808 (o 78.08%), la estimación para la varianza de los errores es 2.9342 y que todas las covariables
son significativas al nivel de significancia manejado.
f) La mayor sobreestimación (en valor absoluto) de este último modelo fue de 4.6101 millas por galón.
g) La expresión para el modelo ajustado final es la siguiente:       .
h) Al construir un intervalo de confianza del 90% para el coeficiente asociado a la longitud del vehículo se encontró que el
intervalo es (0.0680 , 0.3676).
i) Un informe publicado hace dos años en la revista Motor indicaba que por cada libra adicional en un vehículo éste
disminuia su rendimiento de combustible en 0.01 millas por galón. El analista desea usar la información de su modelo
para probar si la afirmación de la revista ha cambiado o no, para esto plantea la hipótesis nula como   y la
hipótesis alterna como   el analista encuentra que el estadístico para esta prueba es de 0.2582 con un
valor P de 0.7983 y por lo tanto concluye que no se rechaza Ho.
j) Según el último modelo el rendimiento estimado para un vehículo con una potencia de 190 Hp, relación de eje trasero
de 2.5, una longitud de 200 pulgadas y un peso de 4000 libras es de 16.70557 millas/galón.
k) Para el último modelo se observa que la observación número 6 es la que tiene el mayor valor de hii.
l) El valor de hii para la nueva observación del literal (j) es de 0.07447132, por lo tanto se puede decir que al estimar el
valor de Y para ese vehículo no (si/no) se está comentiendo extrapolación oculta.
5) Abajo las respuestas.
a) Al ajustar un modelo 1 de regresión para explicar el precio del inmueble en función de todas las covariables se
encontró que la prueba significancia de la regresión rechaza la hipótesis Ho: debido a que el
valorP de la prueba fue de 0.000185.
b) El coeficiente de determinación apropiado para este modelo fue de 0.7587 (o 75.87%) y del él se puede concluir que el
modelo logró explicar un 75.87% de la variabilidad de y (precio).
c) La covariable menos significativa (a un nivel de significancia del 10%) en este modelo 1 fue x6 debido a que su valor P
fue de 0.8656.
d) El analista decide ser cuidadoso y ajusta un nuevo modelo 2 sin aquellas covariables cuyo valor P fue mayor o igual a
50%. De este nuevo modelo el analista encuentra que la(s) covariable(s) x1 y x2 es(son) ahora significativa(s) al mismo
nivel de significancia, de aquí el analista puede concluir que las covariable(s) extraída(s) estaban enmascarando (o
ocultando) el efecto de la(s) covariable(s) significativa(s).
e) En este momento analista toma un enfoque arriesgado y construye un nuevo modelo 3 usando sólo las covariables
cantidad de recámaras, cantidad de baños, impuestos y cantidad de cajones en cochera. De este nuevo modelo
encuentra que el coeficiente de determinación es 0.8005, la estimación para la varianza de los errores es 2.6812 y que
solo las covariables x1 y x2 son significativas al nivel de significancia manejado.
f) La mayor sobreestimación de este último modelo fue de 4.5510.
g) La expresión para el modelo ajustado final (3) con todas las covariables usadas para ese modelo es la siguiente:
h)         
i) Al construir un intervalo de confianza del 90% para el coeficiente asociado a impuesto se encontró que el intervalo es (
1.5254 , 3.3129 ).
j) Un informe publicado hace dos años en la revista La Lonja indicaba que por cada recámara adicional en un inmueble
éste disminuia su precio en dos mil unidades monetarias (asuma proporcional al de recámaras). El analista desea
usar la información de su modelo para probar si la afirmación de la revista ha cambiado o no, para esto plantea la
hipótesis nula como   y la hipótesis alterna como  , el analista encuentra que el estadístico para esta
prueba es de -0.1428 con un valor P de 0.8879 y por lo tanto concluye que las evidencias indican que no se rechaza Ho.
k) Según el último modelo el precio estimado para un inmueble con impuestos de 4.5, dos baños, tres chimeneas, cuatro
recámaras y tres cajones en cochera es de 38.62852.
l) Para el último modelo se observa que la observación número 16 es la que tiene el mayor valor de hii.
m) El valor de hoo para la nueva observación del numeral (10) es de 2.46 y por lo tanto se puede considerar al estimar el
valor de Y para ese inmueble si se está comentiendo extrapolación OCULTA.
6) La solución para el crucigrama es la siguiente:
7) Abajo las respuestas.
a) La expresión para la media estimada es:
  
b) Al aplicar la prueba F parcial para comparar el modelo #1 y el modelo refinado, las hipótesis de interés son las
variables x1, x4, x5 y x6 NO mejoran el modelo y al menos una de ellas si aporta al modelo. Al realizar la prueba se
encuentra que el estadístico de prueba es igual a 2.1396 con valor P de 0.0972. A un nivel de significancia del 10% se
concluye que al menos una de ellas si aporta al modelo y por lo tanto se sugiere usar como modelo final el modelo #1.
c) Suponga que queremos estimar la concentración de dióxido de azufre promedio para las situaciones A y B usando el
modelo final. En la siguiente tabla se muestran los valores en ambas situaciones A y B.
Situación
X1
X2
X3
X4
X5
X6
A
52
35
72
6
41
145
B
40
37
70
6
42
130
Usando sólo la información relevante para el modelo final, se obtiene que la concentración de dióxido de azufre promedio para A es
de 39.61100 mientras que para la situación B la concentración de dióxido de azufre promedio es 56.32779.
d) Para determinar si se está cometiendo extrapolación oculta en la estimación de la concentración de dióxido de azufre
promedio en las situaciones A y B se calcula el valor de . Para la situación A se obtiene un valor de  de 0.2582275
mientras que para la situación B el valor es de 0.7821548. El valor de referencia  es 0.696636, por lo tanto, se
puede concluir que solo para la situación B se está cometiendo extrapolación oculta.
e) La tabla anova es:
Usando un nivel de significancia del 10%, de la prueba se puede concluir que al menos una de las covariables x1, x2, …, x6 si aporta
información para el modelo.
f) Considere el modelo final para responder esta pregunta. En Estados Unidos se había creído hasta ahora que, por cada
mil personas adicionales que tenga una ciudad, la concentración de dióxido de azufre promedio disminuye en 0.06, sin
embargo, observando los resultados del modelo final, parece indicar que esta disminución se ha reducido. Para probar
esta afirmación se decide realizar una prueba de hipótesis en la cual las hipótesis de interés son   y
 . Al realizar la prueba se encontró un estadístico con valor de 1.3694 y valor-P de 0.9101. A un nivel de
significancia del 10% se puede concluir que no hay evidencias para rechazar .
g) Para determinar la capacidad del modelo final para predecir nuevas observaciones se calculó el coeficiente de
predicción, el cual arrojó un valor de 0.5297298, por lo tanto, se puede decir que el modelo final es mmm, más o
menos bueno (apropiado/malo) para predecir nuevas observaciones.
h) Como la variable respuesta del problema analizado es concentración de dióxido de azufre, sería razonable ajustar un
modelo en el cual ella tenga una distribución positiva en lugar de la distribución normal asumida en los modelos
anteriores. Una posible distribución sería la distribución gamma (de parámetros y ) con la parametrización del
paquete gamlss, para conocer los detalles de esta distribución use help(GA). En esta parametrización el valor esperado
está dado por mientras que la varianza está dada por .
Ajuste un modelo con gamlss asumiendo variable respuesta gamma, modele el parámetro de la variable respuesta en función de
todas las covariables pero dejando constante al parámetro . Luego de hacer esto siga el mismo procedimiento del numeral 1 y
saque una a una las covariables comenzando por la menos significativa a un nivel de significancia del 6% (sí, seis por ciento). El
modelo final ajustado tiene las siguientes expresiones:
󰇛      )
󰇛󰇜 
i) La función Rsq de gamlss calcula una versión del para modelos con respuesta diferente a la normal, este se
denomina pseudo . Al calcular el pseudo para el modelo ajustado con gamlss se encuentra un valor de 0.6787169
mientras que el para el modelo final del punto 1 fue de 0.6111904.
j) Para comparar los resultados del modelo final con lm y el modelo final con gamlss, se podrían calcular algunos
indicadores de desempeño. Complete la siguiente tabla con el coeficiente de correlación entre la variable observada
y la estimación de cada modelo, calcule también el Mean Squared Error para cada modelo.
Modelo
Coeficiente de correlación lineal
de Pearson entre and
Mean Squared Error 󰇛󰇜
Modelo lineal con
respuesta Normal
0.8182370
177.6406
Modelo gamlss con
respuesta gamma
0.7912814
216.6012
8) Las respuestas a cada una de las preguntas se muestran abajo.
a) El modelo #2 ajustado tiene la siguiente expresión matemática para el número promedio de juegos ganados:
  
b) Al aplicar la prueba F parcial para comparar el modelo #1 y modelo #2 del ejercicio anterior, las hipótesis de interés son
las variables x1, x3, x4, x5, x6, x7 y x9 NO mejoran el modelo y al menos una de ellas si aporta al modelo. Al
realizar la prueba se encuentra que el estadístico de prueba es igual a 1.0084 con valor P de 0.4576. A un nivel de
significancia del 10% se concluye que las variables x1, x3, x4, x5, x6, x7 y x9, no aportan al modelo y por lo tanto se
sugiere usar como modelo final el modelo #2.
c) Suponga que queremos estimar el mero promedio de juegos ganados para los equipos A y B usando el “modelo
sugerido” en numeral anterior. En la siguiente tabla se muestra algunos datos de los equipos A y B.
Equipo
Yardas por tierra
Yardas por aire
Promedio de pateo
Yardas por tierra de contrario
A
1100
1750
35.6
1568
B
1600
1697
41.3
1756
Usando sólo la información relevante para el “modelo sugerido” se obtiene que el número estimado de partidos
ganados para el equipo A es de 9.481780 mientras que para el equipo B el número estimado de partidos ganados es
de 8.036934.
d) La tabla anova es:
Usando un nivel de significancia del 10%, de la prueba se puede concluir que como el valor P es menor que 10%
entonces el número de partidos ganados si está relacionado con las variables x2 y/o x8.
e) Considere el “modelo sugerido” anterior para responder esta pregunta. En la Liga Nacional se había creído hasta ahora
que por cada yarda por tierra del contrario, el equipo que la recibe disminuye en 0.01 el número de juegos ganados, sin
embargo, observando los resultados del “modelo sugerido” parecen indicar que esta relación ha disminuido. Para
probar esta afirmación se decide realizar una prueba de hipótesis en la cual las hipótesis de interés son  
y . Al realizar la prueba se encontró un estadístico con valor de 3.3046 y valor-P de 0.9986. A un nivel de
significancia del 10% se puede concluir que la creencia de la Liga no ha cambiado, es decir, no se rechaza .
f) Para determinar la capacidad del “modelo sugerido” para predecir nuevas observaciones se calculó el coeficiente de
predicción el cual arrojó un valor de 0.6916 por lo tanto se puede decir que el modelo es bueno para predecir nuevas
observaciones.
g) Como la variable respuesta del problema analizado es número de juegos ganados, sería razonable ajustar un modelo en
el cual ella tenga una distribución discreta y positiva en lugar de la distribución normal asumida en los modelos
anteriores. Ajuste un modelo #3 gamlss con respuesta Poisson para explicar el número de juegos ganados en función
de todas las covariables. Luego de hacer esto, elimine simultáneamente todas las covariables que resultaron no
significativas a un nivel de significancia del 10% y ajuste un nuevo modelo #4. El modelo #4 ajustado tiene la siguiente
expresión matemática para el número promedio de juegos ganados:
󰇛        󰇜
h) Para comparar los resultados del “modelo sugerido” y del modelo gamlss, se podrían calcular algunos indicadores de
desempeño. Complete la siguiente tabla con el coeficiente de correlación entre la variable observada y la estimación
de cada modelo, calcule también el Mean Squared Error para cada modelo.