Usando sólo la información relevante para el modelo final, se obtiene que la concentración de dióxido de azufre promedio para A es
de 39.61100 mientras que para la situación B la concentración de dióxido de azufre promedio es 56.32779.
d) Para determinar si se está cometiendo extrapolación oculta en la estimación de la concentración de dióxido de azufre
promedio en las situaciones A y B se calcula el valor de . Para la situación A se obtiene un valor de de 0.2582275
mientras que para la situación B el valor es de 0.7821548. El valor de referencia es 0.696636, por lo tanto, se
puede concluir que solo para la situación B se está cometiendo extrapolación oculta.
e) La tabla anova es:
Usando un nivel de significancia del 10%, de la prueba se puede concluir que al menos una de las covariables x1, x2, …, x6 si aporta
información para el modelo.
f) Considere el modelo final para responder esta pregunta. En Estados Unidos se había creído hasta ahora que, por cada
mil personas adicionales que tenga una ciudad, la concentración de dióxido de azufre promedio disminuye en 0.06, sin
embargo, observando los resultados del modelo final, parece indicar que esta disminución se ha reducido. Para probar
esta afirmación se decide realizar una prueba de hipótesis en la cual las hipótesis de interés son y
. Al realizar la prueba se encontró un estadístico con valor de 1.3694 y valor-P de 0.9101. A un nivel de
significancia del 10% se puede concluir que no hay evidencias para rechazar .
g) Para determinar la capacidad del modelo final para predecir nuevas observaciones se calculó el coeficiente de
predicción, el cual arrojó un valor de 0.5297298, por lo tanto, se puede decir que el modelo final es mmm, más o
menos bueno (apropiado/malo) para predecir nuevas observaciones.
h) Como la variable respuesta del problema analizado es concentración de dióxido de azufre, sería razonable ajustar un
modelo en el cual ella tenga una distribución positiva en lugar de la distribución normal asumida en los modelos
anteriores. Una posible distribución sería la distribución gamma (de parámetros y ) con la parametrización del
paquete gamlss, para conocer los detalles de esta distribución use help(GA). En esta parametrización el valor esperado
está dado por mientras que la varianza está dada por .
Ajuste un modelo con gamlss asumiendo variable respuesta gamma, modele el parámetro de la variable respuesta en función de
todas las covariables pero dejando constante al parámetro . Luego de hacer esto siga el mismo procedimiento del numeral 1 y
saque una a una las covariables comenzando por la menos significativa a un nivel de significancia del 6% (sí, seis por ciento). El
modelo final ajustado tiene las siguientes expresiones:
)
i) La función Rsq de gamlss calcula una versión del para modelos con respuesta diferente a la normal, este se
denomina pseudo . Al calcular el pseudo para el modelo ajustado con gamlss se encuentra un valor de 0.6787169
mientras que el para el modelo final del punto 1 fue de 0.6111904.