8 Pruebas de hipótesis parte I

En este capítulo se muestra como realizar pruebas de hipótesis para un modelo de regresión lineal.

La prueba explicada a continuación se conoce como prueba de Wald en honor a Abraham Wald (1902-1950).

Pruebas sobre los coeficientes \(\beta\)

Cuando se tiene un modelo de regresión con \(k\) variables en la matriz de diseño \(\boldsymbol{X}\) (la primera columna de \(\boldsymbol{X}\) son unos y no se cuenta como variable), es usual que nos interese estudiar

\[H_0: \beta_j = \beta_{j0},\] frente a una de las tres siguientes hipótesis alternas: \[H_A: \beta_j < \beta_{j0}, \quad H_A: \beta_j \neq \beta_{j0}, \quad H_A: \beta_j > \beta_{j0},\] para algún \(j = 0, 1, 2, \ldots, k\).

Para estas pruebas el estadístico de prueba está dado por

\[ t_0 = \frac{\hat{\beta}_j - \beta_{j0}}{s.e.(\hat{\beta}_j)}, \]

y bajo la hipótesis nula cierta, \(t_0 \sim t_{n-k-1}\).

Cuando se realiza una prueba de hipótesis sobre uno de los coeficientes \(\beta\), se asume que las variables restantes permanecen en el modelo, en otras palabras, esta es una prueba marginal.

Función summary cuando \(\beta_{j0} = 0\)

Para realizar pruebas de hipótesis cuando el valor de referencia \(\beta_{j0}\) es igual a cero se puede usar la función summary.

Ejemplo

Aquí vamos a retomar el ejemplo 2.1 del libro de Montgomery, Peck and Vining (2003). En el ejemplo 2.1 los autores ajustaron un modelo de regresión lineal simple para explicar la Resistencia de una soldadura en función de la Edad de la misma.

¿Será la variable Edad una variable significativa para el modelo? es decir, ¿será el coeficiente de la Edad igual a cero o no?

Solución

Las anteriores preguntas se pueden resumir por medio del siguiente conjunto de hipótesis.

\[H_0: \beta_{Edad} = 0,\] \[H_A: \beta_{Edad} \neq 0\]

Para responder a esta pregunta vamos a ajustar el modelo de la forma usual y luego vamos a construir la tabla de resumen del modelo, el código para hacer esto es el siguiente.

file <- "https://raw.githubusercontent.com/fhernanb/datos/master/propelente"
datos <- read.table(file=file, header=TRUE)
mod <- lm(Resistencia ~ Edad, data=datos)
summary(mod)
## 
## Call:
## lm(formula = Resistencia ~ Edad, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -215.98  -50.68   28.74   66.61  106.76 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2627.822     44.184   59.48  < 2e-16 ***
## Edad         -37.154      2.889  -12.86 1.64e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 96.11 on 18 degrees of freedom
## Multiple R-squared:  0.9018, Adjusted R-squared:  0.8964 
## F-statistic: 165.4 on 1 and 18 DF,  p-value: 1.643e-10

De la tabla anterior tenemos que el valor-P asociado a Edad es 1.64e-10, por lo tanto a un nivel de significancia usual de 5%, hay evidencias para rechazar \(H_0\) y se concluye que la variable Edad si aporta información para predecir la media de la Resistencia.

Función beta_test cuando \(\beta_{k0} \neq 0\)

Para realizar pruebas de hipótesis cuando el valor de referencia \(\beta_{k0}\) es diferente de cero, se puede usar la función beta_test del paquete model (Hernandez and Usuga 2024). Este paquete está alojado en github y para poder instalarlo se sebe usar el siguiente código.

if (!require("remotes")) install.packages("remotes")
remotes::install_github("fhernanb/model")

La estructura de la función se muestra a continuación.

beta_test(object, alternative = c("two.sided", "less", "greater"), parm, ref.value)

Los argumentos de esta función son:

  • object: un objeto de la clase lm.
  • alternative: una cadena de caracteres indicando el signo de la hipótesis alterna, los valores posibles son two.sided (valor por defecto), greater o less.
  • parm: vector con el nombre de la variable.
  • ref.value: valor de referencia \(\beta_{j0}\) de la prueba.

Ejemplo

Aquí vamos a retomar el ejemplo 2.1 del libro de Montgomery, Peck and Vining (2003). En el ejemplo 2.1 los autores ajustaron un modelo de regresión lineal simple para explicar la Resistencia de una soldadura en función de la Edad de la misma.

El proveedor de la soldadura afirma que la resistencia media para soldaduras nuevas es 2700 psi. Pruebe la hipótesis de que la resistencia media es diferente a un nivel de significancia del 5%.

Solución

La anterior pregunta se pueden resumir por medio del siguiente conjunto de hipótesis.

\[H_0: \beta_{0} = 2700,\] \[H_A: \beta_{0} \neq 2700\]

Para responder a esta pregunta vamos usar la función beta_test.

library(model)
beta_test(object=mod, parm='(Intercept)', ref.value=2700, alternative='two.sided')
##             Estimate  Std.Err t value Pr(>t)
## (Intercept) 2627.822   44.184 -1.6336 0.1197

Como el valor-P obtenido es 0.1197, entonces la resistencia media para soldaduras nuevas sigue siendo de 2700 psi, en otras palabras, no hay evidencias para rechazar \(H_0\), esto a un nivel de significancia del 5%.

References

Hernandez, Freddy, and Olga Usuga. 2024. Model: This Package Contains Useful Functions for Modeling Regresion. https://fhernanb.github.io/model.