Regresión Lineal Simple - Semana 02
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 46
Análisis de varianza para probar la significancia de la regresión
2 / 46
Esta prueba de hipótesis es una forma alternativa para estudiar el siguiente conjunto de
hipótesis.
H0:β1=0
H1:β1=0
La prueba se basa en descomponer la variabilidad total observada en Ycomo la suma de
la variabilidad debida al modelo propuesto (recta ajustada) y la variabilidad debida al
error aleatorio.
3 / 46
Recuerde que el modelo de RLS plantea que la respuesta es igual a la suma de una
componente real no aleatoria β0+β1Xy un error aleatorio ε. Se espera que la recta
ajustada explique en forma significativa la variabilidad observada en Y.
Para ilustrar el enfoque de análisis de varianza, recuerde que:
SST=Syy =
n
X
i=1
(yi¯y)2
4 / 46
Las diferencias yi¯yse pueden escribir como:
yi¯y= (b
yi¯y)+(yib
yi)
y reemplazando en la SST, se obtiene:
SST=
n
X
i=1
(yi¯y)2
SST=
n
X
i=1(b
yi¯y)+(yib
yi)2
SST=
n
X
i=1
(b
yi¯y)2+
n
X
i=1
(yib
yi)2
SST=SSR+SSRes
5 / 46
La Suma de Cuadrados de la Regresión (SS
R
) está relacionada con las diferencias entre
los valores ajustados por el modelo de regresión y el promedio de las observaciones de la
respuesta.
Se puede demostrar que:
SSR=
n
X
i=1
(b
yi¯y)2=b
β1Sxy =b
β2
1Sxx
6 / 46
La Suma de Cuadrados de los Residuales (SSRes ) está relacionada con las diferencias
entre las observaciones de la respuesta y los valores ajustados por el modelo de regresión,
esto es, los residuales del modelo (que son estimaciones de los errores del modelo).
Se puede demostrar que:
SSRes =
n
X
i=1
e2
i=
n
X
i=1
(yib
yi)2=Syy b
β1Sxy
7 / 46
La siguiente expresión
SST=SSR+SSRes ,
se conoce como Identidad de Suma de Cuadrados.
Cada una de estas sumas de cuadrados tiene asociados unos grados de libertad (gl), que
representan la cantidad de información libre en la suma de cuadrados.
Una forma de calcular los gl es la diferencia entre el número de observaciones y el
número de parámetros estimados en la suma de cuadrados.
8 / 46
Se sabe que SSTse construye con nobservaciones y se estima la media de la
respuesta con el promedio, de manera que SSTtiene n1gl.
Analizando la expresión para SSRes , se tienen las mismas nobservaciones y se
estiman los dos parámetros del modelo, y así SSRes tiene n2gl.
Finalmente, SS
R
solo tiene dos observaciones (los estimadores de los parámetros) y
se estima un parámetro, de donde SSRtiene sólo 1 gl.
9 / 46
En virtud de lo anterior, los grados de libertad (gl) de las sumas de cuadrados también
forman una identidad, así:
gl(SST) = gl(SSR) + gl(SSRes )
n1=1+n2
A continuación, se definen los cuadrados medios como la razón entre las sumas de
cuadrados y sus respectivos grados de libertad. Esto es,
MSR=SSR/gl(SSR) = SSR/1=SSR.
MSRes =SSRes /gl(SSRes ) = SSRes /(n2).
10 / 46
Con el fin de establecer inferencias basadas en el enfoque del análisis de varianza se
requiere conocer el valor esperado de cada una de los cuadrados medios, es decir, lo que
se estima con cada suma de cuadrados.
Se puede demostrar que:
E[MSRes ] = σ2.
E[MSR] = σ2+β2
1Sxx .
El primer resultado se conocía de la estimación de σ2vista previamente.
11 / 46
Si todas las observaciones Yiprovienen de la misma distribución normal con media
µ=β0(esto es, si β1=0) y varianza σ2, y además se tiene la identidad de sumas de
cuadrados que establece que SS
T
=SS
R
+SS
Res
, con la respectiva identidad de grados
de libertad (n1) = 1+ (n2), entonces:
SSR2se distribuye como una variable aleatoria Chi-cuadrado con 1 grado de
libertad.
SS
Res 2
se distribuye como una variable aleatoria Chi-cuadrado con n
2 grados
de libertad.
Los términos SSR2ySSRes 2son estimaciones independientes de σ2.
12 / 46
De lo anterior, se considera el siguiente estadístico:
F0=SSR2/1
SSRes 2/(n2)=SSR/1
SSRes /(n2)=MSR
MSRes
que bajo la hipótesis nula
H0:β1=0
, se distribuye como una Fcon 1 y n
2 grados
de libertad:
13 / 46
En el caso de la regresión lineal simple, la prueba sobre la significancia de la regresión (es
decir, si la pendiente de la recta es significativamente diferente de cero) puede realizarse
mediante el análisis de varianza usando un valor crítico Fα;1,n2de la distribución F.
Esto es, a un nivel de significancia αse rechaza la hipótesis nula de que la variabilidad
en la variable respuesta es debida sólo al error aleatorio (en favor de la hipótesis de que
la regresión en Xes significativa) si F0>Fα;1,n2.
14 / 46
Resumen de las rmulas
A continuación las diferentes formas de calcular las sumas de cuadrados necesarias para
el análisis de varianza.
SST=SSy=
n
X
i=1
(yi¯y)2
SSR=
n
X
i=1
(b
yi¯y)2=b
β1Sxy =b
β2
1Sxx
SSRes =
n
X
i=1
e2
i=
n
X
i=1
(yib
yi)2=SSTSSR
15 / 46
Tabla de Análisis de Varianza para el modelo de RLS
Fuente de Suma de Grados de Cuadrado F Valor-p
variación cuadrados libertad medio calculado
Regresión o Modelo SSR1MSR=SSR
1F0=MSR
MSRes
Error o Residual SSRes n2MSRes =SSRes
n2
Total SSTn1
16 / 46
También se puede evaluar el valor-pde la prueba (significancia más pequeña que
conduce al rechazo de H0) que es igual a P(F1,n2>F0)y determinar si es “pequeño”
para rechazar la hipótesis nula: "el modelo lineal de Yen Xno es significativo para
explicar la variabilidad de Y".
La conclusión obtenida por el análisis de varianza debe ser la misma que la obtenida
cuando se prueba la significancia de la pendiente de la recta de regresión.
17 / 46
Ejemplo
Aplicar el análisis de varianza para estudiar la significancia de la regresión para los datos
de soldadura.
18 / 46
19 / 46
20 / 46
21 / 46
22 / 46
R2de una regresión: Coeficiente de determinación muestral
Es una medida del ajuste del modelo que provee un indicador de que tan bien la
predictora Xpredice a la respuesta Y. Se calcula como:
R2=SSR
SST
=1SSRes
SST
.
El R2se puede interpretar como la proporción de la variabilidad total observada en la
variable respuesta que es explicada por la relación lineal con la variable predictora
considerada.
23 / 46
Interpretaciones erróneas de R2.
Un R2alto indica que el modelo puede hacer predicciones útiles.
Un R2alto indica que la recta de regresión tiene buen ajuste.
Un R2cercano a cero indica que XyYno están relacionados.
Las dos primeras indican que aunque un R2cercano a 1 indica una mayor asociación
lineal, no necesariamente garantiza que los supuestos básicos del modelo lineal se estén
cumpliendo y menos que el modelo lineal no pueda presentar falta de ajuste.
24 / 46
Ejemplo
Calcular el R2para el ejemplo de la soldadura.
25 / 46
26 / 46
Inferencias sobre la Respuesta Media y sobre Valores Futuros
En esta sección vamos a aprender a:
1. Estimar puntualmente la respuesta media E[Y|x0].
2. Estimar por intervalo la respuesta media E[Y|x0].
3. Estimar puntualmente un valor futuro de Y.
4. Estimar por intervalo un valor futuro de Y.
Esto se va a realizar usando la ecuación de regresión ajustada.
27 / 46
Inferencia sobre la Respuesta Media
La respuesta media para un valor apropiado X=x0se puede denotar de dos maneras,
como E[Y|x0]o como µY|x0.
La respuesta media se puede estimar puntualmente usando la ecuación de regresión
estimada así:
b
E[Y|x0] = b
µY|x0=ˆ
β0+ˆ
β1x0
28 / 46
Como la ecuación de regresión ajustada en un valor dado X=x0, es:
b
Y0=b
β0+b
β1x0,
se puede ver que b
Y0también es una combinación lineal de las variables aleatorias
Y1,...,Yn.en efecto,
b
Y0=b
β0+b
β1x0= n
X
i=1
miYi!+ n
X
i=1
ciYi!x0=
n
X
i=1
(mi+x0ci)Yi,
con las constantes mi=1
n¯x ciyci=xi¯x
Sxx como fueron especificadas previamente.
Por lo tanto, bajo los supuestos del modelo b
Y0es una variable aleatoria normal.
29 / 46
La esperanza de b
Y0es:
Ehb
Y0i=Ehb
β0+b
β1x0i=Ehb
β0i+Ehb
β1ix0=β0+β1x0=E[Y|x0]
y varianza de b
Y0es:
Vhb
Y0i=V"n
X
i=1
(mi+x0ci)Yi#=
n
X
i=1
(mi+x0ci)2V(Yi)
=σ2
n
X
i=11
n¯xci+x0ci2
=σ2
n
X
i=11
n+ (x0¯x)ci2
Vhb
Y0i=σ2"1
n+(x0¯x)2
Sxx #
30 / 46
En resumen,
b
Y0N E[Y|x0], σ2"1
n+(x0¯x)2
Sxx #!
Esto es, b
Y0es un estimador insesgado de la respuesta media.
Note que,
b
Y0
también es un estimador para un valor futuro Y
0
, pero en este caso es un
estimador sesgado.
De ahí que la cantidad Y0b
Y0represente al error de predicción, el cual se sabe tiene
media cero.
31 / 46
Ejemplo
Para el ejemplo sobre soldadura responder los siguientes literales sobre la respuesta
media µY|x0.
32 / 46
33 / 46
34 / 46
Intervalo de confianza para la respuesta media E[Y|x0] = µY|x0
Se puede demostrar que bajo los supuestos del modelo:
T=b
Y0E[Y|x0]
rb
σ2h1
n+(x0¯x)2
Sxx itn2
Por tanto un intervalo de confianza del (1α)% para µY|x0es:
b
y0±tα/2,n2×sb
σ21
n+(x0¯x)2
Sxx
con b
y0=b
β0+b
β1x0ytα/2,n2es el percentil 1 α/2 de la distribución t-Student con
n2 grados de libertad.
35 / 46
El error estándar del estimador ˆµY|x0está dad por:
se(ˆµY|x0) = ˆσ2"1
n+(x0¯x)2
Sxx #
36 / 46
Ejemplo
Para el ejemplo sobre soldadura calcular un IC del 95 por ciento para la respuesta media
cuando X=13 semanas.
37 / 46
38 / 46
Intervalo de predicción para una observación futura Y|x0
Dicho intervalo estima los posibles valores para un valor particular de la variable
respuesta (no para su media) en un valor dado, X=x0. Asumimos que este valor
particular es un valor futuro de la variable aleatoria Yy por tanto, no fue utilizado en la
regresión.
Si
Y0
es un valor futuro y
b
Y0=b
β0+b
β1x0
es su estimador, entonces estas dos variables
aleatorias son estadísticamente independientes, dado que
Y0
no es utilizado para hallar a
b
β0yb
β1.
39 / 46
Por tanto, el estadístico:
T=b
Y0Y0
rb
σ2h1+1
n+(x0¯x)2
Sxx itn2
De ahí que, un intervalo de predicción del (1α)% para Y0está dado por:
b
Y0±tα/2,n2×sb
σ21+1
n+(x0¯x)2
Sxx ,
donde
tα/2,n2
es el percentil
1α/2
de la distribución t-Student con
n2
grados de
libertad.
40 / 46
El error estándar del estimador ˆ
Y|x0está dado por:
se(ˆ
Y|x0) = ˆσ2"1+1
n+(x0¯x)2
Sxx #
41 / 46
Ejemplo
Para el ejemplo sobre soldadura calcular un IC del 90 por ciento para una observación
futura cuando X=10 semanas.
42 / 46
43 / 46
Advertencia
Tanto las estimaciones de valores de la respuesta media como las predicciones de valores
futuros deben cumplir una condición sobre el valor fijo X=x0para que tal
estimación/predicción sea válida.
Sólo se podrán hacer inferencias sobre la respuesta cuando X=x0[Xmin,Xmax],
donde X
min
yX
max
son los valores mínimo y máximo de la variable predictora, que
fueron fijados en la muestra.
Cumplir con lo anterior indica que x0es un punto de interpolación.
Esto evita que x0sea un punto de extrapolación, esto es, un punto por fuera del
rango experimental donde el modelo fue ajustado y que no garantiza que el modelo
se mantenga.
44 / 46
Ilustración de puntos de interpolación y extrapolación
x
y
70 90 110 130 150 170
0 300 600 900 1200
x01 =80 x02 =122 x03 =160
Rango experimental
Zona de
Extrapolación
Zona de
Extrapolación
error
error
45 / 46
Pruebas de hipótesis para la Respuesta Media
Para la respuesta media se pueden probar hipótesis a partir de la construcción y el
análisis de los intervalos de confianza definidos anteriormente. Esto es, para probar a un
nivel de significancia α, el siguiente juego de hipótesis:
H0:E[Y|x0] = c0,
H1:E[Y|x0]=c0,
donde c
0R
, se calcula un intervalo de confianza del (1
α
)100% para E[Y
|
x
0
]y si el
valor c
0
está incluido en el intervalo, entonces no se rechaza H
0
, o si el valor c
0
no está
incluido en el intervalo, entonces se rechaza H0.
46 / 46