Regresión Lineal Simple - Semana 01
Freddy Hernández
fhernanb@unal.edu.co
Profesor Asociado - Departamento de Estadística
Universidad Nacional de Colombia, Sede Medellín
1 / 63
Introducción
En muchas ocasiones es posible diseñar experimentos estadísticos controlados, en los
cuáles es factible el estudio simultáneo de varios factores, aplicando procedimientos de
aleatorización apropiados, en lo que se conoce como diseño y análisis de experimentos.
Sin embargo, en muchas ocasiones sólo se cuenta con un conjunto de datos sobre los
cuáles es difícil esperar que hayan sido observados en condiciones estrictamente
controladas, y de los cuáles también en pocas ocasiones se tienen réplicas para calcular
el error experimental.
Cuando se enfrenta la situación anterior lo más apropiado es aplicar los métodos de
regresión, que permiten establecer asociaciones entre variables de interés, donde la
relación usual no es necesariamente de causa - efecto. En principio, consideramos una
asociación lineal entre una variable respuesta Yy una variable predictora X.
2 / 63
Ejemplo
Como ilustración vamos a usar los datos del ejemplo 2.1 del libro E. &. V. Montgomery
D. & Peck (2006). En el ejemplo 2.1 los autores desean crear un modelo de regresión
lineal simple para explicar la Resistencia de una soldadura en función de la Edad de la
soldadura.
3 / 63
Ejemplo
Veamos una gráfica de dispersión de los datos:
1750
2000
2250
2500
5 10 15 20 25
Edad
Resistencia
4 / 63
Significados de la regresión
La regresión tiene dos significados:
1.
(Enfoque probabilístico - Método de máxima verosimilitud ). Podemos verla a
partir de la distribución conjunta de las variables XeY, en la cual podemos definir
la distribución condicional de
Y|X
, esto es
f(Y|X)
, y determinar
E(Y|X)
. En este
caso la regresión pretende ajustar la curva correspondiente a E(Y|X).
5 / 63
2. (Enfoque no probabilístico - Método de mínimos cuadrados). Dado un
conjunto de pares de datos (X,Y), puede asumirse una forma funcional para la
curva de regresión y tratar de ajustarla a los datos minimizando el error de ajuste.
1750
2000
2250
2500
5 10 15 20 25
Edad
Resistencia
El segundo caso es el que más se da en la práctica.
6 / 63
Supuestos bajo un enfoque probabilístico
La variable respuesta Yes una variable aleatoria cuyos valores se observan mediante
la selección de los valores de la variable predictora Xen un intervalo de interés.
Por lo anterior, la variable predictora Xno es considerada como variable aletatoria,
sino como un conjunto de valores fijos que representan los puntos de observación,
que se seleccionan con anticipación y se miden sin error.
Sin embargo, si esto último no se cumple, el método de estimación de mínimos
cuadrados ordinarios para los parámetros del modelo de regresión puede seguir
siendo válidos si los errores en los valores de la variable predictora son pequeños en
comparación con los errores aleatorios del modelo εi.
7 / 63
Los datos observados
(xi,yi),i=1,...,n
, constituyen una muestra representativa
de un medio acerca del cual se desea generalizar. Si no es así, no es apropiado
realizar inferencias en un rango de los datos por fuera del considerado.
El modelo de regresión es lineal en los parámetros. Es decir, ningún parámetro de la
regresión aparece como el exponente o es dividido o multiplicado por otro
parámetro, o cualquier otra función.
Sin embargo, la línea de ajuste puede tener una curvatura (no ser lineal en Xy/o
en Y), caso en el cual mediante una transformación conveniente de las variables (X
y/o Y), es posible aplicar las técnicas de regresión lineal sobre estas nuevas
variables.
8 / 63
Si la ecuación de regresión seleccionada es correcta, cualquier variabilidad en la
variable respuesta que no puede ser explicada exactamente por dicha ecuación, es
debida a un error aleatorio.
Los valores observados de la variable respuesta no se encuentran estadísticamente
correlacionados. Se supone que cada valor observado de Yestá constituído por un
valor real y una componente aleatoria.
El modelo de regresión con una muestra de npares de datos (Xi,Yi)es:
Yi=Y|Xi=E[Y|Xi] + εi,i=1,2,...,n(2.1)
con
E[Y|Xi] = β0+β1Xi
9 / 63
Los errores aleatorios εiN(0, σ2),i=1,2,...,n.
Los errores aleatorios εison estadísticamente independientes.
Por tanto:
COV (εi, εj) = 0,i=j,COV (Yi,Yj) = 0,i=j.
La varianza de los errores aleatorios es σ2,i=1,2,...,n(supuesto de varianza
constante pero desconocida).
Dado que los valores Xide la variable predictora no son considerados aleatorios y
que los errores son independientes, la varianza de los Yitambién es σ2,iy por
tanto este parámetro es independiente del punto de observación (es decir, del valor
de X).
Pero en el caso que este último supuesto no pueda aplicarse, entonces el método de
regresión empleado será el de mínimos cuadrados ponderados.
10 / 63
En resumen, los supuestos del modelo de regresión lineal simple se pueden expresar
como:
εi
iid.
N(0, σ2),i=1,2,...,n
donde, iid. es la abreviación de independiente e idénticamente distribuido.
Estos supuestos tienen como consecuencia directa en la respuesta que:
Y|Xi
ind.
Nβ0+β1Xi, σ2
donde, ind. es la abreviación de independiente distribuido.
11 / 63
Nomenclatura
Y: Variable respuesta o dependiente.
X: Variable predictora, independiente o regresora.
ε: Error aleatorio
β0,β1: Parámetros de la regresión. β0es el intercepto y β1es la pendiente de la
línea recta.
b
β0: Estimador del parámetro β0.
b
β1: Estimador del parámetro β1.
e: Residual, es una estimación del error aleatorio.
b
Y: Es la estimación de E(Y|X)óµY|X.
12 / 63
Estimación por mínimos cuadrados ordinarios (MCO)
Para una selección preliminar de la variable predictora en un modelo de regresión simple
(o sea que considera una sola variable predictora) es conveniente realizar el diagrama de
dispersión Yvs. Xy mirar si existe una tendencia lineal en la nube de puntos.
Si la nube de puntos parece mejor ajustada por una curva hay que buscar una
transformación apropiada en Xy/o Yque lleve a un modelo lineal; en este caso el
modelo de regresión lineal a ajustar será: Y|X
i=β0+β1X
i+εi,i=1,2,...,n,
donde YyXson las variables YyXtransformadas. Más adelante se amplia el
tema de transformaciones que llevan a un modelo lineal.
Debe tenerse claro que el método de mínimos cuadrados es un método numérico, no
estadístico. La estadística opera a partir de los supuestos distribucionales asignados en el
modelo de regresión.
13 / 63
Objetivo del método MCO
Obtener estimaciones de los parámetros de regresión, es decir hallar valores de β0yβ1
que minimicen la suma de los cuadrados de los errores S(β0, β1)definida a partir de
(2.1) como:
S(β0, β1) =
n
X
i=1
ε2
i=
n
X
i=1Yi(β0+β1Xi)2
A los valores que minimizan esta expresión se les conoce como estimadores de mínimos
cuadrados y se les denota b
β0yb
β1.
14 / 63
Valor de los estimadores MCO
Dados los pares de observaciones (x1,y1),...,(xn,yn), hallar β0yβ1que minimicen a
S(β0, β1)implica resolver el siguiente sistema de ecuaciones:
S(β0, β1)
β0b
β0,b
β1
=0
S(β0, β1)
β1b
β0,b
β1
=0
15 / 63
De lo cual surgen las denominadas ecuaciones normales:
n
X
i=1
yi=nb
β0+b
β1
n
X
i=1
xi
n
X
i=1
xiyi=b
β0
n
X
i=1
xi+b
β1
n
X
i=1
x2
i
16 / 63
Y de éstas se obtiene que las estimaciones por mínimos cuadrados de los parámetros son:
b
β0= ¯yb
β1¯x
b
β1=Sxy
Sxx
Las cantidades Sxx ySxy se muestran a continuación.
17 / 63
Sumas de cuadrados y de productos cruzados
Suma de cuadrados corregidos en x:
Sxx =
n
X
i=1
(xi¯x)2=
n
X
i=1
x2
in¯x2
Suma de cuadrados corregidos en y:
Syy =
n
X
i=1
(yi¯y)2=
n
X
i=1
y2
in¯y2
Suma de productos cruzados corregidos:
Sxy =
n
X
i=1
(xi¯x)(yi¯y) =
n
X
i=1
(xi¯x)yi
18 / 63
Ejemplo
Estimar los parámetros del modelo de regresión lineal simple para explicar la resistencia
en función de la edad de la soldadura.
19 / 63
20 / 63
21 / 63
22 / 63
23 / 63
Estimación por máxima verosimilitud (ML)
El método de mínimos cuadrados produce los mejores estimadores lineales insesgados
para los parámetros de la recta y puede ser usado para la estimación de parámetros de
un modelo de regresión lineal sin consideraciones distribucionales sobre los errores.
Sin embargo, para poder aplicar pruebas de hipótesis y construir intervalos de confianza,
es necesario realizar y validar tales supuestos. Considerando para el modelo de regresión
lineal simple los supuestos de normalidad, independencia y varianza constante para los
errores, podemos usar el método de estimación de máxima verosimilitud (MLE).
Sean (x1,y1),...,(xn,yn)los npares de datos observados, entonces el modelo de
regresión lineal simple es:
Yi=Y|Xi=β0+β1Xi+εi,i=1,2,...,n.
24 / 63
A la variable aleatoria εi, se le asignan los siguientes supuestos distribucionales:
εi
iid.
N0, σ2,i=1,2,...,n,
Con base en lo anterior y asumiendo que los niveles o valores en que Xes observada son
fijos, se obtiene que
Yi=Y|Xi
ind.
NE[Y|Xi], σ2
con
E[Y|Xi] = β0+β1Xi
25 / 63
Sean x= (x1,x2,...,xn)yy= (y1,y2,...,yn), entonces la función de verosimilitud
L(β0, β1, σ2x,y)es hallada a partir de la densidad conjunta de las observaciones,
f(y1,...,yn|β0, β1, σ2)
, que por la condición de independencia es igual al producto de
las densidades de probabilidad marginales, por tanto, podemos escribir,
Lβ0, β1, σ2x,y=fy1,...,ynβ0, β1, σ2
=
n
Y
i=1
1
2πσ2exp 1
2σ2(yiβ0β1xi)2
= (2πσ2)n/2exp "1
2σ2
n
X
i=1
(yiβ0β1xi)2#
26 / 63
El objetivo es hallar los parámetros desconocidos β0, β1, σ2, que maximicen L, o
equivalentemente, que maximicen = ln L(el logaritmo natural de L).
= ln L=n
2ln(2π)n
2ln(σ2)1
2σ2
n
X
i=1
(yiβ0β1xi)2
Observe que para cualquier valor de
σ2
fijo,
es maximizada como una función de
β0
y
β1por aquellos valores e
β0ye
β1que minimizan S(β0, β1) = n
P
i=1
(yiβ0β1xi)2y así,
los estimadores MLE e
β0ye
β1son iguales a los respectivos estimadores de mínimos
cuadrados, b
β0yb
β1.
27 / 63
Para hallar el estimador MLE para σ2substituimos b
β0yb
β1en ln L, y hallamos σ2que
maximiza
n
2ln(2π)n
2ln(σ2)1
2σ2
n
X
i=1
(yib
β0b
β1xi)2
de donde obtenemos como estimador MLE de σ2a
e
σ2=1
n
n
X
i=1
(yib
β0b
β1xi)2=1
n
n
X
i=1
(yib
yi)2
28 / 63
Resumiendo, bajo el modelo de regresión lineal normal, es decir, con errores
independientes e idénticamente distribuidos N0, σ2, los estimadores de mínimos
cuadrados para
β0
y
β1
son también estimadores de máxima verosimilitud y en tal caso,
podemos construir intervalos de confianza y realizar pruebas de hipótesis basadas en las
estimaciones obtenidas.
También puede demostrarse que los estimadores MLE son de mínima varianza cuando
son comparados con todos los posibles estimadores insesgados y son consistentes, es
decir, a medida que aumenta el tamaño de muestra, la diferencia entre éstos y los
respectivos parámetros se aproxima a cero.
29 / 63
Ecuación de regresión ajustada
Al tener estimados los parámetros del modelo de regresión lineal simple (por mínimos
cuadrados o máxima verosimilitud), entonces se puede realizar una estimación de la
respuesta media E[Y|X] = µY|X, a través del modelo ajustado, así:
b
µY|xi=b
yi=b
β0+b
β1xi= ¯y+ (xi¯x)b
β1.
A esta ecuación se le conoce como la ecuación de regresión ajustada, que en este caso
corresponde a una recta ajustada.
30 / 63
Residuales del modelo
31 / 63
A las diferencias entre los valores observados de la respuesta yiy los valores ajustados
por el modelo de regresión b
yi(obtenidos de la ecuación de regresión ajustada) se les
conoce como los residuales del modelo. Esto es, ei=yib
yies el i-ésimo residual del
modelo, que es una estimación del i-ésimo error aleatorio, εi.
Los residuales del modelo tienen gran importancia ya que ellos determinan que tan
bueno fue el ajuste del modelo y permitirán más adelante realizar las validaciones de los
supuestos realizados sobre los errores aleatorios.
32 / 63
Estimación de la varianza σ2
Puede demostrarse que bajo los supuestos del modelo en relación a los errores, la
esperanza del estimador de máxima verosimilitud de σ2es:
Ehe
σ2i=n2
nσ2
por tanto e
σ2no es un estimador insesgado de σ2, aunque si es asintóticamente
insesgado, esto es, lim
n→∞ Ee
σ2=σ2. Sin embargo, a partir de e
σ2se puede obtener un
estimador insesgado de la varianza, así:
b
σ2=n
n2e
σ2=
n
P
i=1
(yib
yi)2
n2
que cumple Eb
σ2=σ2.
33 / 63
Como yiˆyi=ei, la rmula para estimar σ2se puede escribir así:
b
σ2=
n
P
i=1
e2
i
n2=SSRes
n2MSRes .
SSRes es la suma de los cuadrados de los residuales (sum of squared residuals).
MSRes es la media de los cuadrados de los residuales (mean of squared residuals).
Nota: la cantidad ˆσrecibe el nombre “Residual standard error”.
34 / 63
Calcular SSRes =n
P
i=1
e2
ipuede ser muy demorado. Existe una relación con dos
ecuaciones que nos permite obtener SSRes un poco más facil.
Los pasos para obtener SSRes son:
Calcular la suma de cuadrados totales SST=n
P
i=1
y2
in¯y2.
Luego reemplazar SSTen la ecuación SSRes =SSTˆ
β1Sxy .
Listo, ya tenemos SSRes .
35 / 63
Ejemplo
Estimar el parámetro
σ2
del modelo de regresión lineal simple para explicar la resistencia
en función de la edad de la soldadura.
36 / 63
Propiedades de los estimadores de mínimos cuadrados
Bajo los supuestos considerados respecto a los errores tenemos que:
1. b
β0
y
b
β1
son combinaciones lineales de las variables aleatorias
Y1,...,Yn
, pues estos
pueden escribirse como:
b
β0=
n
X
i=1
miYi
b
β1=
n
X
i=1
ciYi
37 / 63
donde:
mi=1
n¯x ci
ci=xi¯x
Sxx
Se puede demostrar a través de cálculos directos que:
n
X
i=1
ci=0,
n
X
i=1
cixi=1,
n
X
i=1
mi=1,
n
X
i=1
mixi=0,
n
X
i=1
c2
i=1
Sxx
,
n
X
i=1
m2
i=
n
P
i=1
x2
i
nSxx
.
38 / 63
Además, como Y1,...,Ynson variables normales e incorrelacionadas, entonces b
β0yb
β1
son variables aleatorias normales.
2. El valor esperado de los estimadores, es:
Ehb
β0i=E"n
X
i=1
miYi#=
n
X
i=1
miE[Yi]
=
n
X
i=1
mi(β0+β1xi)
=β0
n
X
i=1
mi+β1
n
X
i=1
mixi=β0
Ehb
β1i=E"n
X
i=1
ciYi#=
n
X
i=1
ciE[Yi]
=
n
X
i=1
ci(β0+β1xi) = β0
n
X
i=1
ci+β1
n
X
i=1
cixi=β1
39 / 63
3. La varianza de los estimadores, es:
Vhb
β0i=V"n
X
i=1
miYi#=
n
X
i=1
m2
iV[Yi]
=
n
X
i=1
m2
iσ2
=σ2Pn
i=1x2
i
n Sxx
Vhb
β1i=V"n
X
i=1
ciYi#=
n
X
i=1
c2
iV[Yi]
=
n
X
i=1
c2
iσ2
=σ2
Sxx
40 / 63
4. La varianza de la respuesta ajustada en un valor dado X=xi, es:
Vhb
Yii=Vhb
β0+b
β1xii
=V
n
X
j=1
(mj+xicj)Yj
=
n
X
j=1
(mj+xicj)2V(Yj)
=σ2
n
X
j=11
n+ (xi¯x)cj2
=σ2"1
n+(xi¯x)2
Sxx #
41 / 63
5. La covarianza (cov) entre los estimadores de los parámetros es:
cov hb
β0,b
β1i=cov "n
X
i=1
miYi,
n
X
i=1
ciYi#
=
n
X
i=1
micicov [Yi,Yi] +
n
X
i=1
n
X
j=i
micjcov [Yi,Yj]
=
n
X
i=1
miciV[Yi]
=σ2
n
X
i=1
mici
cov hb
β0,b
β1i=σ2¯x
Sxx
42 / 63
6.
La covarianza entre la variable respuesta y su correspondiente estimador en un valor
dado X=xies:
cov hYi,b
Yii=cov hYi,b
β0+b
β1xii
=cov
Yi,
n
X
j=1
(mj+xicj)Yj
= (mi+xici)cov [Yi,Yi] +
n
X
j=i
(mj+xicj)cov [Yi,Yj]
=σ2(mi+xici)
=σ2"1
n+(xi¯x)2
Sxx #
43 / 63
7. La suma de los residuales del modelo de regresión con intercepto es siempre cero:
n
X
i=1
ei=0
8.
La suma de los valores observados
yi
es igual a la suma de los valores ajustados
b
yi
:
n
X
i=1
yi=
n
X
i=1b
yi
44 / 63
9. La línea de regresión siempre pasa a través del centroide de los datos (¯x,¯y).
10. La suma de los residuales ponderados por el correspondiente valor de la variable
predictora es cero: n
X
i=1
xiei=0
11. La suma de los residuales ponderados por el correspondiente valor ajustado es
siempre igual a cero: n
X
i=1b
yiei=0
45 / 63
Error estándar de las estimaciones
Los valores estimados
ˆ
β0
y
ˆ
β1
toman valores diferentes al cambiar la muestra con la cual
se entrena el modelo. La desviación de esos estimadores se llama error estándar y se
nota por se(). Las expresiones para obtener los errores estándar son:
se(b
β0) = sˆσ2Pn
i=1x2
i
n Sxx
se(b
β1) = sˆσ2
Sxx
46 / 63
Inferencias sobre los parámetros del modelo de regresión
47 / 63
Inferencia sobre β0
Se puede demostrar que bajo los supuestos del modelo de regresión, se cumple que
T=b
β0β0
rbσ2Pn
i=1x2
i
nSxx
tn2(2.2)
con tn2la variable aleatoria t-Student con n2 grados de libertad.
48 / 63
Intervalo de confianza para β0
El intervalo de confianza del (1α)% para β0es:
b
β0±tα/2,n2×sb
σ2Pn
i=1x2
i
nSxx
,
donde tα/2,n2es el percentil (1α/2)de la distribución t-Student con n2 grados
de libertad.
49 / 63
Ejemplo
Encontrar un intervalo de confianza del 97 por ciento para β0.
50 / 63
Prueba de Hipótesis sobre la significancia del intercepto
Para probar si β0es significativamente distinto de cero:
H0:β0=0
H1:β0=0
El estadístico de prueba es la ec. (2.2) y el valor observado de éste (T0) se halla
reemplazando β0por 0. Se rechaza H0si |T0|>tα/2,n2.
51 / 63
Inferencias sobre la pendiente β1
Se puede demostrar que bajo los supuestos del modelo de regresión, se cumple que:
T=b
β1β1
qbσ2
Sxx
tn2(2.3)
con tn2la variable aleatoria t-Student con n2 grados de libertad.
52 / 63
Intervalo de confianza para β1
El intervalo de confianza del (1α)% para β1es:
b
β1±tα/2,n2×sb
σ2
Sxx
,
donde tα/2,n2es el percentil (1α/2)de la distribución t-Student con n2 grados
de libertad.
53 / 63
Prueba de Hipótesis sobre la significancia de la pendiente
Para probar si β1es significativamente distinto de cero:
H0:β1=0
H1:β1=0
El estadístico de prueba es la ec. (2.3) y el valor observado de éste (T0) se halla
reemplazando β1por 0. Se rechaza H0si |T0|>tα/2,n2.
NOTA: Note que si la pendiente es significativa, entonces el modelo de RLS entre la
predictora y la respuesta, también lo es.
54 / 63
Ejemplo
¿Es la variable Edad significativa para el modelo? ¿La variable Edad ayuda a explicar la
Resistencia? Use un nivel de significancia del 3 por ciento.
55 / 63
56 / 63
Pruebas de hipótesis generales sobre β0yβ1
En algunas ocasiones nos interesa hacer una prueba de hipótesis sobre alguno de los
parámetros pero sin que el lado derecho de la hipótesis nula sea necesariamente cero. En
esos casos se procede de manera muy similar a las dos pruebas mostradas anteriormente.
En los siguientes slides se muestran las hipótesis y los estadísticos de prueba para ambos
casos.
57 / 63
Prueba de hipótesis general para β0
En esta prueba las hipótesis son:
H0:β0=β00
H1:β0=β00
El valor de β00 es un valor de referencia. El estadístico de la prueba está dado por
T0=b
β0β00
rbσ2Pn
i=1x2
i
nSxx
Se rechaza H0si |T0|>tα/2,n2.
58 / 63
Prueba de hipótesis general para β1
En esta prueba las hipótesis son:
H0:β1=β10
H1:β1=β10
El valor de β10 es un valor de referencia. El estadístico de la prueba está dado por
T0=b
β1β10
rbσ2Pn
i=1x2
i
nSxx
Se rechaza H0si |T0|>tα/2,n2.
59 / 63
Ejemplo ph general sobre β0
El proveedor de la soldadura afirma que la resistencia media para soldaduras nuevas es
2700 psi. Pruebe la hipótesis de que la resistencia media para soldaduras nuevas es
diferente a 2700 psi a un nivel de significancia del 5 por ciento.
Solución:
1) Las hipótesis son
H0:β0=2700
H1:β0=2700
Aquí β00 =2700 psi.
60 / 63
2) El estadístico es
T0=b
β0β00
rbσ2Pn
i=1x2
i
nSxx
=2627.82 2700
44.18 =1.6337
3) El valor de referencia es
tα/2,n2=t0.10/2,202=t0.05,18 =1.734064.
4) Conclusión
Como T0=1.6337 y tα/2,n2=1.734064, eso significa que NO SE CUMPLE que
|T0|>tα/2,n2, por lo tanto NO hay evidencias suficientes para rechazar H0.
61 / 63
Ejemplo ph general sobre β1
El proveedor de la soldadura afirma que la resistencia media para soldaduras disminuye
sólo 30 psi por cada semana que pase. Pruebe la hipótesis del proveedor versus una
hipótesis alternativa diferente. Use un nivel de significancia del 5 por ciento.
Solución:
1) Las hipótesis son
H0:β1=30
H1:β1=30
Aquí β10 =30 psi.
62 / 63
2) El estadístico es
T0=b
β1β10
rbσ2Pn
i=1x2
i
nSxx
=37.154 (30)
2.889 =2.47629
3) El valor de referencia es
tα/2,n2=t0.10/2,202=t0.05,18 =1.734064.
4) Conclusión
Como T0=2.47629 y tα/2,n2=1.734064, eso significa que SE CUMPLE que
|T0|>tα/2,n2, por lo tanto SI hay evidencias suficientes para rechazar H0.
El modelo nos indica que por cada semana la soldadura pierde 37.154 psi mientras que
el proveedor dice que solo se pierde 30 psi, rechazamos esa afirmación.
63 / 63