Ejercicios adicionales a los propuestos en el capítulo 2
Se recomienda hacer los ejercicios propuestos en el libro de Montgomery, D.; Peck, E.; Vining, G. (2002) Introducción al Análisis de
Regresión Lineal.
si se encuentra este símbolo en alguno de los ejercicios significa que el ejercicio es de nivel avanzado, en ese caso puede saltarse
el ejercicio.
1) Decidir si cada una de las siguientes afirmaciones es verdadera o falsa.
a) La variable que se va a predecir en la regresión se denomina variable independiente.
b) Si en el análisis de regresión simple la pendiente de la recta es negativa, entonces hay correlación lineal negativa entre las
variables.
c) La nube de puntos es una representación gráfica que nos permite visualizar la posible relación entre dos variables.
d) El coeficiente de correlación lineal siempre toma valores entre −2 y 2.
e) El coeficiente de determinación puede tomar valores negativos.
f) Un coeficiente de correlación lineal casi cero indica que la relación lineal entre las variables dependiente e independiente es
muy débil.
g) Si el coeficiente de correlación lineal vale 1 se dice que hay correlación lineal perfecta positiva.
h) La variable que se predice en el análisis de regresión es la variable dependiente.
i) Un coeficiente de correlación negativo entre la variable dependiente y la variable independiente , indica que al
aumentar se esperan disminuciones en .
j) La fórmula para calcular el coeficiente de correlación lineal de Pearson es:
2) Observe el siguiente diagrama de dispersión con atención.
Interprete el coeficiente de correlación reportado en el diagrama. ¿Qué conclusión puede obtener usted? ¿Qué opina de esa
conclusión? ¿Tiene sentido la conclusión?
3) Se han realizado cinco observaciones sobre dos variables, e , tabuladas de la siguiente forma
5
7
10
13
15
2
3
4
5
6
Complete la siguiente tabla de reporte haciendo cálculos manuales, luego ajuste el modelo en R y compare sus resultados manuales
con los de R.
Coeficientes
Estimación
Error estándar
Valor-P
Intercepto
Error residual estándar
Estadístico
 
4) Un investigador decidió estudiar la relación entre los gastos y ahorros familiares en grupo de familias de un barrio de la
ciudad. El investigador recolectó la información (en miles de pesos) y ajustó el modelo que a él le interesa en R. Los
resultados obtenidos se presentan a continuación.
Call:
lm(formula = ahorros ~ gastos)
Residuals:
Min 1Q Median 3Q Max
-754.0 -169.6 9.4 235.7 577.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2220.20774 123.40666 17.99 < 2e-16 ***
gastos -1.01504 0.09956 -10.20 1.34e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 307.9 on 48 degrees of freedom
Multiple R-squared: 0.6841, Adjusted R-squared: 0.6775
F-statistic: 103.9 on 1 and 48 DF, p-value: 1.339e-13
Basándose en los resultados de R responda las siguientes preguntas.
a) ¿Cuál es la variable respuesta? ¿Cuál es la covariable?
b) ¿Cuántas familias estudió el investigador?
c) Escriba el modelo ajustado al cual llegó el investigador.
d) Interprete en el contexto del problema los coeficientes del modelo.
e) ¿Cuál es la varianza estimada de los errores?
f) ¿Cuál es el error estándar del coeficiente asociado a la covariable?
g) Una teoría económica reciente afirma que por cada peso adicional que una familia gasta, el ahorro familiar disminuye en
promedio 1.2 pesos. El investigador al ver los resultados de su estudio piensa que la teoría está errada y considera que la
disminución en el ahorro es diferente al de la teoría. Escriba las hipótesis del problema y pruebe esta afirmación a un nivel
de significancia del 5%.
h) Construya un intervalo de confianza del 95% para el coeficiente de los gastos. ¿Incluye este intervalo el valor de referencia
del literal anterior? ¿Qué conclusión se puede obtener en relación con la hipótesis del intervalo anterior?
i) Si una familia tiene un gasto mensual de millón y medio de pesos, ¿cuál es el ahorro medio esperado para esa familia en ese
mes?
j) Haga una interpretación del .
k) Aplique la prueba de significancia de la regresión por medio del análisis de varianza (anova) con un nivel de significancia del
5%. ¿Cuál es su conclusión?
l) ¿Cuál es la conclusión al probar el siguiente conjunto de hipótesis versus a un nivel de significancia
del 5%?
m) ¿Qué signo debería tener el coeficiente de correlación lineal entre el gasto y el ahorro familiar mensual?
5) Un ingeniero calculos coeficientes de correlación entre seis pares de variables y los resultados fueron: -0.94, 0.86, 0.01,
0.01, -1 y 1. Desafortunadamente el ingeniero olvidó a que diagrama (a, b, c, d, e, f) correspondía cada coeficiente. Por
favor ayúdele al ingeniero a relacionar cada coeficiente obtenido con cada diagrama de dispersión.
6) Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación de éstas y
la renta nacional. Para investigar la relación cuenta con los siguientes datos:
189
190
208
227
239
252
257
274
293
308
316
402
404
412
425
429
436
440
447
458
469
469
representa la renta nacional en millones de euros e representa las ventas de la compañía en miles de euros en el periodo que va
desde 1990 hasta 2000 (ambos inclusive).
a) Sin hacer cálculos, es decir, sólo observando la tabla anterior, ¿puede usted dar un valor para el coeficiente de correlación
entre y ?
b) Calcule manualmente e interprete el coeficiente de correlación.
c) Use el módulo estadístico de su calculadora para obtener el coeficiente de correlación. Se sugiere ver este video antes.
7) En la siguiente figura se presentan los patrones de puntos de varios diagramas de dispersión para las variables y , así
como el coeficiente de correlación lineal. ¿Escriba una conclusión de los patrones observados?
8) Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) está relacionada con el tiempo de
reacción a un estímulo en segundos. La tabla siguiente muestra los resultados del experimento. El objetivo es ajustar un
modelo de regresión lineal entre las variables estudiadas.
Droga (ml)
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
Tiempo (segs)
1.0
0.8
1.8
1.4
2.1
1.8
2.2
3.0
2.75
3.0
4.1
4.9
a) ¿Cuál es la estimación y el error estándar del intercepto del modelo de interés?
b) Construya un IC del 95% para estimar el intercepto y concluya.
c) Un estudio anterior indicó que por cada ml adicional de droga que se le suministra a un paciente el tiempo de reacción
aumenta en 0.4 segundos. Los investigadores actuales sospechan que el incremento en el tiempo de reacción es diferente
al anunciado en el estudio previo. Escriba las hipótesis y concluya con un nivel del 5%.
9) ¿Practicar en un simulador de conducción nos ayudaría a manejar mejor en Inglaterra? Para responder esta pregunta un
grupo de investigadores realiza un experimento con voluntarios para estudiar el efecto que tiene el tiempo de práctica en
un simulador de conducción sobre el número de errores cometidos al manejar sobre una pista con obstáculos con auto de
conductor a la derecha. A continuación se muestra el tiempo en minutos que los voluntarios pasaron en el simulador y el
número de errores cometidos por los voluntarios luego de la práctica en el simulador.
Tiempo 49.4 86.4 20.81 51.69 89.99 31.17 129.56 102.93 14.56 19.46
Errores 36.0 23.0 45.00 33.00 23.00 42.00 11.00 19.00 47.00 44.00
Responda las preguntas siguientes usando sólo su calculadora, NO use R para responderlas.
a) Ajuste el modelo de regresión lineal apropiado y escriba la ecuación de regresión.
b) Pruebe la significancia de la regresión usando el método ANOVA. Escriba las hipótesis y use  para concluir.
c) Para la versión anterior del simulador se concluyó que por cada minuto adicional que un conductor practicaba el número
medio de errores disminuía en 0.29. Realice una prueba de hipótesis para determinar si ha cambiado la premisa, use un
nivel de significancia del .
d) Calcule el coeficiente de determinación del modelo e interprételo.
10) Un investigador está estudiando los datos correspondientes a diferentes medidas del cuerpo humano (edad, peso, estatura,
sexo, medidas del esqueleto y musculares) de un grupo de personas. Los datos corresponden a una muestra de personas
que acuden periódicamente a un gimnasio y se han obtenido de la revista electrónica Journal of Statistics Educations, Vol.
11, 2, “Exploring Relationships in Body Dimensions”. Este investigador decide construir un modelo que permita predecir
el peso (Kg) de una persona en función de su altura (cm). A continuación se presentan los resultados del ajuste que el
investigador obtuvo con R.
Call:
lm(formula = peso ~ altura)
Residuals:
Min 1Q Median 3Q Max
-15.9711 -6.2476 0.0899 7.9502 19.0448
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -124.3890 25.1411 -4.948 2.01e-05 ***
altura 1.1270 0.1463 7.704 5.85e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.104 on 34 degrees of freedom
Multiple R-squared: 0.6358, Adjusted R-squared: 0.6251
F-statistic: 59.36 on 1 and 34 DF, p-value: 5.853e-09
Complete los espacios indicados por “____________” de manera que las siguientes afirmaciones sean verdaderas. Justifique sus
respuestas con el procedimiento completo.
a) La estimación para la varianza de los errores es ____________
b) El error estándar para el coeficiente de la variable regresora es ____________
c) El número de observaciones en la muestra utilizada fue de _________
d) Al probar la hipótesis  con un nivel  se concluye que ____________ rechaza Ho.
e) Al probar la hipótesis  con un nivel  se concluye que ____________ rechaza Ho.
f) Un intervalo de confianza del 90% para es (_________ ; _________)
g) El porcentaje de la variabilidad de la variable independiente que fue explicada por el modelo es de _________%.
11) Suponga que usted tiene la tarea de encontrar estimaciones para los parámetros de un modelo de regresión lineal
simple maximizando la función de verosimilitud usando un conjunto de datos simulados. El código usado para generar los
datos es el siguiente:
x <- rpois(n=100, lambda=15)
y <- rnorm(n=length(x), mean=5-3*x, sd=4)
La función de verosimilitud en R para este problema se puede escribir así:
ll <- function(w) {
b0 <- w[1] # intercept
b1 <- w[2] # slope
s <- exp(w[3]) # standard deviation for eij
ll <- sum( dnorm(x=y, mean=b0+b1*x, sd=s, log=T) )
return(ll)
}
a) Escriba el vector de parámetros a estimar para este problema, indique con claridad sus componentes.
b) Escriba el código en R para encontrar estimaciones de los parámetros usando la función optim( )
c) ¿Tiene usted alguna modificación o cambio que se deba hacer en el código anterior para poder obtener las estimaciones?
12) ¿Cómo guardar un modelo de regresión para luego poder usarlo? Consulte en la web.
13) Escriba en el recuadro el modelo estadístico asociado al siguiente código de R. Recuerde que un modelo estadístico es un
conjunto de expresiones matemáticas que resumen el modelo.
n <- 5
x1 <- rbinom(n=n, size=5, prob=0.6)
x2 <- rpois(n=n, lambda=3)
mu <- -3 + 5 * x1 - 7 * x2
sigma <- exp(2 - 4 * x2 + x1)
y <- rnorm(n=n, mean=mu, sd=sigma)
14) A continuación se presenta una tabla con la parte inicial de los enunciados de algunos los ejercicios propuestos en el
capítulo 2 del texto guía. Lo que usted debe hacer es leer el enunciado de ese ejercicio e identificar si es un estudio
Retrospectivo, Observacional o Experimental.
Ejercicio
¿Retrospectivo, Observacional
o Experimental?
15) Una con flechas los momentos históricos de la izquierda con los años de la derecha.
1791
1877
1805
16) A continuación se muestran las variables ventas mensuales en un mes dado y el dinero invertido en publicidad radial en el
mismo mes, ambas variables en millones de pesos.
ventas <- c(15, 10, 12, 17, 14)
publicidad <- c(4, 2, 3, 6, 5)
Ajuste un modelo de regresión lineal simple apropiado a la situación y luego escriba a continuación el modelo estimado completo en
la forma II visto en clase.
17) En economía se sabe que el gasto mensual familiar está relacionado con el ahorro mensual en forma negativa. A
continuación se muestra un conjunto de datos de gastos y ahorros para seis familias.
gasto <- c(3, 5, 1, 6, 5, 4)
ahorro <- c(2, 0.3, 4, 0.2, 0.3, 1.4)
Considere a la variable gasto como la variable explicativa, ajuste un modelo de regresión lineal simple y complete la tabla mostrada
abajo.
Coeficientes
Estimación
Error estándar
Valor-P
Intercepto
Error residual estándar
18) A basketball team is testing a new stretching program proposed by Doctor Aristizabal to reduce the injuries during the
league. The data below show the daily number of minutes doing stretching exercises and the number of injuries along the
league.
Stretching minutes
0
30
10
15
5
25
35
40
Injuries
4
1
2
2
3
1
0
1
The Doctor Aristizabal sells his method saying that, for each minute of stretching, the team coach could expect a reduction of 0.1
injuries. The coach thinks that the Aristizabal’s statement is not true, in fact, he thinks that the reduction is different from one. Fit a
simple regression model and use a 5% significance level to explore the Aristizabal’s statement.
Complete the following:
 
 
The statistic is . The  for the test is in the interval (________%, ________%), for this reason, we can
___________________ (reject/ not reject) the __________________ (null/alternative) hypothesis.
19) A research study has been conducted to determine the loss of activity of a drug. The table below shows the results of the
experiment.
Time (in years)
1
2
3
4
5
Activity (%)
96
84
70
58
52
Fit a linear regression model assuming as response variable the Activity and complete the next gaps.
The linear correlation coefficient (Pearson) for the two variables is ___________, it means that Time and Activity are
_________________________________________________.
The estimated mean for the model is .
The obtained for the model is ___________________, it means that the model
___________________________________________________________________________________________.
A 95% interval confidence for the slope is (_______, ________).
If we test  versus  using the 95% interval confidence, we can _________________ (reject/not
reject) because ___________________________________________________________________.
20) Para este ejercicio usted debe usar la base de datos gapminder (del paquete gapminder) la cual contiene información
sobre la expectativa de vida y el producto interno bruto de muchos países del mundo. Use solamente la información del
continente Americas para responder.
Ajuste un modelo de regresión lineal simple para explicar la expectativa de vida en función del producto interno bruto en tres
momentos de tiempo diferentes, o 1952, 1982 y 2007. Con los resultados obtenidos complete la siguiente tabla y use cuatro (4)
decimales para llenarla.
Año
󰆹
󰆹
󰇛󰇜
1952
1982
2007
Tabla 1. Parámetros estimados y coeficiente de correlación lineal.
21) La base de datos rent del paquete gamlss recolectada en 1993 contiene información sobre viviendas destinadas para
arriendo en Munich, Alemania. Escriba help(rent) en la consola para obtener información sobre las variables. Para
responder las siguientes preguntas use sólo la información de las viviendas que tienen un equipo de cocina por debajo del
promedio de las viviendas.
a) La correlación lineal entre las variables valor de la renta (en Marcos alemanes) y espacio disponible en la vivienda (en metros
cuadrados) es de ________________.
b) Construya un diagrama de dispersión entre valor de la renta versus espacio disponible en la vivienda y considere los modelos A, B,
C y D mostrados en la Tabla 2.
Modelo A
Modelo B
Modelo C
Modelo D
󰇛󰇜

󰇛󰇜 
󰇛󰇜


󰇛󰇜

󰇛󰇜 
󰇛󰇜


Tabla 2. Modelos posibles.
Observando cuidadosamente el diagrama se puede concluir que el modelo ______ (A, B, C, D) parece ser el s apropiado para
modelar la relación entre la renta (respuesta) y el área (covariable).
c) Ajuste en R el modelo identificado en el numeral anterior y construya la tabla de resumen del modelo. Usando la tabla de
resumen escriba la expresión matemática para y estimados.
d) Para una vivienda de la base de datos con un área de ochenta metros cuadrados se espera que el precio estimado de renta sea de
______________ marcos alemanes con una varianza estimada de _______________.
22) Considere el siguiente modelo de regresión.
󰇛󰇜󰇛󰇜
󰇛󰇜  󰇛󰇜
󰇛󰇜󰇛󰇜
󰇛  󰇜󰇛󰇜
para 
El vector de parámetros para este modelo es 󰇛  󰇜 y el objetivo de este ejercicio es que usted estudie vía simulación el
Error Cuadrático Medio () al estimar los elementos del vector para diferentes valores de tamaño de muestra. Para realizar
este ejercicio usted debe simular 10000 conjuntos de datos con cada valor de y luego calcular el  para cada
. La fórmula
para obtener el  del -ésimo estimador con repeticiones es:



Organice sus resultados de su simulación en la siguiente tabla y escriba una conclusión utilizando la información de la tabla.

󰆹
󰆹
󰆹



Tabla 3. Error Cuadrático Medio para los estimadores del modelo.
23) Se realizó un estudio para analizar la relación entre la cantidad de horas de estudio semanal y el puntaje obtenido en un
examen final. Se recolectaron datos de seis estudiantes y se registraron las horas de estudio y los puntajes obtenidos, como
se muestra en la siguiente tabla:
a) Calcular el coeficiente de correlación lineal de Pearson para la relación de ambas variables.
b) Estimar los parámetros de un modelo de regresión lineal simple para explicar la variable dependiente en función de la
variable independiente. ¿Cuáles son las estimaciones de la pendiente y del intercepto? ¿Tiene sentido interpretar el
intercepto en este problema?
c) Complete la siguiente tabla anova:
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
Fo
Valor-P
Regresión
Residual
Total
d) Usando la tabla anova anterior y un nivel de significancia del 10%, ¿qué se puede concluir de las hipótesis versus
?
Revise regularmente para encontrar más ejercicios
Respuestas
1) F, V, V, F, F, V, V, V, V, F (no son sumas sino restas).
2) A medida que un país consume más chocolate el número de premios nobel aumenta.
3) La tabla solicitada es la siguiente
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.17647 0.18099 0.975 0.401452
X 0.38235 0.01698 22.517 0.000192 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.14 on 3 degrees of freedom
Multiple R-squared: 0.9941, Adjusted R-squared: 0.9922
F-statistic: 507 on 1 and 3 DF, p-value: 0.0001918
4) a) Variable respuesta: ahorros, covariable: gastos. b) n=50. c) 
 . d)
󰆹: para una familia que no
tenga gastos en un mes se espera que el ahorro medio sea de 2220.21 miles de pesos.
󰆹: por cada mil pesos adicionales en el gasto
se espera una reducción en el ahorro de 1015 pesos. e) 94802.41 f) 0.09956 g)   versus  , to=1.8577 y como
valor-P (5%, 10%) entonces no se rechaza . h) (-1.23, -0.81) y como incluye el -1.2 entonces no se rechaza . i) 697647.74 $. j)
El 68.41% de la variabilidad del ahorro fue explicada por el modelo estudiado. k) El estadístico es 103.9 y como valor-P es 1.339e-13
entonces concluimos que . l) se concluye que . m) negativo.
5) -1 con a, -0.94 con b, 0.01 con c, 1 con d, 0.86 con e y 0.01 con f.
6) 0.9984
7) Una conclusión podría ser: cuando el coeficiente de correlación es muy cercano a 1, los puntos de la nube se tienden a agrupar y
formar una línea recta.
8) A) 0.02174 y 0.30274; B) Como el IC del 95% es (-0.653, 0.696) entonces se concluye que al no administrar droga el tiempo de reac
ción al estímulo es prácticamente cero. C)   versus  , el estadístico es 3.208 y así el valor-P está entre 1% y
2%, por lo tanto, se rechaza Ho.
9) (a) errores estimado = 50.92 - 0.31 tiempo (b) F=5.31 y valor P pequeño así que rechazamos Ho: beta1 = 0 (c) t0=-2.62 y como
varlor P < 5% se rechaza Ho: beta1=-0.29 (d) R2=0.9953
10) (a) 9.104^2=82.88 (b) 0.1463 (c) n=36 y no 34 (d) si (e) si (f) (0.8797, 1.3742) (g) ninguna, la variable que fue explicada por el
modelo fue la dependiente, es decir la Y.
11) Las respuestas abajo.
a) 󰇛󰇜
b) optim(ll, par=c(0,0,0)). Intente sólo optim(ll) y verá que no funciona, es necesario dar valores de inicio
para que optim inicie la búsqueda.
c) Si se aplica optim() a la función ll no obtenemos la respuesta correcta porque la función optim( ) en su forma natural sirve
para minimizar, por esta razón es necesario colocar en la última línea de ll colocar ll y no ll para que optim pueda
minimizar el negativo de la función de log-verosimilitud, es decir, la función quedaría así:
ll <- function(w) {
b0 <- w[1] # intercept
b1 <- w[2] # slope
s <- exp(w[3]) # standard deviation for eij
ll <- sum( dnorm(x=y, mean=b0+b1*x, sd=s, log=T) )
return( -ll )
}
Esta es la modificación, el signo menos.
12) Para saber cómo guardar un modelo de regresión le recomiendo ver la respuesta en este enlace de stackoverflow.
13) Ver la respuesta abajo.
14) La respuesta abajo.
15) La respuesta abajo.
16) El modelo se muestra abajo.
17) La tabla se muestra abajo.
Coeficientes
Estimación
Error estándar
Valor-P
Intercepto
4.617
0.346
13.34
0.000183
X
-0.813
0.080
-10.14
0.000532
Error residual estándar
0.3205
18) Abajo las respuestas.


The statistic is 1.376462. The  for the test is in the interval (20%, 50%), for this reason, we can not reject (reject/
not reject) the null (null/alternative) hypothesis.
19) Abajo las respuestas.
The linear correlation coefficient (Pearson) for the two variables is -0.9922, it means that Time and Activity are
strong correlated in a negative way.
The estimated mean for the model is 
The obtained for the model is 0.9845, it means that the model explains 98.45% of the variability observed in
the variable Activity.
A 95% interval confidence for the slope is (-14.02, -8.76).
If we test  versus using the 95% interval confidence, we can reject (reject/not reject)
because the interval confidence does not include the reference value -7.
23) a) , b)
󰆹 y
󰆹 , c) abajo la tabla, d) Hay evidencias para rechazar .