Analisis de regresióN



Descargar 16.39 Mb.
Página59/59
Fecha de conversión02.11.2019
Tamaño16.39 Mb.
1   ...   51   52   53   54   55   56   57   58   59
Supervivencia

Region

NivelToxico

Supervivencia

Region

NivelToxico

1

1

62.00

2

1

40.50

1

2

46.00

2

2

60.00

2

1

48.50

3

1

57.50

3

2

32.00

2

1

48.75

2

1

63.50

2

1

44.50

1

1

41.25

1

1

49.50

2

2

40.00

2

2

33.75

3

1

34.25

2

1

43.50

2

1

34.75

2

2

48.00

1

2

46.25

3

1

34.00

2

1

43.50

1

1

50.00

2

2

46.00

3

2

35.00

2

1

42.50

1

1

49.00

1

2

53.00

2

2

43.50

1

2

43.50

3

2

37.25

1

1

56.00

3

2

39.00

2

1

40.00

3

1

34.50

1

2

48.00

2

1

47.50

2

1

46.50

1

2

42.00

2

2

72.00

2

2

45.50

2

2

31.00

2

2

38.50

1

1

48.00

2

1

36.50

2

2

36.50

2

2

37.50

2

2

43.75

3

1

38.50

2

1

34.25

2

2

47.00

2

1

41.25

2

2

39.75

2

2

41.75

1

1

60.00

2

2

45.25

2

2

41.00

2

1

43.50

2

1

41.00

2

2

53.00

3

1

30.00

3

1

38.00

2

2

45.00

2

2

59.00

2

2

51.00

2

1

52.50

2

2

35.25

2

2

42.75

1

2

40.50

2

2

31.50

2

2

39.50

2

2

43.50

3

2

36.00

2

2

40.00










Instrucciones de Minitab

1    Open worksheet EXH_REGR.MTW.

2    Seleccionar Stat > Regression > Ordinal Logistic Regression.

3    En Response, seleccionar Survival. En Model, seleccionar Region ToxicLevel. En Factors (optional), seleccionar Region.

4    Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo.

Los resultados se muestran a continuación:



Results for: Exh_regr.MTW

Ordinal Logistic Regression: Supervivencia versus Region, NivelToxico
Link Function: Logit
Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las categorías de respuesta. Abajo se muestran los valores ordenados de la respuesta de menor a mayor. 1 corresponde a <10 días; 2 = 10 a 30 días; y 3 = 31 a 60 días.
Información de factores: muestra todos los factores en el modelo, el número de niveles para cada factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de referencia, es el primer dato en Valores. En este caso Región 1.

Niveles de Referencia para los factores


Se requiere asignar un nivel de factor como el nivel de referencia. Los coeficientes estimados se interpretan respecto a este nivel de referencia. Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos:


  • Para factores numéricos, el nivel de referencia es el valor con el menor valor numérico.

  • Para fechas, el nivel de referencia es el nivel con la fecha/hora más antigua.

  • Para factores de texto, el nivel de referencia es el nivel que está primero en orden alfabético.

Se puede cambiar esta configuración de Default en la ventana de diálogo de Options. Para cambiar el nivel de referencia de un factor, especificar la variable del factor seguida por el nuevo nivel de referencia en la ventana Reference factor level. Se puede especificar niveles de referencia para más de un factor al mismo tiempo. Si todos los niveles son texto o fecha/hora, encerrarlos entre comillas.

Si ya se definió un valor de orden para un factor de texto, la regla por omisión es que se designa el primer valor en el orden definido como valor de referencia.

La regression logística crea un conjunto de variables de diseño para cada uno de los factores en el Modelo. Si hay k niveles, habrá k-1 variables de diseño y el nivel de referencia será codificado con cero. Por ejemplo:





Nivel de referencia para la variable de respuesta

Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos:




  • Para factores numéricos, el nivel de referencia es el valor con el mayor valor numérico.

  • Para fechas, el nivel de referencia es el nivel con la fecha/hora más reciente.

  • Para factores de texto, el nivel de referencia es el nivel que es último en orden alfabético.

Se pueden cambiar en la ventana siguiente:


Response Information
Variable Value Count

Supervivencia 1 15

2 46

3 12


Total 73
Factor Information
Factor Levels Values

Region 2 1, 2


Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las tasas de posibilidades calculadas, y un intervalo de confianza del 95% para las tasas de posibilidades.

  • Los valores etiquetados Const(1) y Const(2) son intersecciones estimadas para las funciones logit de probabilidad acumuladas de supervivencia para <10 días, y para 10-30 días respectivamente.

  • El coeficiente de 0.2015 para la región es el cambio estimado en la función logit acumulativa del tiempo de supervivencia cuando la región es 2 comparada con la región 1, con el covariado Nivel Toxico mantenido constante. Dado que el coeficiente estimado es 0.685, no hay suficiente evidencia de que la región tenga un efecto sobre el tiempo de supervivencia.

  • Hay un coeficiente estimado para cada covariado, que da líneas paralelas para el nivel del factor. En este caso, el coeficiente estimado para un covariado simple, Nivel Toxico, es 0.121, con un valor p < 0.0005. El valor p indica que para la mayoría de niveles alfa, hay evidencia suficiente para concluir que el nivel de toxicidad afecta la supervivencia. El coeficiente positivo, y una tasa de posibilidades mayor a uno, indica que los niveles de toxicidad más altos tienden a estar asociados con menores valores de superviviencia. Específicamente, un incremento de una unidad en la toxicidad del agua resulta en un 13% de incremento en las posibilidades que la salamadra viva menos o igual a 10 días contra más de 30 días, y que la salamandra viva menos que o igual a 30 días versus más que 30 días.

  • Se muestra la verosimilitud logarítmica (log Likelihood) de las iteraciones de máxima verosimilitud junto con el estadístico G. Este estadístico prueba la hipótesis que todos los coeficientes asociados con los predictores son iguales a cero versus al menos un coeficiente no es cero. En este caso G = 14.713 con un valor p de 0.001, indicando que hay suficiente evidencia para concluir que al menos uno de los coeficientes estimados es diferente de cero.

Logistic Regression Table

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) -7.04343 1.68017 -4.19 0.000

Const(2) -3.52273 1.47108 -2.39 0.017

Region

2 0.201456 0.496153 0.41 0.685 1.22 0.46 3.23



NivelToxico 0.121289 0.0340510 3.56 0.000 1.13 1.06 1.21
Log-Likelihood = -59.290

Test that all slopes are zero: G = 14.713, DF = 2, P-Value = 0.001



Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este ejemplo para Pearson se tiene un valor P de 0.463, y para la prueba de deviance es 0.918, indicando que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos adecuadamente.
Goodness-of-Fit Tests
Method Chi-Square DF P

Pearson 122.799 122 0.463

Deviance 100.898 122 0.918

Medidas de asociación: muestra una tabla de los números y porcentajes de parejas concordantes, discordantes y similares, y estadísticas de correlación de rango común. Estos valores miden la asociación entre las respuestas observadas y las probabilidades estimadas o pronosticadas.


  • La tabla de pares concordantes, discordantes y similares, se calcula emparejando las observaciones con diferentes valores de respuestas. Si se tienen 15 1’s, 46 2’s, y 12 3’s, resultan en 15 x 46 + 15 x 12 + 46 x 12 = 1422 pares de diferentes valores de respuesta. Para pares incluyendo los valores de respuesta codificados menores (1-2 y 1-3 pares de valores en el ejemplo), un par es concordante si la probabilidad acumualtiva hasta el valor de respuesta más bajo (aquí 1) es mayor para la observación con el valor más bajo. De manera similar para otros pares. Para pares con respuestas 2 y 3, un par es concordante si la probabilidad acumulativa hasta 2 es mayor para la observación codificada como 2. El par es discordante si ocurre lo opuesto. El par es similar si las probabilidades son iguales. En este caso, 79.3% de pares son concordantes, 20.3% son discordantes, y 0.5% son similares. Se pueden usar estos valores como medida comparativa de predicción, por ejemplo para evaluar predictores de diferentes funciones de enlace.

  • Se muestran resúmenes de pares concordantes y discordantes de Somers’D, Goodman-Kruskal Gamma y la Tau-a de Kendall. Los números tienen el mismo numerador: el número de pares concordantes menos el número de pares discordantes. El denominador es el número total de pares con Somers’D, el número total de pares excepto los similares con Goodman-Kruskal Gamma, y el número de todas las posibles observaciones para la Tau-a de Kendall. Estas medidas tienden a estar entre 0 y 1 donde los valores mayores indican una mejor capacidad predictiva del modelo.

Measures of Association:

(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures

Concordant 1127 79.3 Somers' D 0.59

Discordant 288 20.3 Goodman-Kruskal Gamma 0.59

Ties 7 0.5 Kendall's Tau-a 0.32

Total 1422 100.0


10. REGRESIÓN LOGÍSTICA NOMINAL


Usar la regression logística nominal para realizar regresión sobre una variable de respuesta nominal, usando un algoritmo iterativo de mínimos cuadrados reponderados, para obtener la estimación de máxima verosimilitud de los parámetros.
Las variables nominales son variables categóricas que tienen tres o más niveles posibles, sin un orden natural. Por ejemplo, los niveles en un estudio de gusto por la comida, puede incluir: crujiente, fresca y firme (crunchy, mushy, and crispy).
Ejemplo:

Suponiendo que un director de escuela se interesa por identificar la materia favorita de los niños, como se asocia con su edad o con el método de enseñanza empleado. Se toman 30 niños, de 10 a 13 años, con clases de ciencias, matemáticas, y lenguaje, que emplean ya sea técnicas de enseñanza de exposición o discusión. Al final del año escolar, se les preguntó por su materia favorita. Se usa la regresión logística nominal porque la respuesta es categórica pero no tiene un órden implícito.



Los datos considerados son los siguientes:

Materia

MetodoEnseñanza

Edad

Matemáticas

Discusión

10

Ciencias

Discusión

10

Ciencias

Discusión

10

Matemáticas

Exposición

10

Matemáticas

Discusión

10

Ciencias

Exposición

10

Matemáticas

Discusión

10

Matemáticas

Exposición

11

Artes

Exposición

11

Ciencias

Discusión

11

Artes

Exposición

11

Matemáticas

Discusión

11

Ciencias

Exposición

11

Ciencias

Discusión

11

Artes

Exposición

11

Ciencias

Exposición

12

Ciencias

Exposición

12

Ciencias

Discusión

12

Artes

Exposición

12

Matemáticas

Discusión

12

Matemáticas

Discusión

12

Artes

Exposición

12

Artes

Discusión

13

Matemáticas

Discusión

13

Artes

Exposición

13

Artes

Exposición

13

Matemáticas

Discusión

13

Ciencias

Discusión

13

Matemáticas

Exposición

13

Artes

Exposición

13

Instrucciones de Minitab:

1    Open worksheet EXH_REGR.MTW.

2    Seleccionar Stat > Regression > Nominal Logistic Regression.

3    En Response, seleccionar Subject. En Model, seleccionar TeachingMethod Age. En Factors (optional), seleccionar TeachingMethod.

4    Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo.

Los resultados se muestran a continuación:



Nominal Logistic Regression: Materia versus MetodoEnseñanza, Edad
Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las categorías de respuesta (ciencias, matemáticas y artes del lenguaje).
Response Information
Variable Value Count

Materia Matemáticas 11 (Reference Event)

Ciencias 10

Artes 9


Total 30
Información de factores: muestra todos los factores en el modelo, el número de niveles para cada factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de referencia, es el primer dato en Valores. Aquí, el esquema de codificación de default define el nivel de referencia como Discusión usando el orden alfabético.
Factor Information
Factor Levels Values

MetodoEnseñanza 2 Discusión, Exposición



Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las tasas de posibilidades calculadas, y un intervalo de confianza del 95% para la tasa de posibilidades. El coeficiente asociado con un predictor es el cambio estimado en la función logia con el cambio de una unidad en el predictor, asumiendo que todos los otros factores y covariados permanecen constantes.

  • Si hay k respuestas distintas, Minitab estima k-1 conjuntos de parámetros estimados, denominados Logia(1) y Logia (2). Estas son diferencias estimadas en logaritmo de posibilidades o logias de matemáticas y artes de lenguaje, respectivamente, comparado con la ciencia como el evento de referencia. Cada conjunto contiene una constante y coeficientes para los factores, aquí el método de enseñanza, y el covariado edad. El coeficiente del método de enseñanza es el cambio estimado en el Logit cuando el método de enseñanza sea exposción comparado a cuando sea discusión, manteniendo la edad constante. El coeficiente de la edad es el cambio estimado en el logit con un año de incremento en edad manteniendo constante el método de enseñanza. Estos conjuntos de estimados de parámetros dan líneas no paralelas para los valores de respuesta.

  • El primer conjunto de logiats estimados, etiquetados como Logia(1), son los parámetros estimados del cambio en Logias de matemáticas respecto al evento de referencia, ciencia. Como el valor p tiene valores de 0.548 y 0.756 para el método de enseñanza y edad, indica que hay insuficiente evidencia para concluir que un cambio en el método de enseñanza de discusión a exposición, o en edad afecten la selección de materia favorita cuando se compara con la ciencia.

  • El segundo conjunto de logias estimados, Logia(2), son los parámetros estimados del cambio en Logias de artes del lenguaje respecto al evento de referencia ciencia. Los valores p de 0.044 y 0.083 para método de enseñanza y edad, respectivamente, indica que hay suficiente evidencia, si los valores p son menores al valor aceptable de alfa, se concluye que la selección favorece a la ciencia.

  • El coeficiente positivo del método de enseñanza indica que los estudiantes que se les aplica el método de enseñanza de exposición, prefieren las artes del lenguaje sobre la ciencia comparado a estudiantes que se les da un método de enseñanza de discusión. La tasa estimada de posibilidades de 15.96 indica que las posibilidades de seleccionar el lenguaje sobre la ciencia es de alrededor de 16 veces más alto para los estudiantes, cuando el método de enseñanza cambia de discusión a lectura. El coeficiente positivo asociado con la edad indica que los estudiantes tienden a preferir las artes del lenguaje sobre las ciencias confoirme se hacen más maduros.

Logistic Regression Table

95%

Odds CI


Predictor Coef SE Coef Z P Ratio Lower

Logit 1: (math/science)

Constant -1.12266 4.56425 -0.25 0.806

TeachingMethod

lecture -0.563115 0.937591 -0.60 0.548 0.57 0.09

Age 0.124674 0.401079 0.31 0.756 1.13 0.52

Logit 2: (arts/science)

Constant -13.8485 7.24256 -1.91 0.056

TeachingMethod

lecture 2.76992 1.37209 2.02 0.044 15.96 1.08

Age 1.01354 0.584494 1.73 0.083 2.76 0.88

Predictor Upper

Logit 1: (math/science)

Constant


TeachingMethod

lecture 3.58

Age 2.49

Logit 2: (arts/science)

Constant

TeachingMethod

lecture 234.91

Age 8.66


Log-Likelihood: de las iteraciones de máxima verosimilitud junto con el estadístico G. G es la diferencia en -2 log-likelihood (-2LL) para un modelo el cual sólo tiene los términos de la constante y el modelo ajustado indicado en la Tabla de la Regresión logística. G prueba la hipótesis nula que los coeficientes asociados con los predictores son iguales a cero versus que no todo son cero. G = 12.825 con un valor p de 0.012, indican que para alfa = 0.05, hay evidencia suficiente que al menos uno de los coeficientes es diferente de cero.
Log-Likelihood = -26.446

Test that all slopes are zero: G = 12.825, DF = 4, P-Value = 0.012



Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este ejemplo para Pearson se tiene un valor P de 0.730, y para la prueba de deviance es 0.640, indicando que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos adecuadamente.
Goodness-of-Fit Tests
Method Chi-Square DF P

Pearson 6.95295 10 0.730

Deviance 7.88622 10 0.640

BIBLIOGRAFÍA

Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, John Wiley and Sons, 2º edition, Inc., New York, 1992


Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley and Sons, Inc., 2º edition, 1991
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons, Inc., New York, 1998

TAREA NO. 1 DE ANALISIS DE REGRESIÓN

Con apoyo de Minitab


11/11/00

PROBLEMA 2.1

Calcular lo siguiente (Y vs X8):


a) La recta de regresión

The regression equation is

Y = 21.8 - 0.00703 X8
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source DF SS MS F P

Regression 1 178.09 178.09 31.10 0.000

Residual Error 26 148.87 5.73

Total 27 326.96 Ftablas=F1,26,0.05=4.23



Nota: Como p = 0 equivale a Fc > F tablas y se rechaza la Ho: Beta1 = 0


quiere decir que existe la recta de regresión
c) El intervalo de confianza al 95%

de la pendiente b1


Predictor Coef StDev T P

Constant 21.788 2.696 8.08 0.000

X -0.007025 0.001260 -5.58 0.000
El intervalo de confianza para 1 se calcula como sigue:

t0.025,26 = 2.056

b1  t*std dev (Predict.X8) =-0.007025  2.056* (0.00126) =

-0.0096 <= 1 <= -0.004435;
El iuntervalo de confianza para 0 es:

b0  t*std dev (Constant) =21.788  2.056* (2.696);
d) % de la variabilidad explicada por la

regresión


R-Sq = 54.5%
e) El intervalo de confianza a un 95% para la media

del valor estimado de Y, cuando Xo = 2000 yardas (corresponde a CI).

Predicted Values

Fit StDev Fit 95.0%CI para media 95.0% PI p.valor futuro

7.738 0.473 ( 6.766; 8.710) ( 2.724; 12.752)

f) Probar la hipótesis nula de que el coeficiente de



correlación es cero. Ho:  = 0

Ttablas 0.025,26 = 2.056
Cómo to > ttablas, se rechaza Ho. Es decir que  es diferente de cero.

g) Probar la hipótesis nula de que el coeficiente de

correlación es Ho: 0 = -0.80

Zo = -0.76006 Z tablas = Z0.025 = 1.96

Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para .

- 0.87134<=  <= - 0.50396


i) Con Minitab construir las sig. gráficas de residuos

y comentar acerca de la adecuación del modelo

- Gráfica de probabilidad normal

- Gráfica de residuos contra Yi est.



  • Gráfica de residuos contra Xi8..

Los residuos muestran una variación normal con varianza constante


j) Graficar los residuos contra el porcentaje de juegos

ganados X7i, ¿se mejora el modelo agregando esta

variable?.
No se mejora la distribución de los residuos
The regression equation is

Y = 17.9 - 0.00654 X8 + 0.048 X7


S = 2.432 R-Sq = 54.8% R-Sq(adj) = 51.1%


Al agregar la nueva variable X7, el modelo no mejora realmente (comparar R^2)

PROBLEMA 2.2

Si las yardas ganadas se limitan a 1800. Hallar el intervalo de predicción al 90% en el número de juegos ganados (corresponde a PI).

t(0.05,26) = 1.705616 Alfa = 0.1

Intervalo 8.1238 <= Ymedia <=10.16 4.936<=Ypuntual<=13.35

PROBLEMA 2.3

Calcular lo siguiente:


a) La recta de regresión

The regression equation is

Y1 = 607 - 21.4 X4
b) La tabla ANOVA y prueba de significancia

Analysis of Variance


Source DF SS MS F P

Regression 1 10579 10579 69.61 0.000

Residual Error 27 4103 152

Total 28 14682 Ftablas=F1,27,.05=4.21


Como Fc=69.61 es mayor que Ftablas=4.21, se rechaza Ho y existe la regresión
c) El intervalo de confianza al 99%

de la pendiente 1

Predictor Coef StDev T P

Constant 607.10 42.91 14.15 0.000

X4 -21.402 2.565 -8.34 0.000
El intervalo de confianza para 1 se calcula como sigue:

t0.005,27 = 2.771 7.1076

b1  t*std dev (Predict.X4) =-21.402  2.771* (2.565) =

-28.5096 <= 1 <= -14.2943
d) % de la variabilidad explicada por la

regresión R^2


R-Sq = 72.1% R-Sq(adj) = 71.0%

e) El intervalo de confianza a un 95% para la media

del valor estimado de Y, cuando Xo = 16.5 (corresponde a CI).

Predicted Values


Fit StDev Fit 95.0% CI para media 95.0% PI p.valor futuro

253.96 2.35 ( 249.15; 258.78) ( 228.21; 279.71)

f) Probar la hipótesis nula de que el coeficiente de

correlación es cero. Ho:  = 0



Ttablas 0.025,27 = 2.052
Cómo to > Ttablas, se rechaza Ho. Es decir que  es diferente de cero.

g) Probar la hipótesis nula de que el coeficiente de

correlación es 0 = - 0.80.

Zo = 0.78172 Z tablas = Z0.025 = 1.96

Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para .

- 0.927 <=  <= - 0.7


i) Con Minitab construir las sig. gráficas de residuos

y comentar acerca de la adecuación del modelo

- Gráfica de probabilidad normal

- Gráfica de residuos contra Yi est.

- Gráfica de residuos contra Xi4.
Unusual Observations

Obs X4 Y1 Fit StDev Fit Residual St Resid

22 17.6 254.50 229.99 3.28 24.51 2.06R

24 19.1 181.50 199.39 6.44 -17.89 -1.70 X

25 16.5 227.50 253.75 2.34 -26.25 -2.17R

R denotes an observation with a large standardized residual

X denotes an observation whose X value gives it large influence.
Los residuos no muestran una distribución aleatoria
PROBLEMA 2.7


  1. Ecuación de regresión

The regression equation is

Y78 = 77.9 + 11.8 X78




  1. Probar la hipótesis nula de que Ho: 1 = 0

Analysis of Variance


Source DF SS MS F P

Regressio 1 148.31 148.31 11.47 0.003

Residual 18 232.83 12.94

error


Total 19 381.15 Ftablas = F0.05,1,18=4.41
Cómo Fc > F tablas se rechaza la hipótesis Ho, implicando 1  0
c) Calcular R^2
R-Sq = 38.9%
d) Encontrar el intervalo de confianza al 95% para la pendiente:
Predictor Coef StDev T P

Constant 77.863 4.199 18.54 0.000

X78 11.801 3.485 3.39 0.003
t0.025,18 = 2.101

b1  t*std dev (Predict.X78) =11.801  2.101* (3.485) =

4.47699 <= 1 <= 19.12301


  1. Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono es de 1.00

Predicted Values


Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro

89.664 1.025 ( 87.510; 91.818) ( 81.807; 97.521)


PROBLEMA 2.8


  1. ¿Cuál es la correlación entre las dos variables?

R-Sq = 38.9% entonces r = 0.6237




  1. Probar la Hipótesis nula Ho:  = 0


Ttablas 0.025,18 = 2.101
Cómo to > Ttablas, se rechaza Ho. Es decir que  es diferente de cero.


  1. Contruir un intervalo de confianza del 95% para .

0.25139 <=  <= 0.8356




PROBLEMA 2.9





  1. Ecuación de regresión

The regression equation is

Y9 = - 6.33 + 9.21 X9


  1. Probar la significancia de la regresión

Analysis of Variance


Source DF SS MS F P

Regressi 1 280590 280590 74122.78 0.000

Residual 10 38 4

error


Total 11 280627
Como el valor de p es cero, se rechaza la hipótesis Ho: 1 = 0, por tanto existe la regresión.

  1. Si se incrementa la temperatura ambiente promedio en un grado, el consumo de vapor se incrementa en 10 unidades. ¿se soporta esta afirmación?.


Column Mean

Mean of X9 = 46.500; se incrementa en un grado

Predicted Values
Fit StDev Fit 95.0% CI 95.0% PI

421.862 0.562 ( 420.610; 423.113) ( 417.350; 426.374)

431.070 0.563 ( 429.816; 432.324) ( 426.557; 435.583)

Por los resultados observados se cumple la afirmación




  1. Intervalo de predicción con un 99% de nivel de confianza para Xo = 58.

Predicted Values
Fit StDev Fit 99.0% CI 99.0% PI

527.759 0.683 ( 525.593; 529.925) ( 521.220; 534.298)




PROBLEMA 2.10

a) Encontrar el coeficiente de correlación r


R-Sq = 100.0% por tanto r = 1
b ) Probar la Hipótesis nula Ho:  = 0
Ttablas 0.005,10 = 1.812
Cómo to > Ttablas, se rechaza Ho. Es decir que  es diferente de cero.


  1. Contruir un intervalo de confianza del 95% para .

0.99 <=  <= 0.999


FÓRMULAS DE REGRESIÓN LINEAL MÚLTIPLE
Modelos de Regresión Múltiple
Asumiendo que N observaciones de la respuesta se tiene:

(3.1)
Para N observaciones el modelo en forma matricial es:

Y = X  +  = [1 : D]  +  (3.2)

k es el número de variables independientes o regresores

Y es un vector N x 1.

X es una matriz de orden N x (k + 1), donde la primera columna es de 1’s.

 es un vector de orden (k + 1) x 1.

 es un vector de orden N x 1.



D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
Se trata de encontrar el vector de estimadores de mínimos cuadrados b que minimicen:

quedando
X’X b = X’ Y (3.4)
A) VECTOR DE ESTIMADORES DE MINIMOS CUADRADOS b de
b = (X’X)-1 X’Y (3.5)
B) VARIANZAS Y COVARIANZAS DE b

Var(b) = C = (X’X)-12 (3.6)



El elemento (ii) de esta matriz es la varianza del elemento bi .

El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea:



(3.7)
La covarianza del elemento bi y bj de b es. (3.8)

La desviación estándar se estima como sigue:



; con p = k +1 parámetros del modelo se tiene:



(3.15)

C) INTERVALO DE CONFIANZA PARA LOS COEFICIENTES j
Con intervalo de confianza 100(1 -  )% , para j = 0, 1, ...., k es:
(3.17)
Donde se(bj) es el error estándar del coeficiente de regresión bj.

(3.18)
Siendo Cjj el j-ésimo elemento de la matriz (X’X)-1 .

D) INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Yo en Xo


El intervalo de confianza para el 100( 1 -  ) % es:

(3.21)
E) TABLA ANOVA PARA LA REGRESIÓN
;

Ho se rechazará si Ft >= Fo


Fuente de

variación SS df MS F0 .


Regresión SSR k= p-1 MSR MSR/MSE

Residuos SSE n–k–1= N-p MSE Ft=F,p-1,N-p


Total SST=SSR+SSE n – 1=k+(n-k+1)
Donde:

con N-1 grados de libertad (3.24)

con p (parámetros) – 1 grados de libertad (3.25)
con (N-1) – (p –1) grados de libertad (3.26)
En forma matricial se tiene:
(3.27)

(3.28)



F) PRUEBA DE LA SIGNIFICANCIA DE LOS COEFICIENTES INDIVIDUALES BETAx

Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,



Ho es rechazada si , donde:

G) INTERVALO DE PREDICCIÓN PARA LA RESPUESTA Yo en Xo


El intervalo de confianza para el 100( 1 -  ) % es:



FORMULAS



















Bibliografía

[1]    A. Agresti (1984). Analysis of Ordinal Categorical Data. John Wiley & Sons, Inc.

[2]    A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.

[3]    D.A. Belsley, E. Kuh, and R.E. Welsch (1980). Regression Diagnostics. John Wiley & Sons, Inc.

[4]    A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson Statistic," Biometrik, 76, 828831.

[5]    C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score Statistics," Communications in Statistics, 11, 10871105.

[6]    D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression Models," ASA 1983 Proceedings of the Statistical Computing Section, 286290.

[7]    R.D. Cook (1977). "Detection of Influential Observations in Linear Regression," Technometrics, 19, 1518.

[8]    R.D. Cook and S. Weisberg (1982). Residuals and Influence in Regression. Chapman and Hall.

[9]    N.R. Draper and H. Smith (1981). Applied Regression Analysis, Second Edition. John Wiley & Sons, Inc.

[10]    S.E. Fienberg (1987). The Analysis of Cross-Classified Categorical Data. The MIT Press.

[11]    I.E. Frank and J.H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tool," Technometrics, 35, 109135.

[12]    I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241251.

[13]    M.J. Garside (1971). "Some Computational Procedures for the Best Subset Problem," Applied Statistics, 20, 815.

[14]    P. Geladi and B. Kowalski (1986). "Partial Least-Squares Regression: A Tutorial," Analytica Chimica Acta, 185, 117.

[15]    P. Geladi and B. Kowalski (1986). "An Example of 2-Block Predictive Partial Least-Squares Regression with Simulated Data," Analytica Chimica Acta, 185, 19-32.

[16]    James H. Goodnight (1979). "A Tutorial on the Sweep Operator," The American Statistician, 33, 149158.

[17]    W.W. Hauck and A. Donner (1977). "Wald's test as applied to hypotheses in logit analysis," Journal of the American Statistical Association, 72, 851-853.

[18]    D.C. Hoaglin and R.E. Welsch (1978). "The Hat Matrix in Regression and ANOVA," The American Statistician, 32, 1722.

[19]    R.R. Hocking (1976). "A Biometrics Invited Paper: The Analysis and Selection of Variables in Linear Regression," Biometrics, 32, 149.

[20]    A. Hoskuldsson (1988). "PLS Regression Methods," Journal of Chemometrics, 2, 211228.

[21]    D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc.

[22]    LINPACK (1979). Linpack User's Guide by J.J. Dongarra, J.R. Bunch, C.B. Moler, and G.W. Stewart, Society for Industrial and Applied Mathematics, Philadelphia, PA.

[23]    A. Lorber, L. Wangen, and B. Kowalski (1987). "A Theoretical Foundation for the PLS Algorithm," Journal of Chemometrics, 1, 1931.

[24]    J.H. Maindonald (1984). Statistical Computation. John Wiley & Sons, Inc.

[25]    P. McCullagh and J.A. Nelder (1992). Generalized Linear Model.  Chapman & Hall.

[26]    W. Miller (1978). "Performing Armchair Roundoff Analysis of Statistical Algorithms," Communications in Statistics, 243255.

[27]    D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley & Sons.

[28]    J. Neter, W. Wasserman, and M. Kutner (1985). Applied Linear Statistical Models. Richard D. Irwin, Inc.

[29]    S.J. Press and S. Wilson (1978). "Choosing Between Logistic Regression and Discriminant Analysis," Journal of the American Statistical Association, 73, 699-705.

[30]    M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible Regressions," Technometrics, 10, 769779.

[31]    G.W. Stewart (1973). Introduction to Matrix Computations. Academic Press.

[32]    R.A. Thisted (1988). Elements of Statistical Computing: Numerical Computation. Chapman & Hall.

[33]    P. Velleman and R. Welsch (1981). "Efficient Computation of Regression Diagnostics," The American Statistician, 35, 234242.

[34]    P.F. Velleman, J. Seaman, and I.E. Allen (1977). "Evaluating Package Regression Routines," ASA 1977 Proceedings of the Statistical Computing Section.

[35]    S. Weisberg (1980). Applied Linear Regression. John Wiley & Sons, Inc.



[36]    H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour of M.S. Bartlett, ed. J. Gani, Academic Press.


1 Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299

2 Placket, R.L., “Studies in the history of the probability and Statistics XXIX. The discovery of the method of least squares,”, Bometrika, 59, 1972, pp. 239-251.

3 Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91

4 Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2º edition, John Wiley and Sons, Nueva York, 1991, p. 176

5 Hair., Joseph Jr., Et. Al., Multivariate Data Analysis, Prentice Hall Internacional, Nueva Jersey, 1984, pp. 279- 325

6 Landau Sabine y Everitt Brian, Statistical Analysis USing SPSS, Chapman & Hall/ CRC, Chicago, EEUU., 2004





Compartir con tus amigos:
1   ...   51   52   53   54   55   56   57   58   59


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal