Analisis de regresióN


Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni no dep



Descargar 16.39 Mb.
Página5/59
Fecha de conversión02.11.2019
Tamaño16.39 Mb.
1   2   3   4   5   6   7   8   9   ...   59

Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni no dependen de m.




1.2.9 Predicción de nuevas observaciones


El conjunto de intervalos de predicción para m nuevas observaciones en los niveles X1, X2,…, Xm que tienen un nivel de confianza de al menos (1-alfa) es:

1.2.10 Correlación

Las discusiones anteriores de análisis de regresión han asumido que X es una variable controlable medida con un error despreciable y que Y es una variable aleatoria. Muchas aplicaciones de análisis de regresión involucran situaciones donde tanto X como Y son variables aleatorias y los niveles de X no pueden ser controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,…,n son variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la relación entre los refrescos vendidos y la temperatura del día. Se asume que la distribución conjunta de Y y X es la distribución normal divariada, que es:



Donde 1 y 12 corresponden a la media y la varianza de Y, y 2 y 22 corresponden a la media y la varianza de X y


Es el coeficiente de correlación entre Y y X. 12 es la covarianzade Y y X.



La distribución condicional de Y para un valor de X es:

Donde:






La correlación es el grado de asociación que existe las variables X y Y, se indica por el estadístico cuyo estimador es el coeficiente de correlación de la muestra r ó rxy. Donde:


(1.24)
(1.25)
Un estadístico útil es el valor del ajuste de la regresión R2, coeficiente de determinación que se define como:
r = rxy = (signo de b1)R (1.26)

(1.27)
Como Syy es una medida de la variabilidad en Y sin considerar el efecto de la variable regresora X y SSE es una medida de la variabilidad en Y que queda después de que se ha considerado X, R2 mide la proporción de la variación total respecto a la media que es explicada por la regresión. Es frecuente expresarla en porcentaje. Puede tomar valores entre 0 y 1, los valores cercanos a 1 implican que la mayoría de la variabilidad es explicada por el modelo de regresión.
En el ejemplo:

R-Sq = 71.4% R-Sq(adj) = 70.2%



Se debe tener cuidado con la interpretación de R2, ya que su magnitud también depende del rango de variabilidad en la variable regresora. Generalmente se incrementa conforme se incrementa la dispersión de X y decrece en caso contrario, de esta forma un valor grande de R2 puede ser resultado de un rango de variación no realista de X o puede ser muy pequeña debido a que el rango de X fue muy pequeño y para permitir la detección de su relación con Y.
Para probar la hipótesis H0:  = 0 contra H1:   0, el estadístico apropiado de prueba es:

(1.28)
que sigue una distribución t con n-2 grados de libertad. Si se rechaza la hipótesis Ho, indicando que existe una correlación significativa.
Por ejemplo si en un grupo de 25 observaciones se obtiene una r = 0.9646 y se desea probar las Hipótesis:
Ho:  = 0

H1:   0


Usando el estadístico de prueba to:

como t0.025,23=2.069, se rechaza Ho indicando que sí hay correlación significativa entre los datos.
Para probar la hipótesis H0:  = 0 contra H1:   0 , donde 0 no es cero y Si n  25 se utiliza el estadístico transformación-z de Fisher:
(1.29)
Con media

y desviación estándar

En base a la fórmula de la distribución normal, se calcula el estadístico Zo siguiente para probar la hipótesis Ho:  = 0,
(1.30)
y rechazar si
Obteniéndose
(1.31)
y el intervalo de confianza (100 - )% para  está dado por:
(1.32)
Del ejemplo anterior, se puede construir un intervalo de confianza del 95% para .
Siendo que arctanh r = arctanh0.9646 = 2.0082, se tiene:

Se simplifica a 0.9202   0.9845.
Se requiere un análisis adicional para determinar si la ecuación de la recta es un ajuste adecuado a los datos y si es un buen predictor.

(1.33)
Otro ejemplo, si n=103, r=0.5,  = 0.05. Se tiene que el intervalo de confianza es:
(1/2) ln 3  0.196 = (1/2)ln{(1+)/(1-)}
Por tanto  se encuentra entre (0.339, 0.632)


    1. Riesgos en el uso de la regresión

Hay varios abusos comunes en el uso de la regresión que deben ser mencionados:




  1. Los modelos de regresión son válidos como ecuaciones de interpolación sobre el rango de las variables utilizadas en el modelo. No pueden ser válidas para extrapolación fuera de este rango.

  2. La disposición de los valores X juega un papel importante en el ajuste de mínimos cuadrados. Mientras que todos los puntos tienen igual peso en la determinación de la recta, su pendiente está más influenciada por los valores extremos de X. En este caso debe hacerse un análisis minucioso de estos puntos y en todo caso eliminarlos y re – estimar el modelo. En la figura se observan dos puntos que influyen en el modelo de ajuste, ya que si se quitaran, el modelo de línea recta se modificaría.

Y

*A

* *

* * * Sin A y B



* * * *

*B

X



Fig. 1.3 Dos observaciones con mucha influencia (A,B)


  1. Los outliers u observaciones malas pueden distorsionar seriamente el ajuste de mínimos cuadrados. En la figura, la observación A parece ser un “outlier” o valor malo ya que cae muy lejos de la línea de ajuste de los otros datos. Debe investigarse esta observación.

Y


*A *

* * *


* *

* * *


** *

**

* * *



**

* *


X

Fig. 1.4 Localización de un “outlier” (A)





  1. Si se encuentra que dos variables están relacionadas fuertemente, no implica que la relación sea causal, se debe investigar la relación causa – efecto entre ellas. Por ejemplo el número de enfermos mentales vs. número de licencias recibidas.

Tabla 1.1 Una relación de datos sin sentido



Año Enfermos mentales Licencias emitidas

1924 8 1,350

1926 9 2,270

1928 11 2,730

1930 12 3,647

1932 18 5,497

1934 20 7,012

1936 22 8,131




  1. En algunas aplicaciones el valor de la variable regresora X requerida para predecir a Y es desconocida, por ejemplo al tratar de predecir la carga eléctrica el día de mañana en relación con la máxima temperatura de mañana, primero debe estimarse cuál es esa temperatura.

1.4 Regresión a través del origen



Algunas situaciones implican que pase la línea recta a través del origen y deben adecuar a los datos. Un modelo de no intersección frecuentemente se presenta en los procesos químicos y otros procesos de manufactura, el modelo queda como:

Dadas n observaciones (Yi, Xi), i = 1, 2, …., n, la función de mínimos cuadrados:



La ecuación normal es:



y el estimador de mínimos cuadrados de la pendiente es:



Y el modelo estimado de regresión es:


El estimador de la varianza es:



El intervalo de confianza (1-alfa) porciento para el coeficiente Beta1 es:


donde el error estándar es:

El intervalo de confianza 100(1-alfa) porciento para la respuesta media E(y|Xo), la respuesta media en X = Xo es:



El intervalo de predicción del 100(1-alfa) porciento para una observación futura en X = Xo por ejemplo Yo es:



Ambos el intervalo de confianza y el intervalo de predicción se amplían conforme se incrementa Xo. El modelo asume que cuando Xo = 0, Y = 0.


Si la hipótesis Ho: 0 = 0 no se rechaza en el modelo con intersección, es indicción de que el modelo se puede mejorar con este modelo. MSE se puede utilizar para comparar los modelos de intersección y de no intersección.



Compartir con tus amigos:
1   2   3   4   5   6   7   8   9   ...   59


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal