Analisis de regresióN



Descargar 16.39 Mb.
Página30/59
Fecha de conversión02.11.2019
Tamaño16.39 Mb.
1   ...   26   27   28   29   30   31   32   33   ...   59
x’(X’X)-1x <= hmax

es un elipsoide que engloba todos los puntos dentro de la variable RVH.



Para el caso del ejemplo del embotellador se tiene:

x’


Observación

1

1

1

1

1

X1_envases

7

3

3

4

6

X2_Distancia

560

220

340

80

150
Etc..



(X'X)-1







0.1132152

-0.004

-8E-05

-0.0044486

0.0027

-5E-05

-8.367E-05

-5E-05

1E-06


X1’(X’X)-1

primero







0.0352184

-0.0120421

0.0003

Segundo







0.0814614

-0.0067458

4E-05


X1’(X’X)-1x1

Observación

X1_envases

X2_Distancia

hii

1

7

560

0.10180178

1

3

220

0.07070164

La tabla completa se muestra a continuación:



Observación

X1_envases

X2_Distancia

hii




1

7

560

0.10180178




1

3

220

0.07070164




1

3

340

0.09874




1

4

80

0.08538




1

6

150

0.07501




1

7

330

0.04287




1

2

110

0.0818




1

7

210

0.06373




1

30

1460

0.49829

hmax

1

5

605

0.1963




1

16

688

0.08613




1

10

215

0.11366




1

4

255

0.06113




1

6

462

0.07824




1

9

448

0.04111




1

10

776

0.16594




1

6

200

0.05943




1

7

132

0.09626




1

3

36

0.09645




1

17

770

0.10169




1

10

140

0.16528




1

26

810

0.39158




1

9

450

0.04126




1

8

635

0.12061




1

4

150

0.06664



Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide, generalmente entre menor sea el valor de hoo es más probable que se encuentre en el elipsoide.


En la tabla la observación 9 tiene el valor mayor de hii. Como el problema solo tiene dos regresores se puede examinar en un diagrama de dispersión como sigue:

Se confirma que el punto 9 es el mayor valor de hii en la frontera de la RHV.

Ahora supongamos que se desea considerar la predicción o estimación para los puntos siguientes:


Punto

x10

x20

h00

a

8

275

0.05346

b

20

250

0.58917

c

28

500

0.89874

d

8

1200

0.86736

Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto a es de interpolación puesto que hoo <= hmax (0.05346 < 0.49829) todos los demás son puntos de extrapolación ya que exceden a hmax, lo que se confirma en la gráfica de dispersión.


Inferencia simultanea en la regresión múltiple
Indica que se pueden hacer inferencias en forma simultanea

3.6 Evaluación de la adecuación del modelo
Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan un papel importante en la evaluación de la adecuación del modelo, de forma similar que en la regresión lineal simple. Es conveniente graficar los residuos siguientes:


  1. Residuos en papel de probabilidad normal.

  2. Residuos contra cada uno de los regresores X’s.

  3. Residuos contra cada

  4. Residuos en secuencia de tiempo ( si se conoce)

Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza desigual, y la especificación funcional equivocada para un regresor. Se pueden graficar los residuos sin escalamiento o con un escalamiento apropiado.


Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la regresión múltiple, como se describen a continuación.

Gráficas de residuos contra regresores omitidos en el modelo


Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra los factores omitidos, se esta forma se puede analizar si su incorporación mejora la explicación del modelo.

Gráficas de residuos parciales


Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los residuos y la variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj como sigue:
(3.35)
La gráfica de contra se denomina Gráfica de residuo parcial. Esta gráfica sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relación entre Y y el regresor Xj después de haber removido el efecto de los otros regresores Xi (I<>j), es el equivalente de la gráfica de Y contra Xj en regresión múltiple.


Gráficas de regresión parcial


Son gráficas de residuos de los cuales se ha removido la dependencia lineal de Y sobre todos los regresores diferentes de Xj, así como su dependencia lineal de otros regresores. En forma matricial se pueden escribir estas cantidades como donde X(j) es la matriz original X con el regresor j-ésimo removido.
del modelo general en forma matricial:
(3.36)
Premultiplicando por [] y notando que se tiene:
(3.37)
Algunos programas como SAS generan gráficas de regresión parcial. Gráficas de regresores Xi versus Xj.
Estas gráficas pueden ser útiles para el análisis de la relación entre los regresores y la disposición de los datos en el espacio X, donde pueden descubrirse puntos remotos del resto de los datos y que tienen influencia en el modelo. Si se encuentra que las variables regresoras están altamente correlacionadas, puede no ser necesario incluirlas ambas en el modelo. Si dos o más regresores están altamente correlacionados, se dice que hay multicolinealidad en los datos, esto distorsiona al modelo.

Xi

**


** * *

** *


* *

** *


**

***


Xj


Fig. 3.1 Gráfica de Xi versus Xj

Método de escalamiento de residuos


Es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo:
(3.38)
Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que b2 es mucho mayor que b1, su efecto en la variable de respuesta es idéntico. Por lo anterior algunas veces es importante trabajar con regresores y variables de respuesta con escala cambiada, de tal forma que produzcan coeficientes de regresión sin dimensiones.
Existen dos técnicas para esto. La primera se denomina escala unitaria normal,
Con i = 1, 2, ......., n; j = 1, 2, ........., k (3.39)

Con i = 1, 2, ......., n (3.40)
De esta forma el modelo de regresión se transforma en:

i = 1, 2, ........, n (3.41)
En este modelo b0 = 0 y el estimador de mínimos cuadrados para b es:
(3.42)

El otro método de escalamiento es el escalamiento de longitud unitaria,


, i = 1, 2, ......, n; j = 1, 2, ........, k (3.43)

, i = 1, 2, ..........., n (3.44)
(3.45)

Esta última es la suma de cuadrados corregida para el regresor Xj. En este caso cada regresor Wj tiene media cero y longitud uno.




(3.46)
En términos de las variables de regresión, el modelo queda como:

i = 1, 2, ......, n (3.47)

El vector de mínimos cuadrados de los coeficientes es:


(3.48)

La matriz de correlación W’W en la escala unitaria tiene la forma:



Donde rij es la correlación simple entre Xi y Xj.
(3.49)
De forma similar

Donde rjy es la correlación simple entre el regresor Xj y la respuesta Y:

(3.50)
Si se utiliza la escala normal unitaria, la matriz Z’Z está relacionada con W’W como sigue:
Z’Z = (n – 1) W’W (3.51)
Por lo que no importa que método se utilice para escalamiento, ambos métodos producen el mismo conjunto de coeficientes de regresión sin dimensiones b.
La relación entre los coeficientes originales y los estandarizados es:
j = 1, 2, ....., k (3.52)

y
(3.53)
Si las variables originales difieren mucho en magnitud, los errores de redondeo al calcular X’X pueden ser muy grandes aún utilizando computadora, es por esto que los programas muestran tanto los valores originales como coeficientes de regresión estandarizados (coeficientes Beta). Por tanto se debe tener cuidado de usar éstos últimos para medir la importancia relativa del regresor Xj.




Compartir con tus amigos:
1   ...   26   27   28   29   30   31   32   33   ...   59


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal