Analisis de regresióN


Definición de los residuos



Descargar 16.39 Mb.
Página12/59
Fecha de conversión02.11.2019
Tamaño16.39 Mb.
1   ...   8   9   10   11   12   13   14   15   ...   59
2.2.1 Definición de los residuos
Los residuos están definidos como las n diferencias,

(2.1)
donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es:
(2.2)
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza unitaria aproximada.
(2.3)

Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los residuos estandarizados. Para n grande, ambos residuos son muy parecidos.


Los residuos estudentizados se definen como:
i = 1, 2, ........, n (2.4)
Por lo anterior los residuos representan los errores observados si el modelo es correcto.
Los residuos pueden ser graficados para:

  1. Checar normalidad.

  2. Checar el efecto del tiempo si su orden es conocido en los datos.

  3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y.

  4. Checar la curvatura de más alto orden que ajusta en las X’s.

A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta de ajuste.



Observaciónes

Obs

Respuesta Yi

X

Fit

SE Fit

Residual

St Residual

1

35.3

10.98

10.805

0.255

0.175

0.21

2

29.7

11.13

11.252

0.3

-0.122

-0.15

3

30.8

12.51

11.164

0.29

1.346

1.6

4

58.8

8.4

8.929

0.19

-0.529

-0.61

5

61.4

9.27

8.722

0.201

0.548

0.63

6

71.3

8.73

7.931

0.265

0.799

0.94

7

74.4

6.36

7.684

0.29

-1.324

-1.57

8

76.7

8.5

7.5

0.31

1

1.2

9

70.7

7.82

7.979

0.261

-0.159

-0.19

10

57.5

9.14

9.033

0.185

0.107

0.12

11

46.4

8.24

9.919

0.19

-1.679

-1.93

12

28.9

12.19

11.316

0.306

0.874

1.05

13

28.1

11.88

11.38

0.313

0.5

0.6

14

39.1

9.57

10.502

0.228

-0.932

-1.08

15

46.8

10.94

9.887

0.188

1.053

1.21

16

48.5

9.58

9.751

0.183

-0.171

-0.2

17

59.3

10.09

8.889

0.191

1.201

1.38

18

70

8.11

8.035

0.255

0.075

0.09

19

70

6.83

8.035

0.255

-1.205

-1.41

20

74.5

8.88

7.676

0.291

1.204

1.43

21

72.1

7.68

7.867

0.272

-0.187

-0.22

22

58.1

8.47

8.985

0.187

-0.515

-0.59

23

44.6

8.86

10.063

0.197

-1.203

-1.39

24

33.4

10.36

10.957

0.269

-0.597

-0.7

25

28.6

11.08

11.34

0.309

-0.26

-0.31

2.2.2 Gráfica de probabilidad normal
Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para checar normalidad.
Normplot of Residuals for C1

.





Residuals vs Fits for C1

Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir que habrá normalidad si el 68% de los mismos se encuentran entre –1 y +1 y el 95% entre –2 y +2, de otra forma habrá una violación de la normalidad.


La gráfica de residuos contra los valores estimados puede identificar patrones anormales o no lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y estudentizados son:

Y

X

2158.70

15.50

1678.15

23.75

2316.00

8.00

2061.30

17.00

2207.50

5.50

1708.30

19.00

1784.70

24.00

2575.00

2.50

2357.90

7.50

2256.70

11.00

2165.20

13.00

2399.55

3.75

1779.80

25.00

2336.75

9.75

1765.30

22.00

2053.50

18.00

2414.40

6.00

2200.50

12.50

2654.20

2.00

1753.70

21.50

Utilizando Minitab se tiene:



Regression Analysis: Y versus X

The regression equation is

Y = 2628 - 37.2 X

Predictor Coef SE Coef T P

Constant 2627.82 44.18 59.47 0.000

X -37.154 2.889 -12.86 0.000

S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Analysis of Variance

Source DF SS MS F P

Regression 1 1527483 1527483 165.38 0.000

Residual Error 18 166255 9236

Total 19 1693738
No replicates.

Cannot do pure error test.



Unusual Observations

Obs X Y Fit SE Fit Residual St Resid

5 5.5 2207.5 2423.5 31.3 -216.0 -2.38R

6 19.0 1708.3 1921.9 27.0 -213.6 -2.32R
La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados borrados y Residuos estudentizados simples se muestra a continuación:


Observación

Y

X

FITS1

RESI1

SRES1

TRES1

Ri

1

2158.70

15.50

2051.94

106.7580

1.1422

1.1526

1.1422

2

1678.15

23.75

1745.42

-67.2750

-0.7582

-0.7488

-0.7582

3

2316.00

8.00

2330.59

-14.5940

-0.1580

-0.1536

-0.1580

4

2061.30

17.00

1996.21

65.0890

0.6993

0.6890

0.6993

5

2207.50

5.50

2423.48

-215.9780

-2.3766

-2.7882

-2.3767

6

1708.30

19.00

1921.9

-213.6040

-2.3156

-2.6856

-2.3156

7

1784.70

24.00

1736.14

48.5640

0.5488

0.5379

0.5488

8

2575.00

2.50

2534.94

40.0620

0.4539

0.4437

0.4539

9

2357.90

7.50

2349.17

8.7300

0.0948

0.0921

0.0948

10

2256.70

11.00

2219.13

37.5670

0.4021

0.3926

0.4021

11

2165.20

13.00

2144.83

20.3740

0.2175

0.2117

0.2175

12

2399.55

3.75

2488.5

-88.9460

-0.9943

-0.9939

-0.9943

13

1779.80

25.00

1698.98

80.8170

0.9244

0.9204

0.9244

14

2336.75

9.75

2265.57

71.1750

0.7646

0.7554

0.7646

15

1765.30

22.00

1810.44

-45.1430

-0.5000

-0.4893

-0.5000

16

2053.50

18.00

1959.06

94.4420

1.0187

1.0198

1.0187

17

2414.40

6.00

2404.9

9.4990

0.1041

0.1012

0.1041

18

2200.50

12.50

2163.4

37.0980

0.3962

0.3867

0.3962

19

2654.20

2.00

2553.52

100.6850

1.1476

1.1585

1.1477

20

1753.70

21.50

1829.02

-75.3200

-0.8307

-0.8232

-0.8307

Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente:















MSE =

 

9236

 













Raiz MSE

 

96.10411021

 













 

(Xi-Xmedia)^2

1/20 +

 

Y

X

FITS1

RESI1

ResEstan1

Sxx

(Xi-Xmedia)^2/Sxx

Ri

2158.70

15.50

2051.94

106.7580

1.11086

4.56891

0.05413

1.14220

1678.15

23.75

1745.42

-67.2750

-0.70002

107.90016

0.14751

-0.75817

2316.00

8.00

2330.59

-14.5940

-0.15186

28.75641

0.07599

-0.15798

2061.30

17.00

1996.21

65.0890

0.67728

13.23141

0.06196

0.69929

2207.50

5.50

2423.48

-215.9780

-2.24733

61.81891

0.10587

-2.37666

1708.30

19.00

1921.9

-213.6040

-2.22263

31.78141

0.07872

-2.31564

1784.70

24.00

1736.14

48.5640

0.50533

113.15641

0.15226

0.54883

2575.00

2.50

2534.94

40.0620

0.41686

117.99391

0.15663

0.45392

2357.90

7.50

2349.17

8.7300

0.09084

34.36891

0.08106

0.09476

2256.70

11.00

2219.13

37.5670

0.39090

5.58141

0.05504

0.40212

2165.20

13.00

2144.83

20.3740

0.21200

0.13141

0.05012

0.21752

2399.55

3.75

2488.5

-88.9460

-0.92552

92.40016

0.13350

-0.99426

1779.80

25.00

1698.98

80.8170

0.84093

135.43141

0.17239

0.92437

2336.75

9.75

2265.57

71.1750

0.74060

13.05016

0.06179

0.76460

1765.30

22.00

1810.44

-45.1430

-0.46973

74.60641

0.11742

-0.50000

2053.50

18.00

1959.06

94.4420

0.98271

21.50641

0.06944

1.01871

2414.40

6.00

2404.9

9.4990

0.09884

54.20641

0.09899

0.10413

2200.50

12.50

2163.4

37.0980

0.38602

0.74391

0.05067

0.39619

2654.20

2.00

2553.52

100.6850

1.04767

129.10641

0.16667

1.14767

1753.70

21.50

1829.02

-75.3200

-0.78373

66.21891

0.10984

-0.83068

Las gráficas de los residuos normales son las siguientes:


Tomado los residuos estandarizados vs fits se tiene:




Y para los residuos estudentizados se tiene:




Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas.





Compartir con tus amigos:
1   ...   8   9   10   11   12   13   14   15   ...   59


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal