Analisis de regresióN


REGRESIÓN POR MEJORES SUBCONJUNTOS HALLADOS (Best Subsets)



Descargar 16.39 Mb.
Página44/59
Fecha de conversión02.11.2019
Tamaño16.39 Mb.
1   ...   40   41   42   43   44   45   46   47   ...   59
6. REGRESIÓN POR MEJORES SUBCONJUNTOS HALLADOS (Best Subsets)

La regresión de los mejores subconjuntos idnetifica los modelos de regresión que mejor ajusten los datos con los predictores especificados. Es una forma eficiente de identificar modelos que logreen las metas con los menores predictores que sea posible. Los modelos de subconjuntos pueden realmente estimar los coeficientes de regresión y predecir respuestas futures con varianzas más pequeñas que el modelo completo que utiliza todos los predictores.

Primero se evalúan los modelos que tienen un predictor, después los de dos predictores, etcetera. En cada caso se muestra el mejor modelo.

Ejemplo:


El flujo de calor solar se mide ocmop parte de una prueba de energía térmica solar. Se desea ver como se estima el flujo de calor con base en otras variables: aislamiento, posición de puntos focales en el este, sur, y norte, y la hora del día. (datos de D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley & Sons. p. 486).

Los datos son los siguientes (Exh_regr.Mtw):



Flujo_de_calor

Aislamiento

Este

Sur

Norte

Hora

271.8

783.35

33.53

40.55

16.66

13.2

264

748.45

36.5

36.19

16.46

14.11

238.8

684.45

34.66

37.31

17.66

15.68

230.7

827.8

33.13

32.52

17.5

10.53

251.6

860.45

35.75

33.71

16.4

11

257.9

875.15

34.46

34.14

16.28

11.31

263.9

909.45

34.6

34.85

16.06

11.96

266.5

905.55

35.38

35.89

15.93

12.58

229.1

756

35.85

33.53

16.6

10.66

239.3

769.35

35.68

33.79

16.41

10.85

258

793.5

35.35

34.72

16.17

11.41

257.6

801.65

35.04

35.22

15.92

11.91

267.3

819.65

34.07

36.5

16.04

12.85

267

808.55

32.2

37.6

16.19

13.58

259.6

774.95

34.32

37.89

16.62

14.21

240.4

711.85

31.08

37.71

17.37

15.56

227.2

694.85

35.73

37

18.12

15.83

196

638.1

34.11

36.76

18.53

16.41

278.7

774.55

34.79

34.62

15.54

13.1

272.3

757.9

35.77

35.4

15.7

13.63

267.4

753.35

36.44

35.96

16.45

14.51

254.5

704.7

37.82

36.26

17.62

15.38

224.7

666.8

35.07

36.34

18.12

16.1

181.5

568.55

35.26

35.9

19.05

16.73

227.5

653.1

35.56

31.84

16.51

10.58

253.6

704.05

35.73

33.16

16.02

11.28

263

709.6

36.46

33.83

15.89

11.91

265.8

726.9

36.26

34.89

15.83

12.65

263.8

697.15

37.2

36.27

16.71

14.06

Instrucciones de Minitab:

1    Open worksheet EXH_REGR.MTW.

2    Seleccionar Stat > Regression > Best Subsets.

3    En Response, seleccionar Flujo_de_Calor.

4    En Free Predictors, seleccionar Aislamiento-Hora Click OK.

Los resultados se muestran a continuación:



Results for: Exh_regr.MTW

Best Subsets Regression: Flujo_de_calor versus Aislamiento, Este, ...
Response is Flujo_de_calor

A

i



s

l

a



m

i N


e E o H

n s S r o

Mallows t t u t r

Vars R-Sq R-Sq(adj) C-p S o e r e a

1 72.1 71.0 38.5 12.328 X

1 39.4 37.1 112.7 18.154 X

2 85.9 84.8 9.1 8.9321 X X

2 82.0 80.6 17.8 10.076 X X



3 87.4 85.9 7.6 8.5978 X X X

3 86.5 84.9 9.7 8.9110 X X X



4 89.1 87.3 5.8 8.1698 X X X X

4 88.0 86.0 8.2 8.5550 X X X X



5 89.9 87.7 6.0 8.0390 X X X X X
Interpretando los resultados

Cada línea de la salidad representa un modelo diferente. Vars es el número de variables o predictores en el modelo, R2 y R2 ajustada se convienten a porcentajes. Los predictores que están presentes se indican con una X.

En este ejemplo, no es claro que modelo ajusta mejor a los datos.




  • El modelo con todas las variables tiene la mayor R2 ajustada (87.7%), un valor bajo de Cp de Mallows (6.0), y el menor valor de S (8.039).




  • El modelo de cuatro predictores con todas las variables excepto la Hora, tiene un valor bajo de Cp (5.8), la S es ligeramente mayor (8.16) y la R2 ajustada en ligeramente menor (87.3%).




  • El mejor modelo de tres predictores incluye Norte, Sur, y Este, con un valor de Cp ligeramente más alto (7.6) y un valor menor de R2 ajustado.




  • El modelo con dos predictores podría ser considerado con el menor ajuste. Se puede observar que el agregar la variable Este no mejora el ajuste del modelo.

Antes de seleccionar un modelo, se debe verificar si no se viola ninguno de los supuestos de la regresión por medio de las gráficas de residuos y otras pruebas de diagnóstico, tales como las siguientes.


Verificación de la adecuación del modelo

Características de un modelo de regression adecuado

 

Checar usando...



 

Posibles soluciones



Relación lineal entre respuesta y predictores

Prueba de Lack-of-fit (falta de ajuste)

Gráfica de Residuales vs variables



·    Agregar terminos de mayor orden al modelo

·    Transformar variables.



Los Residuales tienen varianza constante.

Gráfica de Residuals vs estimados (fits)

·    Transformar variables.

·    Mínimos cuadrados ponderados.



Los Residuales son independientes entre sí (no correlacionados).

Estadístico de Durbin-Watson

Gráfica de Residualess vs orden



·    Agregar un nuevo predictor.

·    Usar análisis de series de tiempo.

·    Agregar variable defasada en tiempo (lag).


Los Residuales están normalmente distribuidos.

Histograma de residuales

Gráfica Normal de residuales

Gráfica de Residuales vs estimados (fits)

Prueba de Normalidad



·    Transformar variables.

·    Checar puntos atípicos.



Observations No usuales, puntos atípicos o outliers.

Gráficas de Residuales

Influyentes (Leverages)

Distancia de Cook's

DFITS


·    Transformar variables.

·    Eliminar la observación atípica.



Datos mal condicionados (ill conditioned).

Factor de Inflación de Variance (VIF)

Matriz de correlación de predictores



·    Remover predictor.

·    Regresión de mínimos cuadrados parciales.

·    Transformar variables.


Si se determina que el modelo no cumple con los criterios listados en la tabla, se debe:

1. Verificar si los datos se introdujeron correctamente, especialemente identificar puntos atípicos.

2. Tratar de determinar las causas del problema. Puedes querer ver que tan sensible es el modelo al problema. Por ejemplo, si se observa un Outlier, correr el modelo sin esa observación, para ver como difieren los resultados.

3. Considerar alguna de las soluciones listadas en la tabla.



7. REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES (PLS)

Usar reegresión de mínimos cuadrados parcial (PLS) para realizar una regresión sesgada, no de mínimos cuadrados. PLS se utiliza cuando los predictores son muy colineales o se tienen más predictores que observaciones, y la regresión lineal normal falla o produce coeficientes con altos errores estándar. La PLS reduce el número de predictores a un conjunto de componentes no correlacionados y realiza la regresión de mínimos cuadrados en esos componentes.

La PLS ajusta variables de respuesta múltiple en un modelo simple. Dado que los modelos PLS tratan las respuestas como multivariadas, los resultados pueden diferir de si se tratan individualmente por separado. El modelo agrupa las respuestas múltiples sólo si estan correlacionadas.

Ejemplo:

Un productor de vino quiere saber como la composición química del vino se relaciona con las pruebas sensoriales. Se tienen 37 muestras, cada una descrita por 17 concentraciones elementales (Cd, Mo, Mn, Ni, Cu. Al, Ba, Cr, Sr, B, Mg, Si, Na, Ca, P, K) y una medida del aroma del vino de un panel de catadores. Se quiere predecir la media del aroma a partir de los 17 elementos y determinar si el modelo PLS es adecuado, dado que la relaciónde muestras a predictores es baja. Los datos son de I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241251.



Archivo WineAroma.mtw

Cd

Mo

Mn

Ni

Cu

Al

Ba

Cr

Sr

Pb

B

Mg

Si

Na

Ca

P

K

Aroma

0.005

0.044

1.51

0.122

0.83

0.982

0.387

0.029

1.23

0.561

2.63

128

17.3

66.8

80.5

150

1130

3.3

0.055

0.16

1.16

0.149

0.066

1.02

0.312

0.038

0.975

0.697

6.21

193

19.7

53.3

75

118

1010

4.4

0.056

0.146

1.1

0.088

0.643

1.29

0.308

0.035

1.14

0.73

3.05

127

15.8

35.4

91

161

1160

3.9

0.063

0.191

0.96

0.38

0.133

1.05

0.165

0.036

0.927

0.796

2.57

112

13.4

27.5

93.6

120

924

3.9

0.011

0.363

1.38

0.16

0.051

1.32

0.38

0.059

1.13

1.73

3.07

138

16.7

76.6

84.6

164

1090

5.6

0.05

0.106

1.25

0.114

0.055

1.27

0.275

0.019

1.05

0.491

6.56

172

18.7

15.7

112

137

1290

4.6

0.025

0.479

1.07

0.168

0.753

0.715

0.164

0.062

0.823

2.06

4.57

179

17.8

98.5

122

184

1170

4.8

0.024

0.234

0.91

0.466

0.102

0.811

0.271

0.044

0.963

1.09

3.18

145

14.3

10.5

91.9

187

1020

5.3

0.009

0.058

1.84

0.042

0.17

1.8

0.225

0.022

1.13

0.048

6.13

113

13

54.4

70.2

158

1240

4.3

0.033

0.074

1.28

0.098

0.053

1.35

0.329

0.03

1.07

0.552

3.3

140

16.3

70.5

74.7

159

1100

4.3

0.039

0.071

1.19

0.043

0.163

0.971

0.105

0.028

0.491

0.31

6.56

103

9.47

45.3

67.9

133

1090

5.1

0.045

0.147

2.76

0.071

0.074

0.483

0.301

0.087

2.14

0.546

3.5

199

9.18

80.4

66.3

212

1470

3.3

0.06

0.116

1.15

0.055

0.18

0.912

0.166

0.041

0.578

0.518

6.43

111

11.1

59.7

83.8

139

1120

5.9

0.067

0.166

1.53

0.041

0.043

0.512

0.132

0.026

0.229

0.699

7.27

107

6

55.2

44.9

148

854

7.7

0.077

0.261

1.65

0.073

0.285

0.596

0.078

0.063

0.156

1.02

5.04

94.6

6.34

10.4

54.9

132

899

7.1

0.064

0.191

1.78

0.067

0.552

0.633

0.085

0.063

0.192

0.777

5.56

110

6.96

13.6

64.1

167

976

5.5

0.025

0.009

1.57

0.041

0.081

0.655

0.072

0.021

0.172

0.232

3.79

75.9

6.4

11.6

48.1

132

995

6.3

0.02

0.027

1.74

0.046

0.153

1.15

0.094

0.021

0.358

0.025

4.24

80.9

7.92

38.9

57.6

136

876

5

0.034

0.05

1.15

0.058

0.058

1.35

0.294

0.006

1.12

0.206

2.71

120

14.7

68.1

64.8

133

1050

4.6

0.043

0.268

2.32

0.066

0.314

0.627

0.099

0.045

0.36

1.28

5.68

98.4

9.11

19.5

64.3

176

945

6.4

0.061

0.245

1.61

0.07

0.172

2.07

0.071

0.053

0.186

1.19

4.42

87.6

7.62

11.6

70.6

156

820

5.5

0.047

0.161

1.47

0.154

0.082

0.546

0.181

0.06

0.898

0.747

8.11

160

19.3

12.5

82.1

218

1220

4.7

0.048

0.146

1.85

0.092

0.09

0.889

0.328

0.1

1.32

0.604

6.42

134

19.3

125

83.2

173

1810

4.1

0.049

0.155

1.73

0.051

0.158

0.653

0.081

0.037

0.164

0.767

4.91

86.5

6.46

11.5

53.9

172

1020

6

0.042

0.126

1.7

0.112

0.21

0.508

0.299

0.054

0.995

0.686

6.94

129

43.6

45

85.9

165

1330

4.3

0.058

0.184

1.28

0.095

0.058

1.3

0.346

0.037

1.17

1.28

3.29

145

16.7

65.8

72.8

175

1140

3.9

0.065

0.211

1.65

0.102

0.055

0.308

0.206

0.028

0.72

1.02

6.12

99.3

27.1

20.5

95.2

194

1260

5.1

0.065

0.129

1.56

0.166

0.151

0.373

0.281

0.034

0.889

0.638

7.28

139

22.2

13.3

84.2

164

1200

3.9

0.068

0.166

3.14

0.104

0.053

0.368

0.292

0.039

1.11

0.831

4.71

125

17.6

13.9

59.5

141

1030

4.5

0.067

0.199

1.65

0.119

0.163

0.447

0.292

0.058

0.927

1.02

6.97

131

38.3

42.9

85.9

164

1390

5.2

0.084

0.266

1.28

0.087

0.071

1.14

0.158

0.049

0.794

1.3

3.77

143

19.7

39.1

128

146

1230

4.2

0.069

0.183

1.94

0.07

0.095

0.465

0.225

0.037

1.19

0.915

2

123

4.57

7.51

69.4

123

943

3.3

0.087

0.208

1.76

0.061

0.099

0.683

0.087

0.042

0.168

1.33

5.04

92.9

6.96

12

56.3

157

949

6.8

0.074

0.142

2.44

0.051

0.052

0.737

0.408

0.022

1.16

0.745

3.94

143

6.75

36.8

67.6

81.9

1170

5

0.084

0.171

1.85

0.088

0.038

1.21

0.263

0.072

1.35

0.899

2.38

130

6.18

101

64.4

98.6

1070

3.5

0.106

0.307

1.15

0.063

0.051

0.643

0.29

0.031

0.885

1.61

4.4

151

17.4

7.25

103

177

1100

4.3

0.102

0.342

4.08

0.065

0.077

0.752

0.366

0.048

1.08

1.77

3.37

145

5.33

33.1

58.3

117

1010

5.2

Las instrucciones de Minitab son las siguientes:

1    Open worksheet WINEAROMA.MTW o tomar los datos de la tabla.

2    Seleccionar Stat > Regression > Partial Least Squares.

3    En Responses, seleccionar Aroma.

4    En Predictors, selección las variables Cd-K.

5    En Maximum number of components, indicar 17.

6    Click Validation, seleccionar Leave-one-out. Click OK.

7    Click Graphs, luego seleccionar Model selection plot, Response plot, Std Coefficient plot, Distance plot, Residual versus leverage plot, y Loading plot. No seleccionar Coefficient plot. Click OK en cada una de las ventanas de diálogo.

Los resultados se muestran a continuación:

PLS Regression: Aroma versus Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, ...
La primera línea, muestra el número de componentes en el modelo óptimo, el cual es definido como el modelo con la mayor R2 Predictora (Predicted R2), en este caso de 0.46.
R2 Predictora

Es similar a la R2, la R2 predictora indica que tan bien estima el modelo las respuestas a nuevas observaciones, mientras que la R2 sólo indica que tan bien el modelo se ajusta a los datos. La R2 predictora puede evitar el sobreajuste del modelo y es más útil que la R2 ajustada para comparar modelos dado que es calculada con observaciones no incluidas en el cálculo del modelo.


Su valor se encuentra entre 0 y 1, y se calcula a partir del estadístico PRESS. Valores altos de R2 Predictora sugieren modelos de mayor capacidad de predicción o estimación.
Como se tiene el mimso número de componentes que predictors (17), se pueden comparar los estadísticos de bondad de ajuste y de bondad de predicción para el modelo PLS y la solución de mínimos cuadrados.

Number of components selected by cross-validation: 2

Number of observations left out per group: 1

Number of components cross-validated: 17


El ANOVA muestra que el valor p para Aroma es 0.000 menor a 0.05, proporcionando suficiente evidencia de que el modelo es significativo.
Analysis of Variance for Aroma

Source DF SS MS F P

Regression 2 28.8989 14.4494 39.93 0.000

Residual Error 34 12.3044 0.3619

Total 36 41.2032

Usar la tabla de Selección y Validación del Modelo para seleccionar el número óptimo de componentes para el modelo. Dependiendo de los datos o campo de estudio, se puede determinar que un modelo diferente del seleccionado por validación cruzada es más apropiado.


Model Selection and Validation for Aroma
Components X Variance Error SS R-Sq PRESS R-Sq (pred)

1 0.225149 16.5403 0.598569 22.3904 0.456585



2 0.366697 12.3044 0.701374 22.1163 0.463238

3 8.9938 0.781720 23.3055 0.434377



4 8.2761 0.799139 22.2610 0.459726

5 7.8763 0.808843 24.1976 0.412726

6 7.4542 0.819087 28.5973 0.305945

7 7.2448 0.824168 31.0924 0.245389

8 7.1581 0.826274 30.9149 0.249699

9 6.9711 0.830811 32.1611 0.219451

10 6.8324 0.834178 31.3590 0.238920

11 6.7488 0.836207 32.1908 0.218732

12 6.6955 0.837501 34.0891 0.172660

13 6.6612 0.838333 34.7985 0.155442

14 6.6435 0.838764 34.5011 0.162660

15 6.6335 0.839005 34.0829 0.172811

16 6.6296 0.839100 34.0143 0.174476

17 6.6289 0.839117 33.8365 0.178789




  • El modelo con dos componentes, seleccionado por validación cruzada, tiene una R2 de 70.1% y una R2 de Predicción de 46.3%. El modelo de cuatro componentes tiene una R2 predictora un poco menor, con una mayor R2, pero también se podría utilizar.

  • Comparando la R2 predictora del modelo PLS de dos componentes con la R2 predictora del modelo de mínimos cuadrados de 17 componentes, se puede ver que el modelo PLS predice los datos mucho más exactamente que el modelo completo. La R2 del modelo PLS de dos componentes es de 46%, mientreas que el de 17 componentes es de solo 18%.

  • La varianza de X indica la cantidad de varianza en los predictores que es explicada por el modelo. En este ejemplo, el modelo de dos componentes explica el 36.7% de la varianza en los predictores.


Esta gráfica muestra la tabla de “Model Selection and Validation. La línea vertical indica que le modelo óptimo tiene dos componentes. Se puede observar que la habilidad predictiva de todos los modelos con más de cuatro componentes, se reduce significativamente, incluyendo el de 17 componententes con sólo 18%.



Como los puntos muestran un patrón de línea recta, de abajo hacia arriba, la gráfica de respuesta indica que el modelo ajusta los datos adecuadamente. A pesar de haber diferencias entre las respuestas estimadas (fitted) y las de validación cruzada (cross-validated indica que tan bien el modelo estima los datos, de modo que se puedan omitir), ninguno es suficientemente severo para indicar puntos influyentes extremos.



La gráfica de coeficientes muestra los coeficientes estandarizados para los predictores. Se usa para interpretar la magnitud y signo de los coeficientes. Los elementos Sr, B, Mg, Pb y Ca tienen los coeficientes más altos y el mayor impacto en Aroma. Los elementos Mo, Cr, Pb, y B están positivamente realcionados con Aroma, mientras que Cd, Ni, Cu, Al, BA y Sr están realcionados negativamente.



La gráfica de carga compara la influencia relativa de los predictors en la respuesta. El Cu y el Mn tienen líneas muy cortas, indicando que tienen carga baja en X y no se realcionan con Aroma. Los elementos Sr, Mg, y Ba tienen líneas largas, indicando que tienen una carga mayor y se están más relacionadas con Aroma.



La gráfica de distancia y la gráfica de residuales versus influyentes, muestran los puntos atípicos e influyentes. Brushing la gráfica de distancia, pueden observarse comparados con el resto de datos. La observación 14 y 32 tienen una mayor distancia en el eje Y y las observaciones de los renglones 7, 12, y 23 tienen una mayor distancia en el eje X.



La gráfica de residuos versus influyentes confirma estos hallazgos, indicando que:



  • Las observaciones 14 y 32 son puntos atípicos, ya que salen de las líneas de referencia horizontales.

  • Las observaciones 7, 12 y 23 tienen valores influyentes extremos, dado que están a la derecha de la línea vertical de referencia.





Compartir con tus amigos:
1   ...   40   41   42   43   44   45   46   47   ...   59


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal