Universidad politécnica de madrid escuela técnica superior de ingenieros



Descargar 3.96 Mb.
Página2/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   2   3   4   5   6   7   8   9   ...   44
PROYECTO FIN DE CARRERA
Título: Mejora de la interfaz vocal de control de un robot autónomo móvil. Adaptación acústica y generación supervisada de mapas.
Autora: Nuria Pérez Magariños
Tutor: Dr. Ingeniero Juan Manuel Montero Martínez
Departamento: Ingeniería Electrónica de la Escuela Técnica Superior de Ingenieros de Telecomunicación de Madrid de la Universidad Politécnica de Madrid
Grupo: Tecnología del Habla

MIEMBROS DEL TRIBUNAL
Presidente: D. Javier Ferreiros López Firma:
Vocal: D. Rubén San Segundo Hernández Firma:
Secretario: D. Juan Manuel Montero Martínez Firma:
Suplente: D. Javier Macías Guarasa Firma:


Fecha de Lectura:

Calificación:

ÍNDICE

ÍNDICE 7

Índice de figuras 11

Índice de cuadros 13

Índice de tablas 1

1.- INTRODUCCIÓN 1

1.1.- Sistemas de reconocimiento de voz 2

1.1.1.- Los reconocedores 2

1.1.2.- Métodos de reconocimiento 4

1.1.2.1.- Reconocimiento de patrones 4

1.1.3.- Variabilidad de la señal de voz 6

1.1.3.1.- Variaciones en el contexto 7

1.1.3.2.- Variaciones en el estilo 7

1.2.3.3.- Variaciones en el locutor 8

1.1.3.4.- Variaciones en el entorno 8

1.1.4.- Prestaciones 9

1.2.- Proyecto “ROBINT” 10

1.2.1.- Evolución de los robots y la tecnología el habla 10

1.2.1.1.- Robots Sociales 10

1.2.1.2.- Interacción Hombre-Robot 12

1.2.2.- Proyecto ROBINT 12

1.2.2.1 Definición del sistema 13

1.2.2.2.- Implementación 13

1.3.- Objetivos y fases del proyecto 14

1.3.1.- Objetivos 14

1.3.1.1.- Adaptación de los modelos acústicos 14

1.3.1.2.- Guiado del robot 14

1.3.1.3.- Aprendizaje automático 15

1.3.2.- Fases del proyecto 15

2.- DESCRIPCIÓN DE LAS TÉCNICAS Y HERRAMIENTAS EMPLEADAS 17

2.1.- Técnicas empleadas 17

2.1.1.- Adaptación 17

2.1.1.1.- Regresión Lineal de Máxima Verosimilitud (MLLR) 18

2.1.1.2 Máximo a posteriori (MAP) 21

2.1.2.- Etiquetado automático 22

2.1.2.1.- Preprocesamiento 22

2.1.2.2.- Técnicas de desambiguación en el etiquetado morfosintáctico 22

2.2.- Herramientas empleadas 23

2.2.1.- HTK 23

2.2.1.1.- HLEd 24

2.2.1.2.- HCopy 25

2.2.1.3.- HCompV 25

2.2.1.4.- HERest 26

2.2.1.5.- HHEd 26

2.2.1.6.- HVite 27

4.2.6.1.- Algoritmo de paso de testigo 28

2.2.1.7.- HResults 29

2.2.2.- Perl 29

2.2.2.1.- Estructura del lenguaje 29

2.2.3.- AWK 32

2.2.3.1.- Variables 32

2.2.3.2.- Sentencias de uso frecuente 32

2.3.- Proyectos Fin de Carrera Precedentes 33

2.3.1.- Proyecto Fin de Carrera de Sergio Díaz Municio 33

2.3.2.- Proyecto Fin de Carrera de Javier López García 34

3.- DESCRIPCIÓN DEL SISTEMA 35

3.1.- Ámbito del proyecto 35

3.2.- Diagrama de contexto y guión de los casos de uso 35

3.3.- Arquitectura del sistema 37

3.4.- Tarea de guiado 40

3.4.1.- Conclusiones obtenidas en la reunión 40

3.4.2.- Pasos a seguir para el desarrollo del módulo 41

4.- PORTABILIDAD Y CONFIGURACIÓN DEL SISTEMA 43

4.1.- Portabilidad y estructura de directorios 43

4.1.1.- Directorio “bin” 44

4.1.2.- Directorio “data” 44

4.1.2.1.- Directorio de tarea 44

4.1.2.2.- Directorio de grabaciones 45

4.1.2.3.- Directorio de modelos 45

4.1.2.4.- Directorio de adaptación 45

4.1.2.5.- Directorio temporal 46

4.2.- Configuración del sistema 46

5.- GENERACIÓN AUTOMÁTICA DEL SUBSISTEMA DE COMPRENSIÓN 57

ADAPTADO A UNA TAREA 57

5.1.- Aproximación al sistema 57

5.2.- Implementación de la comprensión mediante reglas 57

5.2.1.- Método “cargaPalabrasFuncion” 58

5.2.1.- Método “main_ppal” 58

5.2.1.1.- Método “leeFrasesFichero” 58

5.2.1.2.- Método “procesaFrases” 60

5.2.1.3.- Método “evaluaGlobal” 62

5.2.1.4.- Método “estimaCategorías” 62

5.2.1.5.- Fase de aprendizaje 64

5.3.- Modificaciones en el reconocimiento 67

6.- IMPLEMENTACIÓN DE LOS MECANISMOS DE ADAPTACIÓN DE MODELOS ACÚSTICOS 69

6.1.- Clases y comportamiento dinámico 69

6.2.- Implementación 73

6.2.1.- Interfaz gráfica de adaptación 73

6.2.1.1.- Ventana de características 73

6.2.1.2.- Ventana de grabación 79

6.2.2.- Métodos 80

6.3.- Scripts de HTK 82

6.3.1.- Preparación y generación de los ficheros 82

6.3.1.1.- Acondicionamiento de los ficheros para HTK 84

6.3.1.2.- Adaptación de los diccionarios 88

6.3.1.3.- Generación de los ficheros maestros de etiquetas 89

6.3.1.4.- Parametrización de los ficheros de audio 92

6.3.1.5.- Normalización Cepstral 93

6.3.2.- “adaptaMap.bat” 93

6.3.3.- “adaptaMLLR.bat” 94

7.- EVALUACIÓN Y PRUEBAS DEL SISTEMA 99

7.1.- Pruebas de adaptación con emociones 99

7.1.1.- Reconocimiento con los modelos genéricos 99

7.1.2.- Determinación de la τ óptima 100

7.1.4.- Pruebas cruzadas 108

7.1.5.- Reconocimiento con modelos entrenados con varias emociones 118

8.- CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN 121

8.1.- Conclusiones 121

8.1.1.- Funcionalidad del sistema 121

8.1.1.1.- Configuración 121

8.1.1.2.- Adaptación 122

8.1.1.3.- Primera versión del guiado del robot 123

8.1.1.4.- Comprensión 123

8.1.2.- Análisis de las pruebas realizadas 123

8.1.2.1.- Reconocimiento con los modelos genéricos 123

8.1.2.2.- Determinación de la τ óptima 124

8.1.2.3.- Pruebas cruzadas 125

8.1.2.4.- Reconocimiento con modelos entenados con varias emociones 126

8.2.- Líneas futuras de investigación 126

9.- BIBLIOGRAFÍA 129

10.- PLIEGO DE CONDICIONES 131

10.1.- Condiciones generales 131

10.2.- Condiciones generales a todos los programas 132

10.3.- Condiciones generales de prueba 132

10.4.- Recursos materiales 132

10.5.- Recursos lógicos 132

11.- PRESUPUESTO 133

11.1.- Presupuesto de ejecución material 133

11.1.1.- Relación de salarios 133

11.1.2 Relación de obligaciones sociales 134

11.1.3 Relación de salarios efectivos totales 134

11.1.4 Coste de la mano de obra 134

11.1.5 Coste total de materiales 135

11.1.6 Importe total del presupuesto de ejecución material 135

11.2.- Importe de ejecución por contrata 136

11.3.- Honorarios Facultativos 136

11.4.- Importe Total del Proyecto 137

I.- MANUAL DE USUARIO 139

II.- PROPUESTA DE FRASES PARA GUIADO 159

III.- FRASES DEL QUIJOTE 161

IV.- FRASES DE URBANO PARA LA EVALUACIÓN DEL SISTEMA 165

V.- FUNCIONES DE GENERACIÓN DE REGLAS 166

Índice de figuras




Figura 1: Diagrama de bloques de un reconocedor obtenido de [Lucas 2006] 3

Figura 2: Arquitectura básica de un sistema reconocedor obtenido de [Huang 2001] 4

Figura 3: Esquema de un reconocedor de dos etapas, obtenido de [Lucas 2006] 5

Figura 4: Árbol de regresión con cuatro clases [Díaz 2002] 20

Figura 5: Jerarquía de los niveles de reconocimiento 27

Figura 6: Diagrama de contexto del sistema 36

Figura 7: Diagrama de clases del SERVIVOX 39

Figura 8: Diagrama de clases de reconocimiento 40

Figura 9: Nueva estructura de directorios 43

Figura 10: Ventana de configuración del sistema 50

Figura 11: Diagrama de la implementación de los casos de uso 52

Figura 12: Situación inicial de listaConceptos y listaCategorías 63

Figura 13: Resultado después de relacionar el concepto con la categoría 64

Figura 14: Diálogo para la grabación 71

Figura 15: Comunicación entre las hebras 72

Figura 16: Ventana de características de adaptación 74

Figura 17: Lista desplegable para seleccionar el tipo de entorno 74

Figura 18: Lista desplegable para seleccionar el tipo de micrófono 75

Figura 19: Ventana de grabación 79

Figura 20: Formato de línea del fichero .DATA 81

Figura 21: Formato de línea del fichero de diccionario 84

Figura 22: Formato de línea del fichero .DATA 84

Figura 23: Formato de descomposición de una frase en el MLF 90

Figura 24: Tasa de error reconociendo con modelo genérico en función del locutor 99

Figura 25: Evolución de la tasa de error en función de τ para el hombre en el experimento 1 101

Figura 26: Evolución de la tasa de error del hombre en función de τ en el experimento 2 102

Figura 27: Evolución de la tasa de error en función de τ para la mujer en el experimento 1 103

Figura 28: Evolución de la tasa de error para la mujer en función de tau en el experimento 2 104

Figura 29: Mejora del reconocimiento para la mujer con τ =3 106

Figura 30: Mejora del reconocimiento para el hombre con τ=2 107

Figura 31: Reconocimiento cruzado de emociones en el hombre en el experimento 1 109

Figura 32: Reconocimiento cruzado de emociones en el hombre en el experimento 2 110

Figura 33: Reconocimiento cruzado de emociones en la mujer en el experimento 1 111

Figura 34: Reconocimiento cruzado de emociones con la mujer en el experimento 2 112

Figura 35: Esquema de agrupación de las emociones de la mujer 115

Figura 36: Intervalos de confianza del hombre incluyendo la emoción de entrenamiento 116

Figura 37: Intervalo de confianza de la mujer incluyendo la emoción de entrenamiento 116

Figura 38: Intervalo de confianza del hombre sin incluir la emoción de entrenamiento 117

Figura 39: Intervalo de confianza de la mujer sin incluir la emoción de entrenamiento 117

Figura 40: Resultado de reconocer con modelos entrenados de forma diferente 118


Índice de cuadros




Cuadro 1: Ejemplo de MLF a nivel de palabra 24

Cuadro 2: Instrucciones de un edit-scrip de HHEd 27

Cuadro 3: Tipos de variables de Perl 30

Cuadro 4: Principales expresiones de control de Perl 30

Cuadro 5: Expresión regular de emparejamiento 31

Cuadro 6: Expresión regular de sustitución 31

Cuadro 7: Ejemplo de utilización de los metacaracteres en expresiones regulares 31

Cuadro 8: Sentencias habituales de AWK [Collado 2006] 32

Cuadro 9: Ejemplo de uso de las sentencias de AWK 32

Cuadro 10: Ejemplo de palabras función del fichero Palfunc.lis 44

Cuadro 11: Comprobación del tipo de entorno seleccionado y asignación de valores 49

Cuadro 12: Inicialización original del servidor 51

Cuadro 13: Nueva inicialización del servidor 51

Cuadro 14: Implementación del método "buscaLocutor()" 53

Cuadro 15: Proceso para cargar automáticamente los modelos de un locutor conocido 54

Cuadro 16: Creación de la ventana para seleccionar el modelo a cargar 55

Cuadro 17: Ejemplo de las reglas generadas 67

Cuadro 18: Instrucción para crear una ventana que bloquee la ventana desde la que se llama 70

Cuadro 19: Instrucción que indica el fin de la inicialización 70

Cuadro 20: Creación de la ventana de adaptación bloqueando al reconocedor 70

Cuadro 21: Creamos la ventana de características 70

Cuadro 22: Instrucciones para bloquear una hebra mediante flags 71

Cuadro 23: Comparación para determinar el elemento seleccionado de la lista 75

Cuadro 24: Instrucción para añadir elementos a las listas 75

Cuadro 25: Programa dic2data.per 85

Cuadro 26: Formato de líneas en el fichero .alp a nivel de frase 85

Cuadro 27: Formato de líneas en el fichero .alp a nivel de palabra 85

Cuadro 28: Formato de líneas en el diccionario a nivel de palabra 86

Cuadro 29: Programa dic2dicgth.per 86

Cuadro 30: Programa dic2alf.per 87

Cuadro 31: Formato de línea de los ficheros .lif 87

Cuadro 32: Programa dic2lif.per 87

Cuadro 33: Programa generaNopath.per 88

Cuadro 34: Programa awk_dic2 89

Cuadro 35: Instrucción para combinar el fichero de diccionario con los silencios 89

Cuadro 36: Programa awk_words2 90

Cuadro 37: Programa awk_comillas2 91

Cuadro 38: Programa awk_slash2 91

Cuadro 39: Programa editaMono.per 92

Cuadro 40: Programa awk_scp 92

Cuadro 41: Programa awk_list2 93

Cuadro 42: Llamada a HERest 93

Cuadro 43: Fichero de configuración de HERest para la técnica MAP 94

Cuadro 44: Instrucción para crear los árboles de clases de regresión 94

Cuadro 45: Script regtree128.hed 94

Cuadro 46: Comando para realizar la primera transformación con HERest 95

Cuadro 47:Llamada a HERest para la transformación final de los modelos mediante MLLR 96

Cuadro 48: Configuración de las variables relativas al ruido en el entorno 140







Compartir con tus amigos:
1   2   3   4   5   6   7   8   9   ...   44


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal