Universidad politécnica de madrid escuela técnica superior de ingenieros


Cuadro 24: Instrucción para añadir elementos a las listas



Descargar 3.96 Mb.
Página28/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   ...   24   25   26   27   28   29   30   31   ...   44
Cuadro 24: Instrucción para añadir elementos a las listas
teniendo cuidado de añadir el nuevo elemento al conjunto de comparaciones que se muestran en el Cuadro 23.
Mediante cuadros de selección, el usuario podrá determinar qué técnica de adaptación de entre las dos explicadas anteriormente desea utilizar para adaptar los modelos a su voz y circunstancias de uso.

También mediante este tipo de cuadros se le permite determinar el tipo de adaptación que desea llevar a cabo. Se le ofrecen dos posibilidades:




  • Adaptación genérica: Permite adaptar el sistema a la voz del locutor, pero no adapta los modelos a una tarea concreta. El usuario leerá varias frases del Quijote, que serán grabadas y almacenadas para su posterior procesado. Si el usuario indica un fichero de comandos, se ignorará.

  • Adaptación a Tarea: En este caso, el usuario adapta los modelos tanto a su voz como a la tarea que va a realizar. Las frases que el locutor tendrá que leer y grabar se obtendrán del fichero de comandos que el usuario haya indicado en la casilla correspondiente de la ventana.

A partir de los datos introducidos en esta ventana, el sistema genera automáticamente dos directorios:




  • Directorio de grabaciones: En él se guardarán las grabaciones que haga el usuario para llevar a cabo ese proceso de adaptación.




  • Directorio de modelos: En él se guardarán los modelos acústicos ya adaptados a las particularidades del locutor y las características de adaptación.

Estos directorios se crean siguiendo la siguiente estructura y permitirán al usuario acceder a su carpeta personal para cargar sus modelos evitando tener que volver a llevar a cabo todo el proceso de adaptación si ya lo ha hecho una vez en las mismas circunstancias.



MCC = Micrófono con cable

MSC = Micrófono sin cable

Ruido = entorno ruidoso



No Ruido = entorno no ruidoso
De forma simplificada sería:

Inicialmente, a las carpetas correspondientes al tipo de entorno y al tipo de micrófono se les asignaba el nombre completo de la característica que especificaban para que fuese totalmente intuitiva su posterior selección. Así, si el usuario había seleccionado un entorno no ruidoso, la carpeta correspondiente se creaba con el nombre “entorno no ruidoso” y así con todas las posibles opciones tanto de entorno como de micrófono.


Esto dio problemas en el momento de ejecutar los scripts de HTK que se detallan en el capítulo 2 ya que los nombres completos daban lugar a paths demasiado largos y el programa se cerraba porque no era capaz de manejarlos. Es por esto que se decidió acortar significativamente los nombres, procurando que siguiesen siendo lo más intuitivos posible.
Todos los métodos y funcionalidades de esta ventana pueden verse en el fichero “caracteristicas_modelo.cpp”.

6.2.1.2.- Ventana de grabación
La ventana de grabación es una interfaz gráfica muy simple, tal y como puede verse en la Figura 19.

Figura 19: Ventana de grabación


Está formado por los siguientes elementos:


  • Cuadros de texto estáticos: Tiene dos cuadros de texto estático, cada uno de ellos con una variable de control del tipo CString asociada que nos permite mostrar texto en ellos. El cuadro superior muestra al usuario el texto que debe repetir durante la grabación de la frase, y el segundo muestra lo que se he reconocido una vez se le ha indicado al sistema que ha terminado la grabación.




  • Iconos: La ventana posee dos iconos que indican al usuario si se está grabando o no. Inicialmente está activo el icono de un círculo rojo que señala al usuario del sistema que no está grabando. En el momento que se pulsa el botón “Comienzo”, se oculta el icono del círculo rojo para mostrar un icono de un círculo verde para indicar que se está grabando.




  • Botones: La ventana consta de cuatro botones aunque sólo se muestran tres al mismo tiempo. Dichos botones pueden dividirse en dos grupos, en base a su función:




      • Botones de grabación: Son los botones “Comienzo” y “Fin” y le permiten indicar al usuario cuándo comienza y termina la grabación de una frase. Inicialmente, se muestra el botón de “Comienzo” mientras que el de “Fin” está desactivado. La visibilidad de los mismos, tal y como pasaba con los iconos, cambia en el momento que el usuario pulsa el botón “Comienzo”, ya que dicho botón se oculta, pasando a mostrarse el botón de “Fin”.



      • Botones de manejo de frases: Estos botones son “Siguiente” y “Atrás” y nos permiten recorrer todas las frases que el usuario tendrá que grabar para llevar a cabo la adaptación. El que mayor funcionalidad tiene es “Siguiente”, ya que antes de permitir pasar al usuario a la siguiente frase de la lista, comprueba si dicha frase ha sido reconocida con suficiente confianza. En caso de que no haya sido así, muestra una pantalla de aviso, indicándole al usuario la baja confianza en el reconocimiento de la frase y le ofrece la posibilidad de volver a grabar la frase. Actualmente el umbral de confianza que debe superar la frase tiene un valor de 0,71 pero puede ser modificado en caso de que se tengan muchos problemas para reconocer al locutor.

En caso de que el usuario decida no repetir la frase, realiza la misma función que si se hubiese reconocido correctamente la frase, se pasa a la siguiente frase de la lista y, en caso de que ya se hayan grabado todas las frases de la lista, muestra al usuario un mensaje por pantalla indicándole que ya ha terminado el proceso de adaptación.


La mayor complicación en la implementación de esta ventana ha radicado en la comunicación entre las diferentes hebras activas ya que, como se ilustró y explicó en el apartado 6.1, una hebra necesitaba información que proporcionaba la otra además de bloquearse unas a otras. Todos los métodos relacionados con esta ventana se encuentran en el fichero “adaptación.cpp”.
Para mayor detalle sobre la mecánica del proceso de grabación, véase el Anexo I.




Compartir con tus amigos:
1   ...   24   25   26   27   28   29   30   31   ...   44


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal