Universidad politécnica de madrid escuela técnica superior de ingenieros



Descargar 3.96 Mb.
Página40/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   ...   36   37   38   39   40   41   42   43   44
8.1.1.4.- Comprensión
Desde el punto de vista de la comprensión:


  • Se ha incluido el multiconcepto que permite asociar una frase con más de un concepto en el método de reglas.




  • Se ha compatibilizado el empleo entre trigramas y reglas como método de comprensión, pudiendo elegir entre un método y otro mediante un flag sin que sea necesario volver a compilar todo el sistema.

8.1.2.- Análisis de las pruebas realizadas


8.1.2.1.- Reconocimiento con los modelos genéricos


  • La tasa de error para la emoción neutra es la misma en el hombre y en la mujer. Esta emoción es la que más se acerca a los modelos genéricos y, por tanto, es la que mejor reconocen.




  • El hombre presenta una mayor uniformidad en las tasas de error que la mujer debido a que marca menos las diferencias entre unas emociones y otras. Esto está reforzado con los valores de la varianza que se muestran en la Tabla 7.




  • Las tasas de error más bajas del hombre se corresponden con la sorpresa y el miedo. Éstas son las emociones que enfatiza de una forma más evidente, caracterizándose ambas por variar el ritmo con el que dice las frases.




  • Las elevadas tasas de error que tiene la locutora se deben pricipalmente a el mayor énfasis que hace de las emociones, pero analizando las grabaciones de las peores emociones hemos sacado las siguientes conclusiones:




    • Tristeza: Emplea un ritmo exageradamente lento, combinado con un tono bajo con poca intensidad, lo que lo aleja bastante de la emoción neutra, que es la más parecida a los modelos genéricos.




    • Alegría: El ritmo es más rápido y efectúa muchas subidas y bajadas de tono.




    • Miedo: Las frases las dice con un ritmo más lento de lo normal, terminándolas con un tono alto.




    • Asco: La locutora tiene la boca muy cerrada al hablar.




  • Los cambios de ritmo principalmente o de tono empeoran mucho los resultados del reconocimiento con los modelos genéricos.


8.1.2.2.- Determinación de la τ óptima


  • En la adaptación de habla emocionada son mucho más efectivos los valores bajos de τ para dar más peso a los datos de adaptación. Esto es así porque las emociones suponen mucha variación respecto a los modelos originales que están entrenados para reconocer habla no emocionada, tanto en tono como en velocidad.




  • El emplear los datos resultantes de evaluar distintos bloque de frases (entrenamiento + evaluación) de manera que se evalúen todas las palabras que componen el diccionario permite obtener unos resultados más próximos a la realidad.




  • Emplear siempre las mismas frases de entrenamiento y evaluación da lugar a que se produzcan resultados falseados, bien porque las frases de evaluación contienen palabras que se reconocen especialmente bien, con lo que se obtendrían mejores resultados que en el caso real o viceversa, que las frases agrupen las palabras que peor se reconocen dando lugar a resultados demasiado pesimistas.




  • Pese a los dos puntos anteriormente expuestos, vemos en la Tabla 12 que los resultados de las τ más recomendables para llevar a cabo la adaptación no difieren mucho entre emplear el promedio de los resultados de procesar todas las frases posibles o emplear siempre las mismas para la evaluación.



  • Hay emociones que no mejoran de forma significativa según los valores que toma τ, como es el caso de la emoción alegría o la neutra en el caso del hombre.




  • Hay emociones que experimentan una mejora muy evidente, como puede ser el caso de la sorpresa o el miedo en el caso del hombre o el asco en el caso de la mujer.





Compartir con tus amigos:
1   ...   36   37   38   39   40   41   42   43   44


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal