Universidad politécnica de madrid escuela técnica superior de ingenieros



Descargar 3.96 Mb.
Página41/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   ...   36   37   38   39   40   41   42   43   44
8.1.2.3.- Pruebas cruzadas


  • Hemos podido comprobar que para ambos locutores resulta difícil reconocer el miedo tanto antes como después de adaptar, mientras que el enfado y la voz neutra pueden definirse como emociones “sencillas” ya que son las que menores tasas de error tienen en ambos locutores.




  • En contra de lo que pensábamos en un principio, emplear como datos de entrenamiento las grabaciones de neutra no es una buena opción de adaptación para reconocer todas las emociones ya que es la más cercana a los modelos originales. Entrenar con los datos de tristeza tampoco da buenos resultados a la hora de reconocer todas las emociones.




  • Cualquiera de las otras emociones podría dar mejores resultados como emoción de entrenamiento, pero en el caso del hombre cabe destacar la sorpresa como la emoción que mejor reconoce a todas las demás.




  • Al intentar agrupar las emociones en base a su cercanía y características comunes, los resultados han sido:




    • Debido al poco énfasis que el hombre hace de las emociones, resulta muy difícil agrupar las emociones desde un punto de vista de características concretas, sino más bien se agrupan en base a si el locutor las ha hecho más evidentes o no.




    • La mujer, al marcar más las emociones permite ir agrupando las emociones cercanas entre sí. Es por esto que tenemos un conjunto básico consistente en el enfado y la voz neutra al cual se irán añadiendo emociones para llegar a generar un esquema de cercanías entre emociones.




  • Tener en cuenta el intervalo de confianza a la hora de determinar qué emociones que mejor reconocen a las demás y cuál sería la elección más acertada permite descartar o suavizar emociones que en una primera instancia se perfilaban como la mejor opción de entrenamiento. Esto ha pasado en el caso de la sorpresa, especialmente en el caso de la sopresa en el hombre; aparentemente tiene una tasa de error promedio del reconocimiento de todas las emociones muy bajo, pero su intervalo de confianza se solapa con los del miedo y el enfado, por lo que la sorpresa no necesariamente sería la mejor opción.


  • Para evaluar la mejora en el reconocimiento cruzado es importante no incluir la propia emoción de entrenamiento ya que los datos obtenidos no se ajustan a la realidad al mejorar mucho más el reconocimiento de la propia emoción, dando lugar a mejores resultados de lo que realmente son. En el caso de la mujer este hecho es mucho más evidente, sobre todo en el caso de entrenar los modelos empleando el enfado.


8.1.2.4.- Reconocimiento con modelos entenados con varias emociones


  • El hecho de entrenar con más datos correspondientes a varias emociones no significa que se vayan a obtener mejores resultados en el reconocimiento, como se ha podido ver en la Figura 40. De esto podemos concluir que el gasto computacional extra que supone entrenar con más de una emoción no compensa ya que la mejora conseguida no es tanta.


8.2.- Líneas futuras de investigación
Entre los campos o áreas en los que se puede seguir trabajando para la mejora del sistema se tiene:


  • Prueba de la eficacia de la introducción de la confianza ponderada como método de determinación sobre la validez de una frase.




  • Implementación de los trigramas para que también permitan enviar más de un comando asociado a la misma frase.




  • Llevar a cabo la implementación de un prototipo para el sistema de guiado del robot URBANO en base a los requisitos expuestos en el Anexo II.




  • Realizar un estudio más exhaustivo en el campo de la adaptación de los modelos empleando emociones para obtener más datos que nos permitan llegar a nuevas conclusiones que permitan avanzar en esa línea del reconocimiento de emociones.




  • Conseguir el fiero “stats” asociado al modelo SpeechDat_Continua_MMF para poder realizar la adaptación empleando la técnica MLLR.




  • Estudiar la mejora en el reconocimiento de emociones mediante el empleo de la técnica MLLR.

9.- BIBLIOGRAFÍA




  1. [Díaz 2002] Sergio Díaz Municio: “Estudio de técnicas de adaptación a locutor en sistemas de reconocimiento de habla”. Proyecto fin de carrera. ETSI Telecomunicación. Madrid. UPM. 2002




  1. [López 2001] Javier López García: “Nueva arquitectura para un servidor vocal telefónico con reconocimiento automático del habla”. Proyecto fin de carrera- ETSI Telecomunicación. Madrid. UPM. 2001




  1. [Marín 2006] Amparo Marín de la Bárcena: “Desarrollo de un asistente de modelos de lenguaje para robots inteligentes con capacidad de comunicación hablada”. Proyecto fin de carrera. ETSI Telecomunicación. Madrid.UPM. 2006




  1. [Lucas 2006] Juan Manuel Lucas Cuesta: “Análisis e implementación de mejoras para un reconocedor de habla continua”. Proyecto fin de carrera. ETSI Telecomunicación. Madrid. UPM. 2006




  1. [San-Segundo1997] Rubén San-Segundo Hernández: “Optimización de un sistema de reconocimiento de habla aislada por teléfono sobre un ordenador compatible (PC)”. Proyecto fin de carrera. ETSI Telecomunicación. Madrid.UPM. 1997




  1. [Montero 2003] Juan Manuel Montero Martínez: “Estrategias para la mejora de la naturalidad e incorporación de variedad emocional a la conversión de texto a voz en castellano”. Tesis doctoral. ETSI Telecomunicación. Madrid. UPM. 2003




  1. [Huang 2001] Xuedong Huang, Alex Acero y Hsiao-Wuen Hon: “Spoken language processing. A guide to theory, algorithm and system development”. Prentice-Hall PTR. Upper Saddle River, New Jersey. 2001




  1. [Rabiner 1993] Lawrence Rabiner y Biing.Hwang Juang: “Fundamentals of speech recognition”. Prentice-Hall PTR. Englewoods Cliffs, New Jersey. 1993




  1. [HTK] Steve Young, Gunnar Evermann, Mark Gales, Thomas Hain, Dan Kershaw, Xunjing Liu, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valrcho Valtchev y Phil Woodland: “The HTK Book”. Cambridge University Engineering Department. 2006




  1. [Collado 2006] Manuel Collado: “Herramientas GREP y AWK” Transparencias. Facultad de Informática. Madrid. UPM. 2006




  1. [Perl 1] Tutorial de Perl. http://perldoc.perl.org/




  1. [Perl 2] Uriel Lizama: “Expresiones Regulares - Las Bases”.

http://perlenespanol.baboonsoftware.com/tutoriales/expresiones_regulares/expresiones_regulares_las_bases.html


  1. [AWK 1] Alfred Aho, Brian Kernighan y Peter Weinberger: “The AWK programming Language”. Addison - Wesley. 1988




  1. [AWK 2] Manual de AWK.

http://h1.ripway.com/chube/Manual_Awk/Menus.htm


  1. [Cole 1997] Ronald Cole, Joseph Mariano, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, Antonio Zampolli y Víctor Zue: “Survey of the state of the art in human language techonology”. Cambridge University Press. 1997




  1. [Goronzy 2002] Silke Goronzy: “Robust adaptation to non-native accents in automatic speech recongnition”. Springer. 2002




  1. [Córdoba 2004] R. de Córdoba, J. Ferreiros, J.M. Montero, F. Fernández, J. Macías y S. Díaz: “Cross-Task adaptation and speaker adaptation in air traffic control tasks”. Actas III Jornadas en Tecnología del Habla, Valencia, 17-19 November 2004




  1. [Córdoba 2006] R. de Córdoba, J. Ferreiros, R. San-Segundo, J. Macías Guarasa, J.M. Montero, F. Fernández, L.F. de D’Haro y J.M. Pardo: “Cross-Task and speaker adaptation in a speech recognition system for air traffic control”. IEEE Aerospace and Electronic Systems Magazine, Vol 21, No 9, ISSN 0885-8985, September 2006

10.- PLIEGO DE CONDICIONES
10.1.- Condiciones generales
La obra será realizada bajo la dirección técnica de un Ingeniero de Telecomunicación y el número de programadores necesarios.
La ejecución material de la obra se llevará a cabo por el procedimiento de contratación directa. El contratista tiene derecho a obtener, a su costa, copias del pliego de condiciones y del presupuesto. El ingeniero, si el contratista lo solicita, autorizará estas copias con su firma, después de confrontarlas.
Se abonará al contratista la obra que realmente se ejecute, de acuerdo con el proyecto que sirve de base para la contrata.
Todas las modificaciones ordenadas por el ingeniero-director de las obras, con arreglo a sus facultades, o autorizadas por la superioridad, serán realizadas siempre que se ajusten a los conceptos de los pliegos de condiciones y su importe no exceda la cifra total de los presupuestos aprobados.
El contratista, o el organismo correspondiente, quedan obligados a abonar al ingeniero autor del proyecto y director de obra, así como a sus ayudantes, el importe de sus respectivos honorarios facultativos por dirección técnica y administración, con arreglo a las tarifas y honorarios vigentes.
Tanto en las certificaciones de obra como en la liquidación final, se abonarán las obras realizadas por el contratista a los precios de ejecución material que figuran en el presupuesto, por cada unidad de obra.
En el caso excepcional en el que se ejecute algún trabajo no consignado en la contrata, siendo admisible a juicio del ingeniero-director de las obras, se pondrá en conocimiento del organismo correspondiente, proponiendo a la vez la variación de precios estimada por el ingeniero. Cuando se juzgue necesario ejecutar obras que no figuren en el presupuesto de la contrata, se evaluará su importe a los precios asignados a ésta u otras obras análogas.
Si el contratista introduce en el proyecto, con autorización del ingeniero-director de la obra, alguna mejora en su elaboración, no tendrá derecho sino a lo que le correspondería si hubiese efectuado la obra estrictamente contratada.
El ingeniero redactor del proyecto se reserva el derecho de percibir todo ingreso que en concepto de derechos de autor pudiera derivarse de una posterior comercialización, reservándose además el derecho de introducir cuantas modificaciones crea convenientes.

10.2.- Condiciones generales a todos los programas

  • Estarán realizados en lenguajes estándar.

  • Se entregarán tres copias de los listados para cada programa o subrutina.

  • Los programas y subrutinas deberán ir documentados, indicando brevemente su función, entradas y salidas, y cualquier otra información de interés.

  • Se entregará, junto con los programas, un manual de uso e instalación.

10.3.- Condiciones generales de prueba
Los programas y subrutinas que se entreguen deberán funcionar sobre un ordenador PC o compatible con microprocesador Pentium Core 2 Duo o superior y con, al menos, 512 MBytes de RAM. Se ejecutarán bajo sistema operativo Windows 2000 XP Professional o superior, en entorno local.
Solamente se aceptarán los programas si funcionan correctamente en todas sus partes, rechazándose en caso contrario. Si, por causas debidas al contratista, los programas no funcionaran bajo las condiciones expuestas anteriormente, la empresa contratante se reservará el derecho de rescindir el contrato.
10.4.- Recursos materiales

  • Ordenador PC compatible, Pentium Core 2 Duo, 512 MB de memoria RAM y 2 GB de disco duro.

  • Altavoces.

  • Micrófono.

  • Tarjeta de red Ethernet.

10.5.- Recursos lógicos

  • Sistema operativo Windows XP Professional.

  • Compilador Microsoft Visual C++ 6.0

  • HTK 3.4

  • Office 2003.

11.- PRESUPUESTO
El presupuesto consta de cuatro apartados: el cálculo del presupuesto de ejecución material, el presupuesto de ejecución por contrata que incluirá el cálculo de los gastos generales y del beneficio industrial, el coste de la dirección de obra y, por último, el presupuesto total, suma de todos los conceptos anteriores.
Todas las cantidades que aparecen están contempladas en Euros.
11.1.- Presupuesto de ejecución material
Se incluye en este presupuesto los gastos en herramientas empleadas, tanto hardware como software, así como la mano de obra.
En la ejecución de este proyecto han participado las siguientes personas:


  • Un Ingeniero Superior de Telecomunicación, encargado del desarrollo y redacción del proyecto, así como de la obtención e interpretación de los resultados.

  • Un mecanógrafo, encargado de la escritura del proyecto en un procesador de textos, elaboración de gráficos, etc.





Compartir con tus amigos:
1   ...   36   37   38   39   40   41   42   43   44


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal