Universidad politécnica de madrid escuela técnica superior de ingenieros



Descargar 3.96 Mb.
Página8/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   ...   4   5   6   7   8   9   10   11   ...   44
Adaptación a tarea: En este caso modificaremos los modelos ya existentes mediante diversas técnicas para aproximarlos a las características de la nueva tarea.

  • Adaptación a locutor: A partir de una pequeña cantidad de datos, modificaremos unos modelos previos independientes del locutor, de forma que se ajusten a las características vocales del locutor que vaya trabajar e interactuar con el robot.

    Existen varias técnicas para adaptar el sistema entre las que destacan dos:




    • Regresión Lineal de Máxima Verosimilitud (MLLR): Consiste en aplicar un conjunto de transformaciones lineales a los parámetros de los modelos de partida para ajustarlos a los datos de adaptación. El cálculo de dichas transformaciones lineales se realiza buscando maximizar la verosimilitud con los datos de entrenamiento.

    La técnica MLLR no calcula una transformación lineal para cada una de las gaussianas a adaptar, sino que agrupa las gaussianas parecidas entre sí y genera una única transformación para todas ellas. Esto permite adecuar el número de transformaciones lineales a estimar a la cantidad de datos disponibles para la adaptación.


    • Máximo a Posteriori (MAP): Esta técnica se basa en el conocimiento previo de la distribución de los parámetros de los modelos. Este conocimiento previo son los modelos de partida para la adaptación, que nos permitirá realizar una estimación fiable de los modelos acústicos del sistema adaptado con una reducida cantidad de datos de adaptación.

    La adaptación MAP consiste en estimar los nuevos parámetros acústicos de los modelos de modo que se maximice la verosimilitud de la distribución a posteriori. Cada uno de los parámetros acústicos se adapta por separado, a diferencia de MLLR que agrupa varias gaussianas formando una clase de regresión y las adapta juntas.

    Como ha podido verse, ambas técnicas se basan en modificar los modelos acústicos del sistema de partida. MLLR y MAP pueden adaptar las medias, las varianzas y los pesos de las gaussianas, así como las probabilidades de transición entre estados. En general, las características más específicas de un nuevo locutor o tarea conciernen por orden de importancia a las medias, a las varianzas, a los pesos y, por último, a las probabilidades de transición. Es por esto que lo más común es no adaptar la matriz de transiciones, sino modificar únicamente las medias, ya que en ellas reside la mayor parte de la información específica de la nueva tarea o locutor.


    El usuario de nuestro sistema podrá elegir cuál de estas dos técnicas desea aplicar para adaptar el sistema a su voz y a la tarea que está realizando, por lo que a continuación las explicaremos con un poco más de detalle.
    2.1.1.1.- Regresión Lineal de Máxima Verosimilitud (MLLR)
    Esta técnica, conocida por el acrónimo de sus siglas en inglés (Maximum Likelihood Linear Regresion), consiste en calcular un conjunto de transformaciones lineales que, aplicadas sobre los modelos de partida, los ajusten a los datos de adaptación. Más concretamente, MLLR se basa en estimar un conjunto de transformaciones lineales para modificar los parámetros de las medias y varianzas de las gaussianas del sistema de partida, de forma que se maximice la verosimilitud con los datos de adaptación. [Díaz 2002]
    No vamos a detallar el conjunto de ecuaciones que permiten modificar los parámetros acústicos del sistema de partida, pero presentaremos de forma superficial las ecuaciones de transformación de las medias, para ilustrar el funcionamiento de la técnica MLLR. Básicamente, los parámetros de las medias de las gaussianas son adaptados con la siguiente expresión:
    (2.1)
    donde A es la matriz de transformación n×n, y b es un vector de offset de dimensión n (siendo n la dimensión de las observaciones, que en nuestro caso es 39). Como sabemos, las medias iniciales y adaptadas son también vectores de n valores. Para estimar A y b se emplea el algoritmo Expectation-Maximisation (EM).

    En nuestro caso los vectores de las observaciones tienen parámetros estáticos, delta y aceleración. En esta situación se obtiene aproximadamente la misma eficiencia en la adaptación empleando matrices A de forma diagonal en bloques (block diagonal), en lugar de matrices completas.



    (2.2)
    Estas matrices diagonales en bloques tienen como base asumir que, para la adaptación, no hay correlación entre los parámetros estáticos, delta y aceleración. En la práctica esta suposición funciona bastante bien y proporciona resultados similares al caso de considerar una matriz A completa. El formato diagonal en bloques reduce el número de parámetros de transformación a estimar, lo cual hace más rápido el proceso de adaptación y disminuye el número de datos de adaptación necesarios. En cuanto a los requerimientos de almacenamiento, la matriz diagonal en tres bloques precisa una capacidad de almacenamiento mucho menor que la matriz completa. En el extremo, podría pensarse en trabajar con matrices A diagonales, pero en la práctica sus resultados quedan muy alejados de los obtenidos con matrices diagonales en bloques.
    En el caso de la matriz de transformación de las varianzas, y dada la menor importancia de éstas en la adaptación, es común trabajar con matrices diagonales que son almacenadas como un simple vector.
    El método de adaptación MLLR puede ser aplicado de manera muy flexible dependiendo de la cantidad de datos de adaptación disponibles. Esta propiedad se basa en que una misma transformación puede aplicarse a un número elevado de gaussianas, lo que además acelera el proceso de adaptación. Cuando sólo disponemos de un número reducido de datos podemos aplicar una transformación global. En este caso se calcula una única transformación que se aplicará a todas las gaussianas de los modelos de partida. Del mismo modo, si dispusiésemos de un mayor número de datos de adaptación, incrementaríamos el número de transformaciones, de forma que ahora cada transformación será más específica y se aplicará sólo a ciertos grupos de gaussianas. El hecho de compartir una misma transformación entre varias gaussianas hace posible adaptar estados para los que no tenemos ninguna observación en los datos de adaptación, lo cual es una ventaja clara de la técnica MLLR.
    Para determinar el número adecuado de transformaciones, y los grupos de gaussianas a los que se aplicará cada una, MLLR emplea árboles de clases de regresión (regresion class tree). El trabajo con árboles de regresión presenta especiales ventajas para la adaptación dinámica, ya que el proceso de adaptación se podrá ir refinando según hay más datos de adaptación disponibles.
    El árbol de clases de regresión se construye de forma que las gaussianas que están próximas en el espacio acústico pertenezcan al mismo nodo. El árbol es construido utilizando los modelos de partida, luego es independiente de la nueva tarea o locutor al que estamos adaptando. Para generar el árbol empleamos un algoritmo divisor de centroides que hace uso de la métrica de la distancia. Comenzamos con todas las gaussianas agrupadas en el nodo raíz, y vamos dividiendo hasta obtener el número deseado de nodos terminales, llamados clases base (base classes).

    Figura 4: Árbol de regresión con cuatro clases [Díaz 2002]


    En la figura anterior mostramos un ejemplo de un árbol de regresión con cuatro clases de base: los nodos 4, 5, 6 y 7. MLLR emplea un algoritmo de arriba abajo (top-down) para recorrer el árbol de clases de regresión. Así, comenzamos con el nodo raíz y vamos descendiendo en el árbol, de forma que se generarán transformadas para los nodos que cumplan las siguientes condiciones:


    • Dichos nodos han de tener un número suficiente de datos de adaptación.

    • Deben ser, o bien nodos terminales, o bien tener algún descendiente con un número insuficiente de datos de adaptación.

    La cantidad de datos considerada como suficiente se determina mediante un umbral de ocupación. Dicho umbral representa el número de tramas o vectores de observación considerado suficiente para estimar adecuadamente una transformación, y puede ser ajustado según nuestras necesidades.


    Volviendo al ejemplo anterior, los nodos sombreados indican que poseen un número suficiente de datos de adaptación. Sin embargo, sólo se generarán transformadas para los nodos 2, 3 y 4, y las llamaremos W2, W3 y W4. Para el nodo 1 no generamos transformada ya que sus dos hijos tienen un número de datos suficiente. Estas tres transformadas se aplicarán a las gaussianas de las cuatro clases base según el siguiente esquema: W2 se empleará con la clase de base 5, W3 se aplicará a las clases de base 6 y 7 y W4 se utilizará para la clase de base 4.
    El control del proceso de adaptación MLLR se ejerce mediante la elección del número adecuado de transformaciones lineales, que puede modificarse variando el umbral de ocupación y manteniendo fijo el número de clases de base del árbol de regresión o viceversa, manteniendo fijo el umbral de ocupación y variando el número de clases de base del árbol de regresión.

    2.1.1.2 Máximo a posteriori (MAP)


    La técnica de adaptación MAP, también llamada adaptación Bayesiana, se basa en la utilización de un conocimiento previo acerca de la distribución de los parámetros de los modelos. Dicho conocimiento podemos emplearlo para conocer de forma aproximada cómo van a ser los parámetros de los modelos, antes incluso de tener los datos de adaptación. De este modo podremos generar una estimación aceptable de los modelos adaptados con un número reducido de datos de adaptación. El conocimiento previo del que estamos hablando son los modelos que empleamos como punto de partida para la adaptación. [Díaz 2002]
    La mayoría de los sistemas de reconocimiento de habla basados en HMM son entrenados empleando un procedimiento de reestimación de máxima verosimilitud (Maximum Likelihood o ML). Los valores de los parámetros acústicos, λ, son reestimados de forma que la verosimilitud, p(x|λ), de los datos de entrenamiento, x, sea maximizada. De un modo similar, la técnica de adaptación MAP estima los modelos tratando de maximizar la siguiente distribución p(x|λ)*p0(λ), llamada distribución a posteriori. En la expresión anterior, p0(λ) es la distribución de los parámetros de los modelos de partida.
    Al igual que hicimos en MLLR, trataremos de ilustrar la explicación anterior mostrando la fórmula empleada para adaptar las medias. Si disponemos de un conjunto de adaptación compuesto por R observaciones Or, la expresión para adaptar la media de la gaussiana m en el estado j es:
    (2.3)
    Donde μjm es la media del sistema de partida para la adaptación, Lrjm (t) representa la probabilidad de que la gaussiana m del estado j en el instante t emita la observación or, y ort es el vector de adaptación r en el instante t. El parámetro τ se emplea para ajustar el equilibrio entre el efecto de los datos de adaptación y el efecto de los valores de los modelos de partida. Por tanto, es este parámetro el que controla el proceso de adaptación MAP. Se le suelen asignar valores en el intervalo entre 2 y 20, y su comportamiento se explica a continuación.


    • Valores altos de τ conceden más peso en la expresión (2.3) a los valores de los modelos de partida. Es fácil observa que cuando τ tiende a infinito la expresión queda como sigue:


    (2.4)


    • Valores bajos de τ implican potenciar el efecto de los datos de adaptación. Es más, cuando τ tiende a cero, la expresión adquiere la misma forma que la ecuación de reestimación de las medias del algoritmo de Baum-Welch, como mostramos a continuación.


    (2.5)

    La técnica de adaptación MAP presenta una ventaja fundamental: cuando la cantidad de datos de adaptación es elevada, la estimación que proporciona de los parámetros de los modelos converge con la reestimación de máxima verosimilitud (ML). Es decir, los resultados obtenidos de la adaptación a tarea o locutor convergen con los que proporcionaría un sistema robusto entrenado desde cero. Esto hace que los resultados obtenidos sean claramente superiores a MLLR.


    Sin embargo, MAP presenta dos desventajas fundamentales frente a MLLR. En primer lugar, MAP es una técnica que se aplica gaussiana a gaussiana, luego sólo los parámetros que disponen de datos de adaptación serán actualizados. Esto quiere decir que cuando el número de datos de adaptación es muy reducido, la capacidad de aprovechamiento de los mismos que tiene MLLR es muy superior a MAP.
    En segundo lugar, en el caso de MLLR, el cálculo de una misma transformación se emplea para varias gaussianas, mientras que MAP ha de adaptar una a una todas las mezclas, lo que implica que el tiempo de ejecución del algoritmo MAP es muy superior al del algoritmo MLLR, y dependiente de la cantidad de datos de adaptación. En nuestro caso este problema se reduce muy significativamente debido al reducido vocabulario que manejamos.




    Compartir con tus amigos:
  • 1   ...   4   5   6   7   8   9   10   11   ...   44


    La base de datos está protegida por derechos de autor ©odont.info 2019
    enviar mensaje

        Página principal