Universidad politécnica de madrid escuela técnica superior de ingenieros



Descargar 3.96 Mb.
Página42/44
Fecha de conversión18.08.2020
Tamaño3.96 Mb.
1   ...   36   37   38   39   40   41   42   43   44
11.1.1.- Relación de salarios
Partimos del sueldo base mensual de cada una de las personas que han intervenido en el proyecto para calcular el sueldo base diario respectivo. A éste habrá que añadir las obligaciones sociales.






Sueldo base mensual

Sueldo base diario

Gratificación

Sueldo total diario

Ingeniero Superior de Telecomunicación


1.334,59

44,49

6,07

50,56

Mecanógrafo


632,49

21,08

5,67

26,76

Tabla 28: Sueldos de las personas que han intervenido en el proyecto

11.1.2 Relación de obligaciones sociales




CONCEPTO




Vacaciones anuales retribuidas

8,33%

Indemnización por despido

1,60%

Seguro de accidentes

7,00%

Subsidio familiar

2,90%

Subsidio de vejez

1,80%

Abono días festivos

12,00%

Días de enfermedad

0,75%

Plus de cargas sociales

4,25%

Otros conceptos

15,00%

TOTAL

53,63%

Tabla 29: Obligaciones sociales
11.1.3 Relación de salarios efectivos totales





Sueldo diario

Obligaciones sociales

Total/día

Ingeniero Superior de Telecomunicación


50,56

27,11

77,67

Mecanógrafo


26,76

14,35

41,1

Tabla 30: Salarios efectivos totales
11.1.4 Coste de la mano de obra
Para calcular el coste de la mano de obra basta con aplicar el número de días trabajado por cada persona por el salario respectivo.





Días


Salario(€)/día


Total (€)


Ingeniero Superior de Telecomunicación


330

77,67

25.630,7

Mecanógrafo


40

41,1

1.644,13

TOTAL COSTE DE MANO DE OBRA








27.274,83

Tabla 31: Coste de la mano de obra
11.1.5 Coste total de materiales
Para la ejecución de este proyecto se han empleado un ordenador personal tipo PC basado en el microprocesador Pentium Core 2 Duo y una impresora Láser HP LaserJet 1320N, para la elaboración de toda la documentación necesaria. También se incluyen los gastos de material fungible y de oficina.
Los costes referentes a los materiales utilizados se reflejan en la siguiente tabla:





Precio (€)

Uso (meses)

Amortización (años)

Total (€)

1 ordenador personal para diseño


1.502,53

12

5

300,51

Compilador Microsoft Visual C++


420,71

12

5

84.14

Impresora Láser HP LaserJet 1320N


780,71

1

5

13,01

Placa de red Ethernet


120,2

-

-

120,2

Material fungible y de oficina


120,2

-

-

120,2

TOTAL GASTO DE MATERIAL


638,06

Tabla 32: Coste de materiales
11.1.6 Importe total del presupuesto de ejecución material
El presupuesto de ejecución material se calcula basándose en los costes de mano de obra y los costes materiales.



CONCEPTO

IMPORTE (€)


COSTE TOTAL DE MATERIALES


638,06

COSTE TOTAL DE MANO DE OBRA


27.274,83

TOTAL PRESUPUESTO DE EJECUCIÓN MATERIAL


27.912,89

Tabla 33: Presupuesto de ejecución material

11.2.- Importe de ejecución por contrata
Al importe de ejecución material hay que añadirle los siguientes conceptos:


CONCEPTO


IMPORTE (€)

GASTOS GENERALES Y FINANCIEROS (22%)


6.140,83

BENEFICIO INDUSTRIAL (6%)


1.674,77

TOTAL G.G. Y B.I.


7.815,6

Resultando:




IMPORTE DE EJECUCIÓN POR CONTRATA


35.728,49

Tabla 34: Importe de ejecución por contrata
11.3.- Honorarios Facultativos
Este proyecto se encuadra dentro del grupo XII: Aplicaciones de la Electrónica y Aparatos de Telecomunicación. Si se aplican las tarifas correspondientes sobre el importe del presupuesto de ejecución material se tiene:


Hasta 30.050,61 (Coef. 1,0 sobre 7%)


2.103,54

Hasta 60.101,21 (Coef. 0,9 sobre 7%)


359,16

TOTAL HONORARIOS FACULTATIVOS (€)


2.462,7

Tabla 35: Honorarios facultativos
Los honorarios que hay que aplicar son los correspondientes tanto por redacción del proyecto como por dirección, por lo que el total de honorarios es:


Honorarios de Ingeniero por redacción


2.462,7

Honorarios de Ingeniero por dirección


2.462,7

TOTAL HONORARIOS


4.925,4

Tabla 36: Honorarios totales
11.4.- Importe Total del Proyecto
El Importe Total del Proyecto es la suma del Importe de Ejecución por Contrata, los Honorarios de Redacción y los Honorarios de Dirección, al cuál habrá que aplicar el 16% de IVA.


EJECUCIÓN POR CONTRATA


35.728,49

HONORARIOS


4.925,4

IMPORTE


40.653,89

IVA (16%)


6.504,62

IMPORTE TOTAL


47.158,51

Tabla 37: Importe total del proyecto
El importe total del presente proyecto asciende a la cantidad de CUARENTA Y SIETE MIL CIENTO CINCUENTA Y OCHO euros CON CINCUENTA Y UN céntimos.
EL INGENIERO AUTOR DEL PROYECTO

Fdo.: Nuria Pérez Magariños

MADRID, FEBRERO DE 2008.

I.- MANUAL DE USUARIO
1.- Estructura de directorios

La estructura de directorios de trabajo de ROBINT se divide en dos grandes carpetas: “bin” y “data”. En el primer directorio se encuentran los ejecutables del reconocedor y en el segundo están todos los ficheros y subdirectorios relacionados con las diferentes tareas y la configuración del sistema.


1.1.- Directorio “bin
Dentro de la carpeta “bin” se encuentra el ejecutable que se debe lanzar para poner en funcionamiento el reconocedor. Actualmente dicho ejecutable se llama “mfc_ROBINT_release.exe”, pero ese nombre puede modificarse.
Para llevar a cabo una prueba aislada sin necesidad de tener en funcionamiento un kernel o simulador del robot, dentro de esta carpeta también se encuentra un acceso directo a un cliente que simula la comunicación entre el reconocedor y el robot. Dicho cliente automatiza el envío de mensajes necesarios para establecer la comunicación con el servidor y permite comprobar que los comandos se han traducido y enviado correctamente.
1.2.- Directorio “Data
En este directorio se encuentran los subdirectorios asociados a cada una de las tareas que puede realizar el robot, un subdirectorio en el que se guardarán las grabaciones, otro subdirectorio para archivos y operaciones temporales, archivos de configuración del sistema y otros ficheros básicos e invariantes necesarios para el reconocimiento.
1.2.1.- Fichero de configuración “Urbano.ini”
En este fichero de configuración se encuentran todas las variables que será necesario modificar para adaptar el sistema a las condiciones del entorno y tarea que se vaya a desempeñar en cada momento. Está dividido en cuatro grandes secciones: línea 0, Gramática, Modelos y Wav.
1.2.1.1.- Sección línea 0
Al comienzo del fichero se encuentran las variables relacionadas con la configuración del sistema para ejecutar los diferentes casos de uso que se detallan en el siguiente apartado.


  • “modoAutomatico” es la variable que indica si el usuario desea que el proceso de configuración del sistema sea o no transparente para él. Los posibles valores que puede tomar son:




    • Valor 0: El modo automático está desactivado y, por tanto, el usuario puede modificar manualmente la configuración del sistema.

    • Valor 1: El modo automático está activado y, por tanto, la configuración/ funcionamiento del sistema es transparente al usuario.




  • “adaptacionNecesaria” es la variable que indica al sistema si es necesario que el usuario lleve a cabo un proceso de adaptación de los modelos de lenguaje a su voz. Si el modo automático está activo, se ignorará el valor de esta variable. Los valores que puede tomar son:




    • Valor 0: No es necesario adaptar los modelos acústicos al locutor.

    • Valor 1: Es necesario que el locutor lleve a cabo un proceso de adaptación.

El siguiente grupo de variables que se encuentran son las variables relacionadas con el detector. Está preparado para cambiar de una configuración para un entorno ruidoso o para un entorno con bajo nivel de ruido, según se comenten unas u otras variables. El sistema ignorará todas las líneas y textos que vayan precedidos de punto y coma en los fichero de inicialización, considerándolos comentarios.




;Nivel low del detector HC = 3 ; en dbs

Nivel low del detector HC = 6 ; en dbs *

;Nivel speech del detector HC = 6 ; en dBs

Nivel speech del detector HC = 20 ; en dBs *

;Nivel high del detector HC = 9 ; en dBs

Nivel high del detector HC = 25 ; en dBs *



Cuadro 48: Configuración de las variables relativas al ruido en el entorno
Actualmente se encuentra activa la configuración para un entorno de grabación con alto nivel de ruido.


  • “Nivel low del detector HC” es el nivel en decibelios relativos al ruido de fondo estimado a partir del cual el detector considera que puede haber habla. Además, una vez se ha terminado de hablar el sistema deberá detectar que los niveles de sonido se encuentran por debajo de este umbral durante un cierto tiempo para considerar que ha terminado de hablarse. Actualmente su valor es 6 dB debido a la configuración de entorno ruidoso. Si el entorno no fuese ruidoso el valor sería 3dB.




  • “Nivel speech del detector HC” es el nivel en decibelios que debe superarse durante un cierto tiempo para que el sistema considere que se está hablando. Su valor actual es 20 dB para la configuración de entorno ruidoso. El valor para el entorno no ruidoso es de 6dB.




  • “Nivel high del detector HC” es el nivel máximo que debe superarse al menos una vez mientras el usuario habla para que se considere como habla. Su valor actual es 25 dB ya que la configuración activa es la correspondiente a un entorno ruidoso. Si el entorno no es ruidoso el valor de esta variable es 9dB.

Dentro de este grupo de variables del detector también se encuentran las variables que controlan los tiempos de silencio para determinar el comienzo y el final de la voz. De todas ellas, la más importante es:




  • “Tiempo máximo debajo de Speech HC” que determina los milisegundos que deben transcurrir para que el detector considere que el locutor ha terminado de hablar. Su valor actual es 700 ms, pero puede subirse en caso de que haya más ruido o bajarlo si hay menos ruido.

El siguiente bloque de variables determina cuáles son los dispositivos asociados con las tarjetas de sonido del ordenador:




  • “SoundBlasterIn”: Dispositivo de entrada de la tarjeta de sonido. Su valor varía entre 0 o 1 dependiendo del ordenador. Actualmente vale 0.

  • “SoundBlasterOut”: Dispositivo de salida de la tarjeta de sonido. Su valor varía entre 0 o 1 dependiendo del ordenador. Actualmente vale 0.

Después están las variables para el reconocimiento, la parametrización y la comprensión:




  • “Tiempo máximo reconocimiento continua” especifica la duración en segundos de la frase más larga que puede decirse. Una mayor duración de frase implica un mayor consumo de memoria. Su valor actual es 10 segundos.




  • “Aprendizaje Reglas” es un flag que indica si el método de aprendizaje que se empleará a la hora de reconocer y traducir lo reconocido al comando que se enviará al robot se realizará mediante el empleo de reglas. Puede tomar dos posibles valores:




    • Valor 0: Desactiva el aprendizaje mediante reglas.

    • Valor 1: Activa el aprendizaje mediante reglas. Es un método más lento pero permite asociar varios comandos a una frase.

Actualmente el valor de esta variable es 0.




  • “Apredizaje Trigramas” es un flag que indica si el método de aprendizaje que se empleará a la hora de reconocer y traducir lo reconocido al comando que se enviará al robot se realizará mediante el empleo de trigramas. Puede tomar dos posibles valores:




    • Valor 0: Desactiva el aprendizaje mediante trigramas.

    • Valor 1: Activa el aprendizaje mediante trigramas. Es un método más lento pero sólo puede asociarse un comando a cada frase.

Actualmente el valor de esta variable es 1.


Por último, se definen las variables del entorno de trabajo. Las tres primeras variables establecen el método de activación y desactivación del sistema:



  • “ActivacionVocal” tiene dos posibles valores:




    • Valor 0: El sistema reconoce y envía comandos al robot sin necesidad de activarlo mediante el empleo de palabras clave.

    • Valor 1: Aunque el sistema esté reconociendo, no enviará nada al robot hasta que el usuario no pronuncie la palabra “AtiendeAhora”. Una vez el usuario la diga y el sistema la reconozca, comenzará a enviar los comandos que se digan hasta que el usuario pronuncie la frase “Deja de atenderme”, momento a partir del cual dejarán de enviarse los comandos aunque el reconocedor siga activo.

El valor actual de la variable es 0.




  • “PalabraAtiendeahora” es la variable que contiene la palabra con la que el usuario activará el sistema. Actualmente su valor es “Atiendeahora”, pero puede modificarse.




  • “PalabraDescansa” es la variable que guarda la palabra con la que el usuario podrá desactivar el sistema. Actualmente su valor es “Dejadeatenderme”, pero puede modificarse.

Hay que tener en cuenta que las palabras o frases que se especifiquen como activación y desactivación del sistema deben formar parte de las frases del fichero de comandos para que el sistema pueda reconocerlas y traducirlas al comando correcto.


Las tres siguientes variables se relacionan con la comunicación entre cliente y servidor:


  • “PalabraRuido” contiene la palabra que el cliente enviará como respuesta para permitir al sistema la estimación inicial de los niveles de ruido del entorno. Su valor actual es “ruido” pero puede cambiarse.




  • “PalabraEstimarRuido” almacena la palabra que se enviará al cliente para pedir permiso al comienzo de la ejecución para estimar el ruido. Su valor actual es “EstimarRuido”.




  • “PuertoReconocimiento” tiene el número de puerto donde se encuentra el servidor de habla. El valor actual es 6003.

Las últimas variables de esta sección se refieren al filtrado de las palabras reconocidas en función de la confianza con que han sido reconocidas y a la posibilidad de eliminar ficheros antiguos que puedan llevar a error en caso de que no se sobre-escriban correctamente.




  • “usaconfianzaPonderada” indica al sistema el tipo de filtro que ha de utilizar para determinar cómo de acertado ha sido un reconocimiento. Los valores que puede tomar son:

    • Valor 0: El parámetro que se emplea para determinar si se ha reconocido con suficiente confianza es la confianza media de la frase.




    • Valor 1: El parámetro que se emplea para determinar si se ha reconocido con suficiente confianza es la confianza ponderada de la frase según el número de tramas de cada palabra.

    • Valor 2: Se tienen en cuenta ambos filtros, dando como bueno el reconocimiento en el momento que pase alguno de ellos.

El valor actual de esta variable es 2.




  • “enviaConfianzaCompleta” es una variable que indica si al texto que se ha reconocido hay que añadirle la confianza con que ha sido reconocido o no. Los posibles valores que tiene son:




    • Valor 0: No se añade la confianza al texto reconocido y enviado.

    • Valor 1: Se añade la confianza al texto reconocido.

Actualmente su valor es 0.




  • “limpiaDirectorios” es una variable que indica si el usuario quiere eliminar todos los ficheros y archivos de las carpetas de uso para evitar posibles errores derivados de utilizar archivos antiguos o equivocados. Puede tener los siguientes valores:




    • Valor 0: No se eliminan ficheros.

    • Valor 1: Se eliminan los ficheros conflictivos.

Actualmente su valor es 1.


1.2.1.2.- Sección Gramática
La sección de gramática tiene las siguientes variables:


  • “dir_dic” es el directorio en el que se encuentran los diccionarios. Puesto que cada tarea tiene asociados unos diccionarios, este directorio deberá corresponderse con el de la tarea. El formato es: ..\data\nombreDirectorioTarea\. Es muy importante poner la última barra ya que, en caso de no ponerla, el sistema no funcionará.




  • “dir_gram” es el directorio en el que están las gramáticas de la tarea y, por lo tanto, tiene el mismo valor que el directorio de los diccionarios.




  • “NomFicheroTextoEtrenamiento” contiene el nombre del fichero de frases de cada tarea con la extensión .txt




  • “regeneraComprensión” es un flag que indica al sistema la necesidad de generar la compresión, es decir, asociar las frases con los comandos por las que deben traducirse una vez sean reconocidas. Si tiene un valor igual a 0, no se regenerará la comprensión y, por lo tanto, el tiempo que tardará el sistema en estar preparado para reconocer será menor. Hay que tener cuidado con este flag porque si se realiza un cambio en el fichero de comandos y el flag está a 0, el sistema no asimilará los nuevos cambios realizados. Su valor actual es 1.




  • “max_n_palabras_continua” contiene el número de palabras diferentes que es capaz de reconocer el sistema. Su valor actual es 1000 palabras.




  • “FactorSuavizado” permite al sistema ser capaz de contemplar casos no aparecidos en el texto de entrenamiento. Esta variable puede tomar valores entre 0 y 1. Si está próxima a cero, permite una mayor flexibilidad a la hora de reconocer frases que no es encuentren en la lista predefinida. Si se aproxima a uno, el sistema estará casi limitado a la lista de frases predefinidas, aunque podría llegar a ser capaz de comprender si el usuario no dice las frases predefinidas exactamente de la manera en que están escritas. Sólo para valores bajos del factor de suavizado se empleará la confianza como medida de aceptación de una frase. Actualmente el valor de esta variable es 0.01.


1.2.1.3.- Sección Modelos
Esta sección sólo contiene una variable:


  • “dir_hmm” en la que se indica el directorio en el que están los modelos acústicos que se utilizarán para llevar a cabo el reconocimiento. La extensión de dichos ficheros es .ascii y .tri.


1.2.1.4.- Sección Wav
Las variables de esta sección permitirán diferenciar unas grabaciones de otras, ya que el nombre del locutor y la sesión se emplean en el momento de generar una grabación y nombrarla. La variable micrófono se empleará en el modo automático que se detalla en la siguiente sección de casos de uso. Es importante que no haya espacios después del nombre del locutor y del número de sesión, para evitar posibles problemas para encontrar los ficheros de audio que se han generado.


  • “Locutor” guarda el nombre del usuario que habla al sistema. Su valor actual es robint_prueba.

  • “Sesion” indica la sesión de grabación en la que se está trabajando. Su valor actual es 0.

  • “Micrófono” indica el tipo de micrófono que se está empleando. Puede tomar dos posibles valores que deben estar completamente escritos en minúscula y sin tildes:

    • cable: el micrófono empleado está físicamente conectado al ordenador.

    • inalambrico: El micrófono empleado no se encuentra físicamente conectado al ordenador sino lo que está conectado al ordenador es un receptor.



1.3.- Directorio de tarea
Dentro del directorio “Data” se creará una nueva carpeta por cada tarea diferente que pueda llevar a cabo el robot. Cada directorio de tarea debe contener desde el principio tres archivos fundamentales:


  • “dicc.dic”: Este fichero es necesario para el aprendizaje mediante reglas. Permite agrupar las palabras en categorías de forma que el sistema es capaz de aprender con menos reglas y en menos tiempo. La estructura del fichero es: el número de palabras que contiene el fichero en la primera línea y a continuación, una palabra con su categoría en cada línea. Puede estar vacío, pero en ese caso debe tener un cero en la primera línea.




  • “Palfunc.lis”: Fichero necesario para el aprendizaje mediante reglas. Contiene las palabras que se considera que no aportan significado, de forma que no se generan reglas con ellas. Debe contener alguna palabra, no puede estar vacío. Cada palabra función se pone en una nueva línea.




  • Fichero de comandos: Este fichero contiene las frases que el sistema debe ser capaz de reconocer, cada una de ellas seguida del comando con el que debe asociarse. Debe tener el mismo nombre que el FicheroTextoEntrenamiento definido en el archivo de configuración, pero con la extensión .comandos. La estructura del fichero es la siguiente:

    • No puede haber líneas en blanco ni al principio ni al final del fichero.

    • Las líneas no pueden comenzar por mayúscula

    • Soporta tildes

    • Cada línea contiene una frase y el comando por el que debe ser traducida. El formato de una línea es:

eres inteligente -> orden=[inteligencia]


A la izquierda de la flecha se escribe la frase y a la derecha debe aparecer el concepto asociado a la frase y, entre corchetes, el valor que se da a ese concepto que es lo que se mandará al robot como comando entendido. El valor puede coincidir con alguna de las palabras de la frase y debe escribirse en minúscula. Es recomendable que no haya espacios en blanco en la parte derecha de la sentencia para evitar errores.
1.4.- Directorio de grabaciones
En este directorio se guardan las grabaciones que se van realizando de las frases dichas por el usuario. El nombre de las mismas está relacionado con el usuario y la sesión de grabación. Un ejemplo de nombre de grabación sería:
locutor_sesion_numero de grabacion.wav
1.5.- Directorio temporal
Este directorio se emplea para realizar operaciones intermedias en el momento de la generación de diccionarios y gramáticas y para guardar los archivos de depuración que se generan durante la ejecución. Puede limpiarse en función de un flag que se lee del fichero de configuración.
2.- Casos de uso
A continuación se detallan las posibles configuraciones de uso del sistema, indicando en cada una de ellas los pasos a seguir para lanzar el programa y las ventanas que aparecerán.
2.1.- Caso 1: Modo automático
Según esta configuración, el sistema cargará automáticamente la configuración del sistema que haya sido definida en el fichero de configuración “urbano.ini” que se ha descrito en la sección anterior. Los pasos a seguir para lograr esta configuración son:


  • Paso 1: Abrir el archivo “urbano.ini” que se encuentra en la carpeta “DATA” y realizar los siguientes cambios y/o comprobaciones:




    • Comprobar que está activado el modo automático (variable modoAutomático=1), activándola en caso de que no lo estuviese.




    • Comprobar que la variable usuario de la sección WAV tiene asociado el nombre del usuario que en ese momento va a utilizar el sistema, cambiándolo en caso de que fuese necesario. Se deben escribir todas las letras minúsculas y teniendo cuidado de no dejar espacios detrás del nombre. Un ejemplo sería:

usuario = carlos




    • Verificar que la variable micrófono de la sección WAV tiene el valor que se ajusta a las características del micrófono que va a emplearse. Si el micrófono está físicamente conectado al ordenador mediante un cable:

microfono = cable


Si el micrófono es inalámbrico, la variable debe tener el siguiente valor:
microfono = inalambrico
En caso de que la variable no tenga el valor deseado, deberá cambiarse al valor correcto, escribiendo todas las letras en minúscula y sin tildes.


  • Paso 2: Lanzar la aplicación “mfc_ROBINT_release.exe” que se encuentra en la carpeta “BIN”. Al hacerlo, aparecerá la ventana del reconocedor cuya funcionalidad se detalla en la sección de interfaz gráfica del sistema.




  • Paso 3: Lanzar el proceso CLIENTCOM desde el acceso directo que se encuentra en la carpeta “BIN”. Al hacerlo, aparecerá la siguiente ventana:





  • Paso 4: Decir las frases que se deseen dentro de las que se hayan definido en el archivo de comandos guardado en el directorio de tarea o frases similares.



2.2.- Caso 2: Modo no automático con adaptación
En esta situación, el usuario tendrá la posibilidad de configurar los parámetros más importantes del sistema y deberá realizar una fase de adaptación del sistema a su voz. Los pasos a seguir para tener esta configuración son:


  • Paso 1: Abrir el archivo “urbano.ini” que se encuentra en la carpeta “DATA” y realizar los siguientes cambios y/o comprobaciones:




    • Comprobar que está desactivado el modo automático (variable modoAutomático = 0), desactivándolo en caso de que no lo estuviese.




    • Comprobar que está activada la adaptación del sistema al hablante (variable adaptacionNecesaria = 1), activándola en caso de que no lo estuviese.




  • Paso 2: Lanzar el proceso CLIENTCOM desde el acceso directo que se encuentra en la carpeta “BIN”.




  • Paso 3: Lanzar la aplicación “mfc_ROBINT_release.exe” que se encuentra en la carpeta “BIN”. Al hacerlo aparecerá una ventana de configuración del sistema cuya funcionalidad se detalla en la sección de interfaz gráfica.




  • Paso 4: Lo siguiente que aparecerá será una ventana en la que el usuario deberá introducir las características de la situación en la que va a llevar a cabo la adaptación. La ventana es la siguiente:



El usuario debe rellenar todos los campos obligatoriamente salvo el de descripción que es opcional. A continuación se da una breve explicación de cada uno de los campos de la ventana.


      • Nombre de usuario: El locutor debe introducir su nombre, con minúsculas y sin acentos.




      • Entorno acústico: Consiste en una lista desplegable en la que se ofrecen los posibles entornos que el usuario puede encontrarse. Actualmente las posibilidades que se ofrecen son: entorno ruidoso o entorno no ruidoso, como puede verse en la figura.





      • Tipo de micrófono: Al igual que con el tipo de entorno, se ofrece una lista de posibles micrófonos que se pueden emplear. Actualmente esas posibilidades son: micrófono con cable o micrófono inalámbrico, tal como muestra la figura.





      • Tipo de adaptación: El usuario puede elegir qué tipo de adaptación desea realizar. Puede ser una adaptación genérica del sistema a su voz (seleccionando “Adaptación Genérica”) de forma que pueda realizar cualquier tarea después de esa adaptación o puede ser un adaptación específica para una tarea determinada (seleccionando “Adaptación a Tarea”). Sólo puede seleccionarse un tipo de adaptación.



      • Técnica de adaptación: También puede determinar qué tipo de técnica desea emplear para adaptar el sistema a su voz. Esas técnicas pueden ser bien MAP (Máximo A Posteriori) o MLLR (Regresión Lineal de Máxima Verosimilitud). Sólo puede seleccionarse una de las técnicas.




      • Nombre del fichero de comandos: En caso de que el usuario haya seleccionado “Adaptación a Tarea” como tipo de adaptación que desea realizar, debe indicar el fichero de comandos asociado a la tarea que desea utilizar. Debe introducir tanto el nombre del fichero como la extensión, por ejemplo:





      • Descripción del modelo: El usuario puede rellenar opcionalmente este campo en caso de que quiera añadir alguna particularidad de la situación en la que realiza la adaptación, que no hubiese sido reflejada en ninguno de los campos anteriormente descritos.



  • Paso 5: Una vez introducidas y aceptadas las características de la adaptación, aparece la ventana de grabación, mediante la cual el usuario puede grabar las frases necesarias para adaptar el sistema a su voz de manera sencilla. La vista inicial de esta pantalla es:


Los pasos a seguir para llevar a cabo una grabación son:


      • Lo primero que hay que hacer es pulsar el botón “siguiente” para que aparezca la primera frase que el usuario debe leer.





      • Una vez hecho eso y cuando el usuario esté preparado para leer la frase en voz alta y grabarla, debe pulsar el botón “Comienzo”, cambiando la apariencia de la ventana a la siguiente:






      • Cuando el usuario haya terminado de decir la frase en voz alta, deberá pulsar el botón “Fin” para detener la grabación. Cuando se pulse “Fin”, en el recuadro de “Texto Reconocido” aparecerá el texto que el reconocedor ha entendido. Si el usuario está conforme con lo que se ha reconocido, puede continuar con las grabaciones pulsando el botón “Siguiente” para que aparezca la siguiente frase o, en caso de que no esté conforme con el resultado del reconocimiento, puede pulsar el botón “Atrás” para repetir la grabación.




      • Si el usuario termina de grabar la última frase y pulsa el botón “Siguiente”, aparecerá en pantalla un mensaje indicándole que ha terminado satisfactoriamente la adaptación al sistema. En el momento que este mensaje aparece, el usuario deberá cerrar la ventana para poder continuar.




  • Paso 6: Una vez cerrada la ventana de adaptación, aparecerá la ventana del reconocedor cuya funcionalidad se detalla en la sección de interfaz gráfica del sistema.




  • Paso 7: Decir las frases que se deseen dentro de las que se hayan definido en el archivo de comandos guardado en el directorio de tarea o frases similares.


2.3.- Caso 3: Modo no automático sin adaptación
Esta opción permite al usuario configurar los parámetros principales del sistema y seleccionar los modelos acústicos que desea utilizar en el reconocedor del sistema. Los pasos para utilizar esta opción se detallan a continuación:


  • Paso 1: Abrir el archivo “urbano.ini” que se encuentra en la carpeta “DATA” y realizar los siguientes cambios y/o comprobaciones:




    • Comprobar que está desactivado el modo automático (variable modoAutomático = 0), desactivándolo en caso de que no lo estuviese.




    • Comprobar que está desactivada la adaptación del sistema al hablante (variable adaptacionNecesaria = 0), desactivándola en caso de que no lo estuviese.




    • Comprobar que la variable usuario de la sección WAV tiene asociado el nombre del usuario que en ese momento va a utilizar el sistema, cambiándolo en caso de que fuese necesario. Se deben escribir todas las letras en minúsculas y teniendo cuidado de no dejar espacios detrás del nombre. Un ejemplo sería:

usuario = carlos




  • Paso 2: Lanzar el proceso CLIENTCOM desde el acceso directo que se encuentra en la carpeta “BIN”. Al hacerlo, aparecerá la siguiente ventana:


  • Paso 3: Lanzar la aplicación “mfc_ROBINT_release.exe” que se encuentra en la carpeta “BIN”. Al hacerlo aparecerá una ventana de configuración del sistema cuya funcionalidad se detalla en la sección de interfaz gráfica. El usuario debe introducir su nombre en el campo reservado a tal efecto para asegurarse de que el sistema lo almacena adecuadamente.




  • Paso 4: Una vez configurado el sistema, aparece una ventana en la que se pide al usuario que seleccione los modelos acústicos que desea cargar. Para esta selección pueden darse dos situaciones:



    • Usuario desconocido por el sistema: Esta situación se da cuando el usuario nunca ha realizado el proceso de adaptación al sistema, motivo por el cual éste no reconoce su nombre como el de un usuario registrado o conocido. En este caso la ventana de selección de modelos se abrirá en el directorio “DATA”, dentro del cual el usuario deberá buscar y seleccionar el fichero “Speechdat_Continua_MMF.ascii”.




    • Usuario conocido: Si el usuario ha realizado alguna vez el proceso de adaptación, el sistema reconocerá su nombre como el de un usuario conocido. En este caso, la ventana de selección de modelos se abrirá en su carpeta de modelos personal. Una vez en ella, y si el usuario ha realizado la adaptación para las condiciones en las que se encuentra, deberá ir navegando por las carpetas para localizar el modelo acústico ya adaptado a su voz y a las circunstancias. A continuación se muestra el árbol de directorios que un usuario puede llegar a tener en caso de que haya realizado adaptaciones en todas las circunstancias que actualmente permite el sistema:



MCC = Micrófono con cable

MSC = Micrófono sin cable

Ruido = entorno ruidoso

no Ruido = entorno no ruidoso



Una vez el usuario llegue a la carpeta que desea, debe seleccionar el fichero “Speechdat_Continua_MMF.ascii” que se encuentra allí.


  • Paso 5: Una vez seleccionados los modelos acústicos, aparecerá la ventana del reconocedor cuya funcionalidad se detalla en la sección de interfaz gráfica del sistema.




  • Paso 6: Decir las frases que se deseen dentro de las que se hayan definido en el archivo de comandos guardado en el directorio de tarea.


3.- Interfaz gráfica del sistema
3.1- Ventana de configuración
La ventana de configuración permite al usuario modificar la configuración de los parámetros que más a menudo pueden cambiar debido a las condiciones cambiantes del entorno y las tareas.

3.2.- Ventana del reconocedor
El entorno de trabajo del reconocedor consiste en una ventana de diálogo. Antes de establecer cualquier tipo de comunicación con el robot o con un cliente de prueba, se cargan e inicializan los diccionarios y gramáticas que se emplearán en el reconocimiento. Mientras se lleva a cabo el proceso, la ventana de diálogo muestra este aspecto:

Una vez se han cargado los diccionarios y gramáticas, aparece un mensaje que indica al usuario que puede comenzar a hablar.
A continuación se explican con detalle los elementos de la ventana del reconocedor:



  • Número 1: Ventana en la que se muestra la forma de onda de la señal que está recibiendo por el micrófono.




  • Número 2: Cuadro en el que se muestran los mensajes para el usuario. Estos pueden ser:




    • Cargando los diccionarios e inicializando el reconocedor”: Si el usuario habla, el sistema ignorará lo que se haya dicho.




    • Hable cuando quiera”: El sistema reaccionará a lo que es usuario diga siempre que se haya establecido la comunicación con el cliente o robot.




    • Reconociendo”: El sistema se encuentra procesando lo que ha dicho el usuario y no es recomendable hablar mientras dure este proceso.



  • Número 3: Cuadro en el que se muestra el texto que ha sido reconocido. En el caso de que el aprendizaje se realice empleando trigramas también aparecerá el comando que se envía al cliente.




  • Número 4: Botón que permite terminar con la aplicación del reconocedor. En ocasiones la aplicación no se cierra completamente por lo que es recomendable revisar los procesos activos dentro del administrador de tareas para comprobar que la aplicación ha sido cerrada por completo




  • Número 5: Cuadro en el que se muestra la confianza con la que el sistema ha reconocido la frase que se muestra por pantalla como texto reconocido. Si dicha confianza no supera el umbral, no se enviará ningún comando al robot. Un cero significa que no tiene ninguna confianza en el texto que ha reconocido, mientras que un 1 supone confianza total en lo reconocido.




  • Número 6: Cuadro que muestra el valor del umbral de confianza que deben superar las frases para que el comando que tienen asociado sea enviado al robot. Por configuración dicho valor se inicializa con 0,71 pero puede ser modificado.




  • Número 7: Barra de desplazamiento que permite modificar el umbral de confianza, prevaleciendo el valor que se especifique mediante este elemento frente a valores que hayan podido establecerse como valores de inicialización.





Compartir con tus amigos:
1   ...   36   37   38   39   40   41   42   43   44


La base de datos está protegida por derechos de autor ©odont.info 2019
enviar mensaje

    Página principal