Búscalo aquí:

Reconocimiento de palabras aisladas habladas en español usando MFCC y MODGDF

Un Sistema de Reconocimiento Automático del Habla (SRAH) es aquel que es capaz de gestionar la señal de voz emitida por un individuo. Para lograr esto, dicha señal pasa por un proceso de digitalización para obtener elementos de medición (muestras), las cuales permiten caracterizar su comportamiento e implementar procesos, enfocados al reconocimiento. Los SRAH se encuentran en la constante búsqueda de métodos que les permitan implementar eficientemente cada una de estas etapas y obtener mejores resultados, por este motivo los autores presentan diferentes métodos de extracción de características orientados al reconocimiento de habla, los cuales mayormente se basan en la magnitud del espectro de la Transformada de Fourier.



El MFCC es uno de los métodos que goza de popularidad debido a los buenos resultados que brinda por su robustez frente al ruido y gracias a que se basa en el uso de la Transformada de Fourier ventaneada para obtener las frecuencias de la señal y a partir de ellas sus respectivos coeficientes cepstrales en escala de Mel, de esta manera se logrará que SRAH tenga un comportamiento aproximado al sistema auditivo humano. Sin embargo, el uso único de la Transformada de Fourier logra que los SRAH obvien un factor muy importante que la audición humana toma muy en cuenta. Ese factor es la información de la fase de la señal de habla. El Modified Group Delay Feature (MODGDF) es un método de extracción de características y que obtiene la información del espectro de la fase, por lo que se convierte en un eficiente complemento del MFCC para lograr una mayor tasa de reconocimiento.
Para la etapa de reconocimiento existen métodos basados en programación dinámica, redes neuronales, modelos ocultos de markov, entre otros. La elección de alguno de ellos depende de factores como el idioma, si es dependendiente o no del locutor, si se trata de palabras aisladas o de habla continua e incluso de factores inherentes a la misma técnica a utilizar. El algoritmo Dynamic Time Warping (DTW) usa la técnica de comparación de plantillas a través del mapeo no lineal de una señal durante su comparación con otra, lo que le permite brindar buenas tasad de aceptación convirtiéndose en una técnica muy conocida y usada por la comunidad.

En este contexto, presentamos los resultados de usar los métodos MFCC y MODGDF de manera aislada y en conjunto, como extractores de características, para lograr el reconocimiento de palabras aisladas (Isolated Word Recognition) habladas en idioma español emitidas por un locutor y utilizando el algoritmo DTW para la clasificación de los patrones de habla en experimentos de reconocimiento dependientes e independientes del locutor.

Tabla de tasas de acierto y error de reconocimiento de palabras dependientes del locutor, usando como métodos de extracción de características: MFCC, MFCC con delta, MFCC con doble delta, MODGDF y MFCC con doble delta junto a MODGDF.
Tabla de tasas de acierto y error de reconocimiento de palabras independientes del locutor, usando como métodos de extracción de características: MFCC, MFCC con delta, MFCC con doble delta, MODGDF y MFCC con doble delta junto a MODGDF.
Se realizaron experimentos con el objetivo de medir la calidad de las características obtenidas a través de la obtención de tasas de reconocimiento significativas, considerando que la mayoría de palabras del universo tomado presentan las letras "s" y "r", las cuales durante los experimentos fueron las que causaron mayores tasas de error. De esta manera, en las tablas mostradas se puede observar que la tasa de aciertos, en todos los casos, es mayor cuando se usa un factor de pre-énfasis = 0.9.



La unión de características obtenidas por los métodos MFCC y MODGDF otorgan una mejor tasa de aciertos (55.17%) que las obtenidas por cualquiera de ellos de manera independiente, lo que permite fortalecer el enunciado que define al MODGDF como un eficiente complemento del MFCC, convirtiéndose a su vez en una buena propuesta para su uso en SRAH comerciales.

Más detalles en [1]:
[1] Valverde-Rebaza Jorge, Amaro-Calderón Dámaris (2010), Reconocimiento de Palabras Aisladas habladas en Español usando la unión de los Métodos MFCC y MODGDF en la Extracción de Características. Proceedings de IX Jornadas Peruanas de Computación (JPC2010), Perú. [pdf]


Quieres leer más post como éste???...suscribete aquí!!!

5 comentarios:

  1. Disculpa el inconveniente, el link ya esta habilitado y disponible.

    Saludos

    ResponderEliminar
  2. Buen trabajo y buenos resultados obtenidos, interesante la unión de estos dos extractores de características de voz.

    ResponderEliminar
  3. Excelente trabajo pero no puedo decir lo mismo del post.Yo creo que deberías publicar ejemplos de como hacerlo para aprender, no crees?

    ResponderEliminar
  4. hola Wilfo, gracias por la recomendación, el post tiene más un objetivo informativo, más detalles sobre el método en sí se encuentran en el artículo (del cual coloco su link) y otros detalles de cómo comenzar con la programación los puedes encontrar en el tag Procesamiento del Habla

    saludos

    ResponderEliminar

Bienvenido a jcGeorge's Blog!!!

Por favor deja tu comentario, consulta o sugerencia, procura mantener habilitado tu perfil de Blogger o deja un enlace a tu blog o web.

Gracias por leer este blog!!!

Related Posts Plugin for WordPress, Blogger...