Sistemas de reconocimiento de voz: sus desafíos

Yolagny Díaz Bermúdez / yolagny.diaz@mtz.jovenclub.cuHace un tiempo al disfrutar de un filme de ciencia-ficción en el que el protagonista se comunicaba mediante la voz con su casa, equipos eléctricos como computadoras, televisores, etcétera nos parecía pura ficción o tal vez una ciencia bien lejana, pero la realidad supera las expectativas y en la actualidad muchos de estos escenarios existen.

Los SRAH (Sistemas de Reconocimiento Automáticos del Habla) tienen hoy en día una vasta aplicación en la industria, el hogar, la oficina, etc. Su advenimiento es apenas el comienzo de una nueva era donde la tecnología forma parte de nuestras vidas. Esto quizás no sea raro, pues al fin y al cabo la señal de voz es parte del ser humano, se nace y se vive con ella, aunque es una de las últimas manifestaciones del individuo en su capacidad de acoplamiento con el entorno. Muchos de los elementos que permiten una vida estable al ser humano son gracias al equilibrio que logra a lo largo de su edad temprana, en lo que se conoce como etapa de sondeo, que se manifiesta en la coordinación entre los sonidos emitidos por el tracto vocal y los que percibe el oído interno.

A lo largo del tiempo estas características se van modificando gracias en parte a la región, costumbres y lugar de residencia del individuo. Con lo que la entonación y acentuación de lo que se pronuncia cambia, y es diferente para los individuos no sólo a lo largo del mundo, sino también, a lo largo de una región como un país. Sin embargo, la maquinaria humana es tan fascinante y tiene un alto rendimiento en cuestiones de reconocimiento, que incluso en las situaciones más adversas logra realizar un reconocimiento altamente confiable. Además es capaz de modificar sus estructuras internas con el fin de realizar un acoplamiento en tiempo real, del sentido de las frases y de los elementos que conllevan todo tipo de información. Esto es factible siempre y cuando la relación señal a ruido sea lo menos significativa posible, o bien la atenuación de la señal de información no sea demasiado grande.

Para el caso específico del reconocimiento de voz por computadora, esto no es una realidad por desagracia. El crear un sistema de reconocimiento para la computadora aún dista mucho de ser el sistema perfecto que posee el ser humano, sin embargo, se trabaja por aproximarlo en gran medida.

El estudio del reconocimiento de voz data ya desde un poco más de 50 años; sin embargo, como habíamos mencionado, los resultados obtenidos distan aún de ser los deseados. Por un momento y debido a sus características, se pensó que el fonema sería el parámetro de apoyo sobre el cual todos los problemas de reconocimiento recaerían; pero al paso del tiempo se ha observado que no es así, y de hecho, la inclusión de nuevos parámetros de estudio se hace más que necesario, indispensable.

La historia esencial de los sistemas de reconocimiento de voz se puede resumir de la siguiente forma:
– Inicios: Década de los 50
* Reconocimiento de dígitos aislados monolocutor.
* Reconocimiento de 10 sílabas monolocutor.
* Reconocedor fonético. University College in England.
* Reconocedor de vocales independiente del hablante.

– Bases: años 60’s – Comenzó en Japón (Laboratorios NEC)
* Alineación Dinámica en Tiempo.
* Reconocimiento del Habla Continua (Carnegie Mellon University).

– Las primeras soluciones: años 70’s – El mundo probabilístico.
* Reconocimiento de palabras aisladas.
* IBM: desarrollo de proyectos de reconocimiento de grandes vocabularios.
* Gran inversión en los EEUU: proyectos DARPA.
* Sistema HARPY (CMU), primer sistema con éxito.

– Reconocimiento del Habla Continua: años 80’s – Expansión, algoritmos para el habla continua y grandes vocabularios
* Explosión de los métodos estadísticos: Modelos Ocultos de Markov.
* Introducción de las redes neuronales en el reconocimiento de voz.
* Sistema SPHINX.

– Desarrollo: años 90’s – Primeras aplicaciones: ordenadores y procesadores baratos y rápidos.
* Sistemas de dictado.
* Integración entre reconocimiento de voz y procesamiento del lenguaje natural.

– Una realidad: años 00’s – Integración en el Sistema Operativo
* Integración de aplicaciones por teléfono y sitios de Internet dedicados a la gestión de reconocimiento de voz (Voice Web Browsers).
* Aparece el estándar VoiceXML.

Los software de reconocimiento de voz son diferentes a cualquier otro tipo de aplicación de computadora. Estas aplicaciones le abren un mundo nuevo de posibilidades a los desarrolladores, pero también tienen sus desafíos.

En vez de apretar botones o interactuar con la pantalla de su computadora, los usuarios se comunican con ella mediante la voz. Esto implica que existirá un nivel de incertidumbre asociado con su aportación, debido a que el sistema de reconocimiento de voz solo efectúa probabilidades, no certeza. Esto implica evidentemente la posibilidad de que el sistema no reconozca palabras con total certeza. Algunas veces el sistema puede no reconocer lo que esté diciendo un usuario como es el caso en que éste se encuentre en una zona ruidosa, esta sería la desventaja más frecuente. Independientemente del esfuerzo y cuidado que se ponga en el desarrollo de estos tipos de software existirán ocasiones en que la aplicación no reconocerá la aportación del cliente con certeza.

Es posible que la causa de este problema no se encuentre en la aplicación en sí, sino en la interferencia del ruido externo con los vocablos del hablante. En estos casos es posible que el mecanismo de reconocimiento devuelva resultados pobres, lo que sería un indicativo de interferencia en el sistema, por lo que se podría tomar medidas en este sentido.

Si el reconocimiento de voz se efectúa a distancia y el usuario o cliente tiene mala recepción o conexión a Internet saturada el sistema puede verse afectado en gran manera al punto de un posible fallo en el reconocimiento, por lo que cuando se diseñe una aplicación de reconocimiento de voz es muy importante que se tomen todos estos factores en cuenta para aumentar la eficacia de su aplicación.

Algunos usos de esta tecnología.

En la telefonía una aplicación habilitada con voz IVR le da mucho más flexibilidad a sus usuarios. Los sistemas de voz están basados en el concepto en cual el sistema le hace preguntas al usuario y permite que el usuario responda estas preguntas, de una manera natural e intuitiva. Las aplicaciones de voz también pueden presentarle más opciones al usuario en cualquier momento dado. No están limitadas por cuantas teclas de números tenga un teléfono. Los usuarios pueden simplemente decir lo que deseen y navegar así sus interacciones de una manera mucho más veloz.

Por otra parte los routers de llamadas se vuelven más fáciles de usar para los usuarios, debido a que no tienen que saber cómo deletrear un nombre para decirlo. Esto facilita mucho a aquellos usuarios que están manejando o que no tienen la capacidad de ver las teclas de su teléfono para interactuar con su sistema. Los usuarios pueden hacer aportaciones indefinidas, lo cual no podría ser posible en otros sistemas. Algunos ejemplos son: especificar la ciudad y el estado para obtener un directorio de teléfonos, escoger un color especifico o crear un coche, seleccionar los ingredientes de una pizza, hablar a un teléfono con solo decir el nombre de la persona y buscar domicilios.

Dentro del amplio campo de acción de las interfaces basadas en voz se encuentra esta novedosa aplicación propuesta por Colin Barras (1) en la que el reconocimiento de voz ayuda a mantener o recuperar el hilo de una junta o conversación a partir de un relativamente simple método en el que las palabras son clasificadas por su recurrencia en la conversación y los segmentos conteniendo las más comunes, que son elegidas para conformar un sumario de contenido total de la glosa.
De acuerdo con los comentarios de Barras, el reconocimiento de voz sumado al método propuesto de categorización genera resúmenes de menos de la mitad de la longitud inicial de la conversación que son un 80% efectivo en proporcionar a un escucha recién llegado un entendimiento consistente de la sección de la plática que se perdió.

El método completo descrito allí es el siguiente: procesar la conversación e interpretarla por medio del reconocimiento de voz, categorizar la relevancia de las palabras usadas por su frecuencia, eliminar palabras comunes del lenguaje, como preposiciones y muletillas, seleccionar las sentencias en las que están presentes las palabras más relevantes, sintetizar esas sentencias en un resumen y proporcionarlo a los usuarios que no participaron en la sesión desde el principio, en modo de voz nuevamente para, además del resumen, ofrecer también el contexto de entonación y volumen de cada sentencia.

En los entornos de computadoras de sobremesa y portátiles el índice de aciertos de los programas de reconocimiento de voz es muy alto una vez que se les ha «entrenado» en captar la voz del usuario. Estos programas resultan especialmente útiles en entornos industriales donde los usuarios tienen que tener las manos ocupadas, donde se necesiten mecanografiar textos repetitivos, o para el uso de personas discapacitadas.

De forma general los sistemas de reconocimiento de voz funcionan siguiendo procesos fundamentales:

– Conversor analógico digital (CAD): convierte un voltaje analógico y continuo en un número digital. Las palabras habladas producen vibraciones. El CAD traduce estas vibraciones u ondas sonoras, en información digital que una computadora puede interpretar.
– Fonemas: La tecnología de reconocimiento de voz divide la información digital en segmentos más pequeños. El programa une estos segmentos con los fonemas contenidos en el lenguaje específico. Un fonema representa la unidad mínima de sonido usada para producir contraste entre las unidades de expresión.
– Salida de texto: El programa intenta ubicar cada fonema en un contexto basado en los otros fonemas que se registra inmediatamente del orador. El programa logra esto haciendo correr los fonemas a través de un modelo estadístico basado en cálculos matemáticos, llamados algoritmos, y comparando los fonemas con una biblioteca de palabras, frases y oraciones que ha almacenado. Luego, el programa de reconocimiento de voz genera la salida de las palabras del orador como texto, o ejecuta el comando apropiado.

Ejemplos de softwares de reconocimiento de voz:
– DSpeech
– Language Reader
– eSpeak
– Transcriber
– EureScribe
– Speak
– Realize Voice
– Nitrous Voice Flux
– Dragon NaturallySpeaking

Se menciona además que el fabricante japonés de tecnología NEC ha presentado una nueva tecnología de reconocimiento de voz que permite a los usuarios controlar sus teléfonos inteligentes o comandos de aplicaciones electrónicas incluso en espacios con abundante ruido. La firma expuso que su tecnología se basa en un sistema de doble micrófono de entrada de sonido, uno para detectar el ruido y otro adaptado a distintos modelos de voz, que permiten un reconocimiento preciso suprimiendo el sonido ambiente. Pero bueno esto es señal de que el desarrollo tecnológico no se detiene, siempre va en ascenso en busca de lograr mejores condiciones de vida en sentido general.

El mercado de las aplicaciones de reconocimiento de voz continúa creciendo en todo el mundo. En realidad, mucho falta por ver en este campo, se mencionan entre muchos avances de esta película los buscadores de Internet, donde las búsquedas se solicitan mediante dictado a través de móviles cuyas respuestas no se escuchan sino que se leen. La tecnología de reconocimiento de voz es todavía una apuesta de futuro, pero en el campo de las búsquedas por móvil este futuro parece estar más cerca.

Referencias

1- Barras, Colin. «Could speech recognition improve your meetings?.» New Scientist 205.2747 (2010): 18-19. Computers & Applied Sciences Complete. EBSCO. Web. 5 May 2010.
2- http://www.lumenvox.com/espanol/resources/tips/uses-of-speech-recognition.aspx
3- http://www.mobbeel.com/es/tecnologia/voz/
4- http://tecno.americaeconomia.com/noticias/tecnologia-de-nec-permite-reconocimiento-de-voz-en-espacios-con-ruido
5- http://www.lumenvox.com/espanol/resources/tips/workingwithlanguages.aspx
6- http://www.lumenvox.com/espanol/resources/
7- http://www.ehowenespanol.com/funciona-tecnologia-reconocimiento-voz-hechos_79746/
8- http://www.secyt.frba.utn.edu.ar/gia/IA1_IntroReconocimientoVoz.pdf
9- http://www.gtc.cps.unizar.es

Jorge Luis Ruiz Zuñiga en Actualizaciones rápidas y seguras de Segurmática5 abril, 2026
nunca
Michel M. en Actualizar la caja decodificadora para la televisión digital4 abril, 2026
Hola mi caja RealTV no coge los canales HD, sin embargo leo en el manual que si están disponibles. Alguien…
Eduardo en Actualizar la caja decodificadora para la televisión digital27 marzo, 2026
Necesito actualizar la caja decodificadora Digital HD

Sistemas de reconocimiento de voz: sus desafíos

Entrada relacionada

Colectivo

Ingenioso

El Conejo Lector y más…

Deja una respuesta Cancelar la respuesta