INNOVACIÓN

¿Por qué los asistentes de voz pueden entendernos?

Tiempo de Lectura: 5 minutos

¿Por qué los asistentes de voz pueden entendernos?
Avatar

CaixaBank

10 Diciembre, 2015


En diciembre de 2007 nació Siri, el asistente de voz de Apple, y desde entonces el mundo de los sistemas de reconocimiento de voz se ha revolucionado hasta tal punto que hoy esta aplicación es mucho más que simple comodidad o diversión. Estos sistemas juegan un papel importante en muchos ámbitos del sector empresarial, como en el dictado médico o en laboratorios, donde la transcripción ayuda a ahorrar mucho tiempo. Pero, ¿cómo funciona un asistente de voz y qué es lo que permite que pueda entender lo que le decimos?

Podría decirse que el reconocimiento de voz de estos asistentes se basa en tres fases: la primera, la acústica, que permite identificar si el sonido procede de una llamada de móvil, de un teléfono IP o de cualquier otro medio. La segunda, la lingüística, que es la que permite a esta tecnología identificar el idioma. Y la tercera, la semántica, que permite a estos sistemas reconocer la forma de hablar de la gente, el modo de construir las frases y cómo puede variar esta construcción dependiendo de diversas características, como la región o la cultura.

Partiendo de esta base, cada asistente de voz trata de ir un paso más allá en su tecnología. Uno de los líderes de este campo en España es Sherpa, que nació en 2012 y se convirtió en el primer asistente de voz en español para Android. Su origen es este vídeo de Apple que vio su fundador, Xabier Uribe-Etxebarria. En el caso concreto de Sherpa, tal y como afirma Xabier, el asistente está basado en tecnologías patentadas de lenguaje natural y semántica combinadas con inteligencia artificial. Dicho de otro modo, lo que hace es un análisis semántico en cinco niveles que evalúa la información según diferentes fuentes para ofrecer un resultado realmente útil para el usuario.

Por otra parte, estos asistentes de voz son fruto de la mentalidad de muchas empresas de hoy en día de mejorar la calidad de vida de las personas y hacerles la vida más fácil. Por ejemplo, CaixaBank y Ford han hecho posible la creación de un geolocalizador de cajeros automáticos sin necesidad de detenerse o salir del coche a través del sistema de control de voz. Es decir, es posible ir conduciendo y preguntar a tu coche donde está el cajero más cercano. Para ello solo es necesaria la aplicación bancaria móvil de Línea Abierta (sistema Android), que es compatible con el sistema Ford Sync AppLink.

Los asistentes de voz también son un gran avance para facilitar las gestiones financieras a las personas con minusvalía, como por ejemplo en el caso de personas invidentes en el momento de hacer gestiones en los cajeros automáticos.

Con respecto al futuro y la evolución de estos sistemas de reconocimiento de voz, aunque es cierto que se ha avanzado y progresado mucho en los últimos años, parece que nos encontramos ante un futuro prometedor y que esto es únicamente el principio. Desde Microsoft, por ejemplo, aseguran que el reconocimiento de voz será perfecto en tan sólo cinco años hasta tal punto que incluso estos avances pueden suponer la construcción de una inteligencia artificial real.

Xabier también opina que lo mejor está por llegar: “Creo que hemos hecho un 1% del camino. Estoy seguro de que en los próximos años veremos grandes aplicaciones también relacionadas con el Internet de las cosas. Creo que dentro de muy poco tanto las personas como los dispositivos, incluso los electrodomésticos y la ropa, estarán conectados a Internet, eso seguro”.

Acepto las condiciones de uso.