Per què els assistents de veu ens poden entendre?

10 Desembre, 2015

Per què els assistents de veu ens poden entendre?


El desembre de 2007 va néixer Siri, l’assistent de veu d’Apple, i des de llavors el món dels sistemes de reconeixement de veu s’ha revolucionat fins a tal punt que avui aquesta aplicació és molt més que simple comoditat o diversió. Aquests sistemes juguen un paper important en molts àmbits del sector empresarial, com en el dictat mèdic o en laboratoris, en què la transcripció ajuda a estalviar molt temps. Però, com funciona un assistent de veu i què és el que permet que pugui entendre el que li diem?

Es podria dir que el reconeixement de veu d’aquests assistents es basa en tres fases: la primera, l’acústica, que permet identificar si el so procedeix d’una trucada de mòbil, d’un telèfon IP o de qualsevol altre mitjà. La segona, la lingüística, que és la que permet que aquesta tecnologia identifiqui l’idioma. I la tercera, la semàntica, que permet que aquests sistemes reconeguin la forma de parlar de la gent, el mode de construir les frases i com pot variar aquesta construcció segons diverses característiques, com la regió o la cultura.

Partint d’aquesta base, cada assistent de veu tracta d’anar un pas més enllà en la seva tecnologia. Un dels líders d’aquest camp a Espanya és Sherpa, que va néixer el 2012 i es va convertir en el primer assistent de veu en espanyol per a Android. El seu origen és aquest vídeo d’Apple que va veure el seu fundador, Xabier Uribe-Etxebarria. En el cas concret de Sherpa, tal com afirma Xabier, l’assistent està basat en tecnologies patentades de llenguatge natural i semàntica combinades amb intel·ligència artificial. Per dir-ho d’una altra manera, el que fa és una anàlisi semàntica en cinc nivells que avalua la informació segons diferents fonts per tal d’oferir un resultat realment útil per a l’usuari.

D’altra banda, aquests assistents de veu són fruit de la mentalitat de moltes empreses d’avui dia de millorar la qualitat de vida de les persones i fer-los la vida més fàcil. Per exemple, CaixaBank i Ford han fet possible la creació d’un geolocalitzador de caixers automàtics sense necessitat d’aturar-se o sortir del cotxe a través del sistema de control de veu. És a dir, és possible anar conduint i preguntar al teu cotxe on és el caixer més proper. Per fer-ho, només cal l’aplicació bancària mòbil de Línia Oberta (sistema Android), que és compatible amb el sistema Ford Sync AppLink.

Els assistents de veu també són un gran avenç per facilitar les gestions financeres a les persones amb minusvalidesa, com per exemple en el cas de persones invidents en el moment de fer gestions als caixers automàtics.

Pel que fa al futur i l’evolució d’aquests sistemes de reconeixement de veu, encara que és cert que s’ha avançat i progressat molt en els últims anys, sembla que ens trobem davant un futur prometedor i que això és només el principi. Des de Microsoft, per exemple, asseguren que el reconeixement de veu serà perfecte en només cinc anys fins a tal punt que aquests avenços poden arribar suposar la construcció d’una intel·ligència artificial real.

Xabier també opina que el millor encara no ha arribat: “Crec que hem fet un 1% del camí. Estic segur que en els propers anys veurem grans aplicacions també relacionades amb la Internet de les coses. Crec que, d’aquí molt poc, tant les persones com els dispositius, fins i tot els electrodomèstics i la roba, estaran connectats a Internet, n’estic segur”.

Deixa un comentari

La teva dirección de correu no será publicada Els camps necesaris están marcats *