31/7/18 · Recerca

Una tecnologia creada a la UOC detecta les emocions que expressa la veu humana

El projecte, basat en la intel·ligència artificial, té com a objectiu subministrar aquesta tecnologia a empreses que necessitin integrar-la a les seves aplicacions
Foto: rawpixel / Unsplash

Foto: rawpixel / Unsplash

Enuig, calma, fàstic, por, felicitat, tristesa o sorpresa. Aquestes són les diverses emocions que la veu humana sol expressar mitjançant característiques com la intensitat i la tonalitat. De fet, el que la veu transmet sovint és una barreja de diverses emocions. Alhora, pot traspuar més o menys positivitat i més o menys excitació. La majoria d’humans són capaços de captar aquestes emocions en la veu d’una altra persona, encara que no la tinguin a la vista. Però, i les màquines? Una nova tecnologia desenvolupada per un graduat de la Universitat Oberta de Catalunya (UOC) les vol ajudar a fer-ho. Amb el nom de Voiception, l’objectiu d’aquesta tecnologia és que les màquines puguin saber quin ventall d’emocions expressen les veus. Per a aconseguir-ho, utilitza el potencial de la intel·ligència artificial, del processament d’àudio i de les dades massives (big data).

En concret, Voiception funciona de la manera següent: partint de bases de dades de veus, de cada tres segons n’extreu prop de 800 característiques acústiques. Després, gràcies a algoritmes d’intel·ligència artificial, crea uns models de predicció que concreten la relació entre les característiques acústiques de la veu, com la freqüència o l’energia, i l’emoció expressada en aquell idioma. Així, després es pot comparar el tall de veu que es vulgui analitzar amb el model predictiu de l’idioma en què s’expressa. El resultat revela quin percentatge de cada emoció transmet la veu analitzada. «La veu és un fenomen físic que es produeix gràcies a uns músculs, però alhora cada cultura té els seus trets característics; per això, un determinat to en un idioma pot expressar emocions diferents que en un altre», subratlla l’impulsor de Voiception, Marcel González. En aquest sentit, és previst que la nova tecnologia pugui analitzar veus en català i en castellà.

De treball final de grau a projecte empresarial

González, que va presentar la tecnologia fa poques setmanes en la jornada anual de l’emprenedoria SpinUOC, és graduat en Tecnologies de la Telecomunicació, i també programador, cantant i tècnic de so. La confluència de les seves passions el va dur a enfocar-se en l’anàlisi de la veu quan va ser el moment d’elaborar el treball final de grau. Els reconeixements que ha rebut l’han impulsat a preparar un projecte empresarial per al qual ara busca un soci desenvolupador. «L’objectiu és oferir la tecnologia Voiception per a integrar-la en aplicacions d’altres empreses», detalla. De fet, ja s’ha reunit amb diverses companyies i el ventall d’usos de Voiception és ampli.

Màrqueting, assistents de veu, posicionament o salut

De manera més imminent, Voiception es podrà utilitzar, per exemple, en l’àmbit del màrqueting: «Imaginem que un centre d’atenció telefònica vol saber quines emocions expressen els seus treballadors i els clients a qui truquen. Això li pot servir per a entendre de quina manera la veu dels treballadors repercuteix en les vendes», il·lustra González. També pot ser molt útil en el cas dels assistents de veu, com els dels vehicles, o la popular Alexa de la companyia Amazon: «L’objectiu pot ser que aquests assistents no solament entenguin el missatge, sinó que també puguin captar-ne una mica les emocions», indica l’impulsor de Voiception. A més, pot ser un valor afegit en el cas de les aplicacions destinades a reconèixer les emocions a partir de l’anàlisi facial.

Una mica més lluny queden dos altres usos prometedors. «Seria molt interessant lligar-ho amb el posicionament», avança González. «Podríem lligar la localització d’un local determinat amb les emocions que hi ha dins», continua. També, afegeix, té contacte amb persones interessades a aplicar la tecnologia en l’àmbit de la salut: «No tothom sap reconèixer les emocions a partir de la veu; per exemple, els infants amb trastorns de l’espectre autista poden tenir dificultats. Si aconseguíssim que amb algun dispositiu poguessin reconèixer les emocions dels altres, podria ser positiu per a ells», explica.

L’acceptació social, un requisit

Amb tot, som lluny d’arribar a situacions com les que relaten sèries com Westworld (protagonitzada per androides d’un parc d’atraccions) o pel·lícules com Her (en què un home s’enamora d’un sistema operatiu amb veu de dona). En aquestes produccions de ciència-ficció, les màquines adquireixen una alta capacitat empàtica. Primer de tot, «cal una mica de paciència i un procés d’acceptació social», adverteix González. «Primer de tot, hem d’aprendre a relacionar-nos amb els dispositius mitjançant la veu», aclareix.

Experts UOC

Contacte de premsa

També et pot interessar

Més llegits

Veure més sobre Recerca