31/7/18 · Investigación

Una tecnología creada en la UOC detecta las emociones que expresa la voz humana

El proyecto, basado en la inteligencia artificial, tiene como objetivo suministrar esta tecnología a empresas que necesiten integrarla en sus aplicacions
Foto: rawpixel / Unsplash

Foto: rawpixel / Unsplash

Enfado, calma, asco, miedo, felicidad, tristeza o sorpresa. Estas son las distintas emociones que la voz humana suele expresar mediante características como la intensidad y la tonalidad. De hecho, lo que la voz transmite a menudo es una mezcla de varias emociones. Asimismo, puede manifestar más o menos positividad y mayor o menor excitación. La mayoría de humanos son capaces de captar esas emociones en la voz de otra persona, aunque no la tengan a la vista. Pero, ¿y las máquinas? Una nueva tecnología desarrollada por un graduado de la Universitat Oberta de Catalunya (UOC) quiere ayudarlas a conseguirlo. Con el nombre de Voiception, el objetivo de esta tecnología es que las máquinas puedan saber qué abanico de emociones expresan las voces. Para conseguirlo, utiliza el potencial de la inteligencia artificial, del procesamiento de audio y de los macrodatos (big data).

En concreto, Voiception funciona de la siguiente manera: partiendo de bases de datos de voces, de cada tres segundos extrae cerca de 800 características acústicas. Después, gracias a algoritmos de inteligencia artificial, crea unos modelos de predicción que concretan la relación entre las características acústicas de la voz, como la frecuencia o la energía, y la emoción expresada en ese idioma. Así, luego puede compararse el corte de voz que quiera analizarse con el modelo predictivo del idioma en el que se expresa. El resultado revela qué porcentaje de cada emoción transmite la voz analizada. «La voz es un fenómeno físico que se produce gracias a unos músculos, pero a la vez cada cultura tiene sus rasgos característicos; por ello, un determinado tono en un idioma puede expresar emociones diferentes que en otro», subraya el impulsor de Voiception, Marcel González. En ese sentido, está previsto que la nueva tecnología pueda analizar voces en catalán y en castellano.

De trabajo final de grado a proyecto empresarial

González, que presentó la tecnología hace pocas semanas en la jornada anual del emprendimiento SpinUOC, es graduado en Tecnologías de la Telecomunicación, y también programador, cantante y técnico de sonido. La confluencia de sus pasiones lo llevó a enfocarse en el análisis de la voz cuando fue el momento de elaborar el trabajo final de grado. Los reconocimientos que ha recibido le han impulsado a preparar un proyecto empresarial para el que ahora busca un socio desarrollador. «El objetivo es ofrecer la tecnología Voiception para integrarla en aplicaciones de otras empresas», detalla. De hecho, ya se ha reunido con varias compañías y el abanico de usos de Voiception es amplio.

Marketing, asistentes de voz, posicionamiento o salud

De manera más inminente, Voiception podrá utilizarse, por ejemplo, en el ámbito del marketing: «Imaginemos que un centro de atención telefónica quiere saber qué emociones expresan sus trabajadores y los clientes a los que llaman. Esto puede servirle para entender de qué manera la voz de los trabajadores repercute en las ventas», ilustra González. También puede ser muy útil en el caso de los asistentes de voz, como los de los vehículos, o la popular Alexa de la compañía Amazon: «El objetivo puede ser que estos asistentes no solo entiendan el mensaje, sino que también puedan captar un poco las emociones», indica el impulsor de Voiception. Además, puede ser un valor añadido en el caso de las aplicaciones destinadas a reconocer las emociones a partir del análisis facial.

Un poco más lejos quedan dos otros usos prometedores. «Sería muy interesante vincularlo con el posicionamiento», avanza González. «Podríamos vincular la localización de un local determinado con las emociones que hay dentro», continúa. También, añade, tiene contacto con personas interesadas en aplicar la tecnología en el ámbito de la salud: «No todo el mundo sabe reconocer las emociones a partir de la voz; por ejemplo, los niños con trastornos del espectro autista pueden tener dificultades. Si consiguiéramos que con algún dispositivo pudieran reconocer las emociones de los demás, podría ser positivo para ellos», explica.

La aceptación social, un requisito

Con todo, estamos lejos de llegar a situaciones como las que relatan series como Westworld(protagonizada por androides de un parque de atracciones) o películas como Her (en la que un hombre se enamora de un sistema operativo con voz de mujer). En estas producciones de ciencia ficción, las máquinas adquieren una alta capacidad empática. Primero «es necesario tener un poco de paciencia y un proceso de aceptación social», advierte González. «Ante todo, tenemos que aprender a relacionarnos con los dispositivos mediante la voz», aclara.

Expertos UOC

Contacto de prensa

También te puede interesar

Más leídos

Ver más sobre Investigación