5/7/23 · Cultura

Un sistema de traducción automática neuronal para todas las lenguas románicas de la península ibérica

Un proyecto coordinado por la UOC aplicará la traducción automática neuronal al español, el portugués, el catalán, el gallego, el asturiano, el aragonés y el aranés
El hecho de formar parte de la revolución digital puede contribuir a impulsar el uso de las lenguas con menos hablantes

Los sistemas de traducción basados en redes neuronales se entrenan a partir de millones de oraciones en una lengua con su traducción en otra lengua

Juan F. Samaniego

Autor

En los últimos años, el número y la eficacia de las tecnologías de traducción automática se han disparado. Gracias a la inteligencia artificial (IA), llevamos en nuestro bolsillo potentes herramientas que traducen con facilidad cualquiera de las lenguas mayoritarias. Pero ¿qué pasa con aquellas que tienen menos hablantes y menos recursos? ¿Cómo puede llegar a "entenderlas" una IA? La respuesta podría estar en el aprendizaje por transferencia y el entrenamiento de sistemas multilingües para las lenguas románicas de la península ibérica.

El proyecto Traducción automática neuronal para las lenguas románicas de la península ibérica (TAN-IBE), financiado por el Ministerio de Ciencia, Innovación y Universidades, coordinado por la Universitat Oberta de Catalunya (UOC) y con la participación de las universidades de Oviedo, Lleida y Zaragoza, explora las técnicas más efectivas para entrenar sistemas de traducción automática basados en redes neuronales (un tipo de IA) aplicadas a siete lenguas románicas de la península ibérica: español, portugués, catalán, gallego, asturiano, aragonés y aranés.

Una IA que transfiere conocimiento entre lenguas

Los sistemas de traducción basados en redes neuronales se entrenan a partir de millones de oraciones en una lengua con su traducción en otra lengua. Es lo que se conoce como corpus paralelos, inmensos conjuntos de datos disponibles en dos lenguas. Una vez que la red neuronal está entrenada, es capaz de traducir con eficacia cualquier texto en esas lenguas. El problema es que, con idiomas como el español o el portugués, es sencillo encontrar esos corpus paralelos, pero con aquellas lenguas que tienen menos material disponible —como el aranés, el aragonés o el asturiano— es complicado tener suficientes datos para entrenar a la inteligencia artificial.

"Lo bueno es que los sistemas neuronales pueden aprender cosas de una lengua a partir de otra que se le parezca", explica Antoni Oliver, investigador del grupo de investigación interuniversitario en Aplicaciones Lingüísticas (GRIAL-UOC), coordinador del proyecto TAN-IBE y profesor de los Estudios de Artes y Humanidades de la UOC. "Por eso escogimos las lenguas románicas. El proceso deberá ser capaz de aprender por transferencia utilizando un modelo entre dos lenguas para construir el sistema de traducción entre otras dos. Así, por ejemplo, cuando esté terminada, la herramienta de traducción español-aranés habrá aprendido en parte gracias al sistema español-catalán o al español-portugués", añade.

La construcción del modelo de traducción no es el único objetivo del proyecto de investigación, que busca, además:

Compilar corpus paralelos y monolingües para las siete lenguas románicas que se incluyen en la propuesta, dedicando un mayor esfuerzo al asturiano, el aragonés y el aranés.
Explorar nuevas técnicas para el entrenamiento de sistemas de traducción automática neuronal. Además del aprendizaje por transferencia, se estudiará la traducción automática multilingüe, la traducción automática autosupervisada y la traducción automática no supervisada.
Entrenar sistemas de traducción automática neuronal entre el español y el resto de las lenguas del proyecto, en ambas direcciones.
Entrenar sistemas multilingües capaces de traducir desde y hacia todas las lenguas del proyecto.
Crear guías y scripts que faciliten el entrenamiento de sistemas de traducción automática neuronal en general y, más en concreto, para las lenguas del proyecto.
Publicar los resultados del proyecto con licencias libres. Esto incluye los corpus compilados, los modelos y motores de traducción automática y las guías y scripts.

"A grandes rasgos, el proyecto consiste, en primer lugar, en recopilar todos los corpus para las lenguas con menos material (asturiano, aragonés y aranés), y, en segundo lugar, en entrenar los sistemas de traducción", añade Antoni Oliver. "El resultado final del proyecto será tanto la publicación libre de los recursos, en la medida que sea posible, como la creación de un sistema de traducción automática neuronal libre de uso", explica.

Acuerdos y estudios para impulsar las lenguas minoritarias

La primera parte del proyecto está llevándose a cabo fuera de los laboratorios. Para disponer de los datos necesarios para entrenar los modelos de inteligencia artificial, es necesario recopilar el máximo material posible del asturiano, el aragonés y el aranés. "Por eso, esta primera fase se centra en lograr acuerdos con gobiernos autonómicos, universidades o editoriales para que nos faciliten el material para crear los corpus paralelos con los que entrenar al sistema neuronal", señala Oliver.

En este sentido, en el marco del proyecto se ha alcanzado un acuerdo con el gobierno del Principado de Asturias para la cesión de todo el corpus de textos traducidos del castellano al asturiano que posee la Dirección Xeneral de Política Llingüística. El convenio recoge también que, si el Principado lo requiere, podrá disponer de los desarrollos tecnológicos y lingüísticos del proyecto TAN-IBE para su aprovechamiento en posibles proyectos propios de traducción automática.

"En última instancia, con este proyecto pretendemos ayudar a fomentar el uso de las lenguas con menos recursos y que se publique más en dichas lenguas", añade el investigador de la UOC. "Por ejemplo, todas las leyes podrían publicarse en dos lenguas de forma rápida y eficiente, invirtiendo menos recursos, aunque siempre se necesitaría una revisión humana. Además, las personas que no se atreven a usar estas lenguas porque no se sienten seguras pueden apoyarse en estas herramientas para mejorar sus textos. Por último, las lenguas como el asturiano, el aragonés o el aranés deben formar parte de las tecnologías digitales. Si no, pueden ir desapareciendo y ser olvidadas", concluye Oliver.

Esta investigación de la UOC favorece el objetivo de desarrollo sostenible (ODS) de las Naciones Unidas 4, garantizar una educación inclusiva, equitativa y de calidad y promover oportunidades de aprendizaje durante toda la vida para todos.

Proyecto PID2021-124663OB-I00 financiado por MCIN /AEI /10.13039/501100011033 / FEDER, UE.

Contacto para prensa

Rubén Permuy
rpermuy@uoc.edu
+34 659 05 42 39

UOC R&I

La investigación e innovación (I+i) de la UOC contribuye a solucionar los retos a los que se enfrentan las sociedades globales del siglo XXI mediante el estudio de la interacción de la tecnología y las ciencias humanas y sociales, con un foco específico en la sociedad red, el aprendizaje en línea y la salud digital.

Los más de 500 investigadores e investigadoras y más de 50 grupos de investigación se articulan en torno a los siete estudios de la UOC, un programa de investigación en aprendizaje en línea (e-learning research) y dos centros de investigación: el Internet Interdisciplinary Institute (IN3) y el eHealth Center (eHC).

La universidad impulsa, también, la innovación en el aprendizaje digital a través del eLearning Innovation Center (eLinC), y la transferencia de conocimiento y el emprendimiento de la comunidad UOC con la plataforma Hubbik.

Los objetivos de la Agenda 2030 para el Desarrollo Sostenible de las Naciones Unidas y el conocimiento abierto son ejes estratégicos de la docencia, la investigación y la innovación de la UOC. Más información: research.uoc.edu.