La UOC colabora con el Hospital Vall d'Hebron en la traducción de artículos científicos sobre la COVID-19

  hospital

Foto: Javier Matheu / unsplash.com

Los investigadores han desarrollado un sistema de traducción automática neuronal entrenado para el dominio médico

En la iniciativa participan investigadores de México y Suiza para traducir los resúmenes de más de 15.000 artículos científicos sobre el coronavirus

La comunidad científica dedica buena parte de sus esfuerzos a combatir el coronavirus y a encontrar la ansiada vacuna para acabar con la pandemia. Como muestra, en la base de datos de investigaciones sobre la COVID-19 de la Organización Mundial de la Salud se encuentran recogidas unas 40.000 investigaciones. Para tratar el elevado volumen de literatura científica sobre la enfermedad, un equipo de investigadores de la Universitat Oberta de Catalunya (UOC) ha desarrollado una tecnología para traducir los resúmenes de 15.000 artículos científicos al español. El objetivo es facilitar el acceso a esta información al personal médico del Hospital Universitario Vall d'Hebron de Barcelona, entre otros profesionales.

 

Entrenar la tecnología para la traducción

«Queremos poner a disposición del personal médico la información relevante sobre la COVID-19, ya que no todos estos profesionales tienen un nivel elevado de inglés. Nuestra tecnología les facilita así el acceso a esta información», señala Antoni Oliver, que es miembro del Grupo de Investigación Interuniversitario en Aplicaciones Lingüísticas (GRIAL), de los Estudios de Artes y Humanidades de la UOC. La tecnología traducirá abstracts —tal como se llaman los resúmenes en la literatura científica— y artículos científicos sobre la COVID-19, del inglés al español. La colaboración de esta universidad se centra en el entrenamiento y el uso de un sistema de traducción automática neuronal, específicamente entrenado para el dominio médico y adaptado a las temáticas relacionadas con el coronavirus. Además, el equipo de la UOC proporciona apoyo tecnológico en la configuración y la puesta en marcha de un sistema de traducción asistida en línea.

El tiempo que tarda el sistema en traducir automáticamente depende del ordenador en el que funciona el motor de traducción, pero puede ir de 100 a 10.000 palabras por segundo, según afirma Oliver. Sin embargo, lo relevante es el tiempo total con la intervención humana. «El proceso de traducción automática, más la edición posterior, puede llegar a ser entre cuatro y cinco veces más rápido que la traducción humana, y alcanzar niveles de calidad muy similares», relata el investigador de la UOC.

 

Detectar los artículos relevantes

Para este proyecto, otros equipos de investigación participantes utilizan técnicas de inteligencia artificial para detectar los artículos científicos que son relevantes sobre la COVID-19. «Primero hicieron una clasificación manual de un gran conjunto de documentos y, a partir de esta categorización, el sistema ha aprendido a clasificar los documentos», explica Antoni Oliver. Su sistema recupera los artículos científicos de la compilación de Science Direct de Elsevier, una editorial neerlandesa de publicaciones científicas, y también de fondos como LitCOVID, un portal de recursos abiertos de la Biblioteca Nacional de Medicina de Estados Unidos, que da acceso a una de las colecciones más completas de trabajos de investigación de todo el mundo sobre la nueva enfermedad, con más de 28.000 publicaciones actualmente.

 

Colaboración internacional

Este proyecto surgió en plena pandemia. «Los primeros días del confinamiento hubo varios contactos para ver cómo podría colaborarse con las tecnologías de la traducción», apunta Oliver. Así, el investigador confirma que la intención es mantener esta colaboración mientras la COVID-19 sea una cuestión suficientemente activa en el ámbito de investigación.

La iniciativa no solo tiene carácter local, ya que cuenta con colaboraciones internacionales y entre sus objetivos se incluye el impulso de un repositorio de artículos científicos sobre la enfermedad en la Universidad Nacional Autónoma de México (UNAM), así como una plataforma similar alojada en el Vall d'Hebron. Además de la UOC y el Hospital, participan la Agencia de Calidad y Evaluación Sanitarias de Cataluña (AQUAS), el Centro de Ciencias Genómicas de la UNAM, y una investigadora del Instituto Nacional de Enfermedades Respiratorias de México y otra del suizo Istituto Dalle Molle di Studi sull'Intelligenza Artificiale (Dalle Molle Institute for Artificial Intelligence Research), además de un doctorando de la Universitat Politècnica de Catalunya (UPC).

Antoni Oliver destaca que no es una iniciativa de carácter institucional y que «el trabajo más importante es el que hacen los voluntarios». Además, la UOC facilita la participación en el proyecto de alumnos en prácticas del grado de Traducción, Interpretación y Lenguas Aplicadas y del máster universitario de Traducción y Tecnologías.

 

Artículo relacionado

Antoni Oliver (2020), «MTUOC: easy and free integration of NMT systems in professional translation environments», Proceedings of the 22nd Annual Conference of the European Association for Machine Translation (http://hdl.handle.net/10609/119706).

 

UOC R&I

La investigación y la innovación (R+I) de la UOC contribuyen a solucionar los retos a los que se enfrentan las sociedades globales del siglo xxi, mediante el estudio de la interacción de las TIC con la actividad humana, con un foco específico en la enseñanza en línea y la salud digital. Los más de 400 investigadores y 48 grupos de investigación se articulan en torno a los siete estudios de la UOC y tres centros de investigación: el Internet Interdisciplinary Institute (IN3), el eLearn Center (eLC) y el eHealth Center (eHC).

Los objetivos de la Agenda 2030 de desarrollo sostenible de las Naciones Unidas y el conocimiento abierto son ejes estratégicos de la docencia, la investigación y la innovación de la UOC. Más información: research.uoc.edu.

#expertosUOC

Foto del profesor Antoni Oliver Gonzàlez

Antoni Oliver Gonzàlez

Experto/a en: Traducción automática, traducción asistida, extracción de terminología y aprendizaje automático.

Ámbito de conocimiento: Lingüística computacional.

Ver ficha