17/6/22 · Investigación

Desarrollado un modelo para la extracción automática de contenido de webs y aplicaciones

Los sistemas de gestión de contenidos (CMS) están detrás de más del 60 % de las páginas web disponibles en la actualidad en internet
El modelo podría convertir los CMS en una nueva fuente de datos con la que puedan entrenarse sistemas de inteligencia artificial

La propuesta tecnológica de los investigadores del IN3 tiene como objetivo generar el código que sirva de unión entre el CMS y el desarrollo de las nuevas aplicaciones (foto: Sigmund / unsplash.com)

Juan F. Samaniego

Autor

Los sistemas de gestión de contenidos o CMS son la herramienta más popular para crear contenido en internet. En los últimos años, han evolucionado hasta convertirse en la pieza central de un ecosistema cada vez más complejo de páginas web, aplicaciones móviles y plataformas. Con el propósito de simplificar los procesos, un equipo de investigadores del Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC) ha desarrollado un modelo de código abierto para automatizar la extracción de contenido de los CMS.

El modelo open-source, un prototipo científico totalmente funcional, permite extraer la estructura de datos y las librerías de cada CMS y crear un software que media entre los contenidos y el llamado front-end, la aplicación final que utiliza el usuario. Todo este proceso se hace de forma automática, lo que lo convierte en una solución libre de errores y escalable, ya que puede repetirse multitud de veces sin que aumente su coste.

La importancia de los CMS en el mundo en línea

Los sistemas de gestión de contenidos (CMS) están detrás de más del 60 % de las páginas web disponibles en la actualidad en internet. La popularidad de sistemas como WordPress, Joomla o Drupal se debe, sobre todo, a que proporcionan una experiencia de usuario sencilla, lo que ha permitido que todo tipo de usuarios sin conocimientos técnicos puedan formar parte de la cadena de creación de contenidos en línea.

"Desde hace cuatro o cinco años, estos sistemas también sirven información no solo a los navegadores, sino también a las aplicaciones móviles. Los CMS tienen interfaces de programación de aplicaciones, conocidas como API, con las que las aplicaciones móviles se comunican para extraer el contenido", explica Joan Giner Miguélez, estudiante del programa de doctorado de Tecnologías de la Información y de Redes, con el grupo Systems, Software and Models Research Lab (SOM Research Lab), y autor principal del estudio donde se detalla el nuevo modelo. "Estos sistemas, conocidos como headless CMS, permiten que el contenido, creado de forma sencilla, pueda consumirse después en diferentes plataformas", afirma Giner.

Así, el CMS se ha convertido en un gran contenedor de contenido y datos del que cada aplicación o plataforma se va sirviendo. Esto ha simplificado muchos procesos, pero también ha añadido complejidades de desarrollo que son especialmente evidentes para las organizaciones que gestionan un gran volumen de contenido y plataformas. Cada vez es más habitual que la creación de una nueva aplicación móvil implique un complejo trabajo de desarrollo, tarea que simplifica el modelo diseñado por el personal investigador del IN3.

"Imaginemos una gran empresa de contenido que maneje más de mil webs y aplicaciones y que quiera hacer una nueva aplicación para móviles que muestre los productos de todas esas webs. El trabajo, si quieren desarrollar los conectores entre cada web y la aplicación, sería inmenso y requeriría muchos recursos. No es escalable", añade Joan Giner. "Si las API están ya en un formato estándar, ¿por qué no podemos hacer también un extractor de contenido que las lea y las entienda, las represente de forma estándar y genere el conector para enviar la información a la nueva aplicación móvil de forma automática?", se pregunta el experto.

Automatizando la extracción de contenido de los CMS

El modelo desarrollado por Giner —junto con sus compañeros de grupo Abel Gómez y Jordi Cabot, investigador ICREA y líder del SOM Research Lab— permite simplificar mucho el proceso de desarrollo de una nueva aplicación y, a su vez, genera importantes ahorros de tiempo y recursos. El proceso, diseñado gracias a la financiación de los proyectos europeos AIDOaRT y TRANSACT, persigue extraer y representar de forma clara y automática el modelo de CMS para facilitar su uso como fuente de información. Además, la propuesta tecnológica de los investigadores del IN3 tiene como objetivo generar el código que sirva de unión entre el CMS y el desarrollo de las nuevas aplicaciones.

Para lograrlo, el primer paso es dar a la herramienta la dirección y las credenciales de acceso al CMS. Una vez dentro, esta lee la API, la entiende y, mediante un proceso de ingeniería inversa, representa de forma estándar la estructura y las librerías de contenido del CMS. A partir de ahí, genera, también automáticamente, el código del conector mediante el cual se van a comunicar el CMS y la nueva aplicación móvil en desarrollo.

"Es una forma de estandarizar el proceso intermedio entre los CMS y la aplicación final", subraya Joan Giner. "Su mayor beneficio es, de hecho, la propia estandarización. Estamos hablando de un proceso que se repite muchas veces en las organizaciones que manejan contenido; un proceso que, cada vez que se hace, implica montar un equipo de desarrollo específico que supone el gasto de una serie de recursos y que, además, puede generar errores. Al automatizarse, se simplifica todo y se gana escalabilidad".

Así, este modelo de automatización de la extracción de contenido de los CMS apuesta por la escalabilidad, ya que, una vez creado el esquema y el código del CMS, este puede reutilizarse el número de veces que sea necesario e integrarse en futuros proyectos de desarrollo sin que suponga un coste extra.

Además, los investigadores apuntan que es un modelo automático que genera las librerías de contenido sin errores, ya que, si el trabajo se hace de forma manual, los desarrolladores siempre pueden cometer algún error en alguna línea de código.

"Los sistemas de gestión de contenido son una fuente de contenido muy importante en internet. Estamos permitiendo estandarizar el acceso a los CMS, igual que en su momento se estandarizó el acceso a las bases de datos", afirma Joan Giner. "De cara al futuro, este modelo incluso podría utilizarse para convertir los CMS en una nueva fuente de datos con la que puedan entrenarse sistemas de inteligencia artificial", concluye el experto.

Artículo relacionado

Giner-Miguelez, J., Gómez, A., Cabot, J. (2022). Enabling Content Management Systems as an Information Source in Model-Driven Projects. In: Guizzardi, R., Ralyté, J., Franch, X. (eds) Research Challenges in Information Science. RCIS 2022. Lecture Notes in Business Information Processing, vol 446. Springer, Cham. https://doi.org/10.1007/978-3-031-05760-1_30

Esta investigación de la UOC favorece el objetivo de desarrollo sostenible (ODS) 9, industria, innovación e infraestructura.

El proyecto AIDOaRT ha sido financiado por la empresa común Electronics Components and Systems for European Leadership (ECSEL Joint Undertaking) por medio del acuerdo de subvención n.º 101007350. ECSEL Joint Undertaking cuenta con el apoyo del programa de investigación e innovación Horizonte 2020 de la Unión Europea y de Suecia, Austria, República Checa, Finlandia, Italia y España.

El proyecto TRANSACT está financiado por el programa europeo ECSEL Joint Undertaking (JU), en virtud del acuerdo de subvención n.º 101007260. El JU está apoyado por el programa marco de investigación e innovación Horizonte 2020 de la Unión Europea y por Alemania, Austria, Bélgica, Dinamarca, España, Finlandia, Noruega, los Países Bajos y Polonia.

UOC R&I

La investigación e innovación (RI) de la UOC contribuye a solucionar los retos a los que se enfrentan las sociedades globales del siglo xxi, mediante el estudio de la interacción de la tecnología y las ciencias humanas y sociales, con un foco específico en la sociedad red, el aprendizaje en línea y la salud digital. Los más de 500 investigadores e investigadoras y los 51 grupos de investigación se articulan en torno a los siete estudios de la UOC y dos centros de investigación: el Internet Interdisciplinary Institute (IN3) y el eHealth Center (eHC).

La Universidad impulsa también la innovación en el aprendizaje digital a través del eLearning Innovation Center (eLinC) y la transferencia de conocimiento y el emprendimiento de la comunidad UOC con la plataforma Hubbik.

Los objetivos de la Agenda 2030 de Desarrollo Sostenible de las Naciones Unidas y el conocimiento abierto son ejes estratégicos de la docencia, la investigación y la innovación de la UOC. Más información: research.uoc.edu #25añosUOC