17/6/22 · Recerca

Desenvolupat un model per a l'extracció automàtica de contingut web i d'aplicacions

Tecnologia d'investigadors de la UOC aprofita el contingut dels sistemes de gestió de continguts habituals en més del 60 % de les web
El model podria convertir els gestors de continguts digitals en una nova font de dades amb la qual es puguin entrenar sistemes d'intel·ligència artificial

La proposta tecnològica dels investigadors de l'IN3 té com a objectiu generar el codi que serveixi d'unió entre el CMS i el desenvolupament de les noves aplicacions (foto: Sigmund / unsplash.com)

Juan F. Samaniego

Autor

Els sistemes de gestió de continguts són l'eina més popular per crear contingut a internet. Els últims anys, han evolucionat fins a convertir-se en la peça central d'un ecosistema cada vegada més complex de pàgines web, aplicacions mòbils i plataformes. Amb el propòsit de simplificar els processos, un equip d'investigadors de l'Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC) ha desenvolupat un model de codi obert per automatitzar l'extracció de contingut dels anomenats CMS, per la sigla en anglès.

El model open-source, un prototip científic totalment funcional, permet extreure l'estructura de dades i les llibreries de cada CMS i crear un programari que mitjança entre els continguts i l'anomenat front-end, l'aplicació final que utilitza l'usuari. Tot aquest procés es fa de manera automàtica, cosa que el converteix en una solució lliure d'errors i escalable, ja que es pot repetir multitud de vegades sense que n'augmenti el cost.

La importància dels CMS en el món en línia

Els sistemes de gestió de continguts (CMS) estan darrere de més del 60 % de les pàgines web disponibles actualment a internet. La popularitat de sistemes com WordPress, Joomla o Drupal es deu, sobretot, al fet que proporcionen una experiència d'usuari senzilla, la qual cosa ha permès que tota mena d'usuaris sense coneixements tècnics puguin formar part de la cadena de creació de continguts en línia.

"Des de fa quatre o cinc anys, aquests sistemes també ofereixen informació no només als navegadors, sinó també a les aplicacions mòbils. Els CMS tenen interfícies de programació d'aplicacions, conegudes com a API, amb les quals les aplicacions mòbils es comuniquen per extreure'n el contingut", explica Joan Giner Miguélez, estudiant del programa de doctorat de Tecnologies de la Informació i de Xarxes, amb el grup Systems, Software and Models Research Lab (SOM Research Lab), i autor principal de l'estudi en què es detalla el nou model. "Aquests sistemes, coneguts com a headless CMS, permeten que el contingut, creat de manera senzilla, es pugui consumir després a diferents plataformes", afirma Giner.

Així, el CMS s'ha convertit en un gran contenidor de contingut i dades del qual cada aplicació o plataforma es va servint. Això ha simplificat molts processos, però també ha afegit complexitats de desenvolupament que són especialment evidents per a les organitzacions que gestionen un gran volum de contingut i plataformes. Cada vegada és més habitual que la creació d'una nova aplicació mòbil impliqui un complex treball de desenvolupament, tasca que simplifica el model dissenyat pel personal investigador de l'IN3.

"Imaginem una gran empresa de contingut que gestioni més de mil webs i aplicacions i que vulgui fer una aplicació nova per a mòbils que mostri els productes de tots aquests webs. El treball, si volen desenvolupar els connectors entre cada web i l'aplicació, seria immens i requeriria molts recursos. No és escalable", afegeix Joan Giner. "Si les API ja tenen un format estàndard, per què no podem fer també un extractor de contingut que les llegeixi i les entengui, les representi de manera estàndard i generi el connector per enviar la informació a la nova aplicació mòbil de manera automàtica?", es demana l'expert.

Automatitzant l'extracció de contingut dels CMS

El model desenvolupat per Giner —juntament amb els seus companys de grup Abel Gómez i Jordi Cabot, investigador ICREA i líder del SOM Research Lab— permet simplificar molt el procés de desenvolupament d'una nova aplicació i, al seu torn, genera estalvis importants de temps i recursos. El procés, dissenyat gràcies al finançament dels projectes europeus AIDOaRT i TRANSACT, persegueix extreure i representar de manera clara i automàtica el model de CMS per facilitar-ne l'ús com a font d'informació. A més, la proposta tecnològica dels investigadors de l'IN3 té com a objectiu generar el codi que serveixi d'unió entre el CMS i el desenvolupament de les noves aplicacions.

Per aconseguir-ho, el primer pas és donar a l'eina l'adreça i les credencials d'accés al CMS. Una vegada dins, l'eina llegeix l'API, l'entén i, mitjançant un procés d'enginyeria inversa, representa de manera estàndard l'estructura i les llibreries de contingut del CMS. A partir d'aquí, genera, també automàticament, el codi del connector mitjançant el qual es comunicaran el CMS i la nova aplicació mòbil en desenvolupament.

"És una manera d'estandarditzar el procés intermedi entre els CMS i l'aplicació final", subratlla Joan Giner. "El benefici principal és, de fet, la mateixa estandardització. Estem parlant d'un procés que es repeteix moltes vegades a les organitzacions que gestionen contingut; un procés que, cada vegada que es fa, implica muntar un equip de desenvolupament específic que comporta la despesa d'una sèrie de recursos i que, a més, pot generar errors. En automatitzar-se, se simplifica tot i es guanya escalabilitat."

Així, aquest model d'automatització de l'extracció de contingut dels CMS aposta per l'escalabilitat, ja que, una vegada creat l'esquema i el codi del CMS, es pot reutilitzar tantes vegades com calgui i es pot integrar en projectes de desenvolupament futurs sense que comporti un cost extra.

A més, els investigadors apunten que és un model automàtic que genera les llibreries de contingut sense errors, ja que, si el treball es fa de manera manual, els desenvolupadors sempre poden cometre algun error en alguna línia de codi.

"Els sistemes de gestió de contingut són una font de contingut molt important a internet. Estem permetent estandarditzar l'accés als CMS, igual que en el seu moment es va estandarditzar l'accés a les bases de dades", afirma Joan Giner. "De cara al futur, aquest model fins i tot es podria utilitzar per convertir els CMS en una nova font de dades amb la qual es puguin entrenar sistemes d'intel·ligència artificial", conclou l'expert.

Article relacionat

Giner-Miguelez, J., Gómez, A., Cabot, J. (2022). Enabling Content Management Systems as an Information Source in Model-Driven Projects. In: Guizzardi, R., Ralyté, J., Franch, X. (eds) Research Challenges in Information Science. RCIS 2022. Lecture Notes in Business Information Processing, vol 446. Springer, Cham. https://doi.org/10.1007/978-3-031-05760-1_30

Aquesta recerca de la UOC afavoreix l'objectiu de desenvolupament sostenible (ODS) 9, indústria, innovació i infraestructura.

El projecte AIDOaRT ha estat finançat per l'empresa comuna Electronics Components and Systems for European Leadership (ECSEL Joint Undertaking) per mitjà de l'acord de subvenció núm. 101007350. ECSEL Joint Undertaking té el suport del programa de recerca i innovació Horitzó 2020 de la Unió Europea i de Suècia, Àustria, República Txeca, Finlàndia, Itàlia i Espanya.

El projecte TRANSACT és finançat pel programa europeu ECSEL Joint Undertaking (JU), en virtut de l'acord de subvenció núm. 101007260. El JU està secundat pel programa marc de recerca i innovació Horitzó 2020 de la Unió Europea i per Alemanya, Àustria, Bèlgica, Dinamarca, Espanya, Finlàndia, Noruega, els Països Baixos i Polònia.

UOC R&I

La recerca i innovació (R+I) de la UOC contribueix a solucionar els reptes a què s'enfronten les societats globals del segle xxi, mitjançant l'estudi de la interacció entre la tecnologia i les ciències humanes i socials, amb un focus específic en la societat xarxa, l'aprenentatge en línia i la salut digital. Els més de 500 investigadors i investigadores i els 51 grups de recerca s'articulen entorn dels set estudis de la UOC i dos centres de recerca: l'Internet Interdisciplinary Institute (IN3) i l'eHealth Center (eHC).

A més, la Universitat impulsa la innovació en l'aprenentatge digital a través de l'eLearning Innovation Center (eLinC) i la transferència de coneixement i l'emprenedoria de la comunitat UOC amb la plataforma Hubbik.

Els objectius de l'Agenda 2030 de desenvolupament sostenible de les Nacions Unides i el coneixement obert són eixos estratègics de la docència, la recerca i la innovació de la UOC.

Més informació: research.uoc.edu #25anysUOC