18/4/24 · Tecnologia

La UOC participa en el llenguatge estàndard per indexar dades que entrenen la IA

S'anomena Croissant, ha estat desenvolupat entre diverses universitats i empreses com Google o Meta i ja l'han adoptat els principals repositoris i cercadors de dades

L'investigador de l'IN3 Joan Giner ha contribuït al projecte implementant la part d'IA responsable, que minimitza el risc de biaixos i decisions errònies de les màquines

Croissant ha estat dissenyat en col·laboració amb les principals empreses del sector tecnològic, com són Google, Meta o Amazon (foto: unsplash.com)

Xavier Aguilar

Les dades són el nucli de la intel·ligència artificial i els professionals de l'aprenentatge automàtic necessiten utilitzar-ne grans conjunts per entrenar els models d'IA que estan canviant el món en diferents àmbits. Un dels problemes que es troben, però, és que sovint han de dedicar molt de temps a trobar les dades necessàries per al seu propòsit, entendre-les, donar sentit a la seva organització o esbrinar quina part en poden aprofitar. Per solucionar aquest repte que alenteix el desenvolupament de la IA, l'associació MLCommons acaba de llançar al mercat Croissant, un nou format de metadades per indexar els conjunts de dades preparats per al Machine Learning, amb participació de la Universitat Oberta de Catalunya (UOC).

Croissant ha estat dissenyat en col·laboració entre els equips de recerca de les principals empreses del sector tecnològic —Google, Meta, Amazon…— i universitats com ara Harvard, el King's College de Londres i la UOC, que ha participat amb Joan Giner, investigador del grup de recerca SOM Research Lab de l'Internet Interdisciplinary Institute (IN3). "Podem comparar aquesta proposta amb la que va permetre poder buscar qualsevol cosa a internet mitjançant el buscador de Google fa 20 anys, però adaptada al camp de la intel·ligència artificial", explica l'investigador de la UOC.

Croissant no canvia el format com es representen les dades —per exemple, en fitxers d'imatge, àudio o text—, sinó que proporciona una manera estàndard de descriure-les i organitzar-les. El nou llenguatge expandeix Schema.org, un estàndard llegible per a les màquines per descriure dades estructurades, que ja s'utilitza a més de quaranta milions de conjunts de dades al web i permet que els conjunts de dades es puguin descobrir amb motors de cerca com ara Google Dataset Search.

Com que Croissant té capes d'informació molt útils referents a l'estructura, el tipus d'atributs o com descarregar aquestes dades, farà que sigui molt més fàcil buscar i integrar aquests conjunts de dades a les aplicacions d'IA, sense necessitat de buscar les dades una per una als diferents repositoris. "Això suposa un canvi molt rellevant, perquè la diferència entre una IA molt bona i una de regular és que la primera està entrenada amb un conjunt de dades molt més gran. Ara que som en l'era del Big Data i que se'n publiquen moltes diàriament, era crucial posar-hi ordre per poder accedir-hi de manera més fàcil", apunta Giner.

Els majors repositoris de dades per a IA del món —HuggingFace, Kaggle, OpenML— també han format part del projecte i ja tenen tots els seus conjunts de dades descrits amb Croissant i indexats a Google Dataset Search. A més, els principals programes de Machine Learning per entrenar les IA amb dades també l'han integrat. "Per tant, podem considerar que som, de facto, davant de l'estàndard de descripció de dades per a IA".

“Podem comparar aquesta proposta amb la que va permetre poder buscar a internet amb Google fa 20 anys, però adaptada a la IA”

IA amb ètica i responsabilitat social

Giner ha participat en el projecte de MLCommons en tant que expert en IA responsable i en documentació dels conjunts de dades, el tema sobre el qual centra el seu treball en el Programa de Doctorat de Tecnologies de la Informació i de Xarxes a la UOC. "Volíem definir com havien de documentar-se les dades per tal de tenir confiança en el seu ús i no generar problemes ètics", comenta. L'extensió de IA responsable en la que ha treballat, doncs, determina, entre altres factors, si les dades tenen algun problema de privacitat o si són representatives en l'esfera social, un dels principals problemes que ha d'afrontar la IA en aquesta etapa inicial. "Això contribuirà a evitar casos com els que s'han donat en aplicacions d'IA médica, que fallaven més diagnòstics en dones, sobretot negres, que en homes blancs degut a la falta de dones, i especialment de dones negres, en les dades d'entrenament", explica l'investigador de l'IN3.

Google és un dels agents participants en el consorci que més ha posat en valor aquesta vessant ètica: "Donar suport a la IA responsable (RAI) va ser un objectiu clau de l'esforç de Croissant des del principi i aquesta extensió permet descriure els processos fets per crear les dades, les persones participants, i els possibles biaixos presents a les dades", diuen fonts de la companyia tecnològica. "Per a mi, el fet que el primer estàndard del món de dades vingui amb una extensió de dades responsable és tot un èxit de la comunitat d'IA ètica, perquè generalment les empreses no paren gaire atenció a aquest fet", reflexiona Giner.

Ara, mentre el projecte confia que els especialistes del sector adoptaran Croissant quan publiquin les seves dades, l'equip que ha desenvolupat aquest llenguatge es centrarà en dominis concrets com la sanitat i les dades públiques. Per exemple, en el cas de la sanitat, per determinar quines dades són més rellevants (radiografies, TAC, converses metge-pacient…) i quins aspectes de representativitat social calen perquè sigui eficaç el seu aprofitament. "Al final, la IA sembla intel·ligent, però no ho és. És una gran reproductora dels patrons que hi ha a les dades. I si aquestes dades no s'ajusten a la realitat que volen representar, no funcionarà bé", conclou l'expert de la UOC.

Aquesta recerca afavoreix Objectius de Desenvolupament Sostenible (ODS) de l'ONU, com ara el 3. Salut i benestar; 5. Igualtat de gènere; o 9. Indústria, innovació i infraestructura.

UOC R&I

La recerca i innovació (R+I) de la UOC contribueix a solucionar els reptes a què s'enfronten les societats globals del segle xxi mitjançant l'estudi de la interacció de la tecnologia i les ciències humanes i socials, amb un focus específic en la societat xarxa, l'aprenentatge en línia i la salut digital.

Els més de 500 investigadors i investigadores i més de 50 grups de recerca s'articulen entorn dels set estudis de la UOC, un programa de recerca en aprenentatge en línia (e-learning research) i dos centres de recerca: l'Internet Interdisciplinary Institute (IN3) i l'eHealth Center (eHC).

A més, la Universitat impulsa la innovació en l'aprenentatge digital mitjançant l'eLearning Innovation Center (eLinC), i la transferència de coneixement i l'emprenedoria de la comunitat UOC amb la plataforma Hubbik.

Els objectius de l'Agenda 2030 per al Desenvolupament Sostenible de les Nacions Unides i el coneixement obert són eixos estratègics de la docència, la recerca i la innovació de la UOC. Més informació: research.uoc.edu.