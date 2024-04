Les dades són el nucli de la intel·ligència artificial i els professionals de l'aprenentatge automàtic necessiten utilitzar-ne grans conjunts per entrenar els models d'IA que estan canviant el món en diferents àmbits. Un dels problemes que es troben, però, és que sovint han de dedicar molt de temps a trobar les dades necessàries per al seu propòsit, entendre-les, donar sentit a la seva organització o esbrinar quina part en poden aprofitar. Per solucionar aquest repte que alenteix el desenvolupament de la IA, l'associació MLCommons acaba de llançar al mercat Croissant, un nou format de metadades per indexar els conjunts de dades preparats per al Machine Learning, amb participació de la Universitat Oberta de Catalunya (UOC).

Croissant ha estat dissenyat en col·laboració entre els equips de recerca de les principals empreses del sector tecnològic —Google, Meta, Amazon…— i universitats com ara Harvard, el King's College de Londres i la UOC, que ha participat amb Joan Giner, investigador del grup de recerca SOM Research Lab de l'Internet Interdisciplinary Institute ( IN3 ). "Podem comparar aquesta proposta amb la que va permetre poder buscar qualsevol cosa a internet mitjançant el buscador de Google fa 20 anys, però adaptada al camp de la intel·ligència artificial", explica l'investigador de la UOC.

Croissant no canvia el format com es representen les dades —per exemple, en fitxers d'imatge, àudio o text—, sinó que proporciona una manera estàndard de descriure-les i organitzar-les. El nou llenguatge expandeix Schema.org, un estàndard llegible per a les màquines per descriure dades estructurades, que ja s'utilitza a més de quaranta milions de conjunts de dades al web i permet que els conjunts de dades es puguin descobrir amb motors de cerca com ara Google Dataset Search.

Com que Croissant té capes d'informació molt útils referents a l'estructura, el tipus d'atributs o com descarregar aquestes dades, farà que sigui molt més fàcil buscar i integrar aquests conjunts de dades a les aplicacions d'IA, sense necessitat de buscar les dades una per una als diferents repositoris. "Això suposa un canvi molt rellevant, perquè la diferència entre una IA molt bona i una de regular és que la primera està entrenada amb un conjunt de dades molt més gran. Ara que som en l'era del Big Data i que se'n publiquen moltes diàriament, era crucial posar-hi ordre per poder accedir-hi de manera més fàcil", apunta Giner.

Els majors repositoris de dades per a IA del món —HuggingFace, Kaggle, OpenML— també han format part del projecte i ja tenen tots els seus conjunts de dades descrits amb Croissant i indexats a Google Dataset Search. A més, els principals programes de Machine Learning per entrenar les IA amb dades també l'han integrat. "Per tant, podem considerar que som, de facto, davant de l'estàndard de descripció de dades per a IA".