«Les dades massives poden ser una eina per predir futures pandèmies, però encara hi ha reptes per resoldre»

 Foto: Julián Salas

Foto: Julián Salas

15/04/2020
Sílvia Oller
Julián Salas Piñón, investigador mexicà del grup K-riptography and Information Security for Open Networks (KISON) de l'Internet Interdisciplinary Institute (IN3) de la UOC

 

Fa deu anys que el mexicà Julián Salas Piñón, després d'estudiar Matemàtiques a la Universitat Nacional Autònoma de Mèxic (UNAM), va arribar a Catalunya per ampliar els seus coneixements. L'any 2012 es va doctorar cum laude en Matemàtica Aplicada i ha treballat en l'Institut d'Investigació en Intel·ligència Artificial del Consell Superior d’Investigacions Científiques (IIIA-CSIC). L'any 2017 va obtenir una beca de la UOC per portar a terme un projecte per protegir la privacitat de dades dinàmiques com les que es generen a partir dels llocs web visitats, xarxes socials o registres de compres. Actualment és un dels investigadors del grup K-riptography and Information Security for Open Networks (KISON), de l'Internet Interdisciplinary Institute (IN3) de la Universitat Oberta de Catalunya (UOC), centrat en la seguretat i la privacitat dels usuaris en entorns oberts. És casat amb una catalana i viu amb un ull posat en l'evolució del coronavirus al seu país, a l’altra banda de l’Atlàntic.

 

Com viu des de la distància la pandèmia a Mèxic? Veu possible que allà hi hagi un confinament com el d’aquí o, per contra, pensa que l’elevada densitat d’habitants i la pobresa de bona part de la població de ciutats com Ciutat de Mèxic poden fer-ho inviable?

A Mèxic ara són en la fase en què érem a Espanya fa un mes, quan la gent feia una vida relativament normal. Les universitats i les escoles van tancar a mitjan març, però el problema d'allà és que un percentatge elevat de la població no té una feina reglada. Caldrà veure què farà l'Estat per garantir que la gent que es quedarà sense feina, com ara la gran quantitat de persones que venen menjar al carrer, puguin subsistir uns mesos. En el fons és un problema econòmic: el dilema és com es pot aturar la pandèmia i minimitzar el cost per a l'economia.

En una situació de crisi sanitària com l'actual, eines com les dades massives (big data) poden permetre a l'Administració obtenir informació molt sectoritzada sobre la malaltia, però també impliquen posar a les seves mans moltes dades privades. Les dades massives garanteixen la privacitat dels pacients al 100 %?

Precisament la meva àrea de recerca sobre la privacitat té una dificultat: per una banda, la tecnologia ens permet obtenir cada cop més dades i, com més dades obtinguem i més precises siguin aquestes dades, millor funcionaran els algorismes. Però la privacitat va una mica en contra d’aquest procés. Si tens dades molt precises i ho saps tot d'una persona, aleshores on queda el seu dret a la privacitat? La qüestió és saber usar les dades per a la finalitat que ens interessa sense la necessitat de voler saber més del que ens cal.

Es pot trobar aquest equilibri?

Sí. Per exemple, si vols monitorar la mobilitat en una ciutat i saber quanta gent es desplaça d'un lloc a un altre, no necessitem saber tots els llocs on ha estat aquell vehicle abans d’arribar a la destinació final. N'hi ha prou amb saber el punt d'origen i la destinació final. Un dels últims estudis que hem fet a la UOC consistia a obtenir mapes de mobilitat de persones sense tenir les trajectòries individuals perquè aquestes trajectòries et poden reidentificar.

El nostre dret a la protecció de les dades personals pot ser un obstacle ara en la lluita contra el coronavirus?

 

A mi em sembla que no, però potser haurem de fer més esforços per poder fer servir les dades. És a dir, haurem d'aplicar algorismes per anonimitzar-les (és a dir, per eliminar la possibilitat d'identificar la persona titular de les dades) abans d'utilitzar-les.

A la Xina, les dades massives han permès implementar un sistema de control de la propagació del coronavirus, però aquest sistema genera dubtes sobre la violació de la privacitat. Una aplicació que es pot baixar mitjançant programes com WeChat, la xarxa social més gran de la Xina, permet que una base de dades central recopili dades sobre el moviment i el diagnòstic dels ciutadans i els atorga un codi verd, que els permet circular lliurement; taronja, que significa que tenen restringida la circulació a l'àmbit local, o vermell, que els obliga a continuar la quarantena. Aquesta aplicació fa una recopilació centralitzada de les xarxes de contacte en temps real dels usuaris a partir de tres aspectes: la proximitat entre telèfons mòbils, la ubicació per GPS i l'escaneig de codis QR a l'entrada i la sortida dels edificis. Aquesta base de dades és analitzada per un algorisme d'intel·ligència artificial que genera els tres colors.

Seria viable fer a Espanya el que han fet a la Xina?

 

En principi, si dones el teu consentiment, es poden recollir aquest tipus de dades. Una altra cosa és si cal saber la localització de tothom en tot moment. Un bon exemple de protecció de la privacitat és l'aplicació TraceTogether de Singapur, que detecta quins usuaris han estat a prop i desa aquestes dades durant 21 dies al mòbil de l'usuari, que solament les ha de revelar si dona positiu en coronavirus. D'aquesta manera, tan sols recull la informació necessària durant el temps necessari i la revela només quan és imprescindible.

Una empresa emergent (start-up) canadenca va detectar el brot de la COVID-19 abans que l’Organització Mundial de la Salut (OMS) ho fes públic oficialment. La intel·ligència artificial és una molt bona eina per anticipar-nos a futures noves epidèmies? Ens pot ajudar a preveure tractaments eficaços?

Mitjançant la intel·ligència artificial aprofitem les capacitats dels ordinadors per processar enormes quantitats de dades i fer models predictius molt precisos. Les dades massives poden ser una eina per al bé comú, però encara hi ha molts reptes per resoldre, com ara garantir els interessos de les empreses propietàries de les dades i alhora fer que els algorismes siguin transparents i explicables.

La Generalitat de Catalunya ha posat en marxa una aplicació per veure on es concentren majoritàriament els malalts de coronavirus. Els ciutadans tenim cap garantia que aquestes dades que hem donat no s'usaran per a altres finalitats?

Això és el que em demano jo també. Per exemple, quan l'Institut Nacional d'Estadística (INE) va començar a fer l'estudi de rastreig de telèfons mòbils de milions de persones d'Espanya per saber com es movien, semblava que farien servir totes les localitzacions dels usuaris amb certa imprecisió, però amb aquesta informació podem saber potencialment de qui estem parlant. No cal que tinguem totes les dades d'algú per poder-lo reidentificar. Molta gent pensa que les dades són anònimes perquè no tenen ni noms ni cognoms, però el que realment hauria de significar ser anònim és que no se't pogués reidentificar.

Aquest estudi de l'INE a partir del rastreig dels telèfons mòbils va generar molts dubtes i queixes respecte de la privacitat. Estaven fundats aquests dubtes?

 

La màxima privacitat és no recollir dades i la màxima utilitat és tenir les dades de tothom en tot moment. La qüestió és trobar l'equilibri entre aquests dos extrems. Nosaltres mirem de desenvolupar algorismes en diferents situacions que ens puguin donar més garanties de privacitat i seguretat.

En el cas de l’INE, les operadores telefòniques van calcular les matrius d'origen i de destí, en què les entrades representen quantes persones es desplacen de la zona A a la zona B habitualment durant una setmana, i van donar únicament aquests resultats. En aquest cas, el problema va ser que en aquell moment no es va fer pública la metodologia que havien fet servir per protegir les dades. Els articles dels diaris no explicaven exactament a quines dades tindria accés l'INE ni com s'havien protegit.

Els ciutadans podem estar segurs que les dades que donem quan, per exemple, ens registrem a un lloc web són anònimes?

Tothom hauria de saber la història següent: una estudiant de l’Institut de Tecnologia de Massachusetts (MIT) va aconseguir identificar el registre mèdic del governador per mitjà de tres paràmetres: el codi postal, el sexe i la data de naixement a partir d'una llista de registres que ell mateix va fer pública perquè pensava que les dades eren anònimes perquè no hi apareixien noms ni cognoms. També hi ha hagut atacs de reidentificacions a partir d'avaluacions de pel·lícules de Netflix i dades geolocalitzades de taxistes a Nova York.

Podem evitar ser reidentificats, és a dir, que ens posin noms i cognoms a partir de l'anàlisi de bases de dades suposadament anònimes?

Hi ha algorismes que ho miren de protegir. Ara bé, hem de ser conscients que això té uns costos, en el sentit que la protecció de la privacitat ens fa perdre precisió. El que guanyes d’una banda ho perds de l'altra. Però em sembla que hem de canviar la perspectiva: és desitjable obtenir la màxima precisió possible, respectant sempre el dret a la privacitat.

Pensa que els ciutadans som conscients del fet que deixar les nostres dades té un preu? Del fet que registrar-se en un lloc web implica que regales informació que després s’utilitzarà per fer negoci?

No. Hauríem de ser conscients de totes les dades que generem amb l'ordinador, Facebook, Twitter, etc., de com es poden fer servir i qui hi pot tenir accés. Com que moltes d'aquestes accions les fem a casa, tenim la sensació que allò que expliquem és privat, però hauríem de saber on va a parar tota aquesta informació i qui hi pot tenir accés. Quan interactuem amb una pàgina web o fem servir les xarxes socials, tot allò que fem queda emmagatzemat. Ja m'agradaria saber quines empreses tenen dades meves i quins models han fet amb aquestes dades. A Europa, amb el Reglament general de protecció de dades, podem demanar a les empreses quines dades nostres tenen. Però, és clar, no t'ho diran si no ho preguntes.

Quins riscos té revelar les nostres ubicacions?

 

Per exemple, amb el GPS del mòbil, podem saber on viu una persona, on és en cada moment del dia, a quina hora surt de casa, on treballa, quins interessos té, si ha passat una època en què ha hagut d'anar amb freqüència a l'hospital... Hi ha aplicacions de mòbil que et demanen la ubicació. Aleshores, tothom que té aquesta ubicació té la possibilitat de saber què fas en cada moment.

Estem vigilats per totes bandes. Tot plegat fa una mica de por...

 

Jo estic a favor de les dades massives, però hi ha d’haver un límit: la privacitat dels usuaris. Les empreses que recullen dades haurien de ser transparents i explicar per a què les fan servir; hauria de ser possible auditar els algorismes amb els quals les han protegit i ens haurien d'informar quan les nostres dades han estat incloses en una base de dades.

Quin és el principal repte tecnològic per a vosaltres, els experts que treballeu en l'anonimització de dades?

El món és com més va més ple de sensors, com els dels mòbils o la internet de les coses, i això fa que cada cop sigui més difícil mantenir la privacitat. El nostre repte, justament, és arribar a un equilibri en el qual es respecti el nostre dret a la privacitat amb la utilitat de les dades. L'altre repte és generar consciència entre la gent...