Recerca i innovació

Notícies

La UOC i la URV desenvolupen un sistema que oculta automàticament la informació confidencial de documents

27/04/2017

El mètode ofereix una precisió equiparable al procés manual que han de fer actualment els experts en privadesa i fins i tot és més exhaustiu

La investigadora Montserrat Batet, del grup de recerca KISON de la UOC, i l'investigador David Sánchez, del grup de recerca CRISES-Càtedra UNESCO de Privadesa de Dades de la URV, han dissenyat un sistema que detecta i oculta automàticament la informació confidencial de documents de text. D'aquesta manera, els documents es poden enviar a tercers sense comprometre'n la privacitat i mantenint l'anonimat de les entitats (persones, organitzacions, etc.) a les quals fan referència els documents.

Actualment, les dades personals són de gran utilitat en molts àmbits, tant de recerca com de negocis o de planificació. Per exemple, les dades de pacients emmagatzemades en historials mèdics són fonamentals per a fer recerca mèdica; les operacions bancàries són la base per a fer anàlisis financeres, i l'anàlisi de les transaccions comercials serveix per a millorar la personalització dels serveis que es presten. Donat que moltes d'aquestes dades són confidencials, els documents que les contenen s'han de protegir abans d'enviar-los als investigadors que les faran servir. Utilitzar mecanismes de protecció adequats és, per tant, essencial per a garantir la privadesa i/o l'anonimat dels individus.

Tot i que la legislació de la Unió Europea és molt estricta quant a la cessió de dades personals sense consentiment dels implicats, en altres països, com ara els Estats Units, és habitual que es requereixin i facilitin documents privats en assumptes judicials, baixes laborals, assegurances, etc. Ara bé, en tots els casos, cal garantir que els documents facilitats no revelen cap informació confidencial que pugui fer-se servir amb finalitats discriminatòries, per exemple.

El sistema elimina o reemplaça

Fins ara, la protecció de documents confidencials requeria d'un o diversos experts que, manualment, identificaven i eliminaven paraules, sintagmes o frases que podien revelar informació sensible o potencialment discriminatòria. En aquest procés es tenen en consideració tant termes sensibles, com ara el nom d'una malaltia contagiosa, com també conjunts de termes que permetrien deduir els anteriors indirectament, com per exemple, combinacions de medicaments o tractaments que només s'apliquen en una malaltia concreta. Treballar amb aquests elements implica una tasca àrdua i que no sempre és infal·lible a causa de la seva complexitat.

El mètode que han desenvolupat automatitza tot aquest procés, cosa que permet manejar i protegir eficientment el gran volum de dades que es fa servir actualment en recerca. Per a fer-ho, el sistema analitza la informació disponible a internet, que és la que un tercer podria fer servir com a base de coneixement per a deduir informació confidencial d'un document protegit. I a continuació protegeix els termes que podrien facilitar aquestes deduccions.

Les proves han demostrat que aquest mètode és més exhaustiu i ofereix una precisió equiparable a la d'un expert humà. A més, a diferència dels experts, el sistema no es limita a eliminar termes perillosos, sinó que també intenta, sempre que es pugui, reemplaçar-los per conceptes més generals que resultin més ambigus. Per exemple, en lloc d'especificar que un pacient té una pneumònia, s'indicaria que pateix una malaltia del sistema respiratori. Amb això s'aconsegueix que el document protegit sigui més entenedor i resulti més útil en les anàlisis posteriors, que no pas eliminant termes.

La implantació per a la recerca

De moment, el mètode s'ha implementat en un prototip de programari que s'ha provat sobre documents clínics en anglès. Es preveu que en un futur pròxim pugui aplicar-se a altres àmbits de coneixement i pugui establir-se com una eina d'ús professional d'especial utilitat per a la investigació.

Aquesta recerca s'emmarca en el projecte europeu CLARUS, sobre privadesa de dades al núvol, que coordina la URV i que té finançament del programa Horitzó 2020 de la Unió Europea per al període 2015-2017. I també forma part del projecte «SmartGlacis: Tecnologías de seguridad y privacidad para ciudades inteligentes» de la UOC, finançat pel Ministeri d'Economia i Competitivitat.