Investigación e innovación

Noticias

La UOC y la URV desarrollan un sistema que oculta automáticamente la información confidencial de documentos

27/04/2017

El método ofrece una precisión equiparable al proceso manual que han de hacer actualmente los expertos en privacidad, e incluso es más exhaustivo

La investigadora Montserrat Batet, del grupo de investigación KISON de la UOC, y el investigador David Sánchez, del grupo de investigación CRISES-Cátedra UNESCO de Privacidad de Datos, del Departamento de Ingeniería Informática y Matemáticas de la URV, han diseñado un sistema que detecta y oculta automáticamente la información confidencial de documentos de texto. De este modo, los documentos se pueden enviar a terceros sin comprometer la privacidad y manteniendo el anonimato de las entidades (personas, organizaciones, etc.) a que hacen referencia los documentos.

Actualmente, los datos personales son de gran utilidad en muchos ámbitos, tanto de investigación como de negocios o de planificación. Por ejemplo, los datos de pacientes almacenados en historiales médicos son fundamentales para hacer investigación médica; las operaciones bancarias son la base para hacer análisis financieros, y el análisis de las transacciones comerciales sirve para mejorar la personalización de los servicios que se prestan. Dado que muchos de esos datos son confidenciales, hay que proteger los documentos que los contienen antes de enviarlos a los investigadores que los usarán. Utilizar mecanismos de protección adecuados es, por lo tanto, esencial para garantizar la privacidad y/o el anonimato de los individuos.

Aunque la legislación de la Unión Europea es muy estricta en cuanto a la cesión de datos personales sin consentimiento de los implicados, en otros países, como por ejemplo los Estados Unidos, es habitual que se requieran y faciliten documentos privados en asuntos judiciales, bajas laborales, seguros, etc. Ahora bien, en todos los casos, hay que garantizar que los documentos facilitados no revelan información confidencial que pueda usarse con finalidades discriminatorias, por ejemplo.

El sistema elimina o reemplaza

Hasta ahora, la protección de documentos confidenciales requería de uno o varios expertos que, manualmente, identificaban y eliminaban palabras, sintagmas o frases que podían revelar información sensible o potencialmente discriminatoria. En este proceso se tienen en consideración tanto términos sensibles, como por ejemplo el nombre de una enfermedad contagiosa, como también conjuntos de términos que permitirían deducir los anteriores indirectamente, como por ejemplo, combinaciones de medicamentos o tratamientos que solo se aplican en una enfermedad concreta. Trabajar con tales elementos implica una tarea ardua y que no siempre es infalible debido a su complejidad.

El método que han desarrollado automatiza todo este proceso, cosa que permite manejar y proteger eficientemente el gran volumen de datos que se usa actualmente en investigación. Para hacerlo, el sistema analiza la información disponible en internet, que es la que un tercero podría usar como base de conocimiento para deducir información confidencial de un documento protegido. Y a continuación protege aquellos términos que podrían facilitar esas deducciones.

Las pruebas han demostrado que este método es más exhaustivo y ofrece una precisión equiparable a la de un experto humano. Además, a diferencia de los expertos, el sistema no se limita a eliminar términos peligrosos, sino que también intenta, siempre que se pueda, reemplazarlos por conceptos más generales que resulten más ambiguos. Por ejemplo, en lugar de especificar que un paciente tiene una neumonía, se indicaría que sufre una enfermedad del sistema respiratorio. Con esto se consigue que el documento protegido sea más comprensible y resulte más útil en los análisis posteriores que si se eliminasen términos.

La implantación para la investigación

De momento, el método se ha implementado en un prototipo de software que se ha probado sobre documentos clínicos en inglés. Se prevé que en un futuro próximo pueda aplicarse a otros ámbitos de conocimiento y pueda establecerse como una herramienta de uso profesional de especial utilidad para la investigación.

Esta investigación se enmarca en el proyecto europeo CLARUS, sobre privacidad de datos en la nube, que coordina la URV y que cuenta con financiación del programa Horizonte 2020 de la Unión Europea para el periodo 2015-2017. Y también forma parte del proyecto «SmartGlacis: Tecnologías de seguridad y privacidad para ciudades inteligentes» de la UOC, financiado por el Ministerio de Economía y Competitividad.