Proyecto Nuestra MemorIA rescatará información de archivos de DD.HH. usando inteligencia artificial – Instituto Milenio Fundamentos de los Datos

Junio, 2024.- Aprovechar el poder transformador de la inteligencia artificial (IA) para gestionar, analizar e interpretar archivos históricos de la época de la dictadura chilena (1973-1990): este es el objetivo del Proyecto Nuestra MemorIA del Instituto Milenio Fundamentos de los Datos, liderado por Jocelyn Dunstan Escudero, académica del DCC e IMC UC; Juan Reutter, académico DCC e IMC UC y director del IMFD; Camila Diaz, directora ejecutiva del IMFD, Antonia Fonck, Instituto de Historia UC y asistente de investigación IMFD y los nuevos investigadores colaboradores IMFD, Domingo Mery, académico DCC UC; y Hugo Rojas, director de Cs. del Derecho en la U. Alberto Hurtado y experto en justicia transicional.

Juan Reutter, Jocelyn Dunstan, Antonia Fonck y Domingo Mery

Impulsado por la tarea casi imposible de lograr manualmente: consolidar y escudriñar miles de documentos escaneados, fotografías antiguas y grabaciones de audio dispersas en varios archivos y colecciones, Nuestra MemorIA nace como un proyecto transdisciplinario, que tiene como meta desarrollar innovadoras técnicas específicamente creadas para el análisis de documentos históricos de la dictadura. En este proceso, se está incorporando la experiencia y métodos de investigación de personas expertas en derechos humanos, del campo de las humanidades y las ciencias sociales.

El objetivo final es integrar información fragmentada que permita ayudar a reconstruir conocimiento histórico, apoyando así la tarea de historiadores y científicos sociales.

Nuestra MemorIA cuenta con el apoyo del Museo de la Memoria y los Derechos Humanos, el Instituto Nacional de Derechos Humanos (INDH), la Vicaría de Solidaridad, el Comité para la Prevención de la Tortura y la Subsecretaría de Derechos Humanos. El proyecto va dando cuenta de diferentes avances en el podcast Nuestra MemorIA, accesible en todas las plataformas de escucha, y en los perfiles de instagram instagram.com/nuestramemoria.cl y twitter x.com/nuestramemo.

Seminario Nuestra MemorIA

La iniciativa fue presentada el martes 25 de junio, en un seminario que contó con la presencia de Pedro Bouchon, vicerrector de Investigación de la UC; Loreto Valenzuela, decana de Ingeniería UC; Patricio Bernedo, director del Centro UC para el Diálogo y la Paz; Felipe Mallea, Jefe del Dpto. de Estudios del Servicio Nacional de Migraciones, el equipo tras el proyecto y cerca de 100 participantes.

Son varios los desafíos a los que se enfrenta el equipo de investigación. Primero, si bien la información existe, se encuentra repartida en diversas organizaciones que han trabajado en su preservación. Luego, está el volumen: sólo la Vicaría de la Solidaridad resguarda más de 85 mil registros, cifra que casi se triplica en el Museo de la Memoria. En el Poder Judicial hay más de 10 millones de fojas, a los que se suman lo recabado por distintas comisiones, el Archivo Nacional, el Servicio de Nacional de Migraciones, las universidades, entre otras organizaciones.

“¿Qué hacemos con todo lo que está disperso, guardado en tantos organismos?” fue la pregunta que planteó Hugo Rojas, quien es –además– investigador del Instituto Milenio VioDemos. “Esto no se puede perder, tiene que perdurar para las próximas generaciones”, agregó Rojas: estos archivos son esenciales en los procesos de justicia transicional, “para acceder a la verdad, para que esto no vuelva a ocurrir”.

La colaboración será clave para asumir esta tarea, indicó Pedro Bouchon, quien destacó que los acuerdos que se tiene con el Museo de la Memoria y la Vicaría de la Solidaridad hacen posible poner la ciencia y la ingeniería al servicio de la sociedad. Para la decana Loreto Valenzuela, la comunidad académica debe contribuir en la búsqueda y rescate de la memoria, con herramientas que hoy “nos pueden permitir descubrir información que de otro modo quedaría oculta”.

Una foto, un rostro, un nombre

Otros de los desafíos que presenta el trabajo con los millones de archivos de la dictadura es que se trata de documentos en los más diversos formatos: textos escritos a mano, otros tipografiados, en fotos, videos y grabaciones de audio, en cartas y dibujos, se encuentran repartidos datos de víctimas y testigos de las violaciones a los derechos humanos.

Domingo Mery describió cómo han comenzado a probar la eficacia de distintas herramientas computacionales y de inteligencia artificial, como Gemini o ChatGPT, en el rescate de información. En el área del reconocimiento visual, explica, se ha logrado que sistemas de IA reconozcan imágenes, las agrupen con otras de características similares y las describan en formato de texto. Además, están estudiando el mejoramiento de la calidad de imágenes, técnicas para la detección de rostros y el reconocimiento de estos en otras imágenes. En una pruebas, comentó, usando una foto en blanco y negro de una persona antes de que fuese hecha desaparecer, el modelo de IA la encontró en otra imagen: en el cartel que portaba un familiar en una marcha por los detenidos desaparecidos.

También se han aplicado técnicas para convertir la letra manuscrita o antiguos archivos de audio en texto digital con el que luego se puede generar un repositorio de datos sobre los cuales comenzar a trabajar.

El poder del aprendizaje de máquinas

Contar con los datos de los archivos históricos en formato de texto es, ciertamente, un primer paso. Pero revisarlos de manera individual constituye una tarea casi imposible de realizar manualmente. Es aquí donde entran en juego las técnicas más avanzadas de procesamiento de lenguaje natural (PLN) , señala Jocelyn Dunstan Escudero.

La primera meta, comentó la académica, sería generar un corpus anotado en español: un repositorio de conceptos, como nombres o lugares, revisados, sistematizados y etiquetados. Esto es posible: el trabajo de la investigadora ha permitido contar con el primer corpus anotado de atención primaria de salud en español, cuyo desarrollo tardó alrededor de dos años, periodo en el cual se generaron alrededor de 10 mil anotaciones. Con este corpus, fue posible estudiar las listas de espera en el país.

Para alcanzar este objetivo en el área de derechos humanos, indicó Jocelyn Dunstan, se requiere el apoyo de cientistas sociales –lingüistas, historiadores, cientistas políticos, entre muchos otros– para la etiquetación y clasificación de los datos digitalizados. Un corpus anotado permitirá entrenar computadores para que realicen esa misma tarea de manera automática y sobre los masivos volúmenes de archivos, reconociendo rápidamente entidades como ciudades, fechas o nombres de captores.

Redes, conexiones, relaciones

Con información como la descrita, clasificada y etiquetada, será posible construir bases de datos de grafos, sistemas que permiten almacenar los datos con muchas más y diferentes características. En un grafo, un dato como el nombre de una persona puede estar acompañado de una fecha, unos testigos y un lugar, el último donde fue vista con vida. Gracias a estas características adicionales, las bases de datos de grafos se configuran como redes que conectan más rápidamente la información, explicó Juan Reutter, facilitando una búsqueda más dirigida.

¿Qué se requiere para construir una base de datos de grafos? Datos. Miles de datos, como los que espera sistematizar la línea de Jocelyn Dunstan. Solo de esa forma se podrá construir esa red inmensa en la cada conexión o nodo, conectado con otros, permitan explorar conceptos, con la esperanza de detectar relaciones que antes podrían haber pasado inadvertidas y de arrojar luces donde aún persisten las sombras.