Lanzan crowdsourcing para digitalizar en texto diarios del Congreso Nacional desde 1810 – Instituto Milenio Fundamentos de los Datos

Santiago, enero 2021.- Poner al servicio del proceso constituyente la información y conocimientos históricos de la trayectoria republicana de Chile: ese es el objetivo del proyecto Letelier, iniciativa que se encuentra digitalizando el texto de todas las actas del Congreso Nacional desde 1810 a la fecha.

El trabajo, liderado por Naim Bro, investigador del Instituto Milenio Fundamentos de los Datos (IMFD), permitirá realizar búsquedas en lenguaje natural en estos archivos, permitiendo a las y los constituyentes, sus equipos y todas las personas que la necesiten a futuro contar con esta fuente de información.

“La Biblioteca del Congreso Nacional (BCN) hizo un tremendo trabajo al escanear, hoja por hoja, todos estos documentos escritos a mano. Pero los archivos finales son imágenes y no es posible extraer automáticamente de ellas el texto, por lo que no se puede hacer búsquedas, ni rastrear temas”, explica Naim Bro. “Nuestro proyecto está pasando el contenido de estas imágenes a palabras, usando el programa Tesseract, que se basa en una red neuronal entrenada por Google. Sin embargo, hay ocasiones en que este no reconoce términos específicos, números o signos”, agrega.

El desafío consiste, entonces, en digitalizar el texto que Tesseract no ha podido reconocer y entrenar la red neuronal Letelier con esta información. Dado que la tarea requiere de muchas horas de trabajo manual, el equipo del IMFD ha convertido Letelier en un crowdsourcing, para que quienes deseen colaborar lo hagan abiertamente, identificando las palabras, signos y frases que el sistema no ha podido identificar.

¿Cómo funciona? Ingresando a https://letelier.imfd.cl/ se despliega una imagen con un trozo de algún acta, con el término que Tesseract no ha podido reconocer marcado en rojo. Los colaboradores digitan el texto en una ventana y hacen clic en “Corregir”. Con esto el programa termina el reconocimiento del párrafo y aprende a identificar esas palabras.

Por ejemplo, pueden aparecer destacadas en un rectángulo rojo palabras ligeramente borrosas, términos cortados por un guion o entre paréntesis. La idea es que las personas que colaboren le enseñen a Tesseract qué dice en ese segmento: si aparece congre- en el rectángulo rojo, los colaboradores deben digitar congre- en la ventana de corrección y apretar Corregir. La clave está en respetar lo que dice la imagen, con los signos y ortografía originales: es decir, si aparece el término (estranjero), los usuarios deben digitar (estranjero).

“Nuestra sociedad contará con información de gran calidad que podrá ser utilizada tanto en el proceso constituyente, como en cualquier investigación a futuro, ya que los datos quedarán en la misma página, como una plataforma de consulta”, concluye el investigador.

El equipo de Letelier están Naim Bro y Juan Pablo Luna, investigador asociado IMFD y académico del Instituto de Ciencia Política UC y de la Escuela de Gobierno UC. En el desarrollo, participaron Josué Tapia, Antonio Montalva, Fernanda Sanchirico, y Clemente Sánchez; y se sumarán Denis Parra, investigador IMFD y académico del departamento de Ciencia de la Computación en la U. Católica, e Ivania Donoso, estudiante de doctorado en el mismo departamento.

Revisa un breve tutorial aquí: