IA y clasificación de contenidos: el desafío en el que trabajan el Poder Judicial y el IMFD – Instituto Milenio Fundamentos de los Datos

Junio, 2021.- Imagine el siguiente escenario: en una zona cercana a un humedal, santuario de algunas especies nativas, se planea la construcción de edificios y carreteras. Con un grupo de personas interesadas en el medio ambiente, decide poner un recurso de protección y proteger el humedal.

Se hace indispensable documentarse. Pero, a la hora de buscar información sobre procesos similares, legislación que haya sido aplicada o cómo se ha fallado en causas similares, se encuentra con que no existe en Chile un sistema de búsqueda inteligente que permita obtener esa información.

Esta necesidad, que pudiese parecer anecdótica, en realidad es un problema mayor, y en esta se encuentran trabajando investigadores del Instituto Milenio Fundamentos de los Datos con especialistas en documentación y bases de datos del Poder Judicial.

“La base de datos de la Corte Suprema cuenta con más de 550 mil fallos digitalizados desde 2005 a la fecha. Ese reservorio de información podría ser de tremenda utilidad para los ciudadanos, para abogados, y para quienes estudian cómo evoluciona y se aplica la jurisprudencia en nuestro país, si contáramos con un buscador que entregue información de manera eficiente y precisa”, señala José Luis Palma, Jefe del Centro Documental de la Corte Suprema.

Como parte de la alianza con la Corte Suprema, un equipo de estudiantes liderados por Felipe Bravo, académico de Computación de la U. de Chile e investigador IMFD, comenzó a abordar un componente clave en el desarrollo de un sistema de búsqueda: la clasificación. Por increíble que parezca, este primer paso constituye, por sí mismo, un desafío mayor: “La cantidad de personas y de horas que se requeriría para clasificar manualmente, en un periodo corto de tiempo, las más de 550 mil sentencias judiciales es, simplemente, impracticable, además de poco eficiente”, describe Palma.

Desde la ciencia de datos, la clasificación o categorización se refiere a la distinción automática entre un documento y otro en base al contenido. Un modelo de clasificación se basa en un algoritmo que –debidamente testeado y entrenado– permitiría distinguir, por ejemplo, entre una sentencia relacionada con derecho ambiental de otra de derecho familiar.

Pero la primera gran dificultad para clasificar automáticamente sentencias es que estas son redactadas por personas, con sus particularidades y usando diversidad de conceptos para un mismo tema o situación. “Ese es el centro del primer desafío: cómo crear un modelo de IA que logre clasificar correctamente las sentencias en una serie de jerarquías”, explica Pedro Contreras, Jefe de la Unidad de Apoyo Informático de la Dirección de Bibliotecas de la Corte Suprema.

Estas jerarquías podrían ser: Categoría (algo así como los ámbitos del derecho: constitucional, procesal o civil, por ejemplo); Materia (el contenido en abstracto sobre lo cual versa el fallo, como concesiones, expropiaciones, medio ambiente o urbanismo), y Submateria (materia específica sobre la cual se pronuncia el tribunal, como humedales, carga de la prueba o nulidad del despido), agrega José Luis Palma.

Un modelo para evaluar modelos

Por eso, debido a la diversidad de temas y conceptos contenidos en las sentencias, el equipo de estudiantes definió que se requería un paso previo: “Vimos que el Poder Judicial no necesitaba un modelo o algoritmo único para clasificar documentos, sino uno que les permitiera crear y entrenar distintos clasificadores”, explica Felipe Bravo. Es así como desarrollaron un modelo o herramienta que integra machine learning tradicional y deep learning, que es capaz de evaluar entre distintos modelos de categorización el más apto según los parámetros a clasificar. Luego, con herramientas de código abierto, se puede construir esos clasificadores.

“El desarrollo fue muy rápido: en dos meses y medio, el equipo logró interpretar lo que necesitábamos y llegar a una primera solución para el problema de la clasificación, que podemos adecuar según necesitemos e ir entrenando de manera inteligente. Para nosotros fue un aprendizaje muy importante entender que no necesitamos ni debemos quedarnos con un único algoritmo, que estos van cambiando y pueden ser distintos tipos los que permitan mejorar estos sistemas”, explica Pedro Contreras.

Una vez que cuenten con distintos sistemas de clasificación, se podrá avanzar hacia el desarrollo de un buscador, añade Contreras: “Queremos llegar a un desarrollo que esté disponible para toda la ciudadanía, que permita conjugar la búsqueda de sentencias, con el resguardo de los datos personales y sensibles”. Para Palma, el objetivo último es que un buscador con estas características, capaz de conectar las sentencias con las normativas y leyes, sea transparente y de servicio para toda la sociedad.

La interacción con el equipo, agregan, fue del más alto nivel y destacan la capacidad de los estudiantes para distribuir roles, hacer seguimiento del cumplimiento de metas y llegar a resultados. Esto, de la mano del liderazgo de Felipe Bravo, y con el acompañamiento de la Dirección de Innovación y Transferencia Tecnológica del IMFD, cuyas miradas estratégicas permitieron llegar al desarrollo del modelo.

Los estudiantes que participaron en esta etapa fueron:

Rodrigo Urrea, Computación de la Universidad de Chile.
Álex Medina Jorquera, Ingeniería Matemática y Computacional IMC UC.
Luis Silva De Vidts, Ingeniería Matemática y Computacional IMC UC.
Constanza Molina Catricheo, Ingeniería Civil Industrial Matemática en la Pontificia Universidad Católica de Chile.
Elena Villalón Sepúlveda, Ingeniería Matemática y Computacional IMC UC.
Fernando De Diego Ávila, Ingeniería Civil Matemática UC.
Juan Rojas Núñez, Ingeniería P. Universidad Católica.
Lucas Suárez Carbonell, Ingeniería en Computación P. Universidad Católica.
Miguel Morales M, Ingeniería Eléctrica Universidad de Chile.