El gran desafío de la caja negra: no hay una bala de plata, pero si avances en explicabilidad – Instituto Milenio Fundamentos de los Datos

Uno de los desafíos más importantes para la generación de informáticos que están trabajando con modelos de inteligencia artificial es descifrar la conocida “caja negra”: los sistemas computacionales cuyo funcionamiento interno no es visible, y por lo tanto, no es auditable.

Para enfrentar este problema, Marcelo Arenas, académico de IMC y DCC UC e investigador del IMFD presentó una propuesta en su charla magistral titulada «From Explanations to Queries» (De explicaciones a consultas) en la conferencia IRIS-AI 25, para abordar el creciente desafío de la Inteligencia Artificial Explicable (XAI). La solución radica en el desarrollo de un lenguaje de consulta de explicabilidad (Explanability Query Language) que permita a los usuarios combinar y consultar formalmente diferentes nociones de explicación.

El desafío del «modelo de caja negra»

“Actualmente hay un gran interés por desarrollar métodos para explicar las predicciones hechas por modelos de Machine Learning (ML), que a menudo operan como «cajas negras». Estos modelos arrojan respuestas o puntuaciones, pero no se sabe por qué las producen. Esta dificultad ha llevado a la introducción de un gran número de diferentes consultas y medidas o scores para la explicabilidad”, destaca Arenas, quien enfatiza que la explicabilidad formal no admite una «bala de plata»; no existe una noción única de explicación universalmente considerada como la mejor. Ante la proliferación de métodos (como las explicaciones abductivas, contrastivas o los SHAP values), la idea central es considerar la explicabilidad como un proceso iterativo que requiere la combinación de diferentes nociones.

La innovación: Un lenguaje de consulta declarativo

La propuesta principal es proporcionar a los usuarios un lenguaje que les permita plantear la explicabilidad como una consulta. Esto traslada el enfoque de desarrollar un nuevo algoritmo eficiente para cada noción de explicación a la optimización del propio lenguaje.

Este lenguaje debe ser declarativo: El usuario debe especificar qué noción de explicabilidad desea evaluar, no cómo evaluarla, permitiendo que el sistema se encargue de la optimización. También, debe estar basado en sistemas de bases de datos: Se basa en lenguajes de consulta bien conocidos, como la Lógica de Primer Orden y el Álgebra Relacional. Y por último, debe tener una fórmula fija: Una noción de explicabilidad debe estar representada por una consulta fija que pueda evaluarse sobre modelos de cualquier dimensión.

El modelo de ML se codifica como una base de datos que almacena instancias y relaciones de subsunción (para manejar instancias parciales con valores indefinidos).

Manejo de la complejidad inherente

El lenguaje permite expresar complejas combinaciones de consultas de explicabilidad. Por ejemplo, se puede preguntar si existe una explicación abductiva común para dos clasificaciones diferentes, o una explicación que distinga una clasificación de otra.

Un desafío técnico clave es la complejidad. Debido a que las bases de datos que representan estos modelos pueden ser de tamaño exponencial, la evaluación de las consultas es inherentemente difícil. El objetivo de complejidad para este lenguaje es P elevado a NP (dentro de la jerarquía polinomial), lo que significa que un algoritmo eficiente podría utilizar un solver SAT como oráculo para resolver los problemas, reflejando que ciertas tareas de explicación tienen una complejidad alta intrínseca.

En esencia, la investigación está en la vanguardia de la teoría de bases de datos, aplicándola para proporcionar una comprensión aguda y formal de los problemas de XAI.

Esta investigación fue presentada en el Primer Simposio Internacional de Investigación e Industria sobre IA (IRIS-AI), una conferencia interdisciplinaria que reúne a investigadores y profesionales de la industria que trabajan en el amplio espectro de campos que abarca la IA. El simposio tiene como objetivo proporcionar un foro abierto y atractivo para el debate sobre los últimos avances y las tendencias emergentes en IA.

Revisa la presentación en https://www.youtube.com/watch?v=nB4RmO7ylno