Noticias

Pablo Barceló: “Queremos establecer vínculos entre todas las áreas en teoría de datos”

A menudo, las distintas disciplinas que conviven en el campo de la ciencia de la computación -como teoría de bases de datos y machine learning, por nombrar algunas- no se cruzan. Esto, pese al gran valor que supone la interdisciplinariedad en el mundo de la ciencia de datos, o data science.
Este dilema lo conoce de cerca el investigador Pablo Barceló, quien es subdirector del Instituto Milenio Fundamentos de los Datos (IMFD) y uno de los líderes del Proyecto Emblemático 3 de IMFD, llamado “Extracción eficiente de datos en escenarios de alta complejidad”. Desde este grupo de trabajo, que co-dirige junto al investigador Aidan Hogan, Barceló y otros científicos han ido insertándose y realizando aportes desde la vereda de la teoría de base de datos, por ejemplo, al área de machine learning, que ha tenido un enorme auge en los últimos años.
Así, el IMFD se ha transformado en uno de los pioneros en este tipo de trabajo. De hecho, esta investigación ha sido publicada en conferencias top de machine learning en el mundo, como ICLR, reconociendo a este grupo de investigadores como uno de los pocos, en América Latina, que realiza este “cruce disciplinario”.

-¿A qué se refiere concretamente la inserción del PE3 en otros campos como machine learning?
-La idea del PE3 es, precisamente, tratar de importar y exportar técnicas de manejo de datos, hacia otros campos, para hacer el manejo y el análisis de datos mucho más robusto. Por ejemplo, uno usa técnicas de machine learning en base de datos, para realizar ciertas tareas predictivas. Pero también se puede exportar técnicas de bases de datos, o de lógica, para hacer que el machine learning tenga una componente más semántica, estructurada y lógica, que es un poco la dirección que está tomando hoy este campo. El cruce se puede dar entonces en ambas direcciones, de tal forma de construir un ecosistema más amplio.
La idea es no reinventar la rueda. Estas áreas no dialogan mucho y esto ayuda a no replicar las cosas que ya se han realizado en otro lado, en otra disciplina.

-¿A qué inquietud o pregunta inicial responde este cruce de disciplinas?
-Responde a traspasar lo que nosotros sabemos hacia el campo de machine learning, porque en esta última área son muy buenos desarrollando nuevas arquitecturas para resolver problemas, casos eficientes de usos prácticos, pero entienden poco aún del poder expresivo de los modelos de computación que están desarrollando. Y en nuestra área tenemos una tradición que viene desde hace 50 o 60 años, que tiene que ver con estudiar qué pueden hacer los modelos y cuál es el poder computacional que tienen. Lo que estamos haciendo es ocupar todo ese conocimiento previo de nuestra área para entender los modelos de machine learning.

-¿Qué resultados han tenido?
-Los resultados han sido bien exitosos: la gente de machine learning se ha interesado mucho y han estado abiertos a aceptar este tipo de trabajo. Hemos publicado nuestros artículos en muy buenas conferencias de machine learning, y han sido bien recibidos y leídos por esa comunidad científica.

-¿Eran dos áreas que, hasta ahora, no dialogaban tanto?
-Hay algo de diálogo pero no mucho. Algunas áreas en teorías de datos funcionan como islas y en muchos casos se replican resultados en unas y otras, porque la gente no conoce lo que está pasando al lado. La idea es establecer esos vínculos. Hoy todo el mundo está mirando el área de machine learning, que a su vez está recibiendo muchos inputs de otras comunidades.

-¿Qué trabajos específicamente son un ejemplo de esto?
-Un paper llamado “The Logical Expressiveness of Graph Neural Networks”, que se presentó este año en la conferencia ICLR. Los autores de este trabajo son Egor Kostylev, Mikaël Monet, Jorge Pérez, Juan Reutter, Juan Pablo Silva y yo.
https://openreview.net/forum?id=r1lZ7AEKvB
Destaco también otro paper que se presentó el año pasado en ICLR 2019, que pertenece a Jorge Pérez, Javier Marinkovic y yo. Ese se titula “On the Turing Completeness of Modern Neural Network Architectures”. https://arxiv.org/abs/1901.03429
Este último tiene que ver con estudiar el poder computacional de arquitecturas modernas de redes neuronales de machine learning, en particular la que ocupa Google para hacer procesamiento de lenguaje natural y traducciones. Google ve en esta arquitectura mucha potencia para hacer cosas de machine learning más avanzadas y nosotros le proporcionamos una capa más teórica sobre la cual se pueden sustentar esos modelos y que explican por qué es tan potente.
Motivado por estos trabajos, Jorge Pérez y yo nos adjudicamos un Fondecyt Regular 2020, que apunta a entender el poder expresivo de las redes neuronales actuales.

Impacto y aplicaciones

-¿Qué es el poder expresivo computacional?
-Está relacionado con lo que se puede computar y con cuántos recursos. Porque quizá una arquitectura puede computar algo, pero los recursos computacionales que va a necesitar van a ser muy caros.

-¿Qué impacto puede tener esto para el trabajo del PE3 y el área de machine learning?
-Cuando uno entiende estas propiedades teóricas, puede construir sobre ellas. No es sólo un resultado bonito. Hemos detectado que estas arquitecturas poseen varias componentes, y mientras más componentes tienen, son más complejas y eso es computacionalmente más caro. Descubrimos que ciertas componentes no son necesarias para extraer todo su valor computacional. Entonces uno podría sacarlas y seguir obteniendo lo mismo, lo que no es obvio a simple vista. En pocas palabras, entrega las bases para entender qué cosas son necesarias y cuáles no, para hacerlo más eficiente o más liviano.
Otro de los impactos es que proporciona un lenguaje que permitiría resolver distintos tipos de problemas, tema que hace bastante falta en machine learning. Ellos tienen distintas arquitecturas, que se aplican para diferentes problemas. Sin embargo, aún hay un desconocimiento de cómo se pueden aprovechar estos conocimientos para construir un lenguaje más general, que se puede estudiar como un todo. Estamos tratando de aportar desde nuestra técnica, y al revés también, es decir, cómo incorporar herramientas de machine learning a nuestra área, que tienen que ver con consultas más analíticas. Cómo se pueden mezclar estos dos mundos.

-¿Ves alguna otra aplicación?
-Uno podría utilizar esto para entender la interpretabilidad de los modelos. Los modelos actuales funcionan como una caja negra y entendemos muy poco de por qué toman las decisiones que toman. Un modo de hacerlo sería compilando una red en una fórmula, es decir, en una expresión lógica.

-¿Podría ayudar a resolver el problema del sesgo que tienen implícitos algunos algoritmos?
-En la medida que te explique dónde está tomando las decisiones, podrías analizar el sesgo.

-¿En lo personal, como investigador, este trabajo te ha servido para insertarte en otras áreas de la ciencia de datos?
-Uno siempre quiere estar presente en áreas que tengan impacto y salir un poco de su zona de confort, donde está acostumbrado a publicar y todos te conocen.
Existen muy pocas publicaciones chilenas en estas conferencias importantes de machine learning, que reciben a cerca de 5 mil artículos por año, y que son muy competitivas y selectivas en la recepción de estos. Y el trabajo del PE3 nos ha permitido movernos hacia allá y también traer técnicas nuevas hacia nuestra comunidad científica.

*Pablo Barceló es además director del Instituto de Ingeniería Matemática y Computacional de la U. Católica.

"Existen muy pocas publicaciones chilenas en las conferencias más importantes de machine learning, que son muy competitivas y selectivas en la recepción de artículos. Y el trabajo del PE3 nos ha permitido movernos hacia allá y también traer técnicas nuevas hacia nuestra comunidad científica".