Entrevista al director del IMFD, Marcelo Arenas en «People of ACM» – Instituto Milenio Fundamentos de los Datos

Enero 2022.- La prestigiosa Association for Computing Machinery, ACM, destaca este mes a Marcelo Arenas, director del Instituto Milenio Fundamentos de los Datos, en su sección «People of ACM», que selecciona a participantes de la Asociación cuyos logros científicos marquen una diferencia en el avance de la computación como ciencia y profesión, con una entrevista en la que se destaca la carrera profesional y también la historia personal de quienes reciben el reconocimiento.

Esta nueva publicación se suma al reconocimiento de «Miembro Distinguido» que el académico del Departamento de Ciencia de la Computación de la Escuela de Ingeniería y del Instituto de Ingeniería Matemática y Computacional de la P. Universidad Católica de Chile, recibió recientemente de parte de la ACM.

Acceso a la publicación en ACM: https://www.acm.org/articles/people-of-acm/2022/marcelo-arenas

Entrevista en español

P: ¿Qué es la web semántica y cuál es su relación con el manejo y gestión de datos?

R: La web se desarrolló pensando en usuarios/as humanos, lo que resultó en diversas herramientas que la hacen más amigable y comprensible estos usuarios. Sin embargo, una página web bien diseñada puede ser muy difícil de interpretar para una computadora. El objetivo de la web semántica es proporcionar los medios para hacer que la web sea comprensible para las máquinas, lo que en términos concretos significa desarrollar una serie de estándares, metodologías, técnicas y herramientas para especificar formalmente la semántica de los datos en la web.

Tres estándares fundamentales para la web semántica son los Uniform Resource Identifiers (URIs), el Resource Description Framework (RDF) y el lenguaje de consulta SPARQL. Las URI son identificadores de recursos web, del mismo modo que las URL son identificadores de páginas web. Pero tales recursos pueden incluir cualquier cosa, desde un archivo digital, una página web, hasta el autor de un libro. RDF es un modelo de datos que permite especificar relaciones entre recursos web. Un archivo RDF, o conjunto de datos, se puede considerar como un gráfico en el que los nodos son recursos web y las conexiones se utilizan para especificar las relaciones entre ellos. Por ejemplo, en un conjunto de datos RDF para una red social, un nodo representa a una persona y un borde se usa para especificar una determinada relación entre dos personas en esta red, como una persona sigue a otra o dos personas son amigas. Finalmente, SPARQL es el lenguaje de consulta estándar para extraer información de un conjunto de datos RDF.

Muchos de los problemas habituales en la gestión y manejo de datos aparecen en la web semántica, particularmente cuando se gestiona un conjunto de datos RDF. Esto no es sorprendente, ya que un conjunto de datos RDF, por un lado, puede considerarse naturalmente como una base de datos de gráficos y, por otro, puede almacenarse directamente como una base de datos relacional. Por lo tanto, los problemas clásicos de gestión de datos, tales como almacenamiento, limpieza, integración, consulta y razonamiento; son relevantes para la web semántica. Además, el desarrollo de la web semántica plantea nuevos desafíos para el manejo y gestión de datos, especialmente dada la naturaleza altamente dispersa de los datos en la web.

P: Su artículo «Semántica y complejidad de SPARQL» (en coautoría con Jorge Pérez y Claudio Gutiérrez) ganó el premio de diez años de la Asociación de Ciencias de la Web Semántica. ¿Cuál es una idea clave de este documento?

R: El World Wide Web Consortium (W3C) define los estándares para la web semántica, como RDF y SPARQL. En 2006, cuando se publicó el artículo “Semántica y complejidad de SPARQL”, el W3C estaba trabajando en la estandarización de la sintaxis y la semántica de SPARQL. Esta no fue una tarea fácil, no solo por el esfuerzo necesario para comprender los requisitos para consultar datos en la web, sino también porque algunas de las funciones necesarias para SPARQL eran diferentes de los operadores tradicionales en los lenguajes de consulta de bases de datos. En particular, la naturaleza abierta de los datos web, que está en cambio constantemente, hace que la capacidad de recuperar información opcional, si está disponible, sea una funcionalidad importante. Las ideas clave de este artículo son las definiciones que proponemos para una sintaxis algebraica simple y una semántica formal para SPARQL. Esta propuesta permitió realizar el primer análisis detallado de la complejidad computacional de la evaluación de consultas en SPARQL, el cual fue útil para comprender la complejidad de evaluar los diferentes operadores en este lenguaje y, en particular, del operador que se proponía recuperar información opcional. La semántica de SPARQL finalmente adoptada por el W3C se basó en esta propuesta, que creo que es su contribución más importante. Muchas investigaciones sobre lenguajes de consulta para la web semántica han utilizado esta propuesta.

P: Uno de sus artículos recientes más citados es «Fundamentos de lenguajes de consulta modernos para bases de datos de gráficos». ¿Por qué son importantes las bases de datos de grafos y cuáles son algunas direcciones de investigación interesantes en esta área?

R: Hay muchas razones por las que las bases de datos de gráficos son muy importantes y populares. Los gráficos son una forma simple y natural de representar datos; de hecho, hay muchos dominios en los que los datos se pueden conceptualizar de una manera simple e intuitiva mediante el uso de bases de datos gráficas, como las redes sociales, de comunicación, de transporte y de rastreo de contactos. Además, los gráficos ofrecen un modelo de datos flexible, donde las actualizaciones se pueden realizar fácilmente agregando y eliminando conexiones, y donde se pueden desarrollar métodos ligeros de integración de datos.

El objetivo del artículo “Fundamentos de los lenguajes de consulta modernos para bases de datos de grafos” fue identificar las características fundamentales de las bases de datos de grafos, que son comunes en diferentes miradas e implementaciones de esta tecnología. En este sentido, un tema clave en este punto, que ha recibido mucha atención, es el desarrollo de un lenguaje de consulta estándar para bases de datos de grafos, donde se incluyan dichas funcionalidades comunes. En términos de direcciones de investigación que pueden ser un poco más emocionantes, la incorporación de conocimiento en gráficos, que generalmente se denominan gráficos de conocimiento, plantea muchos desafíos nuevos e interesantes. ¿Cómo se pueden construir y actualizar los grafos de conocimiento? ¿Cómo se pueden integrar? ¿Cómo se puede validar el conocimiento en ellos? ¿Cuál es la forma correcta de consultarlos? ¿Cómo podemos razonar con y sobre ellos? ¿Cómo se pueden utilizar en esta área, las ideas de la web semántica, especialmente con respecto a la representación de vocabularios y ontologías? ¿Cómo se puede integrar todo esto con los desarrollos en inteligencia artificial, particularmente en redes neuronales gráficas e incrustaciones de gráficos? Todas estas son preguntas de investigación muy interesantes.

P: ¿Cómo podría verse y funcionar de manera diferente la World Wide Web dentro de cinco a diez años?

R: Puedo imaginar que la capacidad de las máquinas para comprender los datos web será mucho mayor en cinco a diez años. Esto puede parecer obvio para algunos, pero lo que creo que será interesante es la combinación de técnicas provenientes de diferentes áreas. Por un lado, tenemos las técnicas y estándares desarrollados en la web semántica para representar la semántica de los datos en la web. Por otro lado, tenemos técnicas de inteligencia artificial que están dando pasos de gigante en el manejo de tareas humanas, como traducir un texto de un idioma a otro. Será muy interesante ver la integración adecuada de tales técnicas para tratar con datos web.