Noticias

Trabajo de investigadores IMFD es premiado en SIGMOD/PODS

Junio, 2023.- Cada año, la Association for Computing Machinery (ACM) -fundada en 1947 como la primera sociedad científica y educativa en el campo de la computación- organiza la Conferencia SIGMOD/PODS. Actualmente, el evento es considerado uno de los foros internacionales más importantes del área de manejo de datos, cuyos investigadores se congregan para explorar nuevas ideas, resultados, técnicas y experiencias. Es en ese contexto que también se premian los mejores papers que se presentan: en la versión 2023, que se realiza entre el 18 y el 23 de junio en Seattle (EEUU), uno de esos galardones es para un estudio que tiene como coautor a Domagoj Vrgoč, académico del Instituto de Ingeniería Matemática y Computacional de la P. Universidad Católica de Chile e investigador del Instituto Milenio Fundamentos de los Datos (IMFD) y a Renzo Angles, académico del Departamento de Ciencias de la Computación de la Universidad de Talca e investigador IMFD

De acuerdo con los organizadores, el estudio titulado “PG-Schema: Schemas for Property Graphs” fue elegido como el “Mejor paper del track industrial” debido a su excepcional calidad, originalidad y contribución al área de las bases de datos grafos., y es fruto del trabajo conjunto de investigadores de varias casas de estudios superiores como la Universidad de Varsovia (Polonia), la Universidad de Bayreuth (Alemania), la Universidad de Edimburgo (Escocia) y empresas como Amazon Web Services, TigerGraph, Neo4J y RelationalAI, entre otras.

SIGMOD/PODS es una de las conferencias más grandes del mundo y una de las más prestigiosas en el campo de bases de datos. Cada año reúne a cerca de 2.000 participantes. Tiene una sección que es SIGMOD y que cubre la parte más práctica y PODS, que se aboca al campo más teórico”, señala Domagoj Vrgoč, doctor en computación de la U. de Edimburgo (Escocia). En cuanto al paper en sí, precisa que el galardón alude a que el estudio es un “trabajo con bastante impacto en la industria y hecho en colaboración con gente de la industria. De hecho, es un paper que tiene más de 20 autores, lo que representa una colaboración muy grande, que llevó bastante tiempo y que resuelve un problema concreto que existe en el área”.

Renzo Angles comenta que este artículo fue desarrollado por integrantes del «Property Graph Schema Working Group» al interior del Linked Data Benchmark Council (LDBC) «A mediados del año 2019, empezamos a conversar sobre las características de los modelos de datos basados en grafos, y la ausencia de una manera estándar para representar su estructura o esquema. En este sentido, en el artículo se propone un formalismo para especificar esquemas para grafos con propiedades, es decir, un lenguaje que permite describir de manera precisa los tipos de nodos, aristas y propiedades existentes en una base de datos basada en grafos, además de especificar restricciones simples y complejas sobre dichos tipos y sus relaciones».

El potencial del estudio

En el área de bases de datos, hay una rama muy importante que se conoce como bases de datos de grafos, en las cuales los datos se modelan conceptualmente. “Cada entidad que quieres representar, como una persona, una ciudad o un lugar de trabajo, va a ser un nodo en tu grafo. Y cuando quieres vincular datos se ponen aristas que te dicen cuál es la conexión entre las distintas entidades. Eso significa que es un modelo que no tiene una estructura fija; cuando quieres agregar una entidad nueva, simplemente la conectas a través de aristas”, indica Vrgoč.

Esta característica implica que no sea necesario tener una estructura fija, como ocurre en el área más clásica de este campo de investigación y que abarca a las bases de datos relacionales. “Las bases de datos de grafos no tienen un esquema, que se entiende como una descripción que te dice ‘todo se ve así’ y que en el mundo de las bases de datos relacionales sí existe de manera muy fuerte”, comenta el académico. En cambio, añade, en una base de datos de grafos pueden haber “nodos que representan personas, pero algunos incluyen sólo nombre y país, y otros sólo muestran un nombre y edad. Por eso, no es necesario que todo sea estructurado. En cambio, en las bases de datos relacionales todo debe tener los mismos atributos”.

Según Vrgoč, ese rasgo les da mucha flexibilidad a las bases de datos de grafos, pero también puede generar un problema “cuando existe un grafo de conocimiento muy grande, donde sí hace falta un esquema que te diga qué tipo de datos tienes”.

El estudio ayuda a llenar ese vacío. “El paper se llama PG-Schema porque alude a un lenguaje que permite definir el esquema para un formato de base de datos de grafos que se ocupa bastante en la industria y que se llama ‘property graphs’. Y el trabajo es efectivamente eso, un lenguaje que permite de manera compacta describir qué tipo de datos tengo en mi base de datos sin tener que mostrar todos esos datos. Se basa en una cierta sintaxis, desarrolla una semántica y facilita hacer esa definición”.

La contribución de Vrgoč al paper consistió en establecer una gramática para ese lenguaje: “El trabajo que hice con un subgrupo de ese equipo internacional, principalmente con Filip Murlak (U. de Varsovia, Polonia) y Wim Martens (U. de Bayreuth, Alemania), fue diseñar un lenguaje base que permite describir qué tengo en un nodo, qué puedo tener en una arista, cómo se vinculan, cómo se ve mi grafo en general. Luego, con el resto del equipo desarrollamos varias extensiones que al final llevan a este lenguaje”.

«El desarrollo del artículo tomó bastante tiempo porque hubo una discusión entre las necesidades reales que planteaban los miembros del grupo que trabajan en la industria, y los fundamentos teóricos planteados por los miembros pertenecientes a la academia. El resultado final, es un lenguaje de especificación de esquemas que permite representar esquemas de grafos con distintos tipos de restricciones, pero respetando condiciones teóricas importantes», señala Renzo Angles, quien tiene confianza que el artículo impactará en el desarrollo de lenguajes de especificación de esquemas para sistemas de base de datos basadas en grafos.

Los investigadores esperan que, debido a su potencial, este lenguaje sea incorporado a un nuevo estándar ISO para el lenguaje de consulta de grafos. “Nuestro trabajo es una propuesta con un insumo para el grupo que define ese estándar, pero aún no es algo que esté establecido en la industria. Por ahora, se trata de un trabajo de investigación”, afirma Domagoj Vrgoč.

Todos los autores del estudio son: Renzo Angles (Universidad de Talca); Angela Bonifati (Univ. of Lyon); Stefania Dumbrava (ENSIIE); George Fletcher (Eindhoven University of Technology the Netherlands); Alastair Green (Mr); Jan Hidders (Birkbeck, University of London)*; Bei Li (Google); Leonid Libkin (University of Edinburgh & RelationalAI); Victor Marsault (UPEM / CNRS); Wim Martens (University of Bayreuth); Filip Murlak (University of Warsaw, Poland); Stefan Plantikow (Neo4j); Ognjen Savkovic (Free University of Bozen-Bolzano); Michael Schmidt (Amazon Web Services); Juan Sequeda (data.world); Sławek Staworko (RelationalAI); Dominik Tomaszuk (University of Bialystok); Hannes Voigt (Neo4j); Domagoj Vrgoc (Pontificia Universidad Catolica de Chile); Mingxi Wu (Tigergraph inc); Dušan Živković (Integral Data Solutions)

Fuente: IMC UC

El evento se realiza entre el 18 y el 23 de junio en Seattle (EEUU).
Más noticias
Ver : Todas
Anual
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
Semestral
Semestre 1
Semestre 2
Mensual
January
February
March
April
May
June
July
August
September
October
November
December
Sin noticias en esta categoria
Mostrar más
Nada para mostrar