IMFD participa en creación de G-Core, nuevo lenguaje que optimiza búsquedas – Instituto Milenio Fundamentos de los Datos

Cada vez que un usuario realiza una búsqueda, los datos quedan albergados en un servidor. Lo mismo ocurre con casi todo lo que compartimos por e-mail, redes sociales o redes móviles. Esta información ha alcanzado tal volumen, que la ciencia de la computación dedica una línea de trabajo al estudio de nuevos modelos que permitan mejorar los sistemas de almacenamiento, relacionamiento de datos y comprensión de ellos.

Actualmente, las grandes empresas y servicios trabajan con un modelo llamado grafos de conocimiento, tecnología que ha permitido generar la entrega de información relacionada con una búsqueda.

“Lugares turísticos” asociados con una ciudad o “nombre de actor” en una película son sólo algunos ejemplos. Son los métodos basados en grafos los métodos que le permiten a Google inferir, por ejemplo, que junto con querer visitar el Parque Güell y La Rambla en Barcelona, un turista puede querer saber los horarios de atención y qué restaurantes se recomienda visitar. O que, junto con el olvidado nombre del actor de una película, quizás le guste saber en qué otros filmes ha participado o las actrices y directores relacionados.

Más y mejores búsquedas

Sin embargo, la ciencia de la computación apunta a hacer aún más inteligentes esas búsquedas: “El objetivo es usar la información disponible en cualquier base de datos para responder preguntas complejas, que impliquen descubrir las relaciones entre variables”, explica Pablo Barceló, director alterno del Instituto Milenio Fundamentos de los Datos en la Universidad de Chile.

“Los grafos de conocimiento son una forma de organizar las redes que existen entre los datos y que son, por decirlo de alguna manera, la arquitectura sobre la cual corre Google u otros buscadores y que constituye un nuevo paradigma de gestión de la información que usan hoy las grandes empresas de tecnología”, agrega Barceló.

La industria y la academia por un mejor lenguaje de consulta

El Instituto Milenio Fundamentos de los Datos cuenta con vasta experiencia a nivel nacional e internacional en el estudio de grafos del conocimiento y es por ello que fueron invitados a ser parte del equipo internacional de 12 investigadores que, al alero del LDBC Council y con empresas como IBM, Oracle y Neo4J, llevan dos años trabajando en G-Core, un lenguaje de consulta que permite descubrir, extraer y comprender las relaciones más relevantes entre pares de datos.

“Un dato sólo cobra valor en relación con otro”, explica Claudio Gutiérrez, investigador del instituto en la Universidad de Chile: “Su riqueza radica no en la información en sí misma, sino en los vínculos que se pueden descubrir o determinar entre un nodo y otro”, detalla.

El recién creado lenguaje de consulta fue presentado por el equipo internacional del cual el IMFD forma parte en la conferencia internacional Sigmod/PODS 2018, una de las más importantes a nivel global en manejo de los datos, que se realizó recientemente en Houston, Estados Unidos.

“G-Core es el único lenguaje que descubre los caminos entre un dato y otro, pudiendo así generar información valiosísima para mostrar, por ejemplo, relaciones de poder, de negocios o de comportamiento entre un nodo y otro”, acota Claudio Gutiérrez.

Por ello, los investigadores visualizan importantes aplicaciones en el ámbito de las ciencias sociales, pero podría ser aplicado en cualquier área. “Nosotros trabajamos desarrollando y mejorando los métodos para acceder a la información y es por eso que a nivel científico este avance podría tener gran impacto en los grafos de conocimiento”, señala el investigador.

El instituto espera que este lenguaje se traduzca próximamente en una aplicación que pueda ser usada por profesionales que requieran extraer información desde conjuntos de datos complejos y con alta interrelación.

Científicamente comprobado

Marcelo Arenas, director del Instituto Fundamentos de los Datos y académico de la Pontificia Universidad Católica, explica que hoy el lenguaje de consulta más usado en grafos es Cypher, pero que G-Core ofrece dos mejoras específicas: “En primer lugar, demostramos matemáticamente que todas las consultas que se hagan arrojarán resultados, cosa que Cypher no es capaz de garantizar”, detalla.

En segundo lugar, mientras las respuestas que Cyhper da son arrojadas en formato de tablas, las de G-Core son en grafos de conocimiento, lo que permite que sobre una consulta se puedan hacer, potencialmente, infinitas consultas, refinando aún más las búsquedas”, finaliza.