La diversidad en el estudio de datos: cuatro Fondecyt potenciarán el trabajo de los y las investigadoras IMFD – Instituto Milenio Fundamentos de los Datos

Enero, 2024.- La Agencia Nacional de Investigación y Desarrollo (ANID) dio a conocer los resultados del concurso Fondecyt Regular 2024, el programa que se posiciona como la política pública de mayor centralidad en el sistema de ciencias e innovación, para el desarrollo de ciencia básica en el país. Este año, son cinco los proyectos realizados por investigadores e investigadoras del Instituto Milenio Fundamentos de los Datos que obtienen estos fondos, con trabajos que hacen énfasis en las diversas áreas de estudio del IMFD, abordando estudios relacionados a los datos en sus más diversos aspectos: desde la privacidad, el comportamiento de lenguajes de consulta, análisis de datos urbanos y de redes sociales, los fondos de este ciclo abarcan la gran diversidad de estudios que se realizan en el IMFD.

Consultas en bases de datos de grafos

Domagoj Vrgoč, académico del Instituto de Ingeniería Matemática y Computacional de la Universidad Católica e investigador del Instituto Milenio Fundamentos de los Datos, obtuvo el fondo por cuatro años para la investigación “New Challenges in Graph Query Answering”, en la cual se profundiza sobre los lenguajes de consultas en bases de datos de grafos, en una investigación pionera que estudiará las propiedades fundamentales del nuevo nuevo estándar ISO para lenguajes de consultas de grafos llamado GQL.

Las bases de datos de grafos ofrecen una conceptualización intuitiva: con nodos que representan entidades y arcos que representan las conexiones entre las entidades. La flexibilidad y adaptabilidad que entregan como sistema para representar información, los ha transformado en uno de los sectores de más rápido crecimiento en la última década. Su adopción comercial y proliferación de distintos motores generó una necesidad de crear un lenguaje común para bases de datos de grafos.

Esto ha derivado en el estándar Graph Query Language (GQL) como también en el SQL/PGQ, que amplía SQL con capacidades para analizar bases de datos de grafos. Estos dos estándares son el objeto de estudio del proyecto del investigador IMFD, que tiene como objetivo conocer las propiedades del lenguaje de consultas que comparten ambos estándares, GQL y SQL/PGQ, para comprender que fragmentos de ambos estándares pueden ser evaluados eficientemente y desarrollar algoritmos de evaluación eficientes para ambos casos.

Privacidad en datos de salud

Un grupo de investigación que produce muchos recursos lingüísticos y modelos computacionales para el español hablado en Chile es el liderado por Jocelyn Dunstan Escudero, la académica Instituto de Ingeniería Matemática y Computacional de la Universidad Católica y el Departamento de Ciencia de la Computación de la Universidad Católica e investigadora del Instituto Milenio Fundamentos de los Datos.

En Privacy-preserving methods for clinical natural language processing in Spanish, la investigadora buscará estudiar, crear y evaluar métodos que preserven la privacidad para fomentar el uso ético de datos de texto clínicos en aplicaciones de grandes modelos lingüísticos (LLM), garantizando formalmente la protección de los datos sensibles de los pacientes. Como co-investigadores cuenta con el académico del Departamento de Ciencias de la Computación de la U. Chile y también investigador IMFD Matías Toro y con el profesor de lingüística de la UC Fredy Núñez.

Los grandes modelos lingüísticos (LLM) están revolucionando la forma de interactuar con las máquinas. Por ejemplo, una comunidad de investigadores cada vez más numerosa se interesa por las nuevas formas en que los LLM, como ChatGPT, podrían resolver tareas cada vez más complejas relacionadas con el texto no estructurado.

Estos modelos requieren enormes cantidades de texto para entrenarse y utilizan cientos o miles de millones de parámetros. Aunque los modelos lingüísticos preentrenados funcionan bien con menos datos, el gran número de parámetros podría conducir a una memorización no deseada de RUT, nombres o direcciones, lo que los haría susceptibles de sufrir ataques a la privacidad, como inferir si alguien pertenece a un conjunto de datos.

Las aplicaciones médicas son un campo prometedor para el uso de LLM preentrenados, ya que se ocupa de grandes cantidades de texto libre procedente de historiales clínicos electrónicos, como diagnósticos, recetas o notas de pacientes hospitalizados. Sin embargo, la preservación de la privacidad en medicina es una piedra angular, ya que exponer información sensible de los pacientes viola los derechos humanos. Este objetivo es crucial, ya que el texto no estructurado puede mejorar las tareas de predicción y favorecer el aprovechamiento de la información epidemiológica, la que puede ser utilizada en la creación de políticas y lineamientos públicos en el área de salud.

Efectos de la propaganda en redes sociales

La detección de propaganda en redes sociales y la caracterización de sus efectos en redes sociales es el proyecto interdisciplinario de Marcelo Mendoza, académico del Departamento de Ciencia de la Computación de la Universidad Católica e investigador IMFD que se adjudicó también el Fondecyt Regular. En este, trabajará con un equipo en base a colaboración internacional y con el apoyo de especialistas del área de las comunicaciones como el co-investigador de este proyecto Marcelo Santos, de la Facultad de Periodismo de la Universidad Diego Portales y Núcleo Milenio para el Estudio de la Política, Opinión Pública y Medios en Chile, MEPOP.

El equipo de investigación busca analizar si los usuarios/as reproducen los sesgos de los medios de prensa en base a estrategias de propaganda lingüística, es decir, la existencia del contagio lingüístico en redes sociales a partir del uso de estrategias de propaganda. Para esto, analizarán la presencia de texto persuasivo en redes sociales, ya que la detección de uso de propaganda en la redacción de noticias ayuda a entender como en el campo informativo podemos ser influenciados reproduciendo estereotipos. En este trabajo, se desarrollarán técnicas que permitan detectar el uso de estrategias de manipulación en fuentes noticiosas, tales como el uso de lenguaje estereotipado, la exageración o la apelación al miedo. Las técnicas de procesamiento de lenguaje natural que se requieren deben manejar varias estrategias de propaganda y ser capaces de detectar su uso en tiempo real.

El proyecto busca superar los resultados del estado del arte en base a un mejoramiento de los datos usados para entrenar este tipo de modelos, los cuales tienen desbalance severo de clases. Los primeros modelos desarrollados en el proyecto consideran abordar el problema en inglés, para luego desarrollar modelos en español, utilizando estrategias de aumentos de datos asistidos por modelos lingüístico (LLM), como también anotación humana para clases infrecuentes. La segunda etapa del proyecto considera como caso de estudio las elecciones presidenciales 2025.

Datos multimodales en ciudades

En “Embed the City: An Artificial Intelligence-based Approach to learn Transferable Representations from Multi-source and Multi-modal Urban Data”, Hans Löbel, académico del Departamento de Ciencia de la Computación de la Universidad Católica y del Departamento de Ingeniería de Transporte y Logística UC e investigador IMFD, busca mejorar la caracterización de los fenómenos urbanos, capturando tanto características generales como detalles particulares. La investigación busca superar las limitaciones de modelos basados en redes neuronales a través del desarrollo de un marco de aprendizaje con modelos explicables para aprender representaciones transferibles, a partir de datos urbanos multimodales y de múltiples fuentes.

El principal desafío que se enfrenta hoy al momento de querer utilizar la gran diversidad de datos que existen en planificación urbana, es el manejo de las enormes cantidades de datos multimodales que se generan las ciudades: imágenes, texto, datos de sensores, contenidos de redes sociales, encuestas, datos sociodemográficos, datos de sistemas de información geográfica (SIG): aprovechar de forma eficiente esta enorme diversidad puede ser una tarea desalentadora y muy difícil de abordar.

Las redes neuronales han surgido como poderosas herramientas que son capaces de abarcar estos problemas: las redes neuronales convolucionales pueden procesar grandes cantidades de imágenes, mientras los grandes modelos de lenguaje tienen capacidad de manejar textos de encuestas y redes sociales.

La investigación define tres principales limitaciones en el uso de estos sistemas para planificación y definición de políticas públicas: la primera, es la falta de explicabilidad, que obstaculiza la capacidad de identificar los principales factores que guían los fenómenos, socavando así su confianza. La segunda se relaciona con que los modelos actuales en general se centran en análisis de datos individuales, perdiendo los beneficios de un enfoque de aprendizaje conjunto que considere múltiples perspectivas sobre los fenómenos urbanos. Y como tercera limitación, se indica que el esquema clásico de entrenamiento de modelos, de entrenamiento y testeo, no es el más adecuado para datos multimodales y de diversas fuentes, ya que tiende a sobre ajustar el modelo y dificulta la generalización de la tarea.

A la fecha, estos modelos sólo pueden capturar aspectos generales de entornos urbanos complejos, y carecen de la capacidad introspectiva necesaria para obtener conocimientos detallados que puedan apoyar la formulación de políticas y la planificación urbana sólidas. En este punto, la propuesta del estudio es superar estas limitaciones, desarrollando un marco de aprendizaje con modelos explicables, que permitan aprender representaciones transferibles a partir de datos urbanos multimodales y de múltiples fuentes, con el fin de mejorar la caracterización de los fenómenos urbanos, capturando tanto características universales como detalles particulares desde diferentes perspectivas.

Para esto, la investigación se planificó en tres etapas: construir modelos de redes neuronales explicables para evaluar factores en tareas urbanas basadas en imágenes; aprender representaciones multimodales para caracterizar de manera integral diversas fuentes de datos que capturen información urbana; y finalmente desarrollar un marco de preentrenamiento para transferir fácilmente representaciones urbanas a diversas tareas posteriores.