Noticias

Hitos de los Proyectos Emblemáticos del IMFD a marzo de 2020

Datos para el estudio de problemas sociales complejos; creación de nuevos lenguajes de consulta para redes de información; extracción eficiente de datos en escenarios de alta complejidad; inteligencia artificial con explicación; y generación de estructuras de información robustas, son los nombres de los cinco proyectos emblemáticos del Instituto Milenio Fundamentos de los Datos (IMFD).
En esta nota, puedes conocer cuáles son sus focos de investigación, en qué está cada uno y los trabajos que proyectan para el 2020.

 

  • Datos para el estudio de problemas sociales complejos:

El proyecto emblemático 1 (PE1) busca triangular métodos tradicionales de las ciencias sociales con el desarrollo de técnicas basadas en los avances de las ciencias de la computación. Al mismo tiempo, se busca integrar dichas metodologías para el análisis de conflictos sociales y políticos relevantes, a nivel territorial, en el Chile contemporáneo. Desde esta perspectiva, destacamos tres iniciativas, alineadas con el logro simultáneo de ambos objetivos:

– Durante el último cuatrimestre de 2019 e inicios de 2020, el PE1 puso en funcionamiento un centro de prácticas profesionales, ofreciendo pasantías de investigación a estudiantes de pregrado de distintas carreras -Computación, Ciencia Política y Sociología- y universidades -U. Católica; U. de Concepción; Josué Tapia, de la U. de Chile; y Johans Peña, de la U. Politécnica de Valencia, España. El trabajo del centro de prácticas fue coordinado por Naim Bro, post-doc en el IMFD. Bro, quien completó una base de datos de relaciones familiares entre parlamentarios chilenos para el período 1828-1894, y que cubre parcialmente el período 1810-2020, también coordinó, con los estudiantes en práctica, la digitalización y limpieza de los diarios de sesiones del congreso chileno. Se trata de una fuente textual que abarca el período 1810-2019, y reproduce diálogos legislativos literalmente, intervención por intervención, para toda la historia del Congreso en Chile.
En 2020 se realizará el análisis de esta base de datos, en cooperación con investigadores del proyecto emblemático 4 (PE4), especializados en el procesamiento de lenguaje natural.

– En diciembre de 2019, un grupo de diez investigadores del PE1 realizaron una investigación de campo en la zona de Quintero-Puchuncaví -V Región- realizando un relevamiento mediante entrevistas semi estructuradas con la población y los líderes sociales locales. La información recabada está siendo analizada, y será triangulada con datos estadísticos disponibles para la zona, en base al trabajo con información administrativa y proveniente de fuentes web abiertas.

– Al mismo tiempo, durante 2020 se prevé completar la primera etapa (línea de base) del “Monitor” del PE1, realizando incursiones de campo similares en la Región de la Araucanía, en la zona de la frontera norte de Chile, y en un sector poblacional de la Región Metropolitana.
“Monitor” se refiere al trabajo que realizan a nivel territorial en las cuatro zonas donde tiene foco el proyecto: Araucanía, zonas de sacrificio, frontera norte y poblaciones.

 

  • Nuevos lenguajes de consulta para redes de información:

El marco general de PE2 es el estudio e implementación de sistemas robustos para redes de información, con el objetivo de desarrollar un sistema de bases de datos de grafos basados en state-of-the-art research. Para ello, los investigadores de este proyecto emblemático están desarrollando nuevas técnicas para evaluar consultas complejas sobre redes de información, y también colaborando con comités de estandarización para lenguajes de consultas sobre grafos.

En primera instancia, los investigadores Gonzalo Navarro y Juan Reutter, con el estudiante de postdoctorado Javiel Rojas, desarrollaron nuevas técnicas para evaluación de consultas sobre grafos de manera eficiente. Este trabajo, que fue aceptado en la conferencia ICDT’20, muestra cómo obtener algoritmos óptimos para evaluar consultas sobre grafos comprimidos.
Actualmente, estos investigadores -junto a Diego Arroyuelo, del IMFD- están trabajando en obtener una implementación práctica de esta técnica, de modo de plasmar estos resultados en prototipos muy eficientes que puedan ser incorporados a sistemas reales de manejo de bases de datos.

Adicionalmente, los investigadores Renzo Angles y Domagoj Vrgoč están colaborando en el comité de ISO/IEC -un comité internacional que se encarga de definir estándares para el área de tecnologías de la información-, cuyo objetivo es definir un estándar para lenguajes de consultas sobre grafos.

La participación de los investigadores en estas iniciativas es relevante por el rol que pueden tener en las decisiones sobre el diseño de lenguajes que se usan en el día a día. Junto con ello, permite promover el trabajo del IMFD en la implementación de bases de datos de grafos.

 

  • Extracción de datos en escenarios de alta complejidad:

El principal objetivo de este proyecto emblemático -llamado “Extracción eficiente de datos en escenarios de alta complejidad”- es diseñar herramientas que permitan a los sistemas de manejo de datos actuales tratar con requerimientos altamente complejos. Estos incluyen volumen, privacidad, capacidad analítica, distribución e incertidumbre, entre otros.
Aquí, algunos ejemplos importantes de temas que se han estado trabajando:

– Aprendizaje de máquinas: un trabajo sobre el poder de las Redes Neuronales de Grafos, muy usadas para procesar datos con estructura, será presentado por Jorge Pérez en la International Conference on Learning Representations (ICLR 2020), que se realizará entre el 26 y el 30 de abril en Etiopía. ICLR es la conferencia más importante a nivel mundial acerca de Deep Learning, una de las técnicas más exitosas de Inteligencia Artificial en la actualidad. El trabajo fue escrito por Jorge junto a Pablo Barceló, Juan Reutter, Mikael Monet -todos investigadores del IMFD- Juan-Pablo Silva, estudiante de Computación de la U. de Chile, y Egor Kostylev de la Universidad de Oxford. El trabajo presenta una conexión entre Redes Neuronales de Grafos y Lógica, en particular, fórmulas lógicas usadas en el área de representación de conocimiento, aunando así dos áreas disímiles de la Inteligencia Artificial. En el proceso de evaluación, el artículo obtuvo puntuación perfecta (8-8-8) siendo así uno de los mejores evaluados dentro de los más de 3.000 artículos enviados a ICLR para su versión 2020. Una versión preliminar del artículo fue presentado en el Graph Representation Learning Workshop de NeurIPS 2019.

– Calidad de datos: las empresas deparan mucho tiempo y esfuerzo en abordar temas relacionados con la calidad de los datos. Estos temas afectan la calidad de los resultados obtenibles por consultas y los modelos de aprendizaje de máquinas, entre otros. Todavía falta teoría para caracterizar estos problemas y poder entender la naturaleza de la calidad de datos. Enfrentado este problema, el artículo “Data Quality and Explainable AI”, escrito por Leo Bertossi -IMFD y U. Adolfo Ibañez- y Floris Geerts -University of Antwerp- ha sido aceptado en el ACM Journal on Data and Information Quality, una revista prestigiosa del área.
El objetivo del paper es relacionar los temas de aprendizaje de máquinas y calidad de los datos, basándose en teorías de causalidad. El trabajo permite entender mejor los modelos construidos con métodos de aprendizaje de máquinas -en términos de los datos que utilizan-, y explicar los resultados que dan. Estas explicaciones pueden ser usadas para caracterizar e identificar datos de baja calidad, y sugerir opciones para reparar datos.

– Manejo de incertidumbre: una de la formas más usuales y prácticas de modelar la incertidumbre es asumiendo que los datos están incompletos; en particular, asumiendo que el valor de ciertas entradas en los datos no está disponible. A pesar de que este tema ha sido estudiado durante décadas por la comunidad de bases de datos, últimamente ha comenzado a enriquecerse con la investigación proveniente de las comunidades de inteligencia artificial y estadística. Los investigadores Marcelo Arenas y Pablo Barceló, junto con el investigador postdoctoral Mikael Monet, realizaron importantes avances en entender el nivel de “soporte” que tiene la información cuando los datos son incompletos; es decir, con cuánta confianza se puede deducir algo de los datos independiente de cómo los valores incompletos son interpretados. Esta investigación dio paso a un artículo titulado “Counting Problems over Incomplete Data Bases” (https://arxiv.org/abs/1912.11064), que acaba de ser aceptado en ACM PODS, la conferencia más prestigiosa a nivel mundial en teoría de bases de datos, que se desarrollará entre el 14 y el 19 de junio de 2020, en Portland, Estados Unidos.

– Lenguajes híbridos: hoy se puede elegir un lenguaje, entre muchos, para una tarea específica. Aunque estos lenguajes han simplificado tareas particulares, frecuentemente hay que usar varios lenguajes para tareas más complejas. Esto da lugar a complicaciones, necesitando la importación y exportación de datos entre herramientas diferentes.
En este contexto, otro enfoque importante del PE3 es la comparación y combinación de lenguajes, generando algunos híbridos que permitan resolver más tareas y simplifiquen el procesamiento de datos.
En esta línea de trabajo, el artículo “Let’s build Bridges, not Walls – SPARQL Querying of TinkerPop Gragh Databases with SPARQL-Gremlin” (https://semanticcomputing.wixsite.com/website-5), escrito por Harsh Thakkar -OSTHUS GmbH-, Renzo Angles -IMFD y U. de Talca-, Marko Rodriguez -RReduX, Inc.-, Stephen Mallette -DataStax- y Jens Lehmann -University of Bonn-, fue aceptado en el IEEE International Conference on Semantic Computing (ICSC 2020), y fué premiado como el mejor artículo (Best Paper) de la sección de recursos (Resource Track).
El trabajo permite traducir consultas desde SPARQL, un lenguaje de consulta para grafos de RDF, a Gremlin, un lenguaje de analítica para grafos de propiedades. De esta manera se logra estrechar la relación entre las áreas de bases de datos RDF y bases de datos para grafos. El trabajo es particularmente notable por la colaboración con tres empresas enfocadas en el procesamiento eficiente de datos.

– Datos semi-estructurados: existen muchos datos disponibles en la web, particularmente en formatos “semi-estructurados”. En los últimos años JSON se ha convertido en unos de los más populares, dadas sus características livianas y su flexibilidad. Pero mientras que la simplicidad es una fortaleza de JSON, también es una debilidad, dado que no existen estándares para estructurar, validar y consultar los datos.
En este contexto, el artículo “JSON: data model and query languages” publicado con Juan Reutter (IMFD y U. Católica), Domagoj Vrgoč (IMFD y U. Católica) y Pieris Bourhis (INRIA Lille), fue publicado este mes en la revista “Information Systems”. El artículo desarrolla la teoría de formato de datos JSON y establece un marco teórico sobre lenguajes de consulta que se usan para manejar este formato de datos: bit.ly/2wbSM62

– Verificación: relacionado con el tema anterior, otra línea de trabajo del PE3 tiene que ver con la verificación formal de los lenguajes emergentes en la práctica. Esta verificación es importante para asegurarse, por ejemplo, que un sistema que usa estos lenguajes va a devolver resultados confiables. Una muestra de ello es GraphQL, un lenguaje de consulta publicado por Facebook en 2015 y usado en miles de sitios web, incluyendo los de Airbnb, Github, KLM, Lyft, NBC, PayPal, Pinterest, Twitter y Yelp, entre otros. La descripción de GraphQL publicada por Facebook -y usada por estas compañías- es sin embargo informal y está sujeta a diferentes interpretaciones.
En este contexto, el artículo “A Mechanized Formalization of GraphQL” -escrito por Tomás Díaz, Federico Olmedo y Éric Tanter, todos miembros del IMFD y los últimos dos también académicos de la U. de Chile- fue aceptado en el ACM SIGPLAN International Conference on Certified Programs and Proofs (CPP 2020). El trabajo describe una formalización de GraphQL mecanizada en el asistente de pruebas Coq y permitió probar propiedades fundamentales sobre el lenguaje, así como identificar brechas en su definición actual.

 

  • Inteligencia artificial con explicación:

Si hay algo que ha emergido con fuerza en esta área, es la gran necesidad de contar con una explicación detrás de las razones de cada inferencia realizada por un algoritmo de inteligencia artificial (IA). En este contexto, surgen importantes desafíos para este grupo de investigación (PE4), orientados a desarrollar nuevos algoritmos, metodologías y representaciones que faciliten el desarrollo de IA con explicación. En este sentido, se destacan dos iniciativas:

– Generación sintética de entornos urbanos: en base al trabajo realizado anteriormente por miembros del grupo -centrado en explicar la manera en que las personas perciben visualmente el entorno urbano-, investigadores del PE4 están desarrollando mecanismos que permitan tomar las explicaciones entregadas por el sistema anterior y las imágenes satelitales, para generar automáticamente nuevas imágenes que muestren el resultado de posibles intervenciones que mejoren la percepción de entorno urbano y el uso de este. Los resultados de esta investigación aportarán información de gran utilidad para el mejoramiento de espacios urbanos y la calidad de vida en las grandes urbes como Santiago.

– XAI en medicina: investigadores del PE4 están investigando formas de apoyar distintas tareas clínicas usando métodos de inteligencia artificial interpretables. Uno de los problemas abordados tiene relación con ayudar a médicos a responder preguntas clínicas, a partir de la evidencia contenida en artículos científicos extraídos de grandes volúmenes de datos, como la biblioteca online PubMed. Los métodos explicables podrán ayudar a los médicos no sólo a encontrar documentos relevantes, sino también a entender por qué son relevantes y por qué otros documentos no lo son.
Otro de los problemas que comenzaron a abordar recientemente es la generación automática de reportes médicos, a partir de imágenes como rayos-X. Si bien ya hay métodos existentes, su evaluación así como la capacidad de permitir al médico inspeccionar el reporte médico a partir de preguntas (medical VQA), está aún en etapas tempranas y el grupo PE4 espera investigar y crear soluciones que combinan modelos de imágenes, modelos de lenguaje e información de bases de conocimiento.

 

  • Estructuras de información robustas:

El proyecto emblemático 5 (PE5) se enfoca en dos líneas de trabajo: investigar el alcance y propagación de desinformación en países de habla hispana; y examinar la manifestación de incivilidad o lenguaje de odio en medios digitales.

En el caso de la temática de desinformación, el equipo del PE5 ha iniciado el análisis de la nueva base de datos de 38 millones de URLs compartidas en Facebook entre 2017 y 2019, a través del proyecto Social Science Research Council / Social Science One, en el que participan los investigadores del IMFD Magdalena Saldaña, Bárbara Poblete, Benjamín Bustos, Felipe Bravo, Mauricio Quezada y Juan Pablo Luna. El propósito es caracterizar el alcance y difusión de las noticias falsas en países de habla hispana respecto de las noticias verificadas, para delinear la amenaza de la desinformación digital en Ia región.

Además, realizaron un estudio -vía encuesta- sobre la difusión de noticias falsas en el marco del estallido social de octubre 2019, en Chile. Este tuvo amplia cobertura periodística y será presentado en una preconferencia de la International Communication Association, #ICA20, que se realizará este año: http://bit.ly/encuestamediosfcomuc
En abril se elaborará la segunda parte de esta encuesta panel.

El área de incivilidad y redes sociales está trabajando en tres proyectos. El primero consiste en analizar la incivilidad en comentarios de noticias. A partir de este se envió un paper al journal norteamericano Social Media + Society, y hay dos ponencias aceptadas en el Congreso de la Asociación Chilena de Investigadores en Comunicación, INCOM, que se realizará el 16 y 17 de abril en Valparaíso.
El segundo proyecto tiene como fin entrenar un clasificador para etiquetar comentarios y clasificarlos como civiles/inciviles, con un determinado margen de error. De este proyecto se envió un abstract al Alberto Mendelzon International Workshop on Foundations of Data Management, AMW2020, que se llevará a cabo en mayo, en Cusco, Perú.
El tercer proyecto estudia la relación entre el uso de memes políticos y la presencia de incivilidad en cuentas chilenas de Twitter. Este proyecto tiene un artículo aceptado en la conferencia anual de la International Communication Association, #ICA20.

Datos para el estudio de problemas sociales complejos; creación de nuevos lenguajes de consulta para redes de información; extracción eficiente de datos en escenarios de alta complejidad; inteligencia artificial con explicación; y generación de estructuras de información robustas, son los cinco proyectos emblemáticos del IMFD.
More news
View : All
Annual
2020
2019
2018
2017
2016
2015
Biannual
1st semester
2nd semester
Monthly
January
February
March
April
May
June
July
August
September
October
November
December
No news in this category
Show more
Nothing to show