Felipe Bravo, U. de Chile, se adjudica Fondecyt para estudiar modelos de análisis de lenguaje que evolucionen en el tiempo – Instituto Milenio Fundamentos de los Datos

Felipe Bravo (36), investigador del IMFD y profesor asistente del Departamento de Ciencias de la Computación en la U. de Chile, fue uno de los investigadores jóvenes, a nivel país, que se adjudicaron un Fondecyt de Iniciación 2020. Este último busca fomentar y fortalecer el desarrollo de la investigación científica y tecnológica de excelencia por parte de jóvenes investigadores, mediante el financiamiento de proyectos de investigación de dos a tres años de duración.

El académico trabajará en el monitoreo automático de opinión pública a través de redes sociales. “El proyecto consiste en hacer modelos de análisis del lenguaje -de emociones y sentimientos-, que se puedan adaptar en el tiempo sin supervisión humana. De fondo, me interesa ver la evolución del lenguaje. Por ejemplo, cuando aparece un hashtag nuevo, que el modelo trate de entender automáticamente qué significa, qué está expresando”, explica Felipe Bravo.

Una aplicación de su investigación, añade, será monitorear redes sociales en tiempo real. “Esto permite medir la polarización, por ejemplo, en momentos de elecciones como el plebiscito recién pasado”. Además, la idea es que estos modelos sean dinámicos. “Hoy los modelos de análisis de lenguaje son estáticos y el problema es que están limitados a los datos que usé para entrenarlos. Pero el lenguaje es dinámico, cambia y aparecen conceptos nuevos todo el tiempo, sobre todo en redes sociales”, afirma el investigador joven del IMFD.

Hasta ahora, para realizar análisis de lenguaje suelen utilizarse técnicas de Procesamiento de Lenguaje Natural (PLN) y Machine Learning (ML). Esto permite clasificar automáticamente los tweets en categorías afectivas como positividad, negatividad, ira, alegría y tristeza, para lo que se utiliza un léxico afectivo o lista de frases y palabras anotadas, según categorías afectivas. “La elaboración de léxicos afectivos precisos y de alta cobertura para el lenguaje usado en Twitter es una tarea muy difícil, principalmente porque la diversidad de expresiones informales que se encuentran en este medio, como palabras mal escritas, acrónimos o hashtags, hace que la anotación manual de palabras por afecto sea costosa y lleve mucho tiempo. Los léxicos afectivos también son propensos a volverse obsoletos con el tiempo debido a cambios temporales en los patrones afectivos de las palabras”, señala el académico.

Felipe Bravo detalla que en este proyecto se desarrollarán métodos para inducir léxicos afectivos capaces de evolucionar en el tiempo de manera automática, a partir de tweets escritos en inglés y español. “En este proyecto utilizaremos por primera vez técnicas de minería de flujo de datos (o stream data mining) para diseñar algoritmos incrementales y eficientes para la actualización continua de los léxicos afectivos”, agrega.

La aplicación

Una vez desarrollados, estos modelos pueden ser útiles para aquellas personas que quieran analizar opinión pública en redes sociales o textos en general. “Podrán tener garantías de que los modelos no se van a quedar obsoletos y que van a estar capturando siempre, y en tiempo real, lo que el lenguaje está diciendo”, indica el profesor del DCC U. de Chile.

Actualmente se usan modelos que ya están entrenados -como la librería Vader o SentiStrength-, que en general no están adaptados a dominios de lenguaje particulares. “Estas librerías o APIs en el fondo son ‘cajas’ a las que les entrego textos de Twitter u otra fuente y me retornan el sentimiento asociado al texto, por ejemplo, negativo o positivo. Dichas cajas por dentro tienen un algoritmo, que fue entrenado con datos muy distintos a los que uno quiere analizar, como por ejemplo con español de España. Entonces no va a conocer la diversidad de palabras que se usan acá y va a ignorar muchas información”, señala Felipe Bravo.

Para conocer más sobre este tema, revisa este link de un sofware open source que desarrolló el investigador para analizar sentimientos en tweets: https://affectivetweets.cms.waikato.ac.nz/