Noticias
Jorge Pérez, investigador del Instituto Milenio Fundamentos de los Datos (IMFD) y académico de Computación de la Universidad de Chile, viene trabajando desde 2019 en BETO: un modelo de red neuronal que permite el procesamiento computacional de lenguaje natural. Junto a José Cañete (24) y Gabriel Chaperón (25) -ambos estudiantes de Ingeniería en Computación en la U. de Chile-, crearon este modelo basado en BERT, una conocida red neuronal que funciona sólo con textos en inglés.
“BETO nace durante el primer semestre de 2019 como consecuencia de la aparición de BERT, que tiene excelentes resultados en inglés, y debido a que el procesamiento de lenguaje natural en idiomas distintos al inglés está muy poco desarrollado”, explica José Cañete.
Hoy se encuentra pre-entrenado y publicado libremente para que cualquiera lo pueda usar, agrega el investigador Jorge Pérez, quien advierte que dicho modelo es único en su especie. “Hay modelos basados en BERT que ya han sido construidos para distintos idiomas, incluyendo el alemán y francés. Pero para el español BETO es el primero y hasta la fecha, único”, dice Jorge Pérez.
Actualmente, el equipo se encuentra en etapa de evaluación de BETO, es decir, analizando qué tan bueno es para resolver distintas tareas, en comparación con otros modelos existentes.
En esta entrevista, José Cañete y Gabriel Chaperón explican de qué se trata esta red neuronal y el alcance que puede tener, incluso durante el próximo proceso constituyente.
-BETO es un modelo BERT pre-entrenado con texto en español. ¿Cómo podemos definir un modelo BERT en palabras sencillas?
-José Cañete (JC): Un modelo BERT es un modelo de red neuronal profunda basado en un nuevo mecanismo para redes neuronales, llamado de “auto-atención”. Este permite el procesamiento computacional del lenguaje natural, pero más general que eso, de secuencias. Por ejemplo, hay gente que ha ocupado este tipo de arquitecturas para modelar proteínas y temas biológicos. Otros más ingeniosos también lo han usado para el procesamiento computacional de imágenes, e incluso para algoritmos generales sobre secuencias.
-¿En qué se diferencia BETO de su “primo hermano” BERT?
-JC: La principal diferencia es que BETO fue entrenado totalmente con texto en español. Por ejemplo, considera nuestra acentuación y puede procesar la letra “ñ”.
-Gabriel Chaperón (GC): Son como dos hermanos gemelos, exactamente iguales, pero que al nacer fueron separados. Uno se crió en Estados Unidos y el otro en Chile (risas).
-¿Qué distingue a BETO de otros modelos de redes neuronales profundas?
-JC: Algunas cosas distintivas de este tipo de redes neuronales es que tienen muchísimos “parámetros”. Los parámetros son como pequeñas perillas que se pueden mover para ir modificando el funcionamiento de un modelo. En el caso de BETO, este tiene 110 millones de parámetros, lo que lo hace un modelo muy grande. La otra diferencia es que estos parámetros son “pre-entrenados”, que vendría siendo el proceso de decidir en qué posición dejar cada una de las 110 millones de perillas. El pre-entrenamiento se hace inicialmente en una tarea muy general, como por ejemplo una tarea de “complete la oración”. Luego se realiza un fine-tuning, es decir, se trata de adaptar los parámetros del modelo (las perillas) a múltiples otras tareas, como análisis de sentimientos, clasificación de intenciones, reconocimiento de hate speech, etc. Adaptar el modelo es mucho más fácil y más barato que entrenarlo desde cero. BETO es un modelo pre-entrenado; cualquiera puede tomar y adaptarlo a la tarea de su interés.
-GC: La principal diferencia con modelos anteriores es que BETO es capaz de aprender de grandes cantidades de texto no procesado -todo Wikipedia, por ejemplo. Este proceso se llama pre-entrenamiento, ya que el modelo aprende mucho del texto que se le entrega, pero nada en específico. Luego viene lo que mencionó José (JC) recién.
-¿Existen dificultades al entrenar redes en español como BETO?
-GC: El problema es que no existe suficiente volumen de datos de calidad para poder entrenarlas. No es así en inglés, que es el idioma que más les interesa a las compañías privadas, por lo que hay alta disponibilidad de datos para el entrenamiento.
-¿A qué necesidad o pregunta buscan dar respuesta? En otras palabras, ¿por qué es importante su desarrollo?
-GC: El interés por desarrollar un modelo en español es múltiple. En primer lugar, surge de la pregunta si un modelo monolingual -entrenado en un único idioma-, mejora su rendimiento, o es preferible un modelo entrenado con muchos idiomas, como es BERT, entrenado en 104 idiomas. También queremos explorar la relación entre la cantidad de datos de pre-entrenamiento, los costos y el tiempo de entrenamiento, con el desempeño final.
-JC: Es importante porque mejora la calidad y facilita hacer investigación aplicada en procesamiento de lenguaje natural en español, así como también construir herramientas o aplicaciones.
-¿Cuáles son las aplicaciones que puede tener BETO a futuro?
-JC: Puede ser ocupado en múltiples tareas; el límite es la imaginación y los datasets, ósea, la cantidad de datos etiquetados que sean específicos y en español.
-¿Podría servir para un análisis del próximo proceso constituyente, por ejemplo?
-JC: Sí, al igual como se ha hecho en el pasado, pero posiblemente con mejores resultados. Otras tareas interesantes son el análisis de sentimiento y el llamado QA -Question Answering- es decir, dado un texto y una pregunta acerca del texto, responder esa pregunta. Es como comprensión de lectura. También puede ser utilizado para clasificar textos en redes sociales como “agresivos” o “seguros”. Y para identificar bots en redes sociales como Twitter, según los textos que se postean ahí, entre otros.
-GC: Considerando la forma en que se usa BETO -primero un proceso de pre-entrenamiento y luego un entrenamiento especializado en alguna tarea específica-, sus aplicaciones son muchas. BETO podría reemplazar a muchos de los modelos preexistentes de procesamiento de lenguaje natural, ya que obtiene los mejores resultados que existen actualmente en múltiples tareas distintas, como clasificación de documentos/tweets, extracción de información, resumen automatizado y respuestas de preguntas de selección múltiple, entre otros.
-¿Han sido contactados por alguna empresa o institución a raíz del desarrollo de BETO?
-JC: El proyecto ha sido apoyado desde el principio por el IMFD y por Adereso, una empresa de tecnología que automatiza con software, IA y chatbots la atención al cliente, y en la que actualmente trabajo. Ambos brindaron los recursos necesarios para entrenar los modelos. También fuimos apoyados por Google, luego de nuestra participación en el evento Khipu, en Uruguay. Google nos brindó acceso a más máquinas, con las que pudimos acelerar el entrenamiento.
Para conocer más sobre BETO, ingresar aquí: https://github.com/dccuchile/beto