Noticias


Jorge Pérez, investigador del Instituto Milenio Fundamentos de los Datos (IMFD) y académico de Computación de la Universidad de Chile, viene trabajando desde 2019 en BETO: un modelo de red neuronal que permite el procesamiento computacional de lenguaje natural. Junto a José Cañete (24) y Gabriel Chaperón (25) -ambos estudiantes de Ingeniería en Computación en la U. de Chile-, crearon este modelo basado en BERT, una conocida red neuronal que funciona sólo con textos en inglés.
“BETO nace durante el primer semestre de 2019 como consecuencia de la aparición de BERT, que tiene excelentes resultados en inglés, y debido a que el procesamiento de lenguaje natural en idiomas distintos al inglés está muy poco desarrollado”, explica José Cañete.
Hoy se encuentra pre-entrenado y publicado libremente para que cualquiera lo pueda usar, agrega el investigador Jorge Pérez, quien advierte que dicho modelo es único en su especie. “Hay modelos basados en BERT que ya han sido construidos para distintos idiomas, incluyendo el alemán y francés. Pero para el español BETO es el primero y hasta la fecha, único”, dice Jorge Pérez.
Actualmente, el equipo se encuentra en etapa de evaluación de BETO, es decir, analizando qué tan bueno es para resolver distintas tareas, en comparación con otros modelos existentes.
En esta entrevista, José Cañete y Gabriel Chaperón explican de qué se trata esta red neuronal y el alcance que puede tener, incluso durante el próximo proceso constituyente.
-BETO es un modelo BERT pre-entrenado con texto en español. ¿Cómo podemos definir un modelo BERT en palabras sencillas?
-José Cañete (JC): Un modelo BERT es un modelo de red neuronal profunda basado en un nuevo mecanismo para redes neuronales, llamado de “auto-atención”. Este permite el procesamiento computacional del lenguaje natural, pero más general que eso, de secuencias. Por ejemplo, hay gente que ha ocupado este tipo de arquitecturas para modelar proteínas y temas biológicos. Otros más ingeniosos también lo han usado para el procesamiento computacional de imágenes, e incluso para algoritmos generales sobre secuencias.
-¿En qué se diferencia BETO de su “primo hermano” BERT?
-JC: La principal diferencia es que BETO fue entrenado totalmente con texto en español. Por ejemplo, considera nuestra acentuación y puede procesar la letra “ñ”.
-Gabriel Chaperón (GC): Son como dos hermanos gemelos, exactamente iguales, pero que al nacer fueron separados. Uno se crió en Estados Unidos y el otro en Chile (risas).
-¿Qué distingue a BETO de otros modelos de redes neuronales profundas?
-JC: Algunas cosas distintivas de este tipo de redes neuronales es que tienen muchísimos “parámetros”. Los parámetros son como pequeñas perillas que se pueden mover para ir modificando el funcionamiento de un modelo. En el caso de BETO, este tiene 110 millones de parámetros, lo que lo hace un modelo muy grande. La otra diferencia es que estos parámetros son “pre-entrenados”, que vendría siendo el proceso de decidir en qué posición dejar cada una de las 110 millones de perillas. El pre-entrenamiento se hace inicialmente en una tarea muy general, como por ejemplo una tarea de “complete la oración”. Luego se realiza un fine-tuning, es decir, se trata de adaptar los parámetros del modelo (las perillas) a múltiples otras tareas, como análisis de sentimientos, clasificación de intenciones, reconocimiento de hate speech, etc. Adaptar el modelo es mucho más fácil y más barato que entrenarlo desde cero. BETO es un modelo pre-entrenado; cualquiera puede tomar y adaptarlo a la tarea de su interés.
-GC: La principal diferencia con modelos anteriores es que BETO es capaz de aprender de grandes cantidades de texto no procesado -todo Wikipedia, por ejemplo. Este proceso se llama pre-entrenamiento, ya que el modelo aprende mucho del texto que se le entrega, pero nada en específico. Luego viene lo que mencionó José (JC) recién.
-¿Existen dificultades al entrenar redes en español como BETO?
-GC: El problema es que no existe suficiente volumen de datos de calidad para poder entrenarlas. No es así en inglés, que es el idioma que más les interesa a las compañías privadas, por lo que hay alta disponibilidad de datos para el entrenamiento.
-¿A qué necesidad o pregunta buscan dar respuesta? En otras palabras, ¿por qué es importante su desarrollo?
-GC: El interés por desarrollar un modelo en español es múltiple. En primer lugar, surge de la pregunta si un modelo monolingual -entrenado en un único idioma-, mejora su rendimiento, o es preferible un modelo entrenado con muchos idiomas, como es BERT, entrenado en 104 idiomas. También queremos explorar la relación entre la cantidad de datos de pre-entrenamiento, los costos y el tiempo de entrenamiento, con el desempeño final.
-JC: Es importante porque mejora la calidad y facilita hacer investigación aplicada en procesamiento de lenguaje natural en español, así como también construir herramientas o aplicaciones.
-¿Cuáles son las aplicaci