REmatch

  • Año: 2023 - 2025

REmatch es una biblioteca multiplataforma desarrollada en C++, Python y JavaScript, orientada a la extracción estructurada de información desde texto plano. Utiliza un lenguaje propio llamado REQL (Regular Expressions Query Language), cuya sintaxis es similar a las expresiones regulares tradicionales, pero con un manejo más potente y declarativo de las variables de captura.

REmatch

Proyecto

REmatch es una librería novel (C++/Python/JavaScript) que implementa REQL (Regular Expressions Query Language), un lenguaje de consulta diseñado específicamente para la extracción eficiente y exhaustiva de información de documentos de texto plano. A diferencia de las librerías RegEx tradicionales que se centran en la búsqueda de patrones, el propósito principal de REmatch es devolver todas las coincidencias posibles para una consulta dada, facilitando el análisis de texto y la minería de datos. Su motor, basado en algoritmos de retardo constante, garantiza una alta eficiencia, incluso con un gran volumen de resultados.

Casos de uso

  • Extracción de datos de texto: El propósito principal de la librería es extraer información de documentos de texto plano utilizando su lenguaje de consulta REQL (Regular Expressions Query Language).
  • Análisis de texto y corpus: Es útil para tareas de análisis de texto donde se necesita determinar el contexto en el que aparecen ciertas palabras. Por ejemplo, extraer cada nombre propio junto con la oración en la que aparece.
  • Extracción de campos ilimitados u opcionales: La función de MultiMatch de REQL permite capturar listas de spans (tramos de texto) en variables, lo que resulta útil para extraer un número ilimitado o campos opcionales de datos. Por ejemplo, extraer una oración completa y luego una lista de todas las palabras dentro de esa oración.

Equipo de desarrollo

  • Kyle Bossonney – Desarrollador
  • Vicente Calisto – Desarrollador
  • Gustavo Toro – Desarrollador
  • Nicolás Van Sint Jan – Desarrollador
  • Cristian Riveros – Profesor (Millenium Institute Foundational Research on Data / Pontificia Universidad Católica de Chile)
  • Domagoj Vrgoč – Profesor (Millenium Institute Foundational Research on Data / Pontificia Universidad Católica de Chile)

Documentos