Grandes modelos de lenguaje y grafos de conocimiento: soluciones para manejo de datos de salud – Instituto Milenio Fundamentos de los Datos

Mayo, 2024.- Una propuesta que combina el uso de modelos de lenguaje de gran tamaño con grafos de datos para datos clínicos: esta es la innovación que proponen en el artículo Augmented non-hallucinating large language models as medical information curators publicado en NPJ Digital Medicine, los investigadores Stephen Gilbert y Jakob Nikolas Kather, del Centro por la salud Digital Else Kröner Fresenius de la Universidad de Tecnología de Dresden, Alemania, junto al director adjunto del Instituto Milenio Fundamentos de los Datos, Aidan Hogan, del Departamento de Ciencias de la Computación de la Universidad de Chile.

Los datos médicos presentan un desafío importante para la ciencia de datos actual: son complejos, necesariamente deben ser resguardados y existen una serie de desafíos para su manejo eficiente. Toda esta complejidad ha promovido la búsqueda de alternativas que puedan permitir su aplicación y hacer que esta valiosa información pueda ser utilizada por los prestadores de servicios de salud, en beneficio de sus pacientes.

Los modelos de lenguaje de gran tamaño (LLM) -modelos de aprendizaje profundo muy grandes, que se entrenan con grandes cantidades de datos, base de aplicaciones como ChatGPT-, pueden contribuir significativamente a una mejor estructuración, categorización e interpretación de la información médica, sin embargo, tienen debilidades que dificultan su uso en un área tan crítica como es la salud. La generación de información plausible pero incorrecta (alucinaciones), o la capacidad de dar diferentes respuestas a una misma consulta, hacen muy complejo su uso en medicina. Por otra parte, los grafos de conocimiento son una forma de estructurar grandes cantidades de información que puede estar en diversos formatos o multivariable, a través del uso de nodos y vértices que conectan los datos.

Los investigadores del EKFZ for Digital Health de la TU Dresden y de la Universidad de Chile proponen en el artículo Augmented non-hallucinating large language models as medical information curators publicado una posible solución a este problema: la combinación de LLM con grafos de conocimiento (KG por sus siglas en inglés). Esto da pie a una nueva forma de generación aumentada por recuperación, Retrieval Augmented Generation, lo que permitiría que los modelos fuesen más fiables, robustos y con capacidad de reproducción de consultas.

El registro confiable de la información médica y su intercambio entre distintos sistemas (interoperabilidad) es un reto importante en el área de la salud y suele denominarse el «problema de comunicación» de la medicina. Las ontologías médicas y los grafos de conocimiento (KG) son enfoques para resolver este problema. Las ontologías médicas funcionan como diccionarios de términos médicos que ayudan a categorizar y definir conceptos médicos. Sin embargo, dado que en el lenguaje humano los términos pueden tener distintos significados según el contexto, estas ontologías suelen ser ambiguas. La palabra «cold», en inglés, por ejemplo, puede referirse a la temperatura corporal, a las condiciones ambientales, a un resfriado. Lo mismo pasa en todos los idiomas, y con diferencias entre diferentes disciplinas dentro de la salud. El uso de siglas es otro gran desafío del área: COLD también puede significar «Chronic obstructive lung disease”.

Los grafos de conocimiento (KG) son redes organizadas que conectan diferentes conceptos médicos y sus relaciones. Por ejemplo, el término «COVID-19» en un grafo, podría estar conectado a «fiebre» a través de un vínculo denominado «tiene síntoma». Los grafos facilitan la comprensión y el procesamiento de la información médica, pero se enfrentan a retos similares a los de las ontologías médicas.

Combinación para razonamiento estructurado

Para subsanar estas deficiencias, los investigadores de Dresde y Santiago de Chile proponen combinar los LLM con los KG, aprovechando sus respectivos puntos fuertes. Esta combinación proporciona un razonamiento estructurado y podría ayudar a reducir el sesgo de los modelos y ofrecer resultados más fiables, precisos y reproducibles. Estos enfoques serían más compatibles con las vías de aprobación reglamentaria que los LLM por sí solos.

«La combinación de grandes modelos lingüísticos y grafos de conocimiento es una forma de vincular los conocimientos médicos existentes con las capacidades cognitivas de los grandes modelos lingüísticos. Estamos sólo al principio de un desarrollo muy emocionante«, afirma el profesor Jakob N. Kather, catedrático de Inteligencia Artificial Clínica de la Universidad Técnica de Dresde y oncólogo del Hospital Universitario Carl Gustav Carus de Dresde.

En la investigación, los autores discuten diferentes enfoques para combinar los LLM con los KG. Sugieren que esto también podría facilitar el desarrollo de “gemelos digitales” robustos de los pacientes, en forma de historiales médicos individuales estructurados que permitan un diagnóstico personalizado.

«Aunque siguen existiendo retos normativos, los profesionales sanitarios que se gradúan hoy en día pueden anticipar el acceso a herramientas de resumen de información clínica compatibles y avanzadas que antes eran inimaginables hace tan solo cinco años. Además, los enfoques que combinan grandes modelos lingüísticos con grafos de conocimiento tienen más probabilidades de lograr una aprobación temprana en las vías reguladoras conservadoras», afirma el profesor Stephen Gilbert, catedrático de Ciencia Reguladora de Dispositivos Médicos de la Universidad Técnica de Dresde.

Para Aidan Hogan, “Tal como los LLM, los KG tienen aplicaciones no solo en medicina, sino también en muchos aspectos de la sociedad que dependen cada vez más de la captura y procesamiento de datos. Para tomar mejores decisiones en la actualidad, hay que aprender del pasado, y el pasado digital son los datos. Pero integrar datos tiene un costo mayor, limitando esta perspectiva virtual del pasado. En este contexto, los LLM ayudan a integrar datos de texto a gran escala, mientras que los KG ayudan a integrar datos estructurados a gran escala. Ambos enfoques son complementarios, y su combinación puede tener muchas aplicaciones en diferentes áreas donde se toman decisiones basadas en datos”.

Interoperabilidad de datos clínicos

La interoperabilidad de datos clínicos es un gran tema en todo el mundo, y Chile no es una excepción. Recientemente han habido avances en la legislatura al respecto, orientados a promover la portabilidad de los datos y fichas clínicas de pacientes entre diferentes instituciones de salud: la idea es que cuando un o una paciente asista a cualquier clínica, hospital o centro de salud, exista la posibilidad de compartir -respetando las normas y la ética aplicable sobre privacidad, uso, etc.-, su historia médica en formato digital, y de forma fiel y completa, sin equivocaciones u omisiones que pueden ser hasta fatales. “Actualmente los LLM tienen una gran capacidad para integrar texto de diferentes fuentes, pero no cuentan con la precisión necesaria para este caso de uso. Así que proponemos que hay que combinar LLM con otros métodos -en particular los KG-, para que puedan ser utilizados en el contexto de interoperabilidad de datos clínicos, y otras aplicaciones médicas”, destaca Hogan.

Fuente: https://digitalhealth.tu-dresden.de/llms-in-medicine-researchers-publish-solutions-to-increase-reproducibility-and-precision/