Evaluación de técnicas de Procesamiento de Lenguaje Natural de notas clínicas del EMR para la caracterización de pacientes
Abstract
Las notas clínicas son un objeto de información difícilmente procesable, debido a su diversidad léxica y semántica, lo que dificulta cualquier investigación relacionada con esta fuente de datos. Sin embargo, el procesamiento de lenguaje natural puede brindar solución a este problema, creando una estructura numérica para las notas clínicas, sin dejar de lado su contexto individual y su significado en conjunto. Una de las técnicas que permite realizar este procedimiento es el algoritmo Word2Vec, que acompañado de una red neuronal convolucional podría realizar una detección de sepsis, apoyado en la fórmula de SOFA (Sequential Organ Failure Assessment) que permite clasificar por gravedad pacientes con síntomas de sepsis. Para lo cual, se filtran y seleccionan los datos bajo diferentes parámetros a partir de diferentes clases por medio del lenguaje de programación Python con el fin de procesar la información estructurada y no estructurada de la base de datos MIMIC-III para comprobar la capacidad de los algoritmos y su eficiencia en la tarea propuesta. Finalmente se observa que el algoritmo LigthGBM procesa los datos estructurados con una precisión aproximada de 86% y que el algoritmo completo (Word2Vec + CNN) puede observar y modelar el comportamiento de los pacientes descrito a través de las notas clínicas con un 89.45% de precisión.
Descripción
ilustraciones, gráficos, tablas