Los resúmenes clínicos por IA tienen que ser más que precisos
Poco más de un año después del lanzamiento público de ChatGPT, las aplicaciones clínicas de la inteligencia artificial generativa y los modelos de lenguaje grande (LLM) están avanzando rápidamente. A largo plazo, los LLM pueden revolucionar gran parte de la medicina clínica, desde el diagnóstico del paciente hasta el tratamiento. Sin embargo, a corto plazo, son las tareas clínicas cotidianas las que los LLM cambiarán más rápidamente y con menos escrutinio. Específicamente, los LLM que resumen notas clínicas, medicamentos y otras formas de datos del paciente están en desarrollo avanzado y podrían llegar pronto a los pacientes sin la supervisión de la Administración de Alimentos y Medicamentos de EE.UU. (FDA). Sin embargo, sintetizar no es tan simple como parece, y la variación en los resúmenes generados por IA podría ejercer efectos importantes e impredecibles en la toma de decisiones del médico.
Resumen sin supervisión de la FDA
Los modelos de lenguaje grande que resumen los datos clínicos representan una amplia categoría. Las herramientas de documentación clínica más simples, que ya están disponibles clínicamente, crean resúmenes generados por LLM a partir de encuentros de pacientes grabados en audio. Se están desarrollando LLM de soporte de decisión más sofisticados que pueden resumir la información del paciente de toda la Historia Clínica Electronica (HCE). Por ejemplo, los LLM podrían resumir las notas de visita recientes de un paciente y los resultados de laboratorio para crear una “instantánea” clínica actualizada antes de una cita. Podrían condensar muchos informes de radiología largos en un párrafo fácil de revisar. O los LLM podrían describir toda la exposición a antibióticos de un paciente durante el año pasado.
Los sistemas de HCE actuales se construyeron para la documentación y la facturación y tienen acceso a información ineficiente y contenido pegado y copiado largo. Este mal diseño contribuye al agotamiento del médico y a los errores clínicos. Si se implementan bien, los resúmenes generados por LLM, por lo tanto, ofrecen ventajas impresionantes y eventualmente podrían reemplazar muchas interacciones simples con la HCE .
Sin embargo, también existe el potencial de daño al paciente porque es poco probable que los LLM que realizan resúmenes estén bajo la supervisión de dispositivos médicos de la FDA y podrían llegar a las clínicas sin fallos de seguridad y eficacia. De hecho, la guía final de la FDA para el software de soporte de decisiones clínicas, publicada 2 meses antes del lanzamiento de ChatGPT, proporciona una “hoja de ruta” no intencional de cómo los LLM podrían evitar la regulación de la FDA. Incluso los LLM que realizan tareas de resumen sofisticadas no calificarían claramente como dispositivos porque proporcionan salidas basadas en lenguaje general en lugar de predicciones específicas o estimaciones numéricas de enfermedades. Con una implementación cuidadosa, esperamos que muchos LLM que resumen datos clínicos puedan cumplir con los criterios de exención de dispositivos.
Los resúmenes “precisos” podrían causar daños
Actualmente, no existen estándares integrales para los resúmenes clínicos generados por IA más allá del reconocimiento general de que los resúmenes deben ser consistentemente precisos y concisos. Sin embargo, hay muchas formas de resumir con precisión la información clínica. Las variaciones en la longitud del resumen, la organización y el tono podrían influir en las interpretaciones del médico y las decisiones posteriores, ya sea intencional o involuntariamente. Para ilustrar estos desafíos de manera concreta, solicitamos a ChatGPT-4 que resumiera una pequeña muestra de documentos clínicos anonimizados.
Primero, los resúmenes generados por LLM son variables tanto porque los LLM son probabilísticos como porque no hay una “respuesta correcta” para precisamente qué información incluir o cómo ordenarla. Por ejemplo, al ejecutar indicaciones idénticas en documentos de alta idénticos, los resúmenes de LLM diferían en las condiciones del paciente enumeradas y en los elementos de la historia clínica enfatizados. Estas diferencias tienen importantes implicaciones clínicas porque está bien documentado que la forma en que se organiza y enmarca la información puede cambiar la toma de decisiones clínicas. Evaluar el impacto de los resúmenes variados en la atención al paciente requiere estudios clínicos.
En segundo lugar, incluso las diferencias sutiles entre las indicaciones pueden influir en los resultados. En particular, los LLM pueden exhibir un sesgo de “adulación” (sycophancy bias). Al igual que el comportamiento de un asistente personal entusiasta, la adulación ocurre cuando los LLM adaptan las respuestas a las expectativas percibidas del usuario. En el contexto clínico, los resúmenes aduladores podrían acentuar o enfatizar de otra manera los hechos que se ajustan a las sospechas preexistentes de los médicos, arriesgando un sesgo de confirmación que podría aumentar el error diagnóstico. Por ejemplo, cuando se solicitó resumir las admisiones anteriores de un paciente hipotético, los resúmenes variaron de manera clínicamente significativa, dependiendo de si había preocupación por el infarto de miocardio o la neumonía.
En tercer lugar, incluso los resúmenes que parecen generalmente precisos podrían incluir pequeños errores con una influencia clínica importante. Estos errores son menos como alucinaciones completas que como fallos mentales, pero podrían inducir una toma de decisiones defectuosa cuando completan una narrativa clínica o una heurística mental. Por ejemplo, un informe de radiografía de tórax señaló indicaciones de escalofríos y tos no productiva, pero nuestro resumen de LLM agregó “fiebre”. Incluir “fiebre”, aunque sea un error de una palabra, completa un guión de enfermedad que podría llevar a un médico hacia un diagnóstico de neumonía e inicio de antibióticos cuando podría no haber llegado a esa conclusión de otra manera.
Recomendaciones
En ausencia de cambios de legislacion, la FDA en los EE.UU. no tendrá una autoridad legal clara para regular la mayoría de los LLM que generan resúmenes clínicos. Sin embargo, las aclaraciones regulatorias, junto con acciones voluntarias robustas, contribuirán en gran medida a proteger a los pacientes mientras se preservan los beneficios de los LLM.
Primero, necesitamos estándares integrales para los resúmenes generados por LLM, con dominios que se extienden más allá de la precisión e incluyen pruebas de estrés para la adulación y errores pequeños pero clínicamente importantes. Estos estándares deben reflejar el consenso científico y clínico, con aportes más allá de las pocas grandes empresas de tecnología que desarrollan LLM de atención médica. En segundo lugar, los LLM que realizan resúmenes clínicos son finalmente ayudas clínicas. Independientemente de la regulación actual de la FDA, creemos que deberían ser clínicamente probados para cuantificar los daños y beneficios clínicos antes de su implementación generalizada. Esta prueba conlleva un riesgo mínimo y podría realizarse como mejora de la calidad en un sistema de salud de aprendizaje. En tercer lugar, los LLM de resumen de mayor riesgo, pero probablemente más útiles, permitirán indicaciones más abiertas por parte del médico, y alentamos a la FDA a aclarar los criterios regulatorios de manera preventiva. Estas aclaraciones deben especificar que algunas indicaciones (por ejemplo, “resumir la historia de mi paciente relevante para el riesgo de insuficiencia cardíaca”) hacen que los LLM funcionen como dispositivos médicos a pesar de restringirse semánticamente al resumen. La FDA podría ofrecer estas declaraciones en una nueva guía o como actualizaciones a la guía existente para reconocer que el mundo ha cambiado significativamente desde el lanzamiento original de la guía de soporte de decisiones clínicas a fines de 2022.
Los modelos de Inteligencia Artificial que resumen los datos clínicos prometen oportunidades poderosas para agilizar la recopilación de información desde la HCE. Pero al tratar con el lenguaje, también traen riesgos únicos que no están claramente cubiertos por las medidas regulatorias existentes de la FDA. A medida que las herramientas de resumen se acercan más rápidamente a la práctica clínica, el desarrollo transparente de estándares para los resúmenes clínicos generados por LLM, junto con estudios clínicos pragmáticos, será fundamental para el despliegue seguro y prudente de estas tecnologías. Alentamos a las autoridades regulatorias (FDA, EMA) a aclarar su supervisión antes de que el resumen se convierta en una parte rutinaria de la atención al paciente.
Traducido de : Goodman KE, Yi PH, Morgan DJ. AI-Generated Clinical Summaries Require More Than Accuracy. JAMA. Published online January 29, 2024. doi:10.1001/jama.2024.0555
Deja un comentario