Actualización sobre el Dr. AI

Blog

HogarHogar / Blog / Actualización sobre el Dr. AI

Jun 27, 2023

Actualización sobre el Dr. AI

Han pasado seis meses desde que escribí sobre el potencial de la nueva tecnología de IA transformadora para servir como un sistema médico experto. Desde entonces ha habido una serie de estudios que prueban la capacidad de

Han pasado seis meses desde que escribí sobre el potencial de la nueva tecnología de IA transformadora para servir como un sistema médico experto. Desde entonces, se han realizado una serie de estudios que prueban la capacidad de ChatGPT y sistemas similares para realizar diagnósticos o decisiones clínicas o aprobar exámenes médicos estandarizados. Los resultados han sido en su mayoría positivos. Por ejemplo, a principios de este año, Kung et al publicaron un estudio en el que descubrieron que ChatGPT pudo aprobar las tres partes del examen de licencia médica de los Estados Unidos (USMLE), con una calificación aprobatoria límite del 60%. También se han realizado numerosos estudios de exámenes de la junta de especialidad, con resultados mixtos, pero ChatGPT aprobó la mayoría de ellos.

Un estudio reciente amplía esta investigación al analizar no sólo el conocimiento médico sino también la toma de decisiones médicas. Para el estudio utilizaron 36 viñetas clínicas publicadas del Manual clínico de Merck Sharpe & Dohme (MSD) y probaron la capacidad de ChatGPT para generar un diagnóstico diferencial inicial, recomendar decisiones de manejo clínico (como qué estudios solicitar) y luego tomar una decisión. diagnóstico final a partir de esta información. Ellos encontraron:

“ChatGPT logró una precisión general del 71,7 % (IC del 95 %: 69,3 %-74,1 %) en las 36 viñetas clínicas. El LLM demostró el rendimiento más alto en la realización de un diagnóstico final con una precisión del 76,9% (IC del 95%: 67,8%-86,1%) y el rendimiento más bajo en la generación de un diagnóstico diferencial inicial con una precisión del 60,3% (IC del 95%: 54,2%- 66,6%). En comparación con responder preguntas sobre conocimientos médicos generales, ChatGPT demostró un rendimiento inferior en los tipos de preguntas de diagnóstico diferencial (β=–15,8%; P<0,001) y manejo clínico (β=–7,4%; P=0,02).

Esto es impresionante y encaja con investigaciones previas sobre las fortalezas y debilidades de los sistemas tipo ChatGPT. Para su revisión, ChatGPT es una versión de código abierto de lo que se llama un modelo de lenguaje grande (LLM). La tecnología central de inteligencia artificial (IA) se llama transformador; “GPT” significa transformador generativo preentrenado. Es generativo porque no se trata simplemente de copiar texto de alguna fuente, sino de generar texto basándose en un modelo predictivo. Está previamente entrenado en una gran cantidad de texto obtenido de Internet.

Estos sistemas LLM no piensan y no están en camino hacia una IA general que simule la inteligencia humana. Se han comparado con un autocompletado realmente bueno: funcionan prediciendo el siguiente segmento de palabra más probable basándose en miles de millones de ejemplos de Internet. Y, sin embargo, sus resultados pueden ser bastante impresionantes. Pueden producir un lenguaje que suene natural y generar una impresionante base de conocimientos.

Pero siguen siendo frágiles del mismo modo que lo son los sistemas de IA tan estrechos, lo que significa que si los presionas se romperán. Para estos LLM, la principal debilidad es que son susceptibles a las llamadas alucinaciones. Esto significa que pueden inventar cosas. Recuerde: están generando texto basándose en la probabilidad, no verificando hechos ni reflejando conocimientos precisos. Por lo tanto, por ejemplo, si es estadísticamente probable que dos cosas se mencionen juntas, ChatGPT generará texto que hará que parezca que están directamente relacionadas. También puede crear referencias que parezcan completamente plausibles, generando una estructura similar a una referencia y rellenándola con detalles determinados estadísticamente pero falsos.

Este es un defecto grave para un sistema experto. Para poner en contexto el desempeño de ChatGPT en el estudio reciente, apenas aprobó con un nivel de conocimiento equivalente al de un recién graduado promedio de la escuela de medicina, pero no al de un médico experimentado. Por lo tanto, todavía no está en condiciones de poder ejercer la medicina. Hay dos preguntas: ¿alguna vez lo será? y ¿puede resultar útil mientras tanto?

Tomando primero la segunda pregunta, creo que en este momento una aplicación LLM general como ChatGPT puede ser algo útil como sistema experto, lo que significa que es utilizada por expertos como una herramienta para ayudarlos a funcionar. Pero su utilidad conlleva algunas precauciones y advertencias importantes. No se puede confiar en los resultados que produce ChatGPT. No deben considerarse autoritarios, aunque parezcan así. Pero pueden usarse como generador de ideas, para sugerir posibles diagnósticos en los que un médico tal vez no haya pensado.

¿Qué pasa con el usuario no experto? ¿Puede una persona promedio utilizar ChatGPT como motor de búsqueda para encontrar respuestas razonables a preguntas médicas? La respuesta es similar: es tan buena como una búsqueda típica en Google, aunque con lenguaje natural. Pero no hay garantía de que la información sea precisa. Básicamente, ChatGPT solo refleja la información que hay en Internet, tanto buena como mala. La forma en que se formulan las preguntas también tenderá a sesgar las respuestas. Nuevamente, recuerde, ChatGPT no piensa ni comprende (como lo hacen los humanos), es solo un modelo predictivo.

Pero ¿cuál es el potencial de estos sistemas en el futuro? Creo que el potencial es grande. ChatGPT es un LLM de aplicación general, no está específicamente capacitado como experto médico y, sin embargo, funciona bastante bien. Imagine una versión médica-experta de ChatGPT, no entrenada en Internet pero entrenada en la totalidad de estudios médicos publicados, estándares de práctica y análisis de expertos. Parece probable que un LLM de este tipo supere a ChatGPT o modelos similares.

Además, los resultados se pueden mejorar capacitando adecuadamente al usuario. Un estudio reciente analizó el potencial de "ajuste de instrucciones". Esto significa crear indicaciones (la pregunta que le hace a un LLM) que estén diseñadas para producir resultados más confiables. Estos pueden basarse en ejemplos probados. Es posible que veamos un futuro en el que la optimización de las indicaciones médicas del LLM sea una clase en la facultad de medicina.

Parece haber un consenso general de que estos sistemas de inteligencia artificial LLM tienen un enorme potencial como sistemas médicos expertos. Actualmente están al borde del conocimiento médico básico funcional, pero no al nivel de los médicos experimentados. También sufren importantes limitaciones, como la invención de información falsa. Pero parece que estamos increíblemente cerca de lograr que dichos sistemas puedan mejorar significativamente la práctica de la medicina. Pueden ayudar a reducir errores y diagnósticos erróneos, y también trazar el camino más eficiente de diagnóstico o manejo clínico. La medicina, en última instancia, es un juego de estadísticas, y un asistente médico de IA podría proporcionar la información estadística y fáctica que un médico necesita en el momento de la atención al paciente (uno de los objetivos finales de la medicina basada en evidencia).

Un LLM médico también podría ayudar a los médicos a mantenerse actualizados. Es un desafío, por decir lo mínimo, mantenerse siempre a la vanguardia del conocimiento médico. Internet ha hecho que esto sea mucho más fácil: ahora un clínico puede buscar rápidamente una pregunta médica y ver lo que dicen los últimos estudios publicados. Pero cuanto más rápido, más eficiente y más completo podamos hacer este proceso, mejor.

Todavía es necesario que haya un ser humano en el circuito (y lo habrá hasta que tengamos una IA general con inteligencia humana completa). Esto se debe a que la medicina también es una práctica humana y requiere juicio, cálculos emocionales sobre riesgo versus beneficio, objetivos de atención y una perspectiva humana. Los hechos por sí solos no son suficientes. Pero siempre es mejor tomar decisiones médicas humanas y personales desde la perspectiva de información médica precisa, actualizada y completa.

Fundador y actualmente editor ejecutivo de Science-Based MedicineSteven Novella, MD es un neurólogo clínico académico de la Facultad de Medicina de la Universidad de Yale. También es el presentador y productor del popular podcast científico semanal The Skeptics' Guide to the Universe, y autor de NeuroLogicaBlog, un blog diario que cubre noticias y temas de neurociencia, pero también ciencia en general, escepticismo científico, filosofía de la ciencia, pensamiento crítico y la intersección de la ciencia con los medios y la sociedad. El Dr. Novella también produjo dos cursos con The Great Courses y publicó un libro sobre pensamiento crítico, también llamado The Skeptics Guide to the Universe.

Ver todas las publicaciones

Steven Novella, MD