En los últimos años, modelos de lenguaje grande como ChatGPT, han emergido como tecnologías con capacidad de transformar múltiples sectores, y es también en el ámbito de la salud donde ya empezamos a vislumbrar cómo será su implementación a corto plazo.
Estos modelos procesan y generan texto con una precisión y rapidez sorprendentes, lo que ha llevado a explorar sus aplicaciones en el diagnóstico clínico. Sin embargo, más allá del sensacionalismo habitual a la hora de presentar los resultados de los primeros estudios, es importante que seamos capaces de ir más allá y entender no solo sus capacidades, sino también cómo tenemos que interactuar los profesionales con estas herramientas y las limitaciones que existen a la hora de integrarlas en nuestra práctica clínica.
Lo que el titular esconde
En estos días, resulta habitual encontrarse artículos con titulares que casi siempre van en la línea de «Un estudio demuestra que ChatGPT supera en diagnóstico a los médicos». Pero debajo de este titular se encuentra un reciente estudio publicado en JAMA Network cuyo título original es ‘Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial’
Y efectivamente, cuando dedicas 10 minutos a leer el estudio te das cuenta de que los tiros van por otro lado y los hallazgos son, si cabe, más interesantes que el simple hecho de si una IA ha superado o no a los médicos a la hora de diagnosticar enfermedades.
Este ensayo lo que realmente buscaba era investigar si los médicos que utilizaban un modelo de lenguaje grande (ChatGPT Plus con GPT-4) como herramienta de ayuda mejoraban su razonamiento diagnóstico, en comparación con los médicos que usaban los recursos convencionales.
Para ello el estudio incluyó a 50 médicos de medicina de familia, internistas y médicos de emergencias. Los participantes fueron divididos aleatoriamente en dos grupos: uno de intervención, que tenía acceso a un LLM además de recursos diagnósticos convencionales; y un grupo de control, el cual solo tenía acceso a recursos convencionales.
Los médicos tuvieron 60 minutos para revisar hasta 6 casos clínicos. Se evaluó su desempeño utilizando una rúbrica estandarizada que medía la precisión del diagnóstico diferencial, la idoneidad de los factores de apoyo y oposición, y los próximos pasos de evaluación diagnóstica
Los resultados indicaron que la puntuación mediana de razonamiento diagnóstico por caso fue del 76% para el grupo con acceso al LLM y del 74% para el grupo de recursos convencionales. La diferencia ajustada fue de 2 puntos porcentuales, lo cual no fue estadísticamente significativa ni tampoco lo fue el tiempo que cada grupo dedicaba a cada caso. La conclusión fue que no había diferencias significativas entre los dos grupos en cuanto a la precisión del diagnóstico.
El hallazgo inesperado
PERO también hubo un hallazgo adicional inesperado: en un análisis secundario, se evaluó el desempeño del LLM por sí solo, sin intervención humana. Sorprendentemente, el LLM solo obtuvo una puntuación 16 puntos porcentuales más alta que el grupo de recursos convencionales. Es decir, el LLM solo puntuaba significativamente mejor que cuando era usado como asistente al diagnóstico por los propios médicos.
Este razonamiento es el que llevó a varios medios de comunicación a asignar el titular de que ChatGPT diagnosticaba mejor que los médicos, aunque tal y como los propios investigadores indicaban en su estudio, no se puede llevar a esa conclusión por la propia metodología del mismo, ya que su diseño «no captura la competencia en muchas otras áreas importantes para el razonamiento clínico, incluyendo entrevistas de pacientes y recolección de datos».
Aunque, por otro lado, la falta de mejora significativa en el grupo que usó el LLM podría indicar que los médicos no siempre incorporaban las sugerencias del LLM en sus diagnósticos finales, posiblemente manteniendo sus opiniones originales en muchos casos. Y eso sí es relevante, porque indica que aun teniendo herramientas potencialmente increíbles a la hora de ayudarnos en nuestra práctica clínica, los profesionales seguimos poniendo la mayor parte del peso de nuestras decisiones en nuestro propia intuición o juicio clínico, incurriendo en sesgos como el de anclaje (anclar el diagnóstico inicial basado en la primera impresión) o el de confirmación (buscar entre las sugerencias del LLM solo aquella información que respalde el diagnóstico inicial, ignorando o subestimando el resto).
Por lo tanto, más allá del titular las implicaciones de este estudio entran en el ámbito de cómo utilizamos las herramientas y nos devuelven al terreno de juego de la resistencia al cambio, la interpretación selectiva de la información y a utilizar la tecnología únicamente para confirmar nuestras propias creencias.
Algunas reflexiones al respecto
El estudio sugiere que podríamos incurrir en una pérdida de oportunidad de mejora, porque si tenemos a nuestro alcance herramientas que están demostrando una cada vez mejor capacidad de diagnóstico y no las utilizamos ¿no estaríamos dando un cuidado subóptimo a nuestros pacientes?
Por otro lado, la confianza excesiva en nuestro juicio clínico puede llevarnos a errores debido a sesgos cognitivos como el anclaje o la confirmación. En este sentido, las herramientas basadas en IA podrían ayudaros a mitigar estos sesgos al proporcionar análisis objetivos basados en grandes conjuntos de datos (si éstos no están también sesgados, claro).
Otra cuestión está relacionada con la tradicional resistencia al cambio. Si los profesionales somos reacios a incorporar nuevas herramientas, podría ralentizarse la inversión y la innovación en este campo.
Y también está la cuestión de la responsabilidad legal. Si hablamos de errores médicos, podría surgir la cuestión de si el profesional actuó de manera negligente al no utilizar todas las herramientas disponibles.
Ojalá próximas investigaciones se orienten hacia cómo podemos desarrollar estrategias para mitigar estos sesgos y fomentar una integración más efectiva de las herramientas de IA en nuestra práctica clínica. ¿Nos ayudará también la IA con eso?
Fuentes:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
Deja una respuesta