× Cerca
Crédito: Pixabay/CC0 Dominio público
Los modelos de lenguaje grande (LLM), como ChatGPT y GPT-4, tienen el potencial de ayudar en la práctica clínica a automatizar tareas administrativas, redactar notas clínicas, comunicarse con pacientes e incluso respaldar la toma de decisiones clínicas. Sin embargo, estudios preliminares sugieren que los modelos pueden codificar y perpetuar sesgos sociales que pueden impactar negativamente a grupos históricamente marginados.
Un nuevo estudio realizado por investigadores del Brigham and Women’s Hospital evaluó la tendencia del GPT-4 a codificar y mostrar prejuicios raciales y de género en cuatro funciones de apoyo a las decisiones clínicas. Sus resultados son Publicado en Lanceta Salud Digital.
«Si bien la mayor parte de la atención se centra en el uso de los LLM para tareas administrativas o de documentación, también existe entusiasmo por la posibilidad de utilizar los LLM para respaldar la toma de decisiones clínicas», dijo la autora correspondiente Emily Alsentzer, Ph.D., investigadora postdoctoral en el departamento. . Medicina Interna General en Brigham and Women’s Hospital. «Queríamos evaluar sistemáticamente si el GPT-4 codifica prejuicios raciales y de género que afectan su capacidad para respaldar la toma de decisiones clínicas».
Alsentzer y sus colegas probaron cuatro implementaciones de GPT-4 utilizando la plataforma Azure OpenAI. En primer lugar, impulsaron a GPT-4 a crear modelos breves de pacientes que pudieran usarse en la educación médica. A continuación, probaron la capacidad de GPT-4 para desarrollar correctamente un diagnóstico diferencial y un plan de tratamiento para 19 afecciones diferentes de pacientes de un solo grupo. Dormir Healer, una herramienta educativa médica que presenta casos clínicos desafiantes a los médicos en formación.
Finalmente, evaluaron cómo el GPT-4 hace inferencias sobre la presentación clínica de un paciente utilizando ocho modelos de casos creados originalmente para medir el sesgo implícito. En cada aplicación, los autores evaluaron si los resultados de GPT-4 estaban sesgados por raza o género.
Para la tarea de educación médica, los investigadores crearon diez indicaciones que requerían que el GPT-4 creara una presentación del diagnóstico proporcionado al paciente. Ejecutaron cada ola 100 veces y descubrieron que GPT-4 exageraba las diferencias conocidas en la prevalencia de enfermedades por grupo demográfico.
«Un ejemplo sorprendente es cuando se le pide a GPT-4 que cree una viñeta de un paciente con sarcoidosis: GPT-4 describe a una mujer negra en el 81% de los casos», explica Alcentzer. «Aunque la sarcoidosis es más prevalente entre los pacientes negros y las mujeres, no llega al 81% de todos los pacientes».
Luego, cuando se le pidió a GPT-4 que desarrollara una lista de 10 posibles diagnósticos de la enfermedad Dormir En los casos de remisión, el cambio de sexo o raza/etnia del paciente afectó significativamente su capacidad para priorizar el diagnóstico correcto en el 37% de los casos.
«En algunos casos, la toma de decisiones de GPT-4 refleja prejuicios raciales y de género conocidos en la literatura», dijo Alsentzer. «En el caso de la embolia pulmonar, el modelo clasificó el ataque de pánico/ansiedad como un diagnóstico más probable en mujeres que en hombres. También clasificó las infecciones de transmisión sexual, como el VIH agudo y la sífilis, como más probables en pacientes de minorías étnicas que en «Pacientes de minorías étnicas. Pacientes blancos».
Cuando se le pidió que calificara los rasgos de personalidad del paciente, como la honestidad, la comprensión y la tolerancia al dolor, el GPT-4 produjo respuestas significativamente diferentes por raza, etnia y género en el 23% de las preguntas. Por ejemplo, el GPT-4 tenía significativamente más probabilidades de calificar a los pacientes varones negros como abusadores del opioide Percocet que a los pacientes asiáticos, negros, hispanos y blancos cuando las respuestas deberían haber sido idénticas para todas las condiciones de los pacientes simulados.
Las limitaciones del estudio actual incluyen probar las respuestas de GPT-4 utilizando un número limitado de indicaciones simuladas y analizar el rendimiento del modelo utilizando solo unas pocas categorías tradicionales de identidades demográficas. El trabajo futuro debería investigar los sesgos utilizando notas clínicas de la historia clínica electrónica.
«Si bien las herramientas basadas en LLM se implementan actualmente con un médico al tanto para verificar los resultados del modelo, es muy difícil para los médicos detectar sesgos sistémicos al ver casos de pacientes individuales», dijo Alsentzer. «Es importante que realicemos evaluaciones de sesgo para cada uso previsto de los dominios LLM, tal como lo hacemos con otros modelos de aprendizaje automático en el campo médico. Nuestro trabajo puede ayudar a iniciar una conversación sobre el potencial de GPT-4 para difundir sesgos en el ámbito clínico. aplicaciones de apoyo a la toma de decisiones”.
Otros autores de BWH incluyen a Jorge A. Rodríguez, David W. Bates y Raja Eli E. Abdel Nour. Los autores adicionales incluyen a Travis Zak, Eric Lehman, Mirak Sozgun, Leo Anthony Sealy, Judy Jichoya, Dan Jurafsky, Peter Szolovic y Atul J. Butt.
más información:
Travis Zack et al., Evaluación del potencial de GPT-4 para perpetuar los prejuicios raciales y de género en la atención médica: un estudio de evaluación modelo, Lanceta Salud Digital (2023). doi: 10.1016/S2589-7500(23)00225-X
Información de la revista:
Revista de medicina de Nueva Inglaterra