Actualizado 7 de abril, 2025

Los “Large language models”(LLM) muestran un gran potencial en la atención sanitaria, pero persisten las preocupaciones de que puedan generar recomendaciones clínicas injustificadas que reflejan la influencia de las características sociodemográficas de los pacientes.

Un nuevo estudio plantea inquietudes sobre la inteligencia artificial responsable en el cuidado de la salud. Investigadores de la Facultad de Medicina Icahn en el Hospital Mount Sinai de la ciudad de Nueva York en los EE.UU. descubrieron que los modelos de IA pueden hacer recomendaciones de tratamiento diferentes para la misma condición médica, dependiendo del contexto socioeconómico y demográfico del paciente. Esto resalta la necesidad de salvaguardias para garantizar que la atención médica impulsada por IA sea segura, efectiva y apropiada para todos.

Los investigadores estudiaron nueve modelos de LLM) en 1,000 casos de urgencias, replicados con 32 antecedentes de pacientes diferentes, generando más de 1.7 millones de recomendaciones médicas generadas por IA. A pesar de que los detalles clínicos eran idénticos, los modelos de IA ocasionalmente alteraron sus decisiones según el perfil socioeconómico y demográfico del paciente, afectando áreas clave como la prioridad de triage, las pruebas diagnósticas, el enfoque del tratamiento y la evaluación de la salud mental.

Uno de los hallazgos más importantes del estudio fue la tendencia de algunos modelos de IA a incrementar las recomendaciones de atención, en especial para las evaluaciones de salud mental, basándose en datos demográficos del paciente en lugar de en la necesidad médica. Además, los enfermos de altos ingresos tuvieron con mayor frecuencia pruebas diagnósticas avanzadas, como tomografías computarizadas o resonancias magnéticas, mientras que a los pacientes de bajos ingresos se les recomendaba con más frecuencia no realizarse más pruebas. La magnitud de estas inconsistencias subraya la necesidad de una supervisión más estricta de acuerdo a los autores del artículo.

Si bien el estudio ofrece perspectivas críticas, los investigadores advierten que solo representa una instantánea del comportamiento de la IA. Las investigaciones futuras continuarán incluyendo pruebas de garantía para evaluar cómo los modelos de IA se desempeñan en entornos clínicos reales y si diferentes técnicas de indicación pueden reducir los sesgos.

El equipo también tiene como objetivo trabajar con otras instituciones de salud para perfeccionar las herramientas de IA, asegurándose de que mantengan los más altos estándares éticos y traten a todos los pacientes de manera justa. Los investigadores planean ampliar su trabajo simulando conversaciones clínicas multietapa con modelos de IA en entornos hospitalarios para medir su efecto en el mundo real

Omar, M., Soffer, S., Agbareia, R. et al. Sociodemographic biases in medical decision making by large language models. Nat Med (2025). https://doi.org/10.1038/s41591-025-03626-6