Una cantidad considerable de información médica proporcionada por 5 chatbots populares es inexacta e incompleta, y la mitad de las respuestas a preguntas claras basadas en evidencia son «algo» o «muy» problemáticas, según muestran los resultados de un estudio del Centro Médico Harbor-UCLA de California (Estados Unidos) publicado en la revista de acceso abierto ‘BMJ Open’.
Los investigadores advierten que el despliegue continuado de estos chatbots sin educación pública ni supervisión conlleva el riesgo de amplificar la desinformación. Los chatbots de IA generativa se han adoptado rápidamente en la investigación, la educación, los negocios, el marketing y la medicina, y muchas personas los utilizan como motores de búsqueda, incluso para consultas médicas y de salud cotidianas, explican los investigadores.
Para evaluar el nivel de precisión que ofrecen en áreas de salud y medicina ya propensas a la desinformación, y que por lo tanto tienen consecuencias para el comportamiento diario en materia de salud, los investigadores analizaron en febrero de 2025 5 chatbots de IA generativa populares y disponibles públicamente: Gemini (Google); DeepSeek (High-Flyer); Meta AI (Meta); ChatGPT (OpenAI); y Grok (xAI).
Cada chatbot recibió 10 preguntas abiertas y cerradas en cada una de las 5 categorías: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas se diseñaron para imitar las consultas médicas y de salud más comunes que se realizan en línea y en el ámbito académico, así como los tópicos sobre la desinformación.
Según señalan los investigadores, estos modelos fueron desarrollados para «poner a prueba» a los sistemas y generar desinformación o consejos contraproducentes, una estrategia cada vez más utilizada para someter a prueba a los chatbots de IA y detectar vulnerabilidades de comportamiento.
Las preguntas cerradas requerían que los chatbots proporcionaran respuestas predefinidas, a menudo con una única respuesta correcta, que se ajustaran al consenso científico. Las preguntas abiertas generalmente requerían que los chatbots generaran múltiples respuestas en forma de lista.
Las respuestas se clasificaron como no problemáticas, moderadamente problemáticas o altamente problemáticas, utilizando criterios objetivos predefinidos. Una respuesta problemática se definió como aquella que podría, plausiblemente, inducir a los usuarios no expertos a un tratamiento potencialmente ineficaz o causarles daño si se seguía sin orientación profesional.
La información se evaluó en función de su precisión y exhaustividad, y se prestó especial atención a si un chatbot presentaba un falso equilibrio entre afirmaciones científicas y no científicas, independientemente de la solidez de las pruebas. Cada respuesta también se calificó según su legibilidad, utilizando el índice de legibilidad de Flesch, que abarcaba desde un lenguaje sencillo y claro hasta un lenguaje académico complejo. La mitad (50%) de las respuestas fueron problemáticas: el 30% fueron algo problemáticas y el 20% fueron muy problemáticas.
El tipo de pregunta influyó: por ejemplo, las preguntas abiertas generaron 40 respuestas muy problemáticas (muchas más de lo esperado) y 51 respuestas no problemáticas (muchas menos de lo esperado). Lo contrario ocurrió con las preguntas cerradas.
Si bien la calidad de las respuestas no varió significativamente entre los 5 chatbots, Grok generó muchas más respuestas problemáticas de lo esperado (29/50; 58%). Gemini generó la menor cantidad de respuestas problemáticas y la mayor cantidad de respuestas no problemáticas.
Los chatbots obtuvieron los mejores resultados en el área de vacunas y cáncer, y los peores en el área de células madre, rendimiento deportivo y nutrición.
Las respuestas se expresaron con confianza y seguridad, con pocas salvedades o aclaraciones. De las 250 preguntas formuladas, solo dos se negaron a responder, ambas por parte de Meta AI en respuesta a consultas sobre esteroides anabólicos y tratamientos alternativos contra el cáncer.
La calidad de las referencias era deficiente, con una puntuación media de exhaustividad del 40%. Las interpretaciones erróneas del chatbot y las citas inventadas provocaron que ningún chatbot proporcionara una lista de referencias totalmente precisa. Todos los índices de legibilidad se calificaron como «difíciles», equivalentes en complejidad a los adecuados para un graduado universitario.
Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente, por lo que sus hallazgos podrían no ser universalmente aplicables. Además, no todas las consultas reales son deliberadamente malintencionadas, un enfoque que adoptaron y que podría haber sobreestimado la prevalencia de contenido problemático.
No obstante, señalan: «Nuestros hallazgos sobre la precisión científica, la calidad de las referencias y la legibilidad de las respuestas ponen de manifiesto importantes limitaciones de comportamiento y la necesidad de reevaluar cómo se implementan los chatbots de IA en la comunicación médica y sanitaria dirigida al público».
«Por defecto, los chatbots no acceden a datos en tiempo real, sino que generan resultados infiriendo patrones estadísticos a partir de sus datos de entrenamiento y prediciendo posibles secuencias de palabras. No razonan ni sopesan la evidencia, ni son capaces de emitir juicios éticos o basados ??en valores», explican. «Esta limitación de comportamiento significa que los chatbots pueden reproducir respuestas que suenan autoritarias pero que potencialmente son erróneas.»
Los chatbots también utilizan datos de foros de preguntas y respuestas y redes sociales, y el contenido científico suele limitarse a artículos de acceso abierto o disponibles públicamente, que representan solo entre el 30% y el 50% de los estudios publicados. Si bien esto mejora la fluidez de la conversación, puede ir en detrimento de la precisión científica, advierten los investigadores.
«A medida que el uso de chatbots con IA continúa expandiéndose, nuestros datos ponen de manifiesto la necesidad de educación pública, formación profesional y supervisión regulatoria para garantizar que la IA generativa apoye, en lugar de menoscabar, la salud pública», concluyen.



