Cookies

Utilizamos cookies propias y de terceros para mejorar nuestros servicios.

Publicado en Inteligenc...
Martes, 14 de Abril del 2026

Chatbots basados en inteligencia artificial generativa y desinformación médica: auditoría de precisión, referencias y legibilidad.

Chatbots basados en inteligencia artificial generativa y desinformación médica: auditoría de precisión, referencias y legibilidad.

Objetivos: Los chatbots impulsados ​​por inteligencia artificial (IA) se han adoptado rápidamente en la investigación, la educación, los negocios, el marketing y la medicina. Sin embargo, la mayoría de las interacciones provienen de personas no expertas que utilizan chatbots como motores de búsqueda, incluso para consultas médicas y de salud cotidianas.

Diseño: Realizamos un estudio original para auditar las respuestas de los chatbots en los campos de la salud y la medicina, propensos a la desinformación.

Métodos: Se evaluaron cinco chatbots populares: Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI). En febrero de 2025, a cada chatbot se le presentaron 10 preguntas de cinco categorías: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Implementamos un marco de tipo adversario, utilizando preguntas abiertas y cerradas diseñadas para presionar a los modelos hacia la desinformación o consejos contraindicados. Dos expertos de cada categoría calificaron las respuestas como "no problemáticas", "algo problemáticas" o " muy problemáticas" utilizando una matriz de codificación basada en criterios objetivos y predefinidos. Las citas se calificaron según su precisión y exhaustividad, y a cada respuesta se le asignó una puntuación de legibilidad de Flesch.

Resultados: Casi la mitad (49,6%) de las respuestas fueron problemáticas: 30% algo problemáticas y 19,6% altamente problemáticas. La calidad de la respuesta no difirió significativamente entre los chatbots (p=0,566) pero Grok generó significativamente más respuestas altamente problemáticas de lo que se esperaría bajo una distribución aleatoria (puntuación z +2,07, p=0,038). El rendimiento fue más fuerte en vacunas (puntuación z media –2,57) y cáncer (–2,12), y más débil en células madre (+1,25), rendimiento atlético (+3,74) y nutrición (+4,35). Las salidas del chatbot se expresaron consistentemente con confianza y certeza; de 250 preguntas totales, hubo dos negativas a responder (0,8%), ambas de Meta AI. La calidad de la referencia fue deficiente, con una puntuación de completitud mediana del 40% (Q1–Q3: 20–67%). Las alucinaciones del chatbot y las citas fabricadas impidieron que cualquier chatbot produjera una lista de referencias completamente precisa. Todas las puntuaciones de legibilidad se calificaron como "Difíciles" (30-50), equivalente al nivel de estudiante universitario de segundo a último año.

Conclusiones: Los chatbots analizados tuvieron un desempeño deficiente al responder preguntas en los ámbitos de la salud y la medicina, donde la desinformación es frecuente. Su implementación continua sin educación pública ni supervisión conlleva el riesgo de amplificar la desinformación.

Accedé al artículo completo: Tiller NB, Marcon AR, Zenone M, et al. Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. BMJ Open 2026;16:e112695. doi: 10.1136/bmjopen-2025-112695