Las primeras pruebas sugieren que la evaluación de ChatGPT Health de sus datos de actividad física puede causar pánico innecesario
A principios de este mes, OpenAI presentó un nuevo espacio centrado en la salud dentro de ChatGPT , presentándolo como una forma más segura para que los usuarios hagan preguntas sobre temas sensibles como datos médicos, enfermedades y estado físico. Una de las características destacadas en el lanzamiento fue la capacidad de ChatGPT Health para analizar datos de aplicaciones como Apple Health, MyFitnessPal y Peloton para identificar tendencias a largo plazo y ofrecer resultados personalizados. Sin embargo, un nuevo informe sugiere que OpenAI podría haber exagerado la eficacia de esta función para extraer información fiable de esos datos.
Según las primeras pruebas realizadas por Geoffrey A. Fowler de The Washington Post , cuando ChatGPT Health tuvo acceso a una década de datos de Apple Health, el chatbot calificó la salud cardíaca del periodista con una F. Sin embargo, después de revisar la evaluación, un cardiólogo la calificó de "infundada" y dijo que el riesgo real de enfermedad cardíaca del periodista era extremadamente bajo.
El Dr. Eric Topol, del Instituto de Investigación Scripps, ofreció una evaluación contundente de las capacidades de ChatGPT Health, afirmando que la herramienta no está preparada para ofrecer asesoramiento médico y que se basa demasiado en métricas poco fiables de smartwatches. La calificación de ChatGPT se basó en gran medida en las estimaciones del Apple Watch sobre el VO2 máximo y la variabilidad de la frecuencia cardíaca, ambas con limitaciones conocidas y que pueden variar significativamente entre dispositivos y versiones de software. Investigaciones independientes han descubierto que las estimaciones del VO2 máximo del Apple Watch suelen ser bajas; sin embargo, ChatGPT las sigue considerando como indicadores claros de mala salud.
ChatGPT Health otorgó diferentes calificaciones para los mismos datos
Los problemas no acabaron ahí. Cuando el reportero pidió a ChatGPT Health que repitiera el mismo ejercicio de calificación, la puntuación fluctuó entre una F y una B en las conversaciones. El chatbot a veces ignoraba los informes de análisis de sangre recientes a los que tenía acceso y, en ocasiones, olvidaba detalles básicos como la edad y el sexo del reportero. Claude for Healthcare de Anthropic, que también se estrenó a principios de este mes, mostró consistencias similares, asignando calificaciones que oscilaban entre una C y una B negativa.
Tanto OpenAI como Anthropic han enfatizado que sus herramientas no están diseñadas para reemplazar a los médicos y solo brindan un contexto general. Aun así, ambos chatbots proporcionaron evaluaciones confiables y altamente personalizadas de la salud cardiovascular. Esta combinación de autoridad e inconsistencia podría asustar a los usuarios saludables o tranquilizar falsamente a los que no lo están. Si bien la IA podría eventualmente extraer información valiosa de los datos de salud a largo plazo, las primeras pruebas sugieren que introducir años de datos de seguimiento de la actividad física en estas herramientas actualmente genera más confusión que claridad.
Las primeras pruebas sugieren que la evaluación de sus datos de actividad física por parte de ChatGPT Health puede causar pánico innecesario apareció primero en Digital Trends .
