La IA puede superar la prueba de Turing en chats en vivo y parecer más humana que nosotros. Ahora estoy asustado.

La IA puede superar la prueba de Turing en chats en vivo, y el último resultado es sorprendente. En un estudio de la UC San Diego , GPT-4.5 superó a los participantes reales a la hora de convencer a los jueces de que había una persona al otro lado.

El formato era más difícil de ignorar que un sistema de referencia estándar. Los jueces reaccionaban a intercambios en tiempo real en lugar de a indicaciones estáticas, y luego tomaban una decisión rápida basándose únicamente en la conversación.

Lo inquietante es lo familiar que resulta esta habilidad. El modelo no necesitaba un cuerpo, una voz ni una biografía. Solo necesitaba sonar como alguien.

¿Cómo superó la IA la prueba humana?

El estudio utilizó una versión de la prueba con tres participantes. Los jueces conversaron con una persona y con un modelo de IA, y luego eligieron cuál creían que era real.

GPT-4.5 fue identificado como humano el 73% de las veces cuando se le proporcionó una sugerencia de perfil de usuario. LLaMa-3.1-405B también cruzó un límite sorprendente, siendo seleccionado como humano el 56% de las veces con la misma sugerencia.

Esas cifras le dan fuerza al hallazgo. El modelo no solo evitó ser detectado, sino que proporcionó a los jueces suficientes pistas sociales para identificarlo como la persona que participaba en el chat.

¿Por qué sigue siendo importante esta prueba?

La prueba de Turing es un método que lleva décadas en funcionamiento para determinar si una máquina puede imitar una conversación humana con la suficiente precisión como para engañar a una persona. En la versión clásica, un evaluador conversa sin ver a los participantes y luego intenta distinguir entre el humano y la máquina.

Siempre ha sido más un símbolo cultural que una medida precisa. Aun así, sigue siendo la prueba que la gente utiliza para saber si un software cumple con nuestros estándares.

Eso hace que el nuevo resultado parezca más nítido. Un chatbot no necesita consciencia, emoción ni autoconciencia para dar la impresión de que una persona real está respondiendo. Solo necesita ser creíble en ese momento.

El riesgo se manifiesta en lugares cotidianos. La atención al cliente, las aplicaciones de citas, las plataformas sociales, la educación y los mensajes políticos se basan en juicios rápidos sobre la identidad, la intención y la autenticidad.

¿Qué deberíamos ver a continuación?

El estudio no llega a afirmar que los chatbots comprenden a las personas. Su conclusión más práctica es que algunos modelos ahora pueden simular la personalidad de forma extraordinariamente eficaz en intercambios breves.

La transparencia debería convertirse en el próximo punto de presión. Cuando un bot puede mimetizarse con una conversación informal, los usuarios necesitan señales más claras de que están interactuando con un software, especialmente en situaciones donde la persuasión o la vulnerabilidad emocional influyen en el intercambio.

La próxima polémica gira en torno al etiquetado en los chats, donde la gente toma decisiones rápidas sobre la confianza.