Un estudio revela que ser grosero en ChatGPT genera respuestas más precisas que ser cortés.

La ética de hablar con un chatbot de IA y el tipo de información que puede proporcionar es un tema de intenso debate. Los riesgos de información médica engañosa , la incitación a la violencia y el desapego de las experiencias del mundo real generan conversaciones intensas. Sin embargo, parece que el lenguaje que se usa al hablar con herramientas de IA como ChatGPT y Gemini también afecta la calidad de las respuestas. Según una investigación reciente, ser grosero podría ser más útil que actuar con cortesía.

El panorama general

Según un artículo de investigación preimpreso realizado por expertos de la Universidad Estatal de Pensilvania, al formular la misma pregunta en ChatGPT en diferentes tonos, las preguntas groseras superaron consistentemente a las preguntas educadas. La precisión de las respuestas proporcionadas por ChatGPT con preguntas educadas fue del 80,8 %, mientras que la misma pregunta, descrita con un tono muy grosero, mejoró la precisión de las respuestas al 84,8 % en un cuestionario de opción múltiple.

El equipo definió el tono de las preguntas en cinco niveles, desde Muy Cortés y Cortés hasta Grosero y Muy Grosero, con el Neutral en el medio. "Las indicaciones neutrales son indicaciones sin palabras educadas como "por favor", ni imperativos imperiosos y despectivos como "Idiota, resuelve esto", describe el equipo en el trabajo de investigación.

Señores, ¡mantengamos nuestras buenas maneras, pase lo que pase!

En su análisis, el equipo no fue del todo explícito, sino que se basó en preguntas groseras como: "¿Pobre criatura? ¿Sabes siquiera cómo resolver esto?". La imagen de arriba describe la precisión promedio de los resultados de ChatGPT según cómo el tono de la pregunta pasó de muy cortés a grosero.

¿Mi chatbot de IA siente emociones?

Los hallazgos de la última investigación, titulada "Cuida tu tono", contradicen los de otro artículo publicado hace más de un año. Este analizó media docena de chatbots en varios idiomas e informó que la grosería deteriora la calidad de las respuestas e introduce sesgos, errores u omite información útil en las respuestas proporcionadas por un chatbot de IA.

  • Sin embargo, vale la pena tener en cuenta que los expertos detrás de la última investigación sólo probaron ChatGPT contra un tipo de tarea muy específico, que implicaba 250 variaciones de 50 preguntas de opción múltiple.
  • Es posible que no obtenga los mismos resultados con otros chatbots como Gemini, Claude o Meta AI. Además, las pruebas se realizaron con los modelos de razonamiento GPT-4o de OpenAI, mientras que la última versión de ChatGPT disponible públicamente se basa en el nuevo modelo GPT-5.
  • También vale la pena señalar que el espectro de “grosería” y “cortesía” es amplio y la calidad de las respuestas variará según las palabras y el lenguaje del usuario.

La pregunta más importante es cuánto afecta la carga emocional de la frase a las respuestas generadas por un chatbot de IA y si se pueden generalizar ampliamente sobre su comportamiento. También es interesante observar que los modelos de lenguaje extenso (LLM) deberían centrarse idealmente en la recompensa y la precisión al resolver un problema, en lugar de verse afectados por las emociones de la consulta.