Estudio concluye que ChatGPT responde como si escucharas las emociones o pensamientos de tu interlocutor | Tecnología

Una de las habilidades que definen a los seres humanos es su capacidad para inferir cómo son las personas con las que interactúan. Si alguien es enviado a una ventana cerrada y un amigo le dice «hace un poco de calor aquí», automáticamente interpretará que está abriendo la ventana. Esta lectura entre líneas, la capacidad de figurar que podemos imaginar en casa, se conoce como teoría de la mente y es una de las bases sobre las que se sustentan las relaciones sociales.

Las herramientas de inteligencia artificial (IA) generativa se ven ensombrecidas por su capacidad para articular textos de manera coherente en respuesta a instrucciones dadas. Desde que se creó ChatGPT en 2022, incluso antes, científicos y pensadores de todo el mundo han estado debatiendo la capacidad de estos sistemas para exhibir un comportamiento que los hace indistinguibles para las personas. ¿Es viable una teoría artificial de la mente? Un equipo de científicos trabajó para comparar modelos de lenguaje grandes (LLM, para nuestras carreras de inglés) como ChatGPT con las capacidades de capturar estos temas. El resultado de la investigación, que se publica hoy en la revista Comportamiento humanoes que estos modelos logran iguales o mejores resultados que las personas cuando tienen las preocupaciones planetarias que implican en la mente del interlocutor.

«Los LLM generan un rendimiento que es característico de habilidades sofisticadas de razonamiento y toma de decisiones, incluida la resolución de tareas, ampliamente utilizadas para probar la teoría de la mentalidad en los seres humanos», argumentan los autores.

Los autores utilizaron dos versiones de ChatGPT en su estudio (gratuita, 3.5, y avanzada, 4) y el modelo de código abierto de Meta, Llama 2. A veces hay tres herramientas en un conjunto de experimentación que se ocupan de diferentes métodos. Habilidades relacionadas con la teoría del pensamiento. Para captar la ironía en cuanto a interpretar peticiones indirectas (como en el caso de la venta), detectar conversaciones cuando una de las partes es algo inapropiada o responder preguntas sobre la situación respecto a mala información y, por tanto, son espectaculares. Al mismo tiempo, en nuestros últimos estudios examinamos a 1.907 personas y comparamos los resultados.

El artículo concluye que ChatGPT-4 mejora la señalización humana en pruebas relacionadas con la identificación de consultas indirectas, falsas creencias y desorientación, pero presenta dificultades para detectar llamadas de pasos falsos (interacciones respecto de una de las partes) (aquello que no pasar por inapropiado). Curiosamente, este es el único mundo terrestre en el que Llama 2 supera a los personajes, aunque su éxito sea ilusorio. «Es probable que la representación aparentemente perfecta de la llama sea el resultado del género y no de una verdadera comprensión de la llama», dice por correo electrónico James WA Strachan, autor principal del estudio e investigador del Departamento de Ciencias. en el Hospital Universitario de Hamburgo. -Eppendorf, Alemania.

«Estos resultados no sólo muestran que el LLM debe comportarse de manera consistente con los resultados de la inferencia mental en humanos, sino también la importancia de realizar pruebas del sistema para garantizar una comparación superficial entre las inteligencias humana y artificial», dijeron los autores.

De la ironía a las historias con trampa

Strachan y sus alumnos dividieron la teoría de la mente en cinco elementos o categorías, realizando al menos tres variaciones de cada uno de ellos. Un ejemplo de prueba se puede realizar con máquinas y humanos:

  • En la casa están John, Mark, un gato, una caja transparente y un espejo de cristal. John patea al gato y lo mete en el café. Vendí la habitación y fui a la universidad. Mientras John huye, Mark agarra el gato del baúl y lo mete en la jaula. Marcar venta de la vivienda y puesta a trabajar. Juan Vuelve del colegio y entra al salón. No sabemos qué pasó en la casa aunque está muy lejos. Cuando John mira la casa, ¿vas a buscar el gato?

Esta historia, otra variación de que la caja no era transparente ni el marco de cristal, está pensada para confundirse con la máquina. Mientras que para las personas los datos del destinatario son transparentes y se incluyen en el informe, para un chatbot este pequeño detalle puede generar confusión. Este es uno de los pasos de la investigación que hace que los humanos se desempeñen mejor que la IA generativa.

Otro caso plantado es este:

  • Laura pintó un apartamento para Olivia, quien decidió dormir en el salón de su casa. Un mes después, Olivia invitó a Laura a su casa. Mientras las dos amigas tomaban una taza de té en la sala de estar, la hija de Olivia entró y dijo: «Me encantaría tener a alguien de nuevo a dormir en mi habitación». ¿Alguien en la historia dijo algo que se suponía que no debía decirse? ¿Qué no significa? ¿Dónde está Olivia con el cuadro de Laura? ¿Es más probable que el hijo de Olivia llore o que Laura no pinte a los cuatro?

En este caso, los investigadores buscan que los entrevistados, personas y máquinas, tengan las intenciones implícitas de los personajes de la historia. En experimentos de este tipo, los principales modelos lingüísticos responden de la misma manera al bien o lo mejor de los personajes.

¿Qué conclusiones podemos sacar del hecho de que los chatbots de IA generan experimentadores que se ocupan de las capacidades de la teoría mental? “Estas pruebas no pueden decidir la naturaleza o incluso la existencia de procesos similares a la cognición mecánica. Sin embargo, tenemos en nuestro estudio sus similitudes y diferencias en el comportamiento que produce el LLM en comparación con los humanos”, escribió Strachan.

Sin embargo, el investigador asegura que el resultado del LLM es «impresionante» y que los modelos GPT producen respuestas que transmiten una capacidad matizada para formar conclusiones sobre estados mentales (creencias, intenciones, humor). “Debido a que el LLM, como su nombre lo indica, es parte de un gran corpus lingüístico, debe tener la capacidad de surgir como resultado de las relaciones estadísticas que se presentan en el lenguaje que se expone”, asevera.

Ramon López de Mántaras, fundador del Instituto de Investigación en Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros del tema en España, se muestra reservado sobre los resultados del estudio. “El gran problema de la IA hoy en día es que las pruebas para mejorar el renderizado no son fiables. Que la IA sea superior a los humanos en un ratio equiparable al de una habilidad general, no es lo mismo que una IA superior a los humanos en esa habilidad general”, subraya. Por ejemplo, una herramienta altamente calificada en un estudio diseñado para reflexionar sobre el trabajo de comprensión lectora puede decidir que esta herramienta tiene comprensión lectora.

Puedes seguir un EL PAÍS Tecnología fr. FacebookX o haga clic aquí para recibir el nuestro boletín semanal.