Por eso es peligroso que la inteligencia artificial aprenda a mentir: “Nos comprometemos como hacemos los ricos”

Un jugador de poker tiene malas cartas pero tiene el poder para hacerlo. El resto de jugadores se hacen cargo del farol y conceden la victoria. Un comerciante que quiere comercializar un producto, pero no debe estar interesado. Primero mira otras cosas y preguntas. De hecho, sin mucha intención, es porque realmente quiero comprar a un precio más barato. Estos ejemplos de la vida real no son hilos de humanos, sino modelos que tienen con inteligencia artificial (IA). Un nuevo artículo científico titulado Lecciones de la IA: un estudio de ejemplos, respuestas y posibles soluciones en la revista Patrones Analice casos conocidos de modelos que han sido mencionados, disimulados o ensalzados por los humanos para registrar sus propósitos. Los robots no son conscientes de nada y sólo buscan la mejor manera de proceder, pero los autores creen que estas primeras máquinas auguran resultados dolorosos si la legislación no limita las opciones de la IA.

“En este punto, mi mayor preocupación sobre la participación de la IA es que una IA autónoma y superinteligente utilizará sus capacidades de participación para formar una coalición de alias humanos superados en número y, finalmente, utilizará esta coalición para identificar el poder en la investigación. «Un gran lugar en un objeto misterioso que no se conoce hasta el final», dijo Peter S. Park, investigador postdoctoral en seguridad existencial de IA en el Instituto Tecnológico de Massachusetts (MIT) y uno de los principales autores del artículo.

Esta gran vibra de Park es una incógnita, pero la hemos visto en una IA programada para un juego. Se anunció en 2022 que su modelo Cicero podría haber competido con los humanos. Diplomaciaun juego de estrategia que mezcla detalles del Riesgoprograma de televisión y póquer Supervivientes, en palabras de la empresa. Como en la diplomacia real, uno de los recursos es mental y encubierto. Los empleados de Meta Advirtieron que cuando Cicerón mencionó, jugadas el Salían Peor y lo programarán para ser más honesto. Pero esa no era la realidad.

Peter S. Park y sus colegas también han estudiado la honestidad de Cicerón. «Nos pusimos en contacto con los autores del artículo que corrige la falsa afirmación de Meta sobre la supuesta honestidad de Cicerón que fue publicado en Ciencia». El contexto político del juego. Diplomacia Este es un riesgo mucho menor para contextos del mundo real relacionados con nuestras elecciones y conflictos militares. Pero tenía a tres hombres en mente, dice Park: «Primero, me comprometí con la IA para tener éxito en la búsqueda del poder político, incluso en un juego». Segundo, meta intención, pero sin conexión, contratar a esta IA para que sea honesto. Y en tercer lugar, trabajamos con científicos independientes externos para, mucho después de él, desacreditar la falsedad de Meta de que se suponía que su buscadora de IA era honesta. La combinación de estos tres hombres es, en mi opinión, motivo suficiente de preocupación”, dijo Park.

Cómo llegar a la realidad

Los investigadores creen que hay varios modos en modelos específicos de IA que han demostrado que pueden interactuar de manera efectiva: pueden manipular como en la diplomacia, pero deben decidir que tienen algo que saber quién no lo tiene, juegan como póquer, regatean en negociaciones, hacerse el muerto para evitar ser detectado o contratar revisores humanos para crear que la IA tenía la idea de no haberlo logrado.

No todos los tipos de aprendizaje implican este tipo de conocimiento. En ocasiones, y sin querer, los modelos de IA son “aduladores” y simplemente siguen la opinión de que cada usuario responde a sus preguntas: “La adulación puede llevar a creencias falsas persistentes en los seres humanos. Las afirmaciones positivas están especialmente diseñadas para el usuario. Cuando un usuario encuentra esta respuesta, es menos probable que verifique sus respuestas. Esto en una gran plaza podría dar lugar a creencias alejadas de la verdad”, escriben los autores en el artículo.

Nadie sabe con certeza cómo hacer que estos patrones no estén comprometidos, dice Park: «Con nuestro nivel actual de comprensión científica, ella puede tomar de manera confiable patrones de lenguaje grandes para que no estén comprometidos». Además, hay muchos ingenieros en muchas empresas dedicados a crear modelos distintos y más potentes. Inicialmente, no todo es interesante para que sus robots sean honestos: «Algunos ingenieros asumen el riesgo de la IA en serie, hasta el punto de abandonarla por medidas de seguridad de la IA o por cursos de implementación. Otros ingenieros no están ahí para garantizar que un proceso de prueba y error aplicado sea suficiente para avanzar en una IA segura e irreflexiva. Hay otros que tampoco quieren aceptar que existe el riesgo de que la IA se involucre”, dice Park.

Úsalo para aumentar tu poder.

En el artículo se compara a los super inteligentes con los ricos que aspiraban a conseguir nuevas cosas de poder: «A lo largo de la historia, los actores ricos han utilizado su profesión para aumentar su poder», escribe. La forma en que Park lo dice sirve para comprender mejor cómo la subrepticia puede ser el papel de una IA que quiere poder decir: “Las empresas de IA están en una carrera sin control para crear una IA súper inteligente que supere a los humanos en la mayoría de los aspectos económicos y sociales relevantes”. capacidades estratégicas. Uno de este tipo, como los ricos, será experto en llevar a cababo aviones a gran plazo al servicio de autobús puer de manera engañosa sobre diversos sectores de la sociedad, cómo influir en políticas con información incompleta o falsa, desinformación financiera en medios o investigadores. y evadir la responsabilidad utilizando las leyes. De la misma manera, el dinero se traduce en poder, al igual que las capacidades de la IA, como el genio, también se traducen en poder”, explica Park.

Ninguno de los académicos comparte este nivel de motivación. Michael Rovatsos, de la Catedral de la Universidad de Edimburgo, en declaraciones a SMC España, dijo que los delincuentes en una gran plaza eran especulativos: «No estoy convencido de que la capacidad de compromiso cree un riesgo de pérdida de control sobre los sistemas de IA. , si aplica el rigor adecuado a su diseño; El verdadero problema es que actualmente no hay ninguno y están llegando al mercado sistemas sin estos compromisos de seguridad. El debate sobre las implicaciones sobre gran parte de las capacidades engañosas que plantea el artículo es muy especulativo y tiene muchas suposiciones adicionales sobre cosas que pueden ocurrir o no.

La solución para configurar el artículo de modo que estos sistemas no caigan bajo el control de sus creadores es la legislación. La UE asigna a cada sistema de IA uno de cuatro niveles de riesgo: mínimo, limitado, alto e inaceptable. Los sistemas de riesgo inaceptable están prohibidos, mientras que los sistemas de alto riesgo están sujetos a requisitos especiales. «Sostenemos que la participación de la IA presenta una amplia gama de riesgos para la sociedad, además de ser considerada por defecto como de alto riesgo o inaceptable», dice Park.

Puedes seguir un EL PAÍS Tecnología fr. Facebook Sí X o haga clic aquí para recibir el nuestro boletín semanal.