Máquinas ingresadas con datos artificiales llegan al colapso de la IA: “Vislumbrar la percepción de la realidad”

Si se busca un modelo de inteligencia artificial (IA) que genere imágenes de perros en el horizonte, la máquina recreará imágenes de un golden retriever como la raza canina más popular, pero también de algunos dálmatas o bulldogs franceses, también en menor cantidad. ser más raro. Pero si con los datos producidos por esta máquina se introducen otros modelos de IA, con el golden retriever representado, poco a poco irán descubriendo los motivos de los menos comunes y mostrarán únicamente esta raza. Con el tiempo, sólo se utilizarán mangos marrones para estos perros. Una investigación revela que después de ingresar repetidamente a un modelo de IA que contenía un producto generado por la misma máquina, el modelo colapsó, volviéndose funcional, dando respuestas incorrectas y brindando información incorrecta. “Tenemos que producir ejemplos que nunca sean creados por el modelo original, nosotros decidimos, tenemos que malinterpretar la realidad en base a errores introducidos por nuestros predecesores”, explica el estudio que advierte de cómo las máquinas que son entrenadas con información sintética “pierden el percepción de la realidad”.

“Hay que perder información porque no está claro si los datos registrados son suficientes para cubrir todos los casos posibles. Los modelos están presentes e han introducido sus propios errores, y los modelos del futuro pueden percibir mal la realidad, porque entran con datos de sus modelos anteriores”, explica Ilia Shumailov, coautor del estudio publicado hoy en la revista . Naturaleza, punto de partida para una mejor ciencia e investigador de la Universidad de Oxford, actualmente trabaja para Google DeepMind. Los datos se “envían”, según expresión del estudio.

Los autores del estudio presentan un modelo matemático que ilustra la idea del colapso: muestran que una IA puede pasar por ciertos datos en su aprendizaje (por ejemplo, líneas de texto más pequeñas) y participar por sí sola en una segunda parte. Por ejemplo, había un estudio con un texto sobre arquitectura medieval como entrada original y en el nuevo compromiso completado y una lista de enlaces. “Los modelos aprenden unos de otros. «En cuanto a un mayor aprendizaje, una mayor degradación de la representación y el uso de la generación de texto repetitivo que es independiente de la petición de entrada», añadió Choumailov.

Hoy en día, es una práctica estándar que los modelos se mantengan con datos sintéticos, aquellos que no fueron creados por humanos, pero que imitan datos del mundo real. Aquí está la información más reciente de ChatGPT-4 de OpenAI. En principio, es imposible distinguir si los datos son generados por máquinas o por humanos, pero si no se utilizan medios para controlar el colapso, las consecuencias son «la degradación de la calidad del contenido, la contaminación de los datos y la perpetuación de los sesgos», describe Luis Herrera. , arquitecto de soluciones en Databricks España.

¿Por qué las empresas de tecnología que se alejan de los modelos lingüísticos permiten estas prácticas? “Las IA almacenan enormes cantidades de datos presentados en Internet, producidos por personas que tienen derechos legales de autoridad sobre su material. Para evitar requerimientos legales o tarifas excesivas, las empresas tecnológicas utilizan datos generados por su propia IA para rastrear el aprendizaje de sus máquinas”, explicó Víctor Etxebarria, catedrático de la Universidad del País Vasco, en declaraciones al portal especializado SMC España. Sin embargo, añade: “Este procedimiento está ahora más generalizado porque la IA no permite una función verdaderamente fiable. Convertir la IA en herramientas simples que nos ayuden a resolver nuestros problemas, si somos novatos, si basamos nuestras decisiones en información incorrecta”.

El contenido creado se puede utilizar para emprender otros modelos o también para emprender estas mismas cosas. La inclusión del ciclo de degradación se puede utilizar sin querer cuando las máquinas están conectadas a Internet, pero hay vértigos disponibles para otras máquinas. Lorena Jaume-Palasí, experta en ética algorítmica y asesora del Parlamento Europeo, alerta sobre el origen de los datos sintéticos: “El buscador de Google es uno de los sitios cuya calidad está decidida. Existe una gran diversidad en el procedimiento para este tipo de datos y la calidad en un momento dado puede ser buena. Son trillones de datos humanamente imposibles de corregirlos todos”. Y se sumó al “Colapso Ecológico” que provoca estos patrones: “Los centros de datos están todos en agua. Continúe un momento para que tengamos que decidir si salimos del agua o no”.

Emprendedor de un modelo de inteligencia artificial con imágenes generadas con sus propios resultados, según Nature News&views de la autora Emily Wenger, profesora de ingeniería eléctrica e informática en la Universidad de Duke, Carolina del Norte.Naturaleza

Pablo Haya Coll, investigador de la Universidad Autónoma de Madrid, tiene una limitación de este sistema: “Esta técnica puede ayudarte a corregir el LLM (un modelo de lenguaje grande, como ChatGPT, para tu nombre en inglés). Aquí hay una opinión sobre la calidad de los datos utilizados en la construcción de este LLM. Mientras más se adopta este LLM, más datos sintéticos terminan en Internet, lo que hipotéticamente podría afectar los intercambios de versiones futuras”.

Los hallazgos del estudio plantearon un escenario en el que solo se utilizaron datos generados por IA. En un contexto real, es probable que siempre queden una parte de los datos generados por la humanidad: como mínimo, los que están disponibles hoy. Pero hoy no está claro que estos datos puedan ser diferentes. Shumailov, autor principal del estudio, sugiere seguir «manteniendo listas y marcas de agua».

Para este investigador y sus colegas, es posible construir un modelo con datos generados sintéticamente, pero el filtrado debe hacerse en serie. Toju Duke, director de IA responsable de Google, explicó a EL PAÍS en octubre del año pasado que podía ingresar los modelos con los datos generados por la IA, siempre y cuando la normativa estuviera en juego: “Tenemos que ser capaces de comparar los hechos y los fuentes. Nos parece que podemos revisar estas cosas antes de lanzar. No podemos simplemente dar a entender que es una cosa”.

puedes seguir EL PAÍS Tecnología fr. Facebook Y X o haga clic aquí para recibir el nuestro boletín informativo vs

Máquinas ingresadas con datos artificiales llegan al colapso de la IA: “Vislumbrar la percepción de la realidad” | Tecnología