Pese a su impresionante producción, la IA generativa no tiene una comprensión coherente del mundo

Table of Contents

Investigadores demostraron que incluso los modelos extensos de lenguaje ( Large Language Models) con mejor rendimiento no forman un modelo verdadero del mundo y sus reglas y, por lo tanto, pueden fallar inesperadamente en tareas similares.

Foto de Marcela Artola

Los modelos extensivos de lenguaje pueden hacer cosas impresionantes, como escribir poesía o generar programas informáticos viables, aunque estos modelos estén entrenados para predecir las palabras que vienen a continuación en un fragmento de texto.

Estas capacidades sorprendentes pueden hacer que parezca que los modelos están aprendiendo implícitamente algunas verdades generales sobre el mundo.

Pero parece que no es así, según un nuevo estudio. Los investigadores descubrieron que un tipo popular de modelo de IA generativa puede proporcionar indicaciones de manejo paso a paso en la ciudad de Nueva York con una precisión casi perfecta, sin haber formado un mapa interno preciso de la ciudad.

A pesar de la asombrosa capacidad del modelo para navegar con eficacia, cuando los investigadores cerraron algunas calles y añadieron desvíos, su rendimiento se desplomó.

Cuando profundizaron más, descubrieron que los mapas de Nueva York generados implícitamente por el modelo tenían muchas calles inexistentes que se curvaban entre la cuadrícula y conectaban intersecciones lejanas.

Esto podría tener serias implicaciones para los modelos de IA generativa implementados en el mundo real, ya que un modelo que parece funcionar bien en un contexto podría dejar de funcionar si la tarea o el entorno cambian levemente.

Foto de Melih Can

“Esperamos que, debido a que los LLM pueden lograr todas estas cosas asombrosas en el lenguaje, tal vez podamos usar estas mismas herramientas en otras partes de la ciencia. Pero la cuestión de si los LLM están aprendiendo modelos coherentes del mundo es muy importante si queremos usar estas técnicas para hacer nuevos descubrimientos”, advirtió el autor principal del estudio, Ashesh Rambachan, profesor adjunto de Economía e investigador principal del Laboratorio de Sistemas de Información y Decisión (LIDS, por Laboratory for Information and Decision Systems) del MIT.

Rambachan contó con la colaboración de Keyon Vafa, autor principal del trabajo y posdoctorado en la Universidad de Harvard; Justin Y. Chen, estudiante de posgrado en Ingeniería Eléctrica y Ciencias de la Computación (EECS) en el MIT; Jon Kleinberg, profesor de Informática y Ciencias de la Información de la Universidad Tisch en la Universidad de Cornell; y Sendhil Mullainathan, profesor del MIT en los departamentos de EECS y de Economía, e integrante de LIDS. La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal (Conference on Neural Information Processing Systems).

Nuevas métricas
#

Los investigadores se centraron en un tipo de modelo de IA generativa conocido como transformador, que constituye la columna vertebral de los modelos de lenguaje como GPT-4. Los transformadores se entrenan con una enorme cantidad de datos basados en el lenguaje para predecir el siguiente token en una secuencia, como la siguiente palabra en una oración.

Pero si los científicos querían determinar si un LLM ha formado un modelo preciso del mundo, medir la precisión de sus predicciones no es suficiente, según los investigadores.

Por ejemplo, descubrieron que un transformador puede predecir movimientos válidos en un juego de Connect 4 casi siempre sin entender ninguna de las reglas.

Así que el equipo desarrolló dos nuevas métricas que pueden poner a prueba el modelo del mundo de un transformador. Los investigadores centraron sus evaluaciones en una clase de problemas denominados automatizaciones finitas deterministas, AFD o DFA por deterministic finite automations.

Una AFD es un problema con una secuencia de estados, como intersecciones que uno debe atravesar para llegar a un destino, y una forma concreta de describir las reglas que uno debe seguir a lo largo del camino.

Eligieron dos problemas para formularlos como AFD: navegar por las calles de la ciudad de Nueva York y jugar al juego de mesa Othello.

“Necesitábamos bancos de pruebas donde supiéramos cuál es el modelo del mundo. Ahora, podemos pensar con rigor en lo que significa recuperar ese modelo del mundo”, explicó Vafa.

La primera métrica que desarrollaron, llamada distinción de secuencias, dice que un LLM ha formado un modelo coherente del mundo si ve dos estados diferentes, como dos tableros Othello diferentes, y reconoce en qué se diferencian. Las secuencias, es decir, listas ordenadas de puntos de datos, son lo que utilizan los transformadores para generar resultados.

La segunda métrica, llamada secuencia de compresión, dice que un transformador con un modelo mundial coherente debería saber que dos estados idénticos, como dos tableros Othello idénticos, tienen la misma secuencia de posibles pasos a seguir.

Utilizaron estas métricas para probar dos clases comunes de transformadores, uno que se entrena con datos generados a partir de secuencias producidas aleatoriamente y el otro con datos generados mediante las siguientes estrategias.

Modelos mundiales incoherentes
#

Sorprendentemente, los investigadores descubrieron que los transformadores que tomaban decisiones al azar formaban modelos mundiales más precisos, tal vez porque vieron una variedad más amplia de posibles próximos pasos durante el entrenamiento.

“En Othello, si ves a dos computadoras jugando al azar en lugar de jugadores humanos, en teoría verías el conjunto completo de movimientos posibles, incluso malos movimientos que no harían los jugadores del torneo, explicó Vafa.

_Aún cuando los transformadores generaron direcciones precisas y movimientos válidos en Othello, en casi todos los casos, las dos métricas revelaron que solo uno generó un modelo mundial coherente para los movimientos de Othello, y ninguno tuvo un buen desempeño en la formación de modelos mundiales coherentes en el ejemplo de señalización.

Los investigadores demostraron las implicancias de esto añadiendo desvíos al mapa de la ciudad de Nueva York, lo que provocó que todos los modelos de navegación fallaran.

Vafa admitió que “me sorprendió lo rápido que se deterioraba el rendimiento en cuanto añadíamos un desvío. Si cerrábamos sólo el 1 por ciento de las calles posibles, la precisión se desplomaba inmediatamente de casi el 100 por ciento a sólo el 67 por ciento”, indicó.

Cuando recuperaron los mapas de la ciudad generados por los modelos, parecían una ciudad de Nueva York imaginaria con cientos de calles entrecruzadas superpuestas sobre la cuadrícula. Los mapas a menudo contenían pasos elevados aleatorios sobre otras calles o múltiples calles con orientaciones imposibles.

Estos resultados muestran que los transformadores pueden desempeñarse sorprendentemente bien en ciertas tareas sin comprender las reglas. Si los científicos quieren construir LLM que puedan capturar modelos precisos del mundo, necesitan adoptar un enfoque diferente, según la opinion de los investigadores.

“A menudo vemos que estos modelos hacen cosas impresionantes y pensamos que deben haber entendido algo sobre el mundo. Espero que podamos convencer a la gente de que es una pregunta sobre la que hay que pensar con mucho cuidado y que no tenemos que depender de nuestra propia intuición para responderla”, alertó Rambachan.

En el futuro, los investigadores proyectan abordar un conjunto más diverso de problemas, como aquellos en los que algunas reglas se conocen solo parcialmente. También quieren aplicar sus métricas de evaluación a problemas científicos del mundo real.

Espero ansioso estas respuestas.

Este trabajo está financiado, en parte, por la Harvard Data Science Initiative, a National Science Foundation Graduate Research Fellowship, una beca de Vannevar Bush Faculty, una subvención de Simons Collaboration y una subvención de la MacArthur Foundation.

El paper “Evaluating the World Model Implicit in a Generative Model”, fue publicado en arxiv. Sus autores son: Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan & Ashesh Rambachan.
El artículo Despite its impressive output, generative AI doesn’t have a coherent understanding of the world, con la firma de Adam Zewe, fue publicado en MIT News