Los modelos grandes de lenguaje (large language models, LLM) que subyacen a ChatGPT, Gemini, Copilot y otros han asombrado al mundo durante los últimos tres años, pero ya no tienen mucho margen de mejora. Su evolución ha consistido hasta ahora en tragar cada vez más texto escrito por humanos, y ya casi no queda. ChatGPT se ha tragado la web entera, incluida la historia de la literatura universal y todos los artículos científicos y humanísticos para los que exista una versión electrónica. Por esa vía no se puede avanzar mucho más.
La próxima revolución de la IA son los modelos del mundo (world models). En realidad, no son una idea nueva, sino muy anterior a los LLM, pero hemos estado todos tan deslumbrados por ChatGPT y similares que los ingenieros los habían dejado en hibernación. Es ahora, cuando los LLM empiezan a dar signos de saturación, que los gigantes de Silicon Valley están desempolvando la estrategia. El primero en presentarse al público es Project Genie, de Google, pero de momento solo lo puedes probar en Estados Unidos, y solo si tienes una suscripción Google AI Ultra. Un poco de paciencia. Conviene que nos vayamos familiarizando antes con las ideas.
El concepto de modelo del mundo no viene en realidad de la ingeniería computacional, sino de las ciencias cognitivas. Los humanos tenemos un modelo interior del mundo. Si estamos sentados en la salita, sabemos cómo se va desde ahí hasta la cocina, y qué hay que hacer para salir de casa e ir a comprar el pan o a coger el metro hasta el trabajo. ChatGPT ha leído todo lo que se ha escrito sobre las calles, pero no sabe cruzar una. Nosotros sí, y también sabemos que, si viene un autobús a toda velocidad, nos conviene esperar en la acera hasta que haya pasado, y qué tenemos que hacer si alguien grita “¡cuidado con esa maceta!”. Sabemos que hay un mundo ahí fuera, y tenemos una idea solvente de cómo es y de cómo cambia y de qué lugar ocupamos en él ahora mismo. Sabemos navegarlo.
La inteligencia artificial actual, basada en los LLM, no tiene ese modelo interior del mundo. Y seguramente lo necesita si quiere ir más allá de producir texto o imágenes y pasar a servir para la robótica, los coches autopilotados, la realidad aumentada y, desde luego, para avanzar hacia el santo grial de la IA, que es inteligencia general artificial (IGA, o AGI en sus siglas inglesas, el término todavía no está fijado). La AGI es difícil de definir formalmente, pero se puede describir vagamente como algo parecido a la inteligencia humana, o más parecido a ella que los sistemas actuales.
Un aspecto importante es lo que se conoce en el mundillo como modelos 4D, porque incluyen las tres dimensiones del espacio y una del tiempo (esto te puede sonar como el espaciotiempo de la física relativista, pero no te preocupes, que aquí las cosas son mucho más terrenales). Una pintura o una foto son planas (2D), aunque nuestro cerebro las interpreta automáticamente como escenas tridimensionales (3D) gracias sobre todo a los principios de la perspectiva cónica descubiertos por Filippo Brunelleschi en el Quattrocento. En el cine 3D, el efecto se acentúa presentando a cada ojo un punto de vista ligeramente desplazado, como de hecho perciben la realidad nuestros dos ojos en todo momento.
Pero si un personaje aparece de espaldas y quieres verle la cara, la imagen no cambia por más que le rodees, como ocurre en el mundo real. Para eso necesitas una representación 4D, que añada el tiempo –como el tiempo que usas para rodear al personaje— a las tres dimensiones del espacio. Algo de esto se puede ver con las gafas de videojuegos, o incluso con la técnica de las time slices (lonchas de tiempo) que se ha usado masivamente en los clips musicales desde hace décadas. Pero esos enfoques tienen mucho de artesanía. Con la IA actual se pueden generalizar y automatizar.
Una cosa más, y muy importante: los modelos del mundo 4D pueden aprender de la experiencia, cosa que queda fuera de las capacidades de ChatGPT. Algunos científicos de la computación creen que la AGI (inteligencia general artificial) no puede lograrse sin esa capacidad para actualizar permanentemente los datos con los que fue entrenada en primer lugar. Los LLM (como ChatGPT) no serán un fin en sí mismos, sino la interfaz para comunicar a los humanos con el modelo interior del mundo del robot. De todo esto oiremos hablar mucho durante 2026, al menos si Donald Trump nos lo permite.
Javier Sanpedro. El Pais Tendencias 4 febrero 2026

No hay comentarios:
Publicar un comentario