Sólo para suscriptores
Algunos promocionan los modelos del mundo, también conocidos como simuladores del mundo, como la próxima gran novedad en IA.
World Labs del pionero de la IA, Fei-Fei Li, ha recaudado 230 millones de dólares para construir «grandes modelos del mundo» (o Worls Models), y DeepMind contrató a uno de los creadores del generador de vídeo de OpenAI, Sora, para trabajar en «simuladores del mundo».
Los modelos del mundo se inspiran en los modelos mentales del entorno que los humanos desarrollan de forma natural. Nuestros cerebros toman las representaciones abstractas de nuestros sentidos y las transforman en una comprensión más concreta del mundo que nos rodea, produciendo lo que llamamos «modelos» mucho antes de que la IA adoptara la frase. Las predicciones que hace nuestro cerebro basándose en estos modelos influyen en cómo percibimos el mundo.
Un documento de los investigadores de IA David Ha y Jürgen Schmidhuber ponen el ejemplo de un bateador de béisbol. Los bateadores tienen milisegundos para decidir cómo batear, menos que el tiempo que tardan las señales visuales en llegar al cerebro. La razón por la que son capaces de batear una bola rápida a 100 millas por hora es porque pueden predecir instintivamente hacia dónde irá la bola, dicen Ha y Schmidhuber.
«Para los jugadores profesionales, todo esto sucede de forma inconsciente», escribe el dúo de investigadores. “Sus músculos mueven el bate de forma refleja en el momento y lugar correctos, de acuerdo con las predicciones de sus modelos internos. Pueden actuar rápidamente según sus predicciones del futuro sin la necesidad de implementar conscientemente posibles escenarios futuros para formar un plan”.
Son estos aspectos de razonamiento subconsciente de los modelos del mundo los que algunos creen que son requisitos previos para la inteligencia a nivel humano.
Modelando el mundo
Si bien el concepto existe desde hace décadas, los modelos del mundo han ganado popularidad recientemente en parte debido a sus prometedoras aplicaciones en el campo del vídeo generativo.
La mayoría, si no todos, los videos generados por IA se desvían hacia el territorio del valle inquietante. Míralos el tiempo suficiente y algo extraño sucederá, como miembros retorciéndose y fusionándose entre sí.
Si bien un modelo generativo entrenado con años de video podría predecir con precisión que una pelota de baloncesto rebota, en realidad no tiene idea de por qué, al igual que los modelos de lenguaje no comprenden realmente los conceptos detrás de las palabras y frases. Pero un modelo del mundo que tenga incluso una comprensión básica de por qué la pelota de baloncesto rebota como lo hace será mejor para demostrar que hace eso.
Para permitir este tipo de conocimiento, los modelos del mundo se entrenan con una variedad de datos, incluidos fotografías, audio, videos y texto, con la intención de crear representaciones internas de cómo funciona el mundo y la capacidad de razonar sobre las consecuencias de las acciones.
«Un espectador espera que el mundo que está viendo se comporte de manera similar a su realidad», dijo Alex Mashrabov, ex jefe de IA de Snap y director ejecutivo de Higgsfield, que está construyendo modelos generativos para video. “Si una pluma cae con el peso de un yunque o una bola de bolos se dispara a cientos de metros en el aire, es impactante y saca al espectador del momento. Con un modelo del mundo sólido, en lugar de que un creador defina cómo se espera que se mueva cada objeto (lo cual es tedioso, engorroso y supone un mal uso del tiempo), el modelo entenderá esto”.
Pero una mejor generación de vídeo es sólo la punta del iceberg para los modelos del mundo. Los investigadores, incluido el científico jefe de IA de Meta, Yann LeCun, dicen que los modelos algún día podrían usarse para pronósticos y planificación sofisticados tanto en el ámbito digital como físico.
En una charla a principios de este año, LeCun describió cómo un modelo del mundo podría ayudar a lograr un objetivo deseado mediante el razonamiento. Un modelo con una representación básica de un “mundo” (por ejemplo, un vídeo de una habitación sucia), dado un objetivo (una habitación limpia), podría idear una secuencia de acciones para lograr ese objetivo (desplegar aspiradoras para barrer, limpiar el platos, vaciar la basura) no porque sea un patrón que haya observado sino porque sabe en un nivel más profundo cómo pasar de lo sucio a lo limpio.
“Necesitamos máquinas que comprendan el mundo, que puedan recordar cosas, que tengan intuición, que tengan sentido común, cosas que puedan razonar y planificar al mismo nivel que los humanos”, dijo LeCun. «A pesar de lo que hayas escuchado de algunas de las personas más entusiastas, los sistemas de inteligencia artificial actuales no son capaces de hacer nada de esto».
Si bien LeCun estima que estamos al menos a una década de los modelos del mundo que imagina, los modelos del mundo actuales se muestran prometedores como simuladores de física elemental.
OpenAI señala en un blog que Sora, al que considera un modelo del mundo, puede simular acciones como un pintor que deja pinceladas sobre un lienzo. Modelos como Sora (y el propio Sora) también pueden simular video juegos. Por ejemplo, Sora puede representar una interfaz de usuario y un mundo de juegos similares a Minecraft.
Los modelos del mundo futuros pueden generar mundos 3D bajo petición para juegos, fotografía virtual y más, dijo el cofundador de World Labs, Justin Johnson, en un episodio del podcast de a16z.
«Ya tenemos la capacidad de crear mundos virtuales e interactivos, pero cuesta cientos y cientos de millones de dólares y mucho tiempo de desarrollo», dijo Johnson. “Los modelos del mundo permitirá no sólo obtener una imagen o un clip, sino también un mundo 3D totalmente simulado, vibrante e interactivo”.
Grandes obstáculos
Si bien el concepto es atractivo, muchos desafíos técnicos se interponen en el camino.
Entrenar y ejecutar modelos del mundo requiere una enorme potencia informática, incluso en comparación con la cantidad que utilizan actualmente los modelos generativos. Si bien algunos de los últimos modelos de lenguaje pueden ejecutarse en un teléfono inteligente moderno, Sora (posiblemente uno de los primeros modelos del mundo) requeriría miles de GPU para entrenarse y ejecutarse, especialmente si su uso se vuelve común.
Los modelos del mundo, como todos los modelos de IA, también alucinan e internalizan sesgos en sus datos de entrenamiento. Un modelo del mundo formado en gran medida con vídeos del clima soleado en ciudades europeas podría tener dificultades para comprender o representar ciudades coreanas en condiciones de nieve, por ejemplo, o simplemente hacerlo incorrectamente.
La falta general de datos sobre formación amenaza con exacerbar estos problemas, afirma Mashrabov.
«Hemos visto modelos realmente limitados con generaciones de personas de cierto tipo o raza», dijo. «Los datos de entrenamiento para un modelo del mundo deben ser lo suficientemente amplios como para cubrir un conjunto diverso de escenarios, pero también muy específicos en cuanto a dónde la IA puede comprender profundamente los matices de esos escenarios».
En un correo reciente Cristóbal Valenzuela, director general de la startup de IA Runway, afirma que los problemas de datos e ingeniería impiden que los modelos actuales capturen con precisión el comportamiento de los habitantes de un mundo (por ejemplo, humanos y animales). «Los modelos necesitarán generar mapas consistentes del entorno», dijo, «y la capacidad de navegar e interactuar en esos entornos».
Sin embargo, si se superan todos los obstáculos importantes, Mashrabov cree que los modelos del mundo podrían unir “más sólidamente” la IA con el mundo real, lo que conduciría a avances no sólo en la generación de mundos virtuales sino también en la robótica y la toma de decisiones de la IA.
También podrían generar robots más capaces.
Los robots de hoy están limitados en lo que pueden hacer porque no tienen conciencia del mundo que los rodea (o de sus propios cuerpos). Los modelos del mundo podrían darles esa conciencia, dijo Mashrabov, al menos hasta cierto punto.
«Con un modelo del mundo avanzado, una IA podría desarrollar una comprensión personal de cualquier escenario en el que se encuentre», dijo, «y comenzar a razonar posibles soluciones».
[ad_1]
[ad_2]
Source link