robotica.es robotica.es
IA en robótica

X Square abre WALL-WM: robots que aprenden por eventos

X Square Robot publica WALL-WM, un modelo de mundo que organiza vídeo, lenguaje y acción alrededor de eventos físicos ejecutables.

·
5 min de lectura
X Square abre WALL-WM: robots que aprenden por eventos

X Square Robot ha publicado WALL-WM, un modelo de mundo para IA física que intenta corregir una limitación habitual en los sistemas visión-lenguaje-acción: tratar el comportamiento robótico como una sucesión de trozos temporales fijos, aunque la tarea real avance por cambios físicos discretos.

La diferencia no es menor. En una mesa de manipulación, acercarse a una pieza, tocarla, agarrarla, levantarla y depositarla no tienen por qué durar lo mismo ni aportar la misma información. WALL-WM propone que el entrenamiento y la inferencia se organicen alrededor de esos eventos ejecutables, no alrededor de ventanas de vídeo cortadas por reloj.

Del clip fijo al evento físico

La compañía presentó WALL-WM el 29 de mayo de 2026 como un World Action Model abierto para robótica generalista. Su tesis central es que los modelos de mundo para robots deberían aprender de “eventos semánticos accionables”: segmentos coherentes como alcanzar, agarrar, levantar, mover o colocar un objeto. Cada evento se puede describir con lenguaje, observar en vídeo y asociar a una trayectoria de acción.

Ese enfoque contrasta con buena parte de los VLA actuales, que predicen bloques de acción de longitud fija condicionados por la observación y la instrucción. Es una solución cómoda para entrenar por lotes y desplegar en control, pero también introduce ruido: un bloque puede partir una acción por la mitad o mezclar varias acciones distintas bajo un mismo objetivo.

WALL-WM usa captions de eventos emparejados con vídeo y acción, y entrena un denoiser vídeo-acción en intervalos alineados con esos cambios físicos. El objetivo es que el modelo aprenda no solo qué imagen debería venir después, sino qué comportamiento ejecutable cambia el estado del mundo.

Una arquitectura que conserva vídeo y añade acción

En lo técnico, X Square describe WALL-WM como una arquitectura de vídeo-acción alineada con un prior visual ya aprendido. La torre de vídeo hereda capacidades de una familia de modelos texto-a-vídeo Wan, mientras que una rama de acción tipo DiT se acopla capa a capa para producir dinámica ejecutable sin destruir el prior visual-semántico.

El modelo también introduce componentes para percepción multivista. Añade atención entre vistas, identificadores de cámara mediante Camera RoPE y máscaras geométricas que fuerzan a reconstruir regiones ocultas a partir de otras cámaras. Es una forma de recordar que un robot no mira el mundo como una cámara de cine: trabaja con cámaras calibradas, o mal calibradas, desde ángulos parciales y con oclusiones constantes.

La parte más interesante para despliegue está en sus dos modos de inferencia. En Event Mode, un VLM, un humano o un agente propone el siguiente evento y WALL-WM ejecuta un segmento de duración variable antes de observar de nuevo el estado. En Unified Mode, mantiene la inferencia clásica de chunks fijos, pero condicionada por razonamiento estructurado por eventos. La primera vía apunta a planificación más natural; la segunda, a compatibilidad con control robótico convencional.

Datos, escala y la letra pequeña

La canalización de datos combina vídeo de internet, vídeo egocéntrico humano, grabaciones sin robot estilo UMI, teleoperación heterogénea, datasets robóticos abiertos, datos propios de vídeo-acción y trayectorias de recuperación. Ese último punto importa: los robots reales no solo ejecutan trayectorias limpias, también fallan, corrigen, reintentan un agarre y se recuperan de estados raros.

X Square afirma que el conjunto se anota en varias escalas, desde tarea y subtarea hasta acción y segmento. También usa clustering de visión-lenguaje y clustering de acción para equilibrar escenas, comportamientos y estructuras de tarea, evitando que el entrenamiento quede dominado por las categorías más frecuentes o fáciles.

En resultados, la compañía sostiene que WALL-WM mejora métricas ligadas a calidad de movimiento, consistencia semántica y plausibilidad física frente a modelos de vídeo como Wan2.1 y Wan2.2, y que obtiene resultados competitivos en conciencia 3D en CO3Dv2 frente a baselines como DINOv2, V-JEPA, CogVideoX, Aether, Open-Sora2.0 y WAN2.1-14B. Son cifras que habrá que leer con cautela hasta que otros grupos reproduzcan el sistema, pero el criterio de evaluación sí va en una dirección útil: no basta con generar un vídeo bonito si la trayectoria no se puede ejecutar.

El matiz clave es que la apertura todavía parece parcial. El repositorio Wall-X ya reúne infraestructura de preparación de datos, configuración, entrenamiento, inferencia y evaluación para la familia WALL, pero en el propio README la entrada de WALL-WM aparece con “code coming soon”. Por tanto, la noticia relevante no es que cualquier laboratorio pueda replicarlo hoy de extremo a extremo, sino que X Square está empujando una receta abierta para entrenar modelos de mundo más cercanos a la dinámica de tareas reales.

Por qué importa ahora

La pieza publicada ayer sobre Wall-OSS-0.5 se centraba en un VLA abierto con comportamiento zero-shot medible en robots reales. WALL-WM mira a otra capa del problema: cómo representar el futuro físico de una tarea antes y durante la acción. Si Wall-OSS intenta responder “qué acción ejecuto ahora”, WALL-WM pregunta “qué evento físico estoy intentando provocar y cuánto dura”.

Ese cambio puede ser importante para hogares, fábricas y almacenes, donde las tareas no se dividen naturalmente en horizontes idénticos. Abrir una puerta, enderezar una prenda o colocar una pieza flexible no son secuencias limpias de pasos uniformes. Si los modelos de mundo empiezan a razonar por eventos, la robótica puede ganar una unidad intermedia más útil entre la instrucción humana y el control de bajo nivel.

No conviene exagerarlo. WALL-WM sigue siendo una publicación técnica de una empresa, no una prueba de despliegue masivo. Pero señala bien una tensión de la IA física en 2026: los robots necesitan modelos que no solo vean el mundo, sino que entiendan cuándo algo relevante ha cambiado en él.

Fuentes

Más artículos