robotica.es robotica.es
IA en robótica

X Square abre Wall-OSS-0.5 para probar VLA en robots reales

X Square Robot publica Wall-OSS-0.5, un modelo VLA de 4B que promete comportamiento zero-shot medible en robots físicos.

·
5 min de lectura
X Square abre Wall-OSS-0.5 para probar VLA en robots reales

X Square Robot ha publicado Wall-OSS-0.5, un modelo visión-lenguaje-acción abierto que intenta mover el debate de los VLA desde el entrenamiento como punto de partida hasta algo más comprobable: qué puede hacer un checkpoint preentrenado cuando se conecta a robots físicos.

Un VLA abierto con comportamiento medible

La promesa central de Wall-OSS-0.5 no es simplemente que haya pesos disponibles en Hugging Face o código en GitHub. Lo relevante es que X Square lo presenta como un modelo capaz de producir comportamiento robótico directamente observable antes de un ajuste fino específico para cada tarea. En una categoría donde muchas publicaciones terminan midiendo el modelo después de adaptarlo a un robot, esa distinción importa.

Según la nota de lanzamiento, Wall-OSS-0.5 es un modelo de 4.000 millones de parámetros construido sobre un backbone VLM de 3.000 millones al que se añaden componentes específicos para generar acciones. La compañía dice haberlo preentrenado con más de 20 embodiments robóticos y más de un millón de trayectorias por época, además de un corpus multimodal amplio para preservar comprensión visual y lingüística.

El test más llamativo es una suite zero-shot de 17 tareas en robots reales, con manipulación de objetos rígidos, deformables, tareas de largo horizonte y casos de comprensión semántica. X Square afirma que el checkpoint preentrenado alcanzó progreso alto en varias tareas: Block Sorting llega a 100, Fruit Sorting a 96, Ring Stacking a 86 y Rope Tightening, una tarea deformable no vista, a 82. Son cifras de la propia compañía, pero al menos desplazan la discusión hacia tareas físicas concretas y no solo hacia benchmarks de simulación o vídeos cuidadosamente seleccionados.

La receta: acción dentro del backbone

El punto técnico de Wall-OSS-0.5 está en lo que X Square llama gradient-bridged co-training. En lugar de tratar la política de acción como una cabeza final que se entrena encima de un modelo visual-lingüístico ya aprendido, el sistema introduce supervisión de acciones en el proceso de representación. La idea es que el backbone no solo describa escenas, sino que aprenda una noción más útil de qué significa actuar sobre ellas.

Para ello combina tres objetivos: predicción discreta de acciones, predicción multimodal y flow matching para producir acciones continuas ejecutables. La compañía también presenta un tokenizador de acciones RVQ alineado con visión, pensado para que los tokens discretos de acción conserven relación semántica con lo que el robot ve. En paralelo, el flow matching se supervisa en el espacio de acción recuperado, no solo como predicción de un campo de velocidad.

La documentación pública en Hugging Face resume el resultado con cautela razonable: zero-shot no significa resolver la manipulación general, sino lograr rendimiento no trivial en una suite controlada. Después de ajuste fino, Wall-OSS-0.5 declara 60,5% de progreso medio en 15 tareas reales, con una ventaja de 17,5 puntos frente a pi0.5. En la nota de prensa, X Square también destaca que el rendimiento sube al aumentar los pasos de preentrenamiento entre 50.000 y 400.000, tanto en tareas vistas como no vistas.

Por qué importa para la robótica abierta

La robótica abierta está entrando en una fase distinta a la de los repositorios sueltos y los modelos que solo funcionan en una demo. Hugging Face, LeRobot, NVIDIA, Ai2 y ahora X Square están empujando hacia una infraestructura más reproducible: pesos, formatos de datos, scripts de inferencia, recetas de entrenamiento y ejemplos que permitan a otros laboratorios repetir parte del experimento.

Wall-OSS-0.5 encaja en esa tendencia porque no se limita a publicar un paper. El repositorio Wall-X incluye tuberías para preparar datos en formato LeRobot, configurar entrenamiento, ejecutar inferencia y evaluar políticas en robots reales o simulados. A la vez, conviene leer la letra pequeña: el propio README todavía marca algunos desarrollos de mayo como “code coming soon”, así que la apertura completa habrá que juzgarla por lo que la comunidad pueda descargar, ejecutar y reproducir durante las próximas semanas.

También hay una cuestión de escala. X Square habla de más de 20 cuerpos robóticos en el preentrenamiento, pero un modelo que funciona en una mesa de laboratorio no se convierte automáticamente en una política robusta para fábricas, hogares o almacenes. La manipulación real está llena de variaciones pequeñas que rompen sistemas aparentemente sólidos: reflejos, objetos blandos, tolerancias mecánicas, agarres fallidos, cámaras mal calibradas y cambios de iluminación.

Aun así, el movimiento es relevante. Si los VLA abiertos empiezan a demostrar capacidades ejecutables antes del ajuste fino, el coste de probar nuevas tareas puede bajar de forma material. La pregunta ya no será solo quién tiene el mejor robot, sino quién tiene el mejor punto de partida para que muchos robots aprendan con menos datos propios.

Fuentes

Más artículos