robotica.es robotica.es
IA en robótica

Flexion une razonamiento y control en un humanoide autónomo

Flexion presenta Reflect v1.0, una pila para humanoides que combina VLM, habilidades entrenadas con RL y control de cuerpo completo.

·
5 min de lectura
Flexion une razonamiento y control en un humanoide autónomo

Flexion Robotics ha presentado Reflect v1.0, una pila de autonomía para humanoides que intenta juntar en una sola misión capacidades que normalmente se enseñan por separado: razonar sobre una orden, caminar por un edificio, abrir puertas, usar ascensor, manipular una caja, recuperarse de errores y seguir trabajando sin teleoperación humana.

La novedad no está en que el robot cargue un paquete. Está en que Flexion intenta demostrar una arquitectura completa para trabajo de largo horizonte, con modelos de visión-lenguaje, habilidades entrenadas por aprendizaje por refuerzo y control de cuerpo completo funcionando como sistema.

Una misión larga en vez de una habilidad aislada

En la entrada técnica publicada por Flexion, la compañía describe una misión de oficina: el robot recibe una instrucción para recoger un paquete con snacks, usar escaleras y ascensor, desempaquetarlo y colocar el contenido en un cajón. A partir de ahí, según Flexion, la ejecución es autónoma: no hay operador humano guiando el cuerpo del robot paso a paso.

Ese matiz importa porque buena parte de los vídeos de humanoides siguen siendo demostraciones muy acotadas. Una cosa es entrenar una rutina para doblar ropa, colocar una pieza o caminar por un recorrido preparado; otra es componer varias acciones en un entorno con puertas, pasillos, plantas distintas, objetos que hay que agarrar y decisiones que pueden cambiar durante la tarea.

Reflect v1.0 divide el problema por capas. Arriba hay un controlador de misión basado en un VLM propio, que observa la cámara egocéntrica del robot, razona sobre el progreso y escoge acciones mediante herramientas estructuradas. Debajo, Flexion combina una capa de movimiento con un VLA entrenado con datos reales y habilidades entrenadas con aprendizaje por refuerzo. La tercera pieza es un controlador de cuerpo completo que mantiene equilibrio, límites de actuación y restricciones de seguridad mientras el robot camina, manipula o recupera postura.

La compañía también recalca que no se limita a encadenar clips. El sistema puede replantear acciones cuando algo falla, modificar la misión con nuevas instrucciones durante la ejecución y usar mapas semánticos para buscar lugares o planificar trayectorias con lenguaje natural. Es justo el tipo de infraestructura que separa una demo viral de una plataforma que podría repetirse en más tareas.

La cifra útil: 90% en una evaluación de 16 pasos

Flexion aporta un dato interesante para no dejar la pieza solo en vídeo. En una evaluación interna de misión de 16 pasos, la compañía afirma que el ajuste supervisado del VLM alcanza un 38% de finalización extremo a extremo, mientras que la combinación de ajuste supervisado y aprendizaje por refuerzo llega al 90%. No es una métrica independiente ni suficiente para validar despliegue comercial, pero sí apunta a una lección técnica clara: en tareas largas, generar instrucciones plausibles no basta; el sistema tiene que aprender cuándo comprobar, cuándo esperar y cuándo corregir.

La propia Flexion dice que los VLM disponibles no son fiables para conducir misiones completas “out of the box”. Pueden identificar objetos y producir pasos razonables, pero tienden a avanzar demasiado pronto sin verificar visualmente que la acción anterior ha terminado. En robótica física, ese pequeño exceso de confianza se convierte en fallos muy concretos: coger antes de estar bien colocado, llamar al ascensor equivocado, abrir una puerta desde mala postura o seguir una ruta que ya no sirve.

El enfoque de Flexion intenta atacar ese problema con una mezcla de razonamiento y habilidades motoras entrenadas en simulación. Las políticas de movimiento aprenden con codificadores visuales y aleatorización de dominio para soportar variaciones en objetos, poses y geometría. La empresa cita ejemplos como recoger cajas, presionar botones de ascensor, usar herramientas y adaptarse a obstáculos mientras transporta objetos.

En control de cuerpo completo, Reflect v1.0 se apoya en Reflex, el módulo de bajo nivel de Flexion. La compañía sostiene que el robot puede realizar más de 100 travesías de escaleras consecutivas y manipular objetos bajo perturbaciones significativas. Ese tipo de robustez es menos vistoso que una nueva mano robótica, pero mucho más relevante si se quiere que un humanoide haga trabajo útil durante minutos y no solo durante una toma perfecta.

Lo que todavía no demuestra

El propio anuncio incluye una cautela que conviene mantener. Flexion reconoce que Reflect v1.0 no resuelve la autonomía humanoide general. El sistema sigue operando dentro de una distribución de tareas acotada, algunas piezas siguen siendo difíciles de agarrar, el controlador de misión puede hacer supuestos incorrectos a partir de la cámara y las conductas de recuperación no cubren todos los fallos.

Esa honestidad es importante. El sector está lleno de humanoides capaces de producir una escena convincente, pero mucho menos lleno de datos sobre tasa de intervención, duración real de misión, coste de despliegue, transferencia entre robots y mantenimiento. WIRED añade contexto útil: Flexion es una startup suiza fundada por antiguos investigadores de robótica de NVIDIA, trabaja con un humanoide Unitree modificado y sostiene que su software puede aplicarse a distintas morfologías.

Si esa portabilidad se confirma, Reflect podría tener más valor que un robot concreto. El mercado de humanoides se está fragmentando entre muchos cuerpos distintos, desde bípedos industriales hasta plataformas con ruedas o manipuladores móviles. Una capa de autonomía que convierta instrucciones largas en ejecución física fiable tendría sentido para fabricantes que no quieren construir toda la inteligencia desde cero.

La prueba pendiente será salir de la oficina de demostración. Reflect v1.0 ya muestra una dirección técnica razonable: misión, percepción, control y recuperación integrados. El siguiente paso no debería medirse por otro vídeo más largo, sino por robots trabajando con clientes, tareas menos preparadas, métricas comparables y fallos documentados.

Fuentes

Más artículos