Humanoid ha publicado KinetIQ Ascend, una extensión de su stack de IA para robots HMND 01 que usa aprendizaje por refuerzo sobre hardware real para mejorar tareas de manipulación industrial. El anuncio no va de un nuevo cuerpo robótico, sino de algo menos vistoso y más importante: cómo pasar de una conducta entrenada por teleoperación a una habilidad más rápida, más fiable y más cercana a producción.
La compañía lo presenta como una demostración de aprendizaje por refuerzo visual extremo a extremo sobre sistemas humanoides bimanuales en condiciones reales. Conviene leer esa afirmación con cautela, porque las métricas son internas y no una auditoría independiente. Aun así, los datos publicados son suficientemente concretos para entender hacia dónde se mueve la robótica con IA física.
Del dato humano al ajuste por prueba y error
En el deep dive técnico de KinetIQ Ascend, Humanoid parte de una idea bastante pragmática: la clonación de comportamiento sirve para enseñar una habilidad inicial, pero no siempre basta para alcanzar la fiabilidad que exige una estación industrial. Un robot que repite una tarea miles de veces al día no se gana el sitio por hacerla una vez en vídeo, sino por fallar muy poco y mantener cadencia.
KinetIQ Ascend añade a ese punto de partida una fase de aprendizaje por refuerzo. En vez de depender solo de demostraciones humanas, el robot ejecuta la tarea, mide éxito, duración, reintentos o intervención, y ajusta la política para reforzar lo que funciona. Humanoid lo describe como una “capability factory”: una cadena para convertir comportamientos que ya funcionan en demo en capacidades más pulidas para despliegue.
El detalle técnico relevante es que el entrenamiento se hace sobre robots reales, no solo en simulación. Eso reduce el hueco entre modelo y hardware, pero también encarece cada iteración: días de robot trabajando para mejorar una sola familia de tareas. Por eso la compañía insiste en entrenar solo la parte que limita el rendimiento cuando es posible. En una tarea de alimentación de máquina, por ejemplo, aplicó RL solo a la fase difícil de picking, dejando intacta la transferencia posterior.
Tres tareas y una mejora medible
Humanoid publica resultados sobre tres tareas de su cartera, todas con un sistema bimanual Alpha. En alimentación de máquina, el robot recoge anillos de rodamientos de una caja desordenada y los coloca en una mesa transportadora. La línea base, entrenada con teleoperación, alcanzaba unas 291 piezas por hora, una tasa de éxito de agarre de 0,60 y ciclos de 27,2 segundos. Tras unos cinco días de operación continua y una subida gradual de frecuencia de ejecución de 60 a 90 FPS, la política con RL llegó a 412 piezas por hora, un 42% más, con ciclos de 19,5 segundos y mejor tasa de agarre.
La segunda prueba es más propia de servicio: coger un objeto de un contenedor desordenado y entregarlo a una persona. En botellas de agua, el objeto usado durante el entrenamiento, Humanoid afirma que el throughput subió 85%, la duración media cayó 35% y la tasa de éxito pasó de 80% a 98%. La cifra importante no es solo la mejora, sino el tipo de fallo que intenta reducir: tiempos agotados, falsos positivos o agarres que obligan a reintentar antes de entregar.
La compañía también probó generalización con objetos no vistos durante el RL. En latas cilíndricas de snack, el throughput mejoró 40%; en bolsas deformables, el aumento fue más modesto, 13%. Esa diferencia es útil porque evita una conclusión demasiado cómoda. El método parece transferir parte de la habilidad de picking, pero no convierte automáticamente cualquier objeto blando en un caso resuelto.
La tercera tarea es manejo bimanual de totes. El robot agarra una caja en orientación variable, la levanta con ambos brazos hasta el pecho y la deja lista para moverla. Con la misma receta de entrenamiento, Humanoid dice que el rendimiento pasó de 122 a 279 totes por hora, que la duración media bajó de 22,9 a 12,8 segundos y que la tasa de éxito subió de 77,6% a 98,9%. Es probablemente la prueba más interesante porque exige coordinación de dos brazos sobre un mismo objeto, no solo picking con una mano.
Lo que cambia y lo que falta
El valor editorial de KinetIQ Ascend no está en declarar resuelta la manipulación humanoide. Está en mostrar un camino operativo más claro para mejorar habilidades una vez que el robot ya sabe hacerlas de forma básica. Si el RL puede convertir teleoperación inicial en conductas más rápidas y robustas, cada despliegue podría dejar de ser solo una fuente de incidencias para convertirse también en fuente de entrenamiento.
Humanoid conecta esa idea con su stack más amplio, KinetIQ, y con robots HMND 01 orientados a producción, almacenes y servicios. La versión HMND 01 Alpha Wheeled usa una base móvil omnidireccional, brazos bimanuales, cámaras RGB, sensores de profundidad, sensores de fuerza/par y efectores finales modulares. Esa arquitectura explica por qué las pruebas se centran en cajas, totes, piezas y entrega de objetos: tareas con valor industrial razonable y suficiente repetición para que el aprendizaje compense.
Pero hay límites claros. Las cifras proceden de Humanoid, en tareas elegidas por Humanoid y sobre su propio hardware. No sabemos todavía cómo evolucionan esas políticas tras semanas de uso, cuánta intervención humana sigue siendo necesaria en una planta de cliente, qué ocurre con objetos más variables o cuánto cuesta dedicar días de robot a cada habilidad. Tampoco hay datos públicos de seguridad funcional, mantenimiento o coste por ciclo.
La señal, aun así, es relevante. La carrera humanoide no se resolverá solo fabricando cuerpos con más grados de libertad. También hará falta una disciplina de postentrenamiento físico: medir, corregir, aprender de fallos y repetir hasta que el robot sea útil de forma aburrida. KinetIQ Ascend apunta precisamente a esa fase menos espectacular, donde una demo empieza a convertirse en operación.