Positronic Robotics ha lanzado PhAIL, un benchmark que intenta medir la IA física con métricas de operación real en vez de con demos bonitas. La idea tiene bastante sentido: si una empresa quiere automatizar picking en un almacén, no le basta con ver que un modelo mueve un objeto una vez. Necesita saber cuántas unidades por hora saca, cuánto tarda en fallar y cuánta supervisión humana sigue haciendo falta.
Ese es justamente el ángulo interesante del anuncio. PhAIL prueba cuatro modelos VLA sobre una tarea de bin-to-bin picking con el mismo hardware, un brazo Franka FR3 con una pinza Robotiq 2F-85, y mide rendimiento sobre cientos de ejecuciones. Los resultados son bastante menos épicos que el discurso habitual del sector. El mejor modelo se queda en 64 unidades por hora, con una tasa de finalización del 48,5 %, frente a 1.331 unidades por hora de un humano trabajando con las manos y 330 cuando el humano teleopera el robot.
La foto que deja el benchmark es incómoda para el relato dominante de la IA física. OpenPI, GR00T N1.6, ACT y SmolVLA muestran progreso real, sí, pero no están cerca de una operación industrial robusta en esta tarea concreta. Positronic resume el hueco con una cifra bastante brutal: el mejor modelo corre al 5 % del throughput humano y necesita intervención aproximadamente cada cuatro minutos.
También hay otra lectura útil. PhAIL no intenta demostrar que estos modelos sean malos, sino que el sector llevaba demasiado tiempo usando métricas poco conectadas con el despliegue comercial. En casa, doblar un paño o mover fruta sirve para investigar. En un almacén o una línea de fulfilment, lo que manda es la consistencia repetida cientos de veces al día. Ahí la vara es distinta, y bastante más cruel.
El benchmark además deja pistas sobre dónde se rompe hoy la promesa de la robótica con modelos fundacionales. Más datos ayudan, pero no arreglan todo. Cambios menores en la colocación de una cámara o de una caja provocan caídas grandes de rendimiento. Dicho de otra forma, seguimos viendo sistemas que impresionan en configuraciones afinadas, pero que aún sufren demasiado cuando el entorno cambia un poco.
Para robotica.es, esta noticia importa porque baja el volumen del marketing y sube el de la ingeniería. Si la IA física quiere pasar de laboratorios y vídeos virales a contratos serios, va a necesitar justo este tipo de benchmark: repetible, sobre hardware real y con métricas que entienden operaciones, no solo investigación.
En resumen, PhAIL no presenta un robot nuevo, pero sí algo casi igual de valioso para el sector: una forma más honesta de medir cuánto falta para que la IA física funcione de verdad en producción.