C8d1

oirobot /span>

Como vemos, se muestra a un humano interactuando con un Figure 01. El humano mantiene una conversación natural con el robot y le pide que primero identifique lo que está mirando. “Veo una manzana roja en un plato en el centro de la mesa, un tendedero con tazas y un plato, y a ti parado cerca con la mano sobre la mesa”, explica el robot en un tono humano.

Luego, el humano pide algo de comer y el humanoide procede a entregarle la manzana. Después, el humano introduce algo de basura y le pide al robot que le explique por qué hizo lo que hizo y que al mismo tiempo recoja la basura. El robot procesa las instrucciones y finalmente las ejecuta. “En ello. Te di la manzana porque es el único elemento comestible que podía darte de la mesa”, dice el robot, con un inquietante “uh” humano que interrumpe la mitad de la oración.

Por último, el humano le pregunta a Figure 01 qué debería pasar a continuación según la ubicación de los platos en la mesa. El robot dice que es probable que los platos vayan a continuación al escurreplatos. El humano valida verbalmente la suposición y le pide que haga precisamente eso, demostrando una destreza y precisión increíbles al levantar la taza primero y darle la vuelta antes de colocarla en su lugar. Luego se produce otra demostración de precisión cuando el robot coloca el plato en el lugar adecuado en la rejilla de secado.

¿Cómo llega a este nivel de “comprensión” el humanoide? Como ha explicado sobre la secuencia el nombre detrás de Figure, el empresario Brett Adcock, las cámaras integradas de Figure 01 envían datos a un gran modelo de lenguaje de visión entrenado por OpenAI, mientras que las propias redes neuronales del humanoide también “toman imágenes a 10 Hz a través de cámaras en el robot“.

Hay que entender que OpenAI también es responsable de la capacidad de comprender palabras habladas, y toda esta afluencia de información se traduce en “acciones robóticas diestras, rápidas y de bajo nivel” mediante la red neuronal de Figure, explica Adcock.

Por cierto, y en el caso de que a alguien le surja la duda después de que le viéramos “las costuras” a Optimus de Tesla, este Figure 01 que vemos moverse de forma suave y razonar como no habíamos visto a un robot de estas características, no tienen ningún tipo de teleoperación de por medio en la demo.

De hecho, la compañía ha remarcado que se trata de un vídeo filmado a velocidad real. “El video muestra redes neuronales de un extremo a otro. No hay teleoperación”, explicó Adcock. “Además, se filmó a una velocidad de 1,0x y de forma continua”.

La secuencia asombra, y no solo por lo que vemos, sino por lo que significa. Han pasado apenas dos semanas desde que ambas compañías anunciaran el acuerdo de colaboración, ¿de qué serán capaces a finales de este mismo año?

Un objetivo está claro: “queremos entrenar un modelo mundial para operar robots humanoides al nivel de mil millones de unidades“, ha zanjado Adcock.