Google acaba de lanzar Gemini Robotics 1.5, un nuevo modelo de IA enfocado a los robots humanoides que integra el razonamiento en su IA generativa. Esto es muy importante para que los robots puedan llevar a cabo tareas por su cuenta, sin necesidad de ser entrenados.
En realidad, lo que Google Deepmind ha hecho es crear dos modelos de lenguaje complementarios. Gemini Robotics-ER 1.5 ve el entorno, analiza y decide lo que hacer, y Gemini Robotics 1.5 lo lleva a cabo: “Ahora los robots piensan antes de actuar”, dice la nota de prensa.
Los robots humanoides usan IA generativa convencional y eso es una gran limitación, porque deben ser entrenados antes para realizar una única tarea, por pequeña que sea. Un proceso caro y lento, que retrasa su evolución.
El razonamiento llega a los robots
Gemini Robotics emplea dos IA para avanzar en el desarrollo de los robots. Una piensa, y la otra actúa. Básicamente, lo que hace un ser humano en condiciones normales. También los hay que actúan antes de pensar…
Gemini Robotics-ER 1.5 es lo que técnicamente se llama un modelo de visión-lenguaje (VLM) que toma entradas visuales y de texto para generar los pasos necesarios para completar una tarea compleja. Las siglas ER significan Razonamiento Incorporado.
Gemini Robotics 1.5 un modelo de visión-lenguaje-acción (VLA): utiliza datos visuales y de texto para generar acciones robóticas.
Cuando el robot se enfrenta a una tarea desconocida para la que no ha sido entrenado, por ejemplo, separar la ropa de la colada por colores, Gemini Robotics-ER 1.5 entra en acción visualiza el entorno,. Identifica la ropa y la tarea, y busca información adicional en su base de datos, o en Internet, para saber lo que tiene que hacer.
A continuación, y esta es la parte importante de todo el proceso, “piensa” la tarea, es decir, crea una lista de pasos para completarla. Cosas como “coge la ropa de más arriba, examina el color, y si tiene tal color ponla en este montón, y si tiene este otro, en el otro”.
Esta información se la envía a Gemini Robotics 1.5, que convierte esta lista de tareas en órdenes directas al robot para que mueva el brazo hacia la ropa, abra la mano para coger la que está más arriba, etc.
Esto es algo revolucionario en un robot porque, cuando esta tecnología de Google funcione al 100%, no necesitará ser entrenado durante días o semanas para completar una nueva tarea. Simplemente le dices lo que tiene que hacer, y el robot humanoide buscará cómo hacerlo.
No es algo nuevo, pero si es la primera vez que se usan los modelos de razonamiento más avanzados, aplicados específicamente a las tareas robóticas. Un paso más hacia los robots que piensan por su cuenta. Un paso más hacia la AGI.
Conoce cómo trabajamos en ComputerHoy.
Etiquetas: Inteligencia artificial, Industria, robótica, robot





