Gemini Robotics: La Nueva Frontera de la Inteligencia Artificial y la Robótica

Gemini Robotics se perfila como un avance significativo en el ámbito de la inteligencia artificial al integrar el modelado de acción física con las capacidades de aprendizaje de máquina. Tras el lanzamiento de Cosmos por parte de NVIDIA, que buscaba llevar la IA al mundo tangible, Google ha entrado en la carrera con su propio modelo multimodal, Gemini 2.0, que ahora no solo maneja texto e imágenes, sino que también ejecuta acciones físicas.

La Innovación de Gemini

Gemini Robotics representa una verdadera revolución en la interrelación entre IA y robótica. Este sistema está diseñado para percibir su entorno mediante cámaras y sensores, procesando instrucciones en lenguaje natural para ejecutar comandos de control robótico. Este enfoque se ha denominado modelo “visión-lenguaje-acción” (VLA), que permite a estos robots mapear instrucciones complejas a acciones motoras precisas.

Según Google, este modelo es capaz de realizar tareas dinámicas utilizando una amplia base de datos, combinando información de distintos entornos con datos recopilados de sus plataformas robóticas internas, como el sistema ALOHA 2 de dos brazos. Esto le otorga una habilidad única para adaptarse a situaciones y objetos que no fueron específicamente enseñados durante su entrenamiento.

Gemini Robotics-ER: Avances en Comprensión Espacial

La compañía también ha presentado Gemini Robotics-ER, un modelo que mejora las capacidades espaciales de los robots. Este sistema actúa como un «cerebro» que se integra con controladores robóticos existentes y es capaz de interpretar datos de sensores 3D para mejorar la percepción y planificación en tiempo real. Esto significa que un fabricante de robots podría usar Gemini-ER para asesorar sobre las acciones de un robot con inteligencia espacial. En una demostración, por ejemplo, el sistema pudo planificar la forma de agarrar una taza evitando colisiones.

Capacidades Destacadas y Seguridad

Los robots equipados con Gemini Robotics son versátiles, aptos para llevar a cabo tareas que requieren una toma de decisiones similar a la humana y una destreza manual precisa. Desde plegar origami hasta empacar un bocadillo, estas máquinas sorprenden con su capacidad para realizar actividades complejas. El modelo sigue instrucciones en lenguaje cotidiano e interactúa fluidamente con los usuarios, lo que facilita su uso.

Con el aumento de la autonomía robótica, la seguridad se convierte en una prioridad. Google ha adoptado un enfoque integral, combinando salvaguardas físicas con razonamiento contextual. Esto incluye la capacidad del modelo para identificar instrucciones potencialmente peligrosas y sugerir alternativas más seguras. Asimismo, se presenta un conjunto de seguridad inspirado en las «Tres Leyes de Asimov», estableciendo un estándar para evaluar decisiones seguras en diversas situaciones.

Un Vista General del Ecosistema Robótico

No solo Google y NVIDIA están dando pasos en esta dirección; OpenAI colabora con startups de robots humanoides mientras que Microsoft explora la generación automática de código de control para drones mediante inteligencia artificial. Tesla también está desarrollando su robot Optimus, aprovechando su experiencia en conducción autónoma. Además, Boston Dynamics, célebre por sus robots hábiles, prueba capacidades de IA para incrementar la autonomía.

Google DeepMind, una pionera en aprendizaje por refuerzo, ha trabajado en diversos logros revolucionarios en este ámbito, desde la creación de modelos ganadores en juegos complejos hasta avances en la biología, como el galardonado AlphaFold.

Con Gemini Robotics, la automatización del futuro se presenta no solo como una posibilidad, sino como una realidad que transformará la forma en que interactuamos con las máquinas y el entorno.