Gemini Robotics : Le modèle IA qui révolutionne la robotique selon Google DeepMind

gemini robotics robot humanoide

Google DeepMind a présenté Gemini Robotics en mars 2025, un modèle d’intelligence artificielle construit sur la base de Gemini 2.0. Ce système permet aux robots de toutes formes et tailles de percevoir leur environnement, de raisonner sur des situations complexes et d’exécuter des actions précises. Contrairement aux approches traditionnelles, Gemini Robotics intègre vision, langage et action dans un seul cadre multimodal. Les robots pilotés par ce modèle réagissent aux instructions en langage naturel et s’adaptent à des tâches variées, comme manipuler des objets ou naviguer dans des espaces inconnus. Des mises à jour comme la version 1.5 et le partenariat avec Boston Dynamics renforcent son potentiel pour transformer l’industrie et le quotidien.

Robot humanoïde piloté par Gemini Robotics manipulant des objets dans une cuisine

Les origines de Gemini Robotics

Google DeepMind développe depuis longtemps des modèles multimodaux capables de traiter texte, images, audio et vidéo. Gemini Robotics étend ces avancées au monde physique en ajoutant les actions comme nouvelle modalité de sortie. Lancé officiellement le 12 mars 2025, le modèle repose sur une vaste quantité de données d’entraînement issues de simulations et de démonstrations réelles.

Une version on-device a suivi en juin 2025, optimisée pour fonctionner localement sur les robots sans dépendre du cloud. Puis, en septembre 2025, la version 1.5 a apporté des améliorations significatives en planification et en apprentissage multi-embodiments, permettant au modèle de transférer des compétences entre différents types de robots.

Les deux principaux modèles de la famille

La gamme Gemini Robotics se compose de deux variantes complémentaires qui fonctionnent souvent ensemble.

Modèle Type Capacités principales
Gemini Robotics 1.5 Vision-Language-Action (VLA) Transforme directement les entrées visuelles et textuelles en commandes motrices précises. Idéal pour le contrôle en temps réel de mouvements fluides.
Gemini Robotics-ER 1.5 Vision-Language Model (VLM) avec raisonnement incarné Planifie des séquences complexes, estime l’avancement des tâches et gère l’utilisation d’outils numériques ou physiques. Excelle dans la compréhension spatiale.

Ces modèles atteignent des performances de pointe sur des benchmarks de compréhension spatiale et de manipulation dextrée.

Fonctionnalités avancées de Gemini Robotics

Gemini Robotics traite plusieurs entrées simultanément : images, vidéos, audio et texte. Un robot reçoit une commande comme « range ces fruits dans le panier » et identifie les objets, planifie les gestes et exécute le mouvement sans programmation manuelle.

Raisonnement avant action

La version 1.5 affiche son processus de réflexion étape par étape, ce qui rend les décisions plus transparentes et corrigeables. Cette capacité réduit les erreurs dans des environnements imprévisibles.

Apprentissage multi-embodiments

Le modèle transfère des compétences apprises sur un bras robotique vers un humanoïde complet, accélérant le développement de nouvelles applications.

Interaction naturelle

Les robots comprennent le langage courant et répondent aux questions sur leur environnement, facilitant leur utilisation par des non-experts.

Partenariats stratégiques autour de Gemini Robotics

Google DeepMind collabore avec plusieurs leaders de la robotique. Apptronik a participé au développement initial, tandis qu’Agility Robotics, Agile Robots et Enchanted Tools font partie des testeurs privilégiés.

Le partenariat annoncé au CES 2026 avec Boston Dynamics marque un tournant majeur. L’intégration de Gemini Robotics dans les nouveaux robots Atlas vise à créer des humanoïdes capables de travailler dans des usines automobiles ou des entrepôts complexes. Cette alliance combine l’expertise matérielle de Boston Dynamics avec l’intelligence fondatrice de DeepMind.

Schéma du système agentique Gemini Robotics-ER 1.5

Applications concrètes et perspectives

Gemini Robotics ouvre des possibilités dans de nombreux domaines :

  • Industrie : assemblage précis et manipulation d’objets variés dans les chaînes de production.
  • Logistique : tri et déplacement autonome de colis dans les entrepôts.
  • Services domestiques : aide aux personnes âgées ou tâches ménagères complexes.
  • Recherche : accélération des expériences scientifiques nécessitant une manipulation fine.

Disponible via l’API Gemini pour certains développeurs, le modèle reste en phase de test pour la plupart des usages. Les progrès rapides suggèrent que des robots vraiment utiles pourraient apparaître dans les années à venir.

Avec ses capacités de perception, de planification et d’exécution, Gemini Robotics positionne Google DeepMind en leader de la robotique intelligente. Les démonstrations montrent déjà des robots pliant des origamis, préparant des salades ou jouant à des jeux de société, prouvant que l’IA commence à maîtriser le monde physique.

Demandez à votre IA si cet article est à jour :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *