Alors que les robots sont de plus en plus omniprésents dans notre vie contemporaine, la capacité à planifier et à exécuter des tâches complexes reste essentielle. Un nouveau système multimodal, développé par le laboratoire d’IA improbable du MIT, pourrait être la clé pour aider les robots à accomplir des tâches ménagères, de construction et de fabrication.
Le système, appelé Compositional Foundation Models for Hierarchical Planning (HiP) (pour : Modèles de base compositionnels pour la planification hiérarchique), utilise trois modèles de base différents, chacun formé sur différentes modalités de données. Chaque modèle de base capture une partie différente du processus de prise de décision et travaille ensuite ensemble lorsqu’il est temps de prendre des décisions.
Contrairement à d’autres modèles multimodaux qui nécessitent l’accès à des données appariées de vision, de langage et d’action, HiP utilise trois modèles de base différents formés sur différentes modalités de données. Cela élimine le besoin d’accéder à des données appariées de vision, de langage et d’action, qui sont difficiles à obtenir.
Les avantages de HiP
HiP rend le processus de raisonnement plus transparent et peut aider les machines à accomplir des tâches ménagères, comme ranger un livre ou placer un bol dans le lave-vaisselle. Par ailleurs, HiP pourrait aider à réaliser des tâches de construction et de fabrication en plusieurs étapes, comme empiler et placer différents matériaux dans des séquences spécifiques.
L’équipe du CSAIL a testé l’acuité de HiP sur trois tâches de manipulation, surpassant les cadres comparables. Le système a développé des plans intelligents qui s’adaptent à de nouvelles informations.
« Tout ce que nous voulons faire, c’est prendre des modèles pré-entraînés existants et les interfacer avec succès les uns avec les autres« , explique Anurag Ajay, doctorant au département de génie électrique et d’informatique (EECS) du MIT et affilié au CSAIL. « Au lieu de chercher à ce qu’un seul modèle fasse tout, nous en combinons plusieurs qui exploitent différentes modalités de données Internet. Utilisés en tandem, ils facilitent la prise de décision des robots et peuvent potentiellement faciliter les tâches dans les maisons, les usines et les chantiers de construction.«
En synthèse
HiP représente une avancée significative dans le domaine de la robotique. En utilisant trois modèles de base différents formés sur différentes modalités de données, HiP est capable de planifier et d’exécuter des tâches complexes. Bien que le travail soit encore limité par le manque de modèles de base vidéo de haute qualité, l’équipe du CSAIL est optimiste quant à l’avenir de HiP.
Pour une meilleure compréhension
Qu’est-ce que le système HiP ?
HiP, ou Compositional Foundation Models for Hierarchical Planning, est un système multimodal qui utilise trois modèles de base différents pour aider les robots à planifier et à exécuter des tâches.
Comment fonctionne HiP ?
Chaque modèle de base de HiP est formé sur différentes modalités de données et capture une partie différente du processus de prise de décision. Les modèles travaillent ensuite ensemble lorsqu’il est temps de prendre des décisions.
Quels sont les avantages de HiP ?
HiP rend le processus de raisonnement plus transparent et peut aider les machines à accomplir des tâches ménagères et de construction en plusieurs étapes.
Quelles sont les limites de HiP ?
Le travail est actuellement limité par le manque de modèles de base vidéo de haute qualité. Cependant, l’équipe du CSAIL est optimiste quant à l’avenir de HiP.
Quel est l’avenir de HiP ?
L’équipe du CSAIL envisage d’appliquer HiP à la résolution de tâches à long terme dans le monde réel en robotique.
Références
Légende illustration principale : Le cadre HiP développé au CSAIL du MIT élabore des plans détaillés pour les robots en utilisant l’expertise de trois modèles de fondation différents, ce qui les aide à exécuter des tâches dans les ménages, les usines et la construction qui nécessitent de multiples étapes. Image : Alex Shipps/MIT CSAIL
Article : « Compositional Foundation Models for Hierarchical Planning » – DOI: 10.48550/arXiv.2309.08587