Ambuj Tewari, University of Michigan
Des systèmes d’intelligence artificielle de pointe tels que ChatGPT d’OpenAI, Gemini de Google et Claude d’Anthropic ont captivé l’imagination du public en produisant des textes fluides dans plusieurs langues en réponse à des demandes d’utilisateurs. Ces entreprises ont également fait les gros titres avec les sommes énormes qu’elles ont investies pour construire des modèles toujours plus puissants.
Une start-up chinoise spécialisée dans l’IA, DeepSeek, a bousculé les idées reçues sur les sommes nécessaires pour mettre au point les IA les plus récentes et les plus performantes. Ce faisant, elle a jeté le doute sur les milliards de dollars investis par les grands acteurs de l’IA.
J’étudie l’apprentissage automatique. Les débuts fracassants de DeepSeek ne sont pas le fruit d’une percée technologique stupéfiante, mais d’une pratique ancestrale : la recherche d’efficacité. Dans un domaine qui consomme de vastes ressources informatiques, cela s’est avéré important.
Où se situent les coûts
Le développement de systèmes d’IA aussi puissants commence par la construction d’un grand modèle linguistique. Un grand modèle linguistique prédit le mot suivant en fonction des mots précédents. Par exemple, si le début d’une phrase est « La théorie de la relativité a été découverte par Albert », un grand modèle de langage peut prédire que le mot suivant est « Einstein ». Les grands modèles de langage sont entraînés à devenir performants pour de telles prédictions dans le cadre d’un processus appelé pré-entraînement.
La préformation nécessite beaucoup de données et de puissance de calcul. Les entreprises collectent des données en parcourant le web et en scannant des livres. L’informatique est généralement alimentée par des unités de traitement graphique (GPU). Pourquoi les graphiques ? Il s’avère que les graphiques informatiques et les réseaux neuronaux artificiels qui sous-tendent les grands modèles linguistiques reposent sur le même domaine des mathématiques, l’algèbre linéaire. Les grands modèles de langage stockent en interne des centaines de milliards de nombres appelés paramètres ou poids. Ce sont ces poids qui sont modifiés lors du préapprentissage.
Le pré-entraînement n’est toutefois pas suffisant pour obtenir un produit de consommation tel que ChatGPT. Un grand modèle linguistique pré-entraîné n’est généralement pas en mesure de suivre les instructions humaines. Il peut également ne pas être aligné sur les préférences humaines. Par exemple, il pourrait produire un langage préjudiciable ou abusif, deux types de langage présents dans les textes sur le web.
Le modèle pré-entraîné passe donc généralement par des étapes supplémentaires de formation. L’une de ces étapes est l’ajustement des instructions, qui consiste à montrer au modèle des exemples d’instructions humaines et les réponses attendues. Après la mise au point des instructions, vient une étape appelée apprentissage par renforcement à partir du retour d’information humain. Au cours de cette étape, on montre aux annotateurs humains plusieurs réponses du modèle de langage étendu à la même invite. Les annotateurs sont alors invités à indiquer la réponse qu’ils préfèrent.
Il est facile de voir comment les coûts s’additionnent lors de la construction d’un modèle d’IA : recrutement de talents en IA de haute qualité, construction d’un centre de données avec des milliers de GPU, collecte de données pour le pré-entraînement, et exécution du pré-entraînement sur les GPU. En outre, la collecte de données et le calcul aux stades du réglage des instructions et de l’apprentissage par renforcement à partir du retour d’information humain entraînent des coûts.
Tout compris, les coûts de construction d’un modèle d’IA de pointe peuvent s’élever jusqu’à 100 millions de dollars américains. La formation des GPU représente une part importante du coût total.
Les dépenses ne s’arrêtent pas lorsque le modèle est prêt. Lorsque le modèle est déployé et qu’il répond aux invites de l’utilisateur, il utilise davantage de calculs, connus sous le nom de temps de test ou de temps d’inférence. Le calcul du temps de test nécessite également des GPU. En décembre 2024, OpenAI a annoncé un nouveau phénomène observé avec son dernier modèle o1 : à mesure que le calcul du temps de test augmentait, le modèle s’améliorait dans les tâches de raisonnement logique telles que les olympiades de mathématiques et les problèmes de codage compétitifs.
Réduire la consommation de ressources
Il semblait donc que la voie à suivre pour construire les meilleurs modèles d’IA au monde consistait à investir dans davantage de calculs, tant pour l’apprentissage que pour l’inférence. Mais DeepSeek est entré en scène et a bouleversé cette tendance.
Leurs modèles de la série V, qui culminent avec le modèle V3, ont utilisé une série d’optimisations pour rendre la formation de modèles d’IA de pointe nettement plus économique. Leur rapport technique indique qu’il leur a fallu moins de 6 millions de dollars pour former le modèle V3. Ils admettent que ce coût ne comprend pas les frais d’embauche de l’équipe, de recherche, d’essai des différentes idées et de collecte des données. Mais 6 millions de dollars restent un chiffre impressionnant pour la formation d’un modèle qui rivalise avec les principaux modèles d’IA développés à des coûts beaucoup plus élevés.
La réduction des coûts n’est pas due à une solution miracle. Elle est le fruit d’une combinaison de plusieurs choix techniques intelligents, notamment l’utilisation de moins de bits pour représenter les poids des modèles, l’innovation dans l’architecture du réseau neuronal et la réduction des frais généraux de communication lorsque les données sont transférées entre les GPU.
Il est intéressant de noter qu’en raison des restrictions américaines à l’exportation vers la Chine, l’équipe DeepSeek n’a pas eu accès à des GPU très performants comme le Nvidia H100. Elle a utilisé des GPU Nvidia H800, conçus par Nvidia pour être moins performants afin de respecter les restrictions américaines à l’exportation. Cette limitation semble avoir permis à l’équipe DeepSeek de redoubler d’ingéniosité.
DeepSeek a également innové pour rendre l’inférence moins coûteuse, réduisant ainsi le coût d’exécution du modèle. En outre, elle a publié un modèle appelé R1 qui est comparable au modèle o1 d’OpenAI pour les tâches de raisonnement.
Ils ont publié tous les poids des modèles pour V3 et R1. Tout le monde peut télécharger et améliorer ou personnaliser ses modèles. En outre, DeepSeek a publié ses modèles sous la licence MIT, qui permet à d’autres d’utiliser les modèles à des fins personnelles, académiques ou commerciales avec un minimum de restrictions.
Réinitialiser les attentes
DeepSeek a fondamentalement modifié le paysage des grands modèles d’IA. Un modèle à poids ouvert formé de manière économique est désormais sur un pied d’égalité avec des modèles fermés plus coûteux qui nécessitent des abonnements payants.
La communauté des chercheurs et le marché boursier auront besoin d’un certain temps pour s’adapter à cette nouvelle réalité.
Ambuj Tewari, Professeur de Statistiques, University of Michigan
Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l’article original. (Traduction enerzine.com)