dimanche, mai 11, 2025
  • Connexion
Enerzine.com
  • Accueil
  • Energie
    • Electricité
    • Marché Energie
    • Nucléaire
    • Pétrole
    • Gaz
    • Charbon
  • Renouvelable
    • Biogaz
    • Biomasse
    • Eolien
    • Géothermie
    • Hydro
    • Hydrogène
    • Solaire
  • Technologie
    • Batterie
    • Intelligence artificielle
    • Matériaux
    • Quantique
    • Recherche
    • Robotique
    • Autres
      • Chaleur
      • Communication
      • Fusion
      • Graphène
      • Impression
      • Industrie énergie
      • Industrie technologie
      • Laser
      • Nanotechnologie
      • Optique
  • Environnement
    • Carbone
    • Circulaire
    • Climat
    • Déchets
    • Durable
    • Risques
    • Santé
  • Mobilité
    • Aérien
    • Infrastructure
    • Logistique
    • Maritime
    • Spatial
    • Terrestre
  • Habitat
  • Insolite
  • GuideElectro
    • Sommaire
    • Maison
    • Chauffage
    • Bricolage
    • Jardin
    • Domotique
    • Autres
      • Isolations
      • Eclairage
      • Nomade
      • Loisir
      • Compostage
      • Médical
  • LaboFUN
    • Science
    • Lévitation
    • Globe
Aucun résultat
Voir tous les résultats
  • Accueil
  • Energie
    • Electricité
    • Marché Energie
    • Nucléaire
    • Pétrole
    • Gaz
    • Charbon
  • Renouvelable
    • Biogaz
    • Biomasse
    • Eolien
    • Géothermie
    • Hydro
    • Hydrogène
    • Solaire
  • Technologie
    • Batterie
    • Intelligence artificielle
    • Matériaux
    • Quantique
    • Recherche
    • Robotique
    • Autres
      • Chaleur
      • Communication
      • Fusion
      • Graphène
      • Impression
      • Industrie énergie
      • Industrie technologie
      • Laser
      • Nanotechnologie
      • Optique
  • Environnement
    • Carbone
    • Circulaire
    • Climat
    • Déchets
    • Durable
    • Risques
    • Santé
  • Mobilité
    • Aérien
    • Infrastructure
    • Logistique
    • Maritime
    • Spatial
    • Terrestre
  • Habitat
  • Insolite
  • GuideElectro
    • Sommaire
    • Maison
    • Chauffage
    • Bricolage
    • Jardin
    • Domotique
    • Autres
      • Isolations
      • Eclairage
      • Nomade
      • Loisir
      • Compostage
      • Médical
  • LaboFUN
    • Science
    • Lévitation
    • Globe
Aucun résultat
Voir tous les résultats
Enerzine.com
Aucun résultat
Voir tous les résultats
Pourquoi la création de grandes IA coûte des milliards - et comment la startup chinoise DeepSeek a radicalement changé les calculs

Pourquoi la création de grandes IA coûte des milliards – et comment la startup chinoise DeepSeek a radicalement changé les calculs

par Michigan Université (USA)
31 janvier 2025
en Intelligence artificielle, Technologie

Ambuj Tewari, University of Michigan

Des systèmes d’intelligence artificielle de pointe tels que ChatGPT d’OpenAI, Gemini de Google et Claude d’Anthropic ont captivé l’imagination du public en produisant des textes fluides dans plusieurs langues en réponse à des demandes d’utilisateurs. Ces entreprises ont également fait les gros titres avec les sommes énormes qu’elles ont investies pour construire des modèles toujours plus puissants.

Une start-up chinoise spécialisée dans l’IA, DeepSeek, a bousculé les idées reçues sur les sommes nécessaires pour mettre au point les IA les plus récentes et les plus performantes. Ce faisant, elle a jeté le doute sur les milliards de dollars investis par les grands acteurs de l’IA.

J’étudie l’apprentissage automatique. Les débuts fracassants de DeepSeek ne sont pas le fruit d’une percée technologique stupéfiante, mais d’une pratique ancestrale : la recherche d’efficacité. Dans un domaine qui consomme de vastes ressources informatiques, cela s’est avéré important.

Où se situent les coûts

Le développement de systèmes d’IA aussi puissants commence par la construction d’un grand modèle linguistique. Un grand modèle linguistique prédit le mot suivant en fonction des mots précédents. Par exemple, si le début d’une phrase est « La théorie de la relativité a été découverte par Albert », un grand modèle de langage peut prédire que le mot suivant est « Einstein ». Les grands modèles de langage sont entraînés à devenir performants pour de telles prédictions dans le cadre d’un processus appelé pré-entraînement.

La préformation nécessite beaucoup de données et de puissance de calcul. Les entreprises collectent des données en parcourant le web et en scannant des livres. L’informatique est généralement alimentée par des unités de traitement graphique (GPU). Pourquoi les graphiques ? Il s’avère que les graphiques informatiques et les réseaux neuronaux artificiels qui sous-tendent les grands modèles linguistiques reposent sur le même domaine des mathématiques, l’algèbre linéaire. Les grands modèles de langage stockent en interne des centaines de milliards de nombres appelés paramètres ou poids. Ce sont ces poids qui sont modifiés lors du préapprentissage.

Articles à explorer

L'IA au travail : un gain de confort qui pourrait vous coûter cher

L’IA au travail : un gain de confort qui pourrait vous coûter cher

10 mai 2025
L'ère de la robotique tactile s'affirme avec Vulcan, le robot d’Amazon

L’ère de la robotique tactile s’affirme avec Vulcan, le robot d’Amazon

9 mai 2025
Les grands modèles de langage consomment d’énormes quantités de ressources informatiques, ce qui signifie beaucoup d’énergie.

Le pré-entraînement n’est toutefois pas suffisant pour obtenir un produit de consommation tel que ChatGPT. Un grand modèle linguistique pré-entraîné n’est généralement pas en mesure de suivre les instructions humaines. Il peut également ne pas être aligné sur les préférences humaines. Par exemple, il pourrait produire un langage préjudiciable ou abusif, deux types de langage présents dans les textes sur le web.

Le modèle pré-entraîné passe donc généralement par des étapes supplémentaires de formation. L’une de ces étapes est l’ajustement des instructions, qui consiste à montrer au modèle des exemples d’instructions humaines et les réponses attendues. Après la mise au point des instructions, vient une étape appelée apprentissage par renforcement à partir du retour d’information humain. Au cours de cette étape, on montre aux annotateurs humains plusieurs réponses du modèle de langage étendu à la même invite. Les annotateurs sont alors invités à indiquer la réponse qu’ils préfèrent.

Il est facile de voir comment les coûts s’additionnent lors de la construction d’un modèle d’IA : recrutement de talents en IA de haute qualité, construction d’un centre de données avec des milliers de GPU, collecte de données pour le pré-entraînement, et exécution du pré-entraînement sur les GPU. En outre, la collecte de données et le calcul aux stades du réglage des instructions et de l’apprentissage par renforcement à partir du retour d’information humain entraînent des coûts.

Tout compris, les coûts de construction d’un modèle d’IA de pointe peuvent s’élever jusqu’à 100 millions de dollars américains. La formation des GPU représente une part importante du coût total.

Les dépenses ne s’arrêtent pas lorsque le modèle est prêt. Lorsque le modèle est déployé et qu’il répond aux invites de l’utilisateur, il utilise davantage de calculs, connus sous le nom de temps de test ou de temps d’inférence. Le calcul du temps de test nécessite également des GPU. En décembre 2024, OpenAI a annoncé un nouveau phénomène observé avec son dernier modèle o1 : à mesure que le calcul du temps de test augmentait, le modèle s’améliorait dans les tâches de raisonnement logique telles que les olympiades de mathématiques et les problèmes de codage compétitifs.

Réduire la consommation de ressources

Il semblait donc que la voie à suivre pour construire les meilleurs modèles d’IA au monde consistait à investir dans davantage de calculs, tant pour l’apprentissage que pour l’inférence. Mais DeepSeek est entré en scène et a bouleversé cette tendance.

DeepSeek a provoqué une onde de choc dans l’écosystème financier technologique.

Leurs modèles de la série V, qui culminent avec le modèle V3, ont utilisé une série d’optimisations pour rendre la formation de modèles d’IA de pointe nettement plus économique. Leur rapport technique indique qu’il leur a fallu moins de 6 millions de dollars pour former le modèle V3. Ils admettent que ce coût ne comprend pas les frais d’embauche de l’équipe, de recherche, d’essai des différentes idées et de collecte des données. Mais 6 millions de dollars restent un chiffre impressionnant pour la formation d’un modèle qui rivalise avec les principaux modèles d’IA développés à des coûts beaucoup plus élevés.

La réduction des coûts n’est pas due à une solution miracle. Elle est le fruit d’une combinaison de plusieurs choix techniques intelligents, notamment l’utilisation de moins de bits pour représenter les poids des modèles, l’innovation dans l’architecture du réseau neuronal et la réduction des frais généraux de communication lorsque les données sont transférées entre les GPU.

Il est intéressant de noter qu’en raison des restrictions américaines à l’exportation vers la Chine, l’équipe DeepSeek n’a pas eu accès à des GPU très performants comme le Nvidia H100. Elle a utilisé des GPU Nvidia H800, conçus par Nvidia pour être moins performants afin de respecter les restrictions américaines à l’exportation. Cette limitation semble avoir permis à l’équipe DeepSeek de redoubler d’ingéniosité.

DeepSeek a également innové pour rendre l’inférence moins coûteuse, réduisant ainsi le coût d’exécution du modèle. En outre, elle a publié un modèle appelé R1 qui est comparable au modèle o1 d’OpenAI pour les tâches de raisonnement.

Ils ont publié tous les poids des modèles pour V3 et R1. Tout le monde peut télécharger et améliorer ou personnaliser ses modèles. En outre, DeepSeek a publié ses modèles sous la licence MIT, qui permet à d’autres d’utiliser les modèles à des fins personnelles, académiques ou commerciales avec un minimum de restrictions.

Réinitialiser les attentes

DeepSeek a fondamentalement modifié le paysage des grands modèles d’IA. Un modèle à poids ouvert formé de manière économique est désormais sur un pied d’égalité avec des modèles fermés plus coûteux qui nécessitent des abonnements payants.

La communauté des chercheurs et le marché boursier auront besoin d’un certain temps pour s’adapter à cette nouvelle réalité.

Ambuj Tewari, Professeur de Statistiques, University of Michigan

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lire l’article original. (Traduction enerzine.com)

Tags: deepseekgpuiaLLMnvidia
Tweet1Partage1PartagePartageEnvoyer
Article précédent

La quête du semi-métal parfait : le RIKEN réalise une première mondiale spectaculaire

Article suivant

L’IA décode en temps record la structure des électrons dans les matériaux 2D

Michigan Université (USA)

Michigan Université (USA)

L'Université du Michigan (UMich), fondée en 1817, est l'une des institutions académiques les plus prestigieuses des États-Unis, située principalement à Ann Arbor avec des campus additionnels à Dearborn et Flint. Première université établie à l'ouest des Appalaches, elle a débuté à Detroit avant d'être transférée à Ann Arbor en 1837. L'université s'est considérablement développée au fil des années, accueillant aujourd'hui plus de 56 000 étudiants. Domaines de Recherche Clés L'université excelle particulièrement dans plusieurs domaines technologiques et scientifiques : - Intelligence artificielle et apprentissage automatique - Architecture des processeurs et technologies émergentes - Systèmes embarqués et mobiles - Robotique et systèmes autonomes[2] Initiatives Quantiques Un développement majeur récent est la création du Quantum Research Institute (QRI), qui réunit des experts en physique quantique, génie électrique, informatique et sciences des matériaux. Cette initiative s'inscrit dans le cadre du Chips and Science Act de 2022, visant à renforcer la recherche en semi-conducteurs et technologies quantiques. Infrastructure de Recherche L'université dispose d'importantes ressources, notamment dix-neuf bibliothèques contenant plus de 8,27 millions de volumes, soutenant activement la recherche et l'innovation. Le récent partenariat avec l'Institut de radioastronomie millimétrique démontre son engagement continu dans la recherche scientifique de pointe.

A lire également

Les mouvements oculaires prédisent les limites de vitesse dans la perception. Adapté par Martin Rolfs.
Recherche

Les mouvements oculaires prédisent les limites de vitesse dans la perception

il y a 53 minutes
Quelle est l'efficacité réelle des pompes à chaleur ?
Industrie énergie

Quelle est l’efficacité réelle des pompes à chaleur ?

il y a 5 heures
L'IA au travail : un gain de confort qui pourrait vous coûter cher
Intelligence artificielle

L’IA au travail : un gain de confort qui pourrait vous coûter cher

il y a 1 jour
Plus d'infos
Article suivant
L'IA décode en temps record la structure des électrons dans les matériaux 2D

L'IA décode en temps record la structure des électrons dans les matériaux 2D

De nouvelles solutions pour recycler les panneaux solaires

De nouvelles solutions pour recycler les panneaux solaires

Comment fonctionne une centrale photovoltaïque ?

Comment fonctionne une centrale photovoltaïque ?

Laisser un commentaire Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bibliothèque photos préférée : Depositphotos.com
depositphotos
Enerzine est rémunéré pour les achats éligibles à la plateforme : Amazon partenaire

Articles récents

Les mouvements oculaires prédisent les limites de vitesse dans la perception. Adapté par Martin Rolfs.

Les mouvements oculaires prédisent les limites de vitesse dans la perception

11 mai 2025
Quelle est l'efficacité réelle des pompes à chaleur ?

Quelle est l’efficacité réelle des pompes à chaleur ?

11 mai 2025
  • A propos
  • Newsletter
  • Publicité – Digital advertising
  • Mentions légales
  • Confidentialité
  • Contact

© 2025 Enerzine.com

Bienvenue !

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
Aucun résultat
Voir tous les résultats
  • Accueil
  • Energie
  • Renouvelable
  • Technologie
  • Environnement
  • Mobilité
  • Habitat
  • Insolite
  • Guide
  • Labo

© 2025 Enerzine.com