Mercredi, lors de la conférence Microsoft Ignite, Microsoft a annoncé deux puces personnalisées conçues pour accélérer les charges de travail d'IA en interne via son service de cloud computing Azure : Microsoft Azure Maia 100 AI Accelerator et le processeur Microsoft Azure Cobalt 100.
Microsoft a conçu Maia spécifiquement pour exécuter de grands modèles de langage tels que GPT 3.5 Turbo et GPT-4, qui sous-tendent ses services Azure OpenAI et Microsoft Copilot (anciennement Bing Chat). Maia possède 105 milliards de transistors fabriqués selon un processus TSMC de 5 nm. Pendant ce temps, Cobalt est un processeur ARM à 128 cœurs conçu pour effectuer des tâches informatiques conventionnelles telles que l’alimentation de Microsoft Teams. Microsoft n'a pas l'intention de vendre l'un ou l'autre, les préférant uniquement pour un usage interne :
Envoyé par Microsoft
Un choix stratégique...
Le H100, annoncé l’année dernière, est la dernière puce IA phare de Nvidia, succédant à l’A100, une puce d’environ 10*000 $ qui a été qualifiée de « bête de somme » pour les applications IA.
Les développeurs utilisent le H100 pour créer des modèles de langage étendus (LLM), qui sont au cœur des applications d'IA comme ChatGPT d'OpenAI. L’exécution de ces systèmes coûte cher et nécessite des ordinateurs puissants pour traiter des téraoctets de données pendant des jours ou des semaines à la fois. Ils s’appuient également sur une puissance de calcul importante pour que le modèle d’IA puisse générer du texte, des images ou des prédictions.
La formation de modèles d’IA, en particulier les plus grands comme GPT, nécessite que des centaines de GPU Nvidia haut de gamme travaillent ensemble.
La puce Azure Maia AI de Microsoft et le processeur Azure Cobalt alimenté par Arm arriveront en 2024, à la suite d'une augmentation de la demande cette année pour les GPU H100 de Nvidia. La demande pour ces GPU est telle que certains ont même atteint plus de 40 000 $ sur eBay.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Nvidia H100 GPUs going for $40k on eBay. <a href="https://t.co/7NOBI8cn3k">pic.twitter.com/7NOBI8cn3k</a></p>— John Carmack (@ID_AA_Carmack) <a href="https://twitter.com/ID_AA_Carmack/status/1646676148657569792?ref_src=twsrc%5Etfw">April 14, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
« Microsoft a en fait une longue histoire dans le développement du silicium », explique Rani Borkar, responsable des systèmes et infrastructures matériels Azure chez Microsoft.
Microsoft a collaboré sur le silicium pour la Xbox il y a plus de 20 ans et a même co-conçu des puces pour ses appareils Surface. « Ces efforts s'appuient sur cette expérience », explique Borkar. « En 2017, nous avons commencé à concevoir l'architecture de la pile matérielle cloud et nous avons commencé ce voyage qui nous a mis sur la bonne voie pour créer nos nouvelles puces personnalisées ».
La nouvelle puce Azure Maia AI et le processeur Azure Cobalt sont tous deux construits en interne chez Microsoft, combinés à une refonte en profondeur de l'ensemble de sa pile de serveurs cloud pour optimiser les performances, la puissance et les coûts. « Nous repensons l'infrastructure cloud pour l'ère de l'IA et optimisons littéralement chaque couche de cette infrastructure », explique Borkar.
Rani Borkar, vice-président d'entreprise pour Azure Hardware Systems and Infrastructure (AHSI) chez Microsoft
... qui prend également en compte la pénurie de puces
Dans un contexte de pénuries de puces qui ont fait grimper les prix des GPU Nvidia AI très recherchés, plusieurs entreprises ont conçu ou envisagent de concevoir leurs propres puces accélératrices d'IA, notamment Amazon, OpenAI, IBM et AMD. Microsoft a également ressenti le besoin de créer un silicium personnalisé pour mettre ses propres services au premier plan.
Lors de son annonce, la société a expliqué :
Envoyé par Microsoft
Le nouvel accélérateur d’IA Maia 100 de la société alimentera certaines des plus grandes charges de travail d’IA internes exécutées sur Microsoft Azure. De plus, OpenAI a fourni des commentaires sur Azure Maia et les informations approfondies de Microsoft sur la manière dont les charges de travail d’OpenAI s’exécutent sur une infrastructure adaptée à ses grands modèles de langage contribuent à éclairer les futures conceptions de Microsoft.
«*Depuis notre premier partenariat avec Microsoft, nous avons collaboré pour co-concevoir l'infrastructure d'IA d'Azure à chaque couche pour nos modèles et nos besoins de formation sans précédent », a déclaré Sam Altman, PDG d'OpenAI. « Nous étions enthousiasmés lorsque Microsoft a partagé pour la première fois ses conceptions pour la puce Maia, et nous avons travaillé ensemble pour l'affiner et la tester avec nos modèles. L’architecture d’IA de bout en bout d’Azure, désormais optimisée jusqu’au silicium avec Maia, ouvre la voie à la formation de modèles plus performants et rend ces modèles moins chers pour nos clients.
Le Maia 100 AI Accelerator a également été conçu spécifiquement pour la pile matérielle Azure, a déclaré Brian Harry, un technicien Microsoft à la tête de l'équipe Azure Maia. Cette intégration verticale – l’alignement de la conception des puces avec l’infrastructure d’IA plus large conçue en tenant compte des charges de travail de Microsoft – peut générer d’énormes gains en termes de performances et d’efficacité, a-t-il déclaré.
« Azure Maia a été spécialement conçu pour l'IA et pour atteindre une utilisation maximale absolue du matériel », a-t-il déclaré.
Parallèlement, le processeur Cobalt 100 est construit sur l'architecture Arm, un type de conception de puce économe en énergie, et optimisé pour offrir une efficacité et des performances supérieures dans les offres cloud natives, a déclaré Wes McCullough, vice-président du développement de produits matériels. Le choix de la technologie Arm était un élément clé de l’objectif de développement durable de Microsoft. Son objectif est d'optimiser les « performances par watt » dans l'ensemble de ses centres de données, ce qui signifie essentiellement obtenir plus de puissance de calcul pour chaque unité d'énergie consommée.
Conclusion
Aucune entreprise technologique n’est une île, et Microsoft ne fait pas exception. La société prévoit de continuer à s'appuyer sur des puces tierces, à la fois par nécessité d'approvisionnement et probablement pour plaire à son enchevêtrement de partenariats commerciaux. « Microsoft ajoutera également le dernier GPU Nvidia H200 Tensor Core à sa flotte l'année prochaine pour prendre en charge l'inférence de modèles plus grands [sic] sans augmentation de la latence », indique l'entreprise, faisant référence au GPU de traitement de l'IA récemment annoncé par Nvidia. Et elle ajoutera également des machines virtuelles accélérées par AMD MI300X à Azure.
Alors, quelles sont les performances des nouvelles puces*? Microsoft n'a pas encore publié de benchmarks, mais la société semble satisfaite des ratios performances par watt des puces, en particulier pour Cobalt. « Nous pensons que cela nous permet de fournir à nos clients de meilleures solutions, plus rapides, moins coûteuses et de meilleure qualité », a déclaré Scott Guthrie, vice-président exécutif du groupe cloud et IA de Microsoft.
Source : Microsoft
Et vous ?
Quels sont les avantages et les inconvénients de concevoir ses propres puces d’IA par rapport à acheter celles des fournisseurs externes ?
Comment le processeur Maia AI Accelerator pourrait-il changer la donne pour Microsoft dans le domaine de l’IA, notamment face à ses concurrents comme Google, Amazon et Meta ?
Quels sont les défis et les risques liés à la fabrication de puces d’IA sur mesure, notamment en termes de coût, de qualité et de sécurité ?
Quels sont les domaines d’application potentiels du processeur Maia AI Accelerator, tant pour les développeurs que pour les utilisateurs finaux ?
Quel est l’impact environnemental de la production et de l’utilisation de puces d’IA à haute performance ? Comment Microsoft peut-il réduire son empreinte carbone dans ce domaine ?