Des chercheurs de Microsoft affirment avoir mis au point le plus grand modèle d'IA à 1 bit, également connu sous le nom de « bitnet », à ce jour. Baptisé BitNet b1.58 2B4T, il est disponible sous licence MIT et peut fonctionner sur des CPU, y compris le M2 d'Apple. Les bitnets sont essentiellement des modèles compressés conçus pour fonctionner sur du matériel léger.L'intelligence artificielle (IA) désigne la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. À la fin des années 2010, les unités de traitement graphique (GPU), de plus en plus conçues avec des améliorations spécifiques à l'IA et utilisées avec le logiciel spécialisé TensorFlow, ont remplacé les unités centrales de traitement (CPU) précédemment utilisées comme moyen dominant pour la formation des modèles d'apprentissage automatique à grande échelle.
Récemment, des chercheurs de Microsoft viennent d'annoncer un nouveau modèle d'IA révolutionnaire qui n'est pas seulement puissant, mais aussi incroyablement efficace. Baptisé BitNet b1.58 2B4T, ce modèle est conçu pour fonctionner sans problème sur les processeurs CPU, même ceux de vos appareils de tous les jours, comme les puces M2 d'Apple. Qu'est-ce que cela signifie pour l'avenir de l'IA ?
BitNet b1.58 2B4T : Le modèle d'IA hyper-efficace de Microsoft
Microsoft fait des vagues avec sa dernière création, BitNet b1.58 2B4T. Mais qu'est-ce qu'un « bitnet » exactement, et pourquoi devriez-vous vous y intéresser ? Les bitnets sont les athlètes rationalisés du monde de l'IA. Ils sont conçus pour offrir des performances maximales avec un minimum de ressources. Les bitnets sont essentiellement des modèles d'IA compressés. Cette compression est essentielle car elle leur permet de fonctionner sur du matériel qui n'est pas nécessairement haut de gamme, comme les unités centrales de traitement (CPU).
BitNet b1.58 2B4T utilise la quantification pour plus d'efficacité. Les modèles d'IA traditionnels utilisent souvent des « poids » complexes, c'est-à-dire les paramètres internes qui guident l'apprentissage du modèle. Pour rendre ces modèles plus polyvalents, ces poids sont souvent « quantifiés ». La quantification réduit le nombre de bits nécessaires pour représenter ces poids, ce qui allège le modèle et le rend plus rapide. BitNet pousse la quantification à l'extrême. Au lieu d'utiliser la gamme typique de valeurs pour les poids, il les comprime à seulement trois : -1, 0 et 1. Cette simplification radicale est ce qui rend les modèles BitNet incroyablement efficaces en termes de mémoire et de calcul.
Le BitNet b1.58 2B4T de Microsoft n'est pas un bitnet comme les autres ; c'est le plus grand à ce jour, avec 2 milliards de paramètres. Dans ce contexte, les paramètres sont essentiellement les mêmes que les « poids ». Ce modèle, entraîné sur un ensemble massif de données de 4 000 milliards de jetons (33 millions de livres !), démontre que même à grande échelle, l'approche efficace des modèles d'IA de BitNet reste solide.
Selon les chercheurs de Microsoft, BitNet b1.58 2B4T ne se contente pas de se maintenir, il surpasse les modèles d'IA traditionnels de taille similaire. Il surpasse des modèles comme Llama 3.2 1B de Meta, Gemma 3 1B de Google et Qwen 2.5 1.5B d'Alibaba sur des points de référence clés. La vitesse est peut-être l'aspect le plus impressionnant. BitNet b1.58 2B4T serait deux fois plus rapide que d'autres modèles de sa taille dans certains tests, tout en utilisant beaucoup moins de mémoire. Cela change la donne pour le déploiement de l'IA dans des environnements à ressources limitées.
Imaginez les implications d'un tel modèle ! Dans le domaine de la cryptomonnaie, une IA plus rapide et plus légère pourrait alimenter des applications décentralisées plus réactives et plus accessibles, améliorer l'analyse de la blockchain et même renforcer les protocoles de sécurité sans nécessiter d'énormes fermes de serveurs. Cela ouvre des possibilités d'intégration de fonctionnalités d'IA sophistiquées directement dans les portefeuilles, les échanges décentralisés et d'autres plateformes, sans qu'il soit nécessaire de mettre en place une infrastructure lourde. En outre, un traitement plus rapide des transactions, à des contrats intelligents plus intelligents et à des expériences utilisateur améliorées, le tout alimenté par une IA légère.
[CENTER]
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.