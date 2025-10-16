Microsoft a annoncé MAI-Image-1, son premier modèle de génération d'images entièrement développé en interne. Le modèle sera disponible « très prochainement » sur Copilot et Bing Image Creator et peut actuellement être testé sur la plateforme LMArena, où il a été initialement évalué. Dans le classement LMArena des modèles de conversion texte-image, MAI-Image-1 a obtenu la 9e place avec un score de 1 096 points. À titre de comparaison, Gemini-2.5-Flash de Google, également connu sous le nom de Nano-Banana, s'est classé n° 2 avec 1 154 points, tandis que le modèle d'OpenAI s'est classé n° 7 avec 1 123 points.
En 2024, Microsoft a annoncé le développement dun modèle dIA, nommé MAI-1, qui promet de rivaliser avec les géants du secteur tels que Google et OpenAI. Ce nouveau modèle, supervisé par Mustafa Suleyman, co-fondateur de Google DeepMind et ancien PDG de la startup Inflection, représente une avancée significative pour Microsoft dans la course à lIA. MAI-1 est décrit comme étant « bien plus grand » que les précédents modèles open source développés par Microsoft, selon un rapport, ce qui implique une puissance de calcul et des coûts accrus.
Récemment, Microsoft a annoncé MAI-Image-1, son premier modèle de génération d'images entièrement développé en interne. Le modèle sera disponible « très prochainement » sur Copilot et Bing Image Creator et peut actuellement être testé sur la plateforme LMArena, où il a été initialement évalué.
Lors du développement de MAI-Image-1, Microsoft a déclaré que son équipe s'était efforcée d'éviter les résultats répétitifs ou stylisés de manière générique. « Par exemple, nous avons donné la priorité à une sélection rigoureuse des données et à une évaluation nuancée axée sur des tâches qui reflètent fidèlement des cas d'utilisation créatifs du monde réel », explique un communiqué de la société.
Ce processus de développement a également intégré les commentaires directs de professionnels travaillant dans les industries créatives afin d'améliorer les capacités et le raffinement global du modèle. LMArena, la plateforme utilisée pour les tests, fonctionne en demandant aux utilisateurs de poser des questions à deux chatbots anonymes, puis de voter pour la meilleure réponse jusqu'à ce qu'un gagnant soit désigné.
Le modèle serait particulièrement performant pour générer des paysages et des images photoréalistes. Ses points forts spécifiques comprennent la capture précise de détails complexes liés à l'éclairage, aux ombres et aux reflets dans une scène générée. Microsoft a souligné que ce niveau de performance élevé est particulièrement évident « par rapport à de nombreux modèles plus volumineux et plus lents », ce qui indique que l'accent a été mis sur l'efficacité computationnelle dans sa conception. Cette capacité en fait un outil permettant de créer des contenus visuels détaillés et réalistes.
Dans le classement LMArena des modèles de conversion texte-image, MAI-Image-1 a obtenu la 9e place avec un score de 1 096 points. À titre de comparaison, Gemini-2.5-Flash de Google, également connu sous le nom de Nano-Banana, s'est classé n° 2 avec 1 154 points, tandis que le modèle d'OpenAI s'est classé n° 7 avec 1 123 points. Le classement est actuellement dominé par Hunyuan-image-3.0, un modèle d'IA développé par la société technologique chinoise Hunyuan.
La création de MAI-Image-1 s'inscrit dans le cadre d'une initiative interne plus large de Microsoft en matière d'IA. La société a également développé d'autres modèles propriétaires, notamment MAI-Voice-1 pour la génération de discours naturel et la série Phi de petits modèles linguistiques, conçus pour être performants dans les tâches de raisonnement. Ce développement interne s'accompagne du soutien continu de la société à OpenAI, qui comprend à la fois un soutien financier et la mise à disposition d'infrastructures essentielles pour ses efforts de développement de modèles distincts.
Le domaine de la génération d'images par IA connaît actuellement une période d'activité intense. Le modèle d'OpenAI a déjà fait le buzz pour son imitation saisissante du style artistique du Studio Ghibli, tandis que Nano-Banana de Google a établi une nouvelle référence grâce à ses puissantes capacités d'édition par IA. À l'aide de LMArena, AIM a procédé à une comparaison directe entre MAI-Image-1 de Microsoft, Gemini-2.5-Flash de Google et GPT-image-1 d'OpenAI. Les modèles ont été testés à l'aide d'une invite décrivant « deux personnes dans un café près d'une fenêtre en fin d'après-midi ». Ce test spécifique a été conçu pour évaluer la capacité de chaque modèle à gérer un éclairage mixte, les reflets et le réalisme des ombres. Les utilisateurs peuvent soumettre des invites similaires sur la plateforme LMArena pour tester eux-mêmes ces modèles.
Ce lancement intervient après qu'un rapport a révélé que le PDG de Microsoft, Satya Nadella, a déclaré être « hanté » par la possibilité que Microsoft ne survive pas à l'ère de l'intelligence artificielle (IA). « Notre secteur regorge d'exemples d'entreprises qui étaient autrefois florissantes et qui ont tout simplement disparu. Je suis hanté par l'une d'entre elles en particulier, appelée DEC », a déclaré Nadella. Il a réfléchi à ce qu'il fallait à une entreprise non seulement pour prospérer, mais aussi pour continuer à attirer les meilleurs talents.
Voici l'annonce de Microsoft :
- Présentation de MAI-Image-1, qui fait son entrée dans le top 10 de LMArena
Aujourd'hui, nous annonçons MAI-Image-1, notre premier modèle de génération d'images entièrement développé en interne, qui fait son entrée dans le top 10 des modèles de conversion texte-image sur LMArena.
Chez Microsoft AI, nous créons une IA pour tous, une présence utile et solidaire, toujours au service de l'humanité. Nous avons expliqué en quoi les modèles spécialement conçus sont essentiels à cette mission et avons annoncé nos deux premiers modèles internes en août. MAI-Image-1 marque la prochaine étape de notre parcours et ouvre la voie à des expériences plus immersives, créatives et dynamiques au sein de nos produits.
Nous avons formé ce modèle dans le but d'offrir une véritable valeur ajoutée aux créateurs, et nous avons pris grand soin d'éviter les résultats répétitifs ou génériques. Par exemple, nous avons donné la priorité à une sélection rigoureuse des données et à une évaluation nuancée axée sur des tâches qui reflètent fidèlement les cas d'utilisation créatifs du monde réel, en tenant compte des commentaires des professionnels des industries créatives. Ce modèle est conçu pour offrir une réelle flexibilité, une diversité visuelle et une valeur pratique.
MAI-Image-1 excelle dans la génération d'images photoréalistes, telles que l'éclairage (par exemple, la lumière réfléchie, les reflets), les paysages et bien plus encore. Cela est particulièrement vrai par rapport à de nombreux modèles plus volumineux et plus lents. Grâce à sa combinaison de vitesse et de qualité, les utilisateurs peuvent afficher leurs idées plus rapidement à l'écran, les itérer rapidement, puis transférer leur travail vers d'autres outils pour continuer à les affiner.
Source : Annonce de Microsoft
