Suite aux récents développements des grands modèles de langage utilisant Transformers, un mécanisme basé sur l'attention développé par Google en 2017, Microsoft a publié son document de recherche, intitulé Language Is Not All You Need: Aligning Perception with Language Models. Le modèle présente un grand modèle de langage multimodal (MLLM) appelé Kosmos-1. L'article souligne l'importance d'intégrer le langage, l'action, la perception multimodale et la modélisation du monde pour progresser vers l'intelligence artificielle. La recherche explore Kosmos-1 dans différents contextes.Le modèle montre des capacités prometteuses sur diverses tâches de génération en percevant des modalités générales telles que le NLP sans OCR, l'AQ visuelle, et les tâches de perception et de vision. L'équipe de recherche de Microsoft a également présenté le modèle à un ensemble de données du test de QI de Raven pour analyser et diagnostiquer les capacités de raisonnement non verbal des MLLM. « Les limites de ma langue signifient les limites de mon monde », Ludwig Wittgenstein.
figure 1 : KOSMOS-1 est un grand modèle de langage multimodal (MLLM) capable de percevoir des entrées multimodales, de suivre des instructions et d'effectuer un apprentissage en contexte, non seulement pour le langage, mais aussi pour l'environnement. Dans ce travail, Microsoft aligne la vision sur les grands modèles de langage (LLM), en faisant progresser la tendance à passer des LLM aux MLLM.
Une grande convergence du langage, de la perception multimodale, de l'action et de la modélisation du monde est une étape clé vers l'intelligence artificielle. Dans ce travail, Microsoft introduit KOSMOS-12 un grand modèle de langage multimodal (MLLM) capable de percevoir des modalités générales, apprendre en contexte et suivre des instructions.
Plus précisément, elle entraîne KOSMOS-1 à partir de zéro sur des corpus multimodaux à l'échelle du Web, comprenant du texte et des images arbitrairement entrelacées, des paires image-titre et des données textuelles. L’incitation multimodale à la chaîne de pensée, sur une large gamme de tâches, sans mise à jour du gradient ni réglage fin.
- La compréhension et la génération du langage, et même le traitement automatique des langues sans reconnaissance optique de caractères (directement alimenté par des images de documents) langage de perception, y compris le dialogue multimodal, le sous-titrage d'images, la réponse à des questions visuelles ;
- Les tâches de vision, telles que la reconnaissance d'images avec descriptions (spécifiant classification via des instructions textuelles). Nous montrons également que les MLLMs peuvent bénéficier de transfert cross-modal, c'est-à-dire le transfert de connaissances du langage au multimodal, et du multimodal au langage.
Des LLMs aux MLLMs
Les grands modèles de langage (LLM) ont servi avec succès d'interface polyvalente pour diverses tâches de langage naturel [BMR+20]. L'interface basée sur les LLM peut être adaptée à une tâche tant que nous sommes capables de transformer l'entrée et la sortie en textes. Par exemple, l'entrée du résumé est un document et la sortie est son résumé. Les chercheurs peuvent donc introduire le document d'entrée dans le modèle de langage, puis produire le résumé généré.
Malgré le succès des applications du traitement du langage naturel, il est encore difficile d'utiliser nativement les MLL pour les données multimodales, telles que les images et l'audio. La perception multimodale est un élément fondamental de l'intelligence. Elle est une nécessité pour atteindre l'intelligence artificielle générale, en termes d'acquisition de connaissances et d'ancrage dans le monde réel. Plus important encore, le déblocage de l'entrée multimodale [TMC+21, HSD+22, WBD+22, ADL+22, AHR+22, LLSH23] élargit considérablement les applications des modèles de langage à des domaines à plus forte valeur ajoutée, tels que l'apprentissage automatique multimodal, l'intelligence documentaire et la robotique.
Dans ce travail, Microsoft présente KOSMOS-1, un grand modèle de langage multimodal (MLLM) qui peut percevoir des modalités...[/tmc+21, hsd+22, wbd+22, adl+22, ahr+22, llsh23][/bmr+20]
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
