IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Microsoft présente le grand modèle de langage multimodal Kosmos-1
Les chercheurs montrent que le passage des LLM aux MLLM offre de nouvelles capacités

Le , par Bruno

40PARTAGES

4  0 
Suite aux récents développements des grands modèles de langage utilisant Transformers, un mécanisme basé sur l'attention développé par Google en 2017, Microsoft a publié son document de recherche, intitulé Language Is Not All You Need: Aligning Perception with Language Models. Le modèle présente un grand modèle de langage multimodal (MLLM) appelé Kosmos-1. L'article souligne l'importance d'intégrer le langage, l'action, la perception multimodale et la modélisation du monde pour progresser vers l'intelligence artificielle. La recherche explore Kosmos-1 dans différents contextes.

Le modèle montre des capacités prometteuses sur diverses tâches de génération en percevant des modalités générales telles que le NLP sans OCR, l'AQ visuelle, et les tâches de perception et de vision. L'équipe de recherche de Microsoft a également présenté le modèle à un ensemble de données du test de QI de Raven pour analyser et diagnostiquer les capacités de raisonnement non verbal des MLLM. « Les limites de ma langue signifient les limites de mon monde », Ludwig Wittgenstein.


figure 1 : KOSMOS-1 est un grand modèle de langage multimodal (MLLM) capable de percevoir des entrées multimodales, de suivre des instructions et d'effectuer un apprentissage en contexte, non seulement pour le langage, mais aussi pour l'environnement. Dans ce travail, Microsoft aligne la vision sur les grands modèles de langage (LLM), en faisant progresser la tendance à passer des LLM aux MLLM.

Une grande convergence du langage, de la perception multimodale, de l'action et de la modélisation du monde est une étape clé vers l'intelligence artificielle. Dans ce travail, Microsoft introduit KOSMOS-12 un grand modèle de langage multimodal (MLLM) capable de percevoir des modalités générales, apprendre en contexte et suivre des instructions.

Plus précisément, elle entraîne KOSMOS-1 à partir de zéro sur des corpus multimodaux à l'échelle du Web, comprenant du texte et des images arbitrairement entrelacées, des paires image-titre et des données textuelles. L’incitation multimodale à la chaîne de pensée, sur une large gamme de tâches, sans mise à jour du gradient ni réglage fin.

  • La compréhension et la génération du langage, et même le traitement automatique des langues sans reconnaissance optique de caractères (directement alimenté par des images de documents) langage de perception, y compris le dialogue multimodal, le sous-titrage d'images, la réponse à des questions visuelles ;
  • Les tâches de vision, telles que la reconnaissance d'images avec descriptions (spécifiant classification via des instructions textuelles). Nous montrons également que les MLLMs peuvent bénéficier de transfert cross-modal, c'est-à-dire le transfert de connaissances du langage au multimodal, et du multimodal au langage.

Des LLMs aux MLLMs

Les grands modèles de langage (LLM) ont servi avec succès d'interface polyvalente pour diverses tâches de langage naturel [BMR+20]. L'interface basée sur les LLM peut être adaptée à une tâche tant que nous sommes capables de transformer l'entrée et la sortie en textes. Par exemple, l'entrée du résumé est un document et la sortie est son résumé. Les chercheurs peuvent donc introduire le document d'entrée dans le modèle de langage, puis produire le résumé généré.

Malgré le succès des applications du traitement du langage naturel, il est encore difficile d'utiliser nativement les MLL pour les données multimodales, telles que les images et l'audio. La perception multimodale est un élément fondamental de l'intelligence. Elle est une nécessité pour atteindre l'intelligence artificielle générale, en termes d'acquisition de connaissances et d'ancrage dans le monde réel. Plus important encore, le déblocage de l'entrée multimodale [TMC+21, HSD+22, WBD+22, ADL+22, AHR+22, LLSH23] élargit considérablement les applications des modèles de langage à des domaines à plus forte valeur ajoutée, tels que l'apprentissage automatique multimodal, l'intelligence documentaire et la robotique.

Dans ce travail, Microsoft présente KOSMOS-1, un grand modèle de langage multimodal (MLLM) qui peut percevoir des modalités générales, suivre des instructions (c.-à-d., apprentissage à zéro coup) et apprendre en contexte (c.-à-d., apprentissage à quelques coups). L'objectif est d'aligner la perception avec les MLLMs, de sorte que les modèles soient capables de voir et de parler. Pour être plus précis, nous suivons METALM [HSD+22] pour former le modèle KOSMOS-1 à partir de zéro.

Comme le montre la figure 1, un modèle de langage basé sur Transformerest considéré comme l'interface générale, et les modules de perception sont reliés au modèle de langage. Les chercheurs entraînent le modèle sur des corpus multimodaux à l'échelle du Web, c'est-à-dire des données textuelles, des images et des textes arbitrairement entrelacés, et des paires image-titre. De plus, ils calibrent la capacité de suivi des instructions à travers les modalités en transférant des données uniquement linguistiques.

Le modèle KOSMOS-1 supporte nativement les tâches de langage, de perception-langage et de vision. En plus de diverses tâches de langage naturel, les modèles KOSMOS-1 gèrent nativement un large éventail de tâches à forte intensité de perception, couvrant le dialogue visuel, l'explication visuelle, la réponse à des questions visuelles, le sous-titrage d'images, les équations mathématiques simples, l'OCR et la classification d'images avec descriptions.

Un test de QI de référence suivant les matrices progressives de Raven [JR03, CJS90], qui évalue la capacité de raisonnement non verbal des MLLMs. Ces exemples montrent que le support natif de la perception multimodale offre de nouvelles opportunités pour appliquer les MLLMs à de nouvelles tâches. En outre, Microsoft montre que les MLLMs obtiennent de meilleures performances de raisonnement sensé par rapport aux LLMs, ce qui indique que le transfert multimodal facilite l'acquisition de connaissances.

Les principaux points à retenir sont les suivants :

Des LLMs aux MLLMs. Traiter correctement la perception est une étape nécessaire vers l'intelligence générale artificielle. La capacité de percevoir des données multimodales est essentielle pour les LLM. Premièrement, la perception multimodale permet aux MLLM d'acquérir des connaissances de bon sens au-delà des descriptions textuelles. Deuxièmement, l'alignement de la perception avec les LLM ouvre la porte à de nouvelles tâches, telles que la robotique et l'intelligence documentaire. Troisièmement, la capacité de perception unifie diverses API, car les interfaces graphiques sont le moyen le plus naturel et le plus unifié d'interagir avec les utilisateurs.

Les interfaces graphiques sont le moyen le plus naturel et le plus unifié d'interagir. Par exemple, les MLLM peuvent lire directement l'écran ou extraire les chiffres. Microsoft entraîne les modèles KOSMOS-1 sur des corpus multimodaux à l'échelle du Web, ce qui garantit que le modèle apprend de manière robuste à partir de diverses sources. Microsoft utilise non seulement un corpus de texte à grande échelle, et exploite également des paires de légendes d'images de haute qualité et des documents d'images et de textes arbitrairement entrelacés sur le Web.

Les modèles linguistiques en tant qu'interfaces à usage général : suivant la philosophie proposée dans METALM [HSD+22], Microsoft considère les modèles de langage comme une couche de tâches universelle. Grâce à l'espace de sortie ouvert, Microsoft est en mesure d'unifier diverses prédictions de tâches sous forme de textes. De plus, les instructions en langage naturel et les séquences d'action (comme le langage de programmation) peuvent être bien traitées par les modèles de langage. Les LLM servent aussi de raisonneurs de base [WWS+22], ce qui est complémentaire aux modules de perception pour les tâches complexes. Il est donc naturel d'aligner la perception du monde, de l'action et de la multimodalité avec l'interface polyvalente, c'est-à-dire avec les modules de perception.

Nouvelles capacités des MLLMs : en dehors des capacités trouvées dans les précédents LLMs [BMR+20, CND+22], les MLLMs permettent de nouvelles utilisations et possibilités. Tout d'abord, nous pouvons effectuer un apprentissage multimodal à zéro et à quelques reprises en utilisant des instructions en langage naturel et des exemples de démonstration. Deuxièmement, des signaux prometteurs de raisonnement non verbal en évaluant le test Raven IQ sont observés, qui mesure la capacité de raisonnement fluide des humains. Troisièmement, les MLLMs supportent naturellement les interactions multi-tours pour des modalités générales, telles que le dialogue multimodal.

Dans ce travail, Microsoft présente KOSMOS-1, un grand modèle de langage multimodal qui peut percevoir des modalités générales, suivre des instructions et effectuer un apprentissage en contexte.

Les modèles formés à l'échelle du Web obtiennent des résultats prometteurs dans un large éventail de tâches linguistiques et multimodales. Les chercheurs de Microsoft montrent que le passage des LLM aux MLLM offre de nouvelles capacités et opportunités et prevoit de faire évoluer KOSMOS-1 en termes de taille de modèle [MWH+22, WMH+22, CDH+22], et intégrer la capacité de parole [WCW+23] dans KOSMOS-1.

En outre, KOSMOS-1 peut être utilisé comme une interface unifiée pour l'apprentissage multimodal, par exemple en permettant l'utilisation d'instructions et d'exemples pour contrôler la génération de texte en image.

Source : Microsoft

Et vous ?

Microsoft et OpenAI pourraient rendre la formation de grands réseaux neuronaux moins coûteuse, le coût du réglage à l'aide de µTransfer représente 7 % de ce qu'il en coûterait pour préformer GPT-3

Microsoft crée un autocompléteur de code à l'aide de GPT-3, le système de génération de texte d'OpenAI, pour combler le manque de développeurs dans le monde

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de epsilon68
Membre expérimenté https://www.developpez.com
Le 19/03/2023 à 10:38
les quelques questions que j'ai pu poser à chat gpt ont donné des réponses fausses et / ou avec des fonctions qui n'existaient pas. Non je ne comprends donc pas l'engoument pour ce truc, sachant qu'on ne peut pas avoir confiance dans les réponses, enfin pour notre cas de programmeurs, la recherche et analyse sont encore plus mises en avant je trouve.
7  3 
Avatar de totozor
Membre expert https://www.developpez.com
Le 16/03/2023 à 7:34
Citation Envoyé par Locabimp Voir le message
C'est juste énorme, c'est une révolution pour moi. Que ce soit au niveau d'écriture qui peut poser prochainement des soucis de plagiat mais Mid journey sur discord les image c'est juste formidable magnifique je pourrais pas dire plus
J'ai quelques amis qui disaient pareil pour Mid Journey en mettant leur requête et les images résultantes, que je trouvais mauvaises et qu'ils trouvaient bien.
J'ai donc proposé de faire un jeu, ils montrent le résultat, on doit trouver la requête (quand la requête était trop précise on demandait de la fournir en texte à trou en même temps que les images), ils se sont rendu compte à quel point il n'est pas si efficace, surtout pour les "à la façon de ....".
Par contre j'ai vu un dessinateur utiliser Mid Journey pour ses retouches et il m'a scié.

Je penses que la vraie conclusion est que bien utiliser ça fait des miracles mais pour le gars moyen le résultat semble satisfaisant mais il est médiocre.
2  0 
Avatar de GlenLB
Nouveau membre du Club https://www.developpez.com
Le 16/03/2023 à 14:16
De belles avancées avec cette nouvelle version GPT-4 !
Néanmoins, le bot ne peut toujours pas accéder à internet en live : ses données restent bloquées à fin 2021 comme expliqué ici... ce qui déçoit une partie des utilisateurs qui s'attendait à de telles mises à jour avec GPT-4 !
La nouvelle fonction de compréhension des images est tout de même bluffante ! Certains ont par exemple envoyé des photos de l'intérieur de leur frigo à ChatGPT : il leur donne des recettes possibles avec les ingrédients dans le frigo
De nombreux nouveaux usages vont être possibles avec cette nouvelle compréhension des images de GPT-4 !
2  0 
Avatar de iubito
Membre éclairé https://www.developpez.com
Le 20/03/2023 à 1:29
Bonjour,

J'ai un peu essayé ChatGPT ces derniers mois.

Il ne comprend pas le concept de contrepèterie : Mammouth écrase les prix --> Les prix sont écrasés par Mammouth.
Il refuse de donner les paroles d'une chanson de Brassens qui voit passer les cons sous son balcons, parce que "cons" c'est vraiment offensant.

Quand on commence à lui demander des choses dans nos domaines d'expertise, ça se gâte.

Au sujet d'une chanson traditionnelle et de sa danse, il m'a donné une réponse très large (qui peut répondre à toutes les danses trad du pays, donc aucun intérêt), et avec des fautes d'orthographe (du genre : « une musique de danse (comprendre, à danser), accompagnée de instruments de musique d'accordéon... ») et même en citant un instrument non utilisé dans le pays en question.

Et pour le dev, puisque c'est le sujet du forum, je lui ai demandé l'algorithme de rythme euclidien en Java et en Lua. J'ai eu une belle réponse avec des explications, mais un algorithme totalement buggé. Je suis totalement rassuré sur mon métier, j'ai réfléchi, j'ai écrit l'algorithme qui fonctionne, en moins de lignes, et je ne vais surtout pas lui dire comment j'ai fait

Quant à créer une application sur un site web en précisant ce qu'elle doit pouvoir faire, il m'a donné les très grandes lignes basiques (il faut créer une page de connexion, un espace utilisateur), mais m'a aussi donné toutes les étapes comme apprendre PHP, la doc MySQL, le téléchargement d'Apache... et zéro ligne de code.
Pas de liens vers des services d'authentification, pas de liens vers des gabarits html...

Je lui ai aussi demandé comment créer une fonction personnalisée dans Google Sheet, et là, pour le coup, il m'a répondu tout ce que j'ai pu trouver sur internet. Il a tourné en rond comme moi car tous les tutos disent de passer par une option d'un menu... qui n'apparaît pas ou plus.
Il est aussi teubé que moi sur le sujet, incapable de répondre à la problématique « comment faire quand l'option n'est pas présente ? », « pourquoi cette option est absente ? », « différence entre une bibliothèque et un module complémentaire ? »
Donc je me suis débrouillé en répétant du code dans plusieurs cellules.
... et aujourd'hui j'ai googlé et j'ai trouvé les fonctions nommées, une nouvelle fonctionnalité
3  1 
Avatar de HaryRoseAndMac
Membre extrêmement actif https://www.developpez.com
Le 19/03/2023 à 12:04
J'ai utilisé GP3 pendant quasiment un mois
Et là, GPT4 durant une semaine non stop.

Conclusion : je ne vois AUCUNE différence entre les deux.
J'en suis même à douter que GPT4 ne soit pas un GPT3 déguisé.

Il fait les mêmes choses que GPT3 : au bout de 3 conversations ça a complètement oublié le fil et il faut tout resynthétiser, sur des sujets complexes c'est totalement largué, ...

C'est un très, très beau coup de com. ça c'est certains, par contre je vois arriver le carnage des employeurs qui pensent remplacer les devs par des gens au SMIC qui n'ont pas les capacités intellectuelles pour être développeur mais vont être expert chatGPT.

Et quand j'écris carnage, c'est au sens premier du termes vu que j'ai eu à vivre ça avec un client.
Les seuls gagnants dans cette histoire, vont être les vrais développeurs séniors avec réellement le cerveau pour faire ce job, qui vont être à des TJM records.
Je vois d'ici que 2000 euros par jour va devenir une norme, puisqu'ils vont remplacer tous les juniors.

On est à un tournant ou, si un revenu universel ne se met pas en place, dans moins de 2 ans, ça va être chômage record, pas seulement en France mais partout sur le globe et des guerres civiles à n'en plus qu'en faire.
5  5 
Avatar de Nym4x
Membre confirmé https://www.developpez.com
Le 05/04/2023 à 22:04
Ok. et merci Claude quoi… Et 3 jour pour faire la daube que j’ai vu sur la vidéo? 😂 Normalement avec l’ia ça devrait prendre 1h max. Non parce qu’ avec dreams sur ps4 sans IA on peut faire ça quand même :
0  0 
Avatar de
https://www.developpez.com
Le 13/04/2023 à 10:41
Si ce sont des QCM, ça n'a aucune valeur.

L'IA se contente de rechercher les réponses.
0  0 
Avatar de walfrat
Membre émérite https://www.developpez.com
Le 13/04/2023 à 12:48
Citation Envoyé par totolehero777 Voir le message
On est encore loin d'avoir qq chose qui est capable de raisonnement :

=> Question à ChatGPT :

Que va afficher ce programme ?

public static void main(String[] args) {
System.out.println(obfuscate("ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !");
}

private static String obfuscate(String input) {
return input.replace('o', 'Z').replace('e', 'I');
}

=> Réponse incohérente, erreur grossière :

Le programme va afficher la phrase suivante :

ChatGPT, n'IZt pas capablZ de prZdIrir l'ZxZcution dZ 2 lignZs de cZdZ !

La méthode obfuscate prend une chaîne de caractères en entrée et remplace toutes les occurrences du caractère o par Z et toutes les occurrences du caractère e par I. Dans le main, la méthode obfuscate est appelée avec la chaîne de caractères "ChatGPT, n'est pas capable de prédire l'exécution de 2 lignes de code !" en tant qu'argument. Le résultat obtenu après l'appel de la méthode obfuscate est ensuite affiché à l'écran avec System.out.println.

=> Impossible de lui faire comprendre et corriger sa faute
ChatGPT n'est pas un outil fait pour interprété du code à la base, donc des trucs en deux lignes de codes que chatGPT fails, on peut en trouvé à la pelle sans soucis. Qu'il se comporte par exemple comme un non informaticien qui va potentiellement considéré que les e avec accents sont aussi remplacés n'est pas scandaleux. Il reste le "s" de "est" transformé en 'Z' certes. C'est trop facile, sans avoir besoin d'être très futé, de prendre en défaut chatGPT.
0  0 
Avatar de totolehero777
Membre régulier https://www.developpez.com
Le 13/04/2023 à 14:37
walfrat, c'était juste pour souligner que ChatGPT fait le buzz en ce moment, mais qu'on est très loin d'avoir un système capable de "comprendre" et d'avoir un minimum d'intelligence/raisonnement. Il écrit des mots sans rien y comprendre.

Ici un cas concret : je lui donne un "programme" de deux lignes de code. Il est capable de l'expliquer (ce qui est déjà impressionnant) mais il est incapable d'appliquer la règle qu'il énonce, aussi simple soit elle.
0  0 
Avatar de Dgamax
Membre averti https://www.developpez.com
Le 05/05/2023 à 15:54
Citation Envoyé par totolehero777 Voir le message
walfrat, c'était juste pour souligner que ChatGPT fait le buzz en ce moment, mais qu'on est très loin d'avoir un système capable de "comprendre" et d'avoir un minimum d'intelligence/raisonnement. Il écrit des mots sans rien y comprendre.

Ici un cas concret : je lui donne un "programme" de deux lignes de code. Il est capable de l'expliquer (ce qui est déjà impressionnant) mais il est incapable d'appliquer la règle qu'il énonce, aussi simple soit elle.
GPT a été conçu à la base pour prédire le prochain mot donc tu as tout à fait raison, il ne comprend pas ce qu'on lui dit ni ce qu'il dit.

En tout cas J'ai testé ton example avec GPT-4, c'est pas encore ça et il a fait attention à la case.

0  0