GPT-5: Le dernier modèle génératif d’IA d’OpenAI attendu

JAKARTA - GPT-4 est actuellement le meilleur outil générateur d’IA sur le marché, mais cela ne signifie pas que nous ne regardons pas vers l’avenir. Le PDG d’OpenAI, Sam Altman, donne régulièrement des conseils sur le GPT-5, il semble que nous verrons bientôt un nouveau et amélioré modèle d’IA.

Bien qu’il n’y ait pas de date de lancement spécifique pour le GPT-5, beaucoup pensent que le public pourrait le voir bientôt. Cependant, peu importe quand le lancement, il y a plusieurs fonctionnalités clés que nous espérons exister lorsque le GPT-5.

Qu’est-ce que le GPT-5 d’OpenAI?

Le GPT-5 est le successeur très attendu du modèle AI GPT-4 d’OpenAI, qui devrait être le modèle générateur le plus fort sur le marché. Bien qu’il n’y ait pas encore de date officielle pour le lancement du GPT-5, il y a des indications que ce modèle pourrait être sorti en été de 2024. Peu de détails sur ce modèle sont connus actuellement, mais certaines choses peuvent être dites avec un certain niveau de certitude:

OpenAI a enregistré une marque commerciale pour le nom auprès du Bureau des brevets et des marques américains.

Plusieurs dirigeants d’OpenIA ont discuté ou fourni des indices sur les capacités possibles de ce modèle.

Le PDG d’OpenAI, Sam Altman, a mentionné à plusieurs reprises le modèle lors d’une interview YouTube avec Lex Fridman en mars 2024.

Tout cela montre une réalité dévastatrice: le GPT-5 viendra bientôt! Cependant, il y a encore beaucoup de spéculations en ce moment. Cependant, il y a plusieurs choses que nous espérons et assez confiants pour y assister. Voici quelques-uns :

Plus polyvalent

L’une des améliorations les plus attrayantes pour la famille de modèles AI GPT est la multimodalité. La multimodalité est la capacité des modèles d’IA à traiter non seulement le texte, mais aussi d’autres types d’entrées telles que les images, le son et la vidéo.

La multimodalité sera une étape importante pour le progrès futur de la famille des modèles GPT. GPT-4 est déjà habillé dans la gestion des entrées et de la production d’images, les améliorations qui incluent le traitement audio et vidéo sont la prochaine étape pour OpenAI, et GPT-5 est le bon endroit pour le commencer.

Google a fait de sérieux progrès avec ce genre de multimodalité avec son modèle Gemini AI. Il serait étrange qu’OpenAI ne réponde pas. Dans son podcast Unconfuse Me [transcription PDF], Bill Gates a demandé au PDG d’OpenAI, Sam Altman, sur les réalisations qu’il verrait pour la série GPT au cours des deux prochaines années. La réponse? traitement de vidéos.

Ainsi, pour GPT-5, on s’attend à ce qu’il soit en mesure de jouer avec la vidéo – télécharger une vidéo à demande, créer une vidéo en direct, éditer une vidéo avec le texte de demande, extraire des segments de la vidéo et trouver certaines scènes à partir de grands fichiers vidéo. Nous espérons faire de même avec les fichiers audio. C’est une grande demande, oui. Cependant, étant donné à quel point l’IA se développe rapidement, c’est un espoir très naturel.

Une fenêtre de contexte plus grande et plus efficace

Bien qu’il soit l’un des modèles d’IA les plus sophistiqués sur le marché, la famille GPT de modèles AI a une petite fenêtre de contexte. Par exemple, antropic’s Ida 3 a une fenêtre de contexte de 200 000 jetons, tandis que les Gemini de Google peuvent traiter jusqu’à 1 million de jetons (128,000 pour une utilisation standard).

En comparaison, le GPT-4 a une fenêtre de contexte relativement plus petite, environ 128 000 jetons, avec environ 32 000 jetons ou moins réaliste disponibles pour être utilisés dans des interconférences telles que chatGPT.

Avec la multimodalité avancée dans l’image, l’amélioration des fenêtres contextuelles est presque inévitable. Peut-être qu’une augmentation deux ou quatre fois suffira, mais nous espérons voir une augmentation d’environ dix fois. Cela permettra au GPT-5 de traiter beaucoup plus d’informations de manière beaucoup plus efficace. Cependant, une fenêtre de contexte plus grande ne signifie pas toujours mieux. Donc, plutôt qu’augmenter simplement les fenêtres contextuelles, nous voulons voir une amélioration de l’efficacité du traitement du contexte.

agents gpt

L’une des possibilités les plus intéressantes de la sortie du GPT-5 est l’émergence d’agent GPT. Bien que le terme « changeur de jeu » ait peut-être été trop souvent utilisé dans le contexte d’IA, les agents GPT changeront vraiment le jeu dans tous les sens pratiques. Mais comment changer le jeu?

En ce moment, les modèles d’IA tels que GPT-4 peuvent vous aider à résoudre des tâches. Ils peuvent écrire des courriels, créer des plaisanteries, résoudre des problèmes mathématiques ou compiler des billets de blog pour vous. Cependant, ils ne peuvent effectuer que certaines tâches et ne peuvent pas accomplir un ensemble de tâches connexes nécessaires pour terminer votre travail.

Supposons que vous êtes un développeur Web. Dans le cadre de votre travail, on vous attend à faire beaucoup de choses: de concevoir, d’écrire des codes, de résoudre des problèmes, etc. Actuellement, vous ne pouvez qu’assribuer certaines de ces tâches au modèle d’IA par étapes. Peut-être que vous pouvez demander au modèle GPT-4 d’écrire le code pour la page d’accueil, puis à lui demander de le faire pour la page de contact, puis pour la page relative, etc. Vous devez effectuer ces tâches à plusieurs reprises. Et il y a des tâches que le modèle ne peut pas résoudre.

Ce processus graduel de demander des modèles d’IA pour certaines sous-têtes est long et inefficace. Dans ce scénario, vous - le développeur Web - êtes un agent humain chargé de coordonner et de demander des modèles d’IA une tâche par une tâche jusqu’à ce que vous terminiez complètement un ensemble de tâches connexes.

L’agent GPT promet de bots d’experts spéciaux coordonnés par, espérons-le, GPT-5 capables de faire leurs propres pensées et de gérer tous les sous-ensemble de tâches complexes de manière autonome. L’accent mis sur « leurs propres pensées » et « autonomes ».

Ainsi, si GPT-5 est équipé d’agent GPT, vous pouvez lui demander de « développer un site portable pour Maxwell Timothy » plutôt que de « écrire un code pour la page d’accueil ». GPT-5 sera ensuite théoriquement en mesure de se demander en appelant des agents d’IA experts pour s’occuper de diverses sous-têtes nécessaires pour construire un site Web.

Peut-être qu'il a appelé un GPT pour collecter des informations sur le Web sur Maxwell Timothy, un autre agent pour écrire des codes pour différentes pages, d'autres agents pour générer et optimiser des images, et même d'autres agents d'IA pour effectuer des mises en œuvre du site, tout sans avoir besoin de répétition d'instructions humaines.

Moins d'halucinations

Bien qu’OpenAI ait fait des progrès dans la gestion des hallucinations dans leurs modèles d’IA, un véritable test pour GPT-5 sera sa capacité à surmonter les problèmes persistants de l’halucination, qui ont entravé l’adoption généralisée de l’IA dans des domaines critiques tels que la santé, l’aviation et la cybersécurité.

Ce sont tous des domaines qui bénéficieront très de l’implication massive de l’IA, mais éviteront actuellement d’adoption significative.

Pour plus de détails, l’halucination dans ce contexte se réfère à une situation dans laquelle les modèles d’IA génèrent et présentent des informations qui semblent raisonnables mais entièrement faites avec un niveau élevé de confiance.

Imaginez un scénario dans lequel le GPT-4 est intégré dans un système de diagnostic pour analyser les symptômes de patients et les rapports médicaux. Les halluillages peuvent faire par l’IA avec confiance pour fournir un diagnostic incorrect ou recommander des traitements potentiellement dangereux sur la base de faits imaginables et de fausses logicques. Les conséquences de telles erreurs dans le domaine médical peuvent être très mortelles.

Des réserves similaires s’appliquent à d’autres domaines critiques tels que l’aviation, l’énergie nucléaire, les opérations maritimes et la cybersécurité. Nous ne nous attendons pas au GPT-5 de résoudre pleinement le problème de l’halucination, mais nous espérons réduire considérablement la probabilité de de tels incidents.

Si nous attendons avec impatience le lancement officiel du modèle d’IA très attendu, une chose est certaine : le GPT-5 a le potentiel de redéfinir les limites possible avec l’intelligence artificielle, ce qui apporte une nouvelle ère de collaboration et d’innovation entre humains et machines.