GPT-5.5 : OpenAI double ses prix, domine le codage agentique et affiche une limite qui dérange

Six semaines après GPT-5.4, OpenAI annonce GPT-5.5 le 23 avril 2026 : premier modèle entièrement réentraîné depuis GPT-4.5, fenêtre de contexte d'un million de tokens, tarifs doublés. Le modèle s'impose sur les benchmarks agentiques et scientifiques. Mais les évaluations indépendantes font apparaître un taux d'hallucination de 86 % sur AA-Omniscience, contre 36 % pour Claude Opus 4.7, ce qui complexifie le tableau.

Résumé exécutif

OpenAI a lancé GPT-5.5 le 23 avril 2026, disponible immédiatement pour les abonnés Plus, Pro, Business et Enterprise de ChatGPT. Le modèle est décrit par la société comme son "modèle le plus intelligent et le plus intuitif à ce jour". C'est le premier modèle de base entièrement réentraîné depuis GPT-4.5 et son architecture a été repensée pour les workflows agentiques. Côté tarification, le prix passe à 5 dollars pour un million de tokens en entrée et 30 dollars en sortie, contre 2,50 et 15 dollars pour GPT-5.4, soit un doublement. Une variante GPT-5.5 Pro, facturée 30 et 180 dollars, est disponible pour les abonnés Pro, Business et Enterprise. La fenêtre de contexte atteint un million de tokens via l'API et 400 000 tokens sur Codex. Sur les benchmarks tiers, le modèle affiche des résultats contrastés : leader sur Terminal-Bench 2.0 (82,7 %) et sur l'Intelligence Index (score 60), mais en retrait sur SWE-Bench Pro (58,6 % contre 64,3 % pour Opus 4.7) et sur le multilingue, et surtout concernant sur AA-Omniscience avec un taux d'hallucination de 86 % contre 36 % pour Opus 4.7.

Les faits

GPT-5.5 a été annoncé le 23 avril 2026, six semaines après GPT-5.4, confirmant une cadence de publication inédite dans l'industrie.
C'est, selon OpenAI, le premier modèle de base entièrement réentraîné depuis GPT-4.5, avec une architecture repensée pour les tâches agentiques.
Fenêtre de contexte : 1 million de tokens via l'API (équivalent à environ 750 000 mots, soit plusieurs milliers de pages de documents), 400 000 tokens sur Codex.
Tarification : GPT-5.5 à 5 $ / 30 $ par million de tokens en entrée/sortie (doublement par rapport à GPT-5.4 à 2,50 $ / 15 $). GPT-5.5 Pro à 30 $ / 180 $. C'est la plus forte hausse de prix sur une seule sortie dans la série GPT-5.x.
Disponibilité : utilisateurs Plus, Pro, Business et Enterprise de ChatGPT. GPT-5.5 Pro réservé aux abonnés Pro, Business et Enterprise.
Domaines de force revendiqués : codage agentique, utilisation d'ordinateur (computer use), travail de connaissance, recherche scientifique et technique, découverte de médicaments.
Selon OpenAI, le modèle est plus rapide que GPT-5.4 à niveau de qualité équivalent, consommant moins de tokens pour les mêmes tâches, tout en maintenant la même latence par token.
Benchmarks tiers : Terminal-Bench 2.0 à 82,7 % (Opus 4.7 : 69,4 %), GDPval à 84,9 %, Intelligence Index à 60 points (premier). En revanche : SWE-Bench Pro à 58,6 % (Opus 4.7 : 64,3 %), multilingue à 83,2 % (Opus 4.7 : 91,5 %), et taux d'hallucination AA-Omniscience à 86 % contre 36 % pour Opus 4.7.
GPT-5.5 alimente également Codex, l'agent de codage d'OpenAI, en partenariat avec l'infrastructure NVIDIA.
OpenAI revendique les "safeguards" les plus solides à ce jour, avec des tests ciblés sur les capacités avancées en cybersécurité et biologie.
Le lancement s'inscrit dans une stratégie de "super app" visant à unifier ChatGPT, Codex et un navigateur IA pour les clients enterprise.

Analyse stratégique

GPT-5.5 est avant tout un signal sur la direction stratégique d'OpenAI : le modèle ne vise plus seulement à répondre à des questions, il est conçu pour exécuter des tâches complexes de façon autonome sur la durée. La refonte complète de l'architecture depuis GPT-4.5 n'est pas un détail technique, c'est une rupture de conception. Le terme "agentique" n'est plus un argument commercial, il correspond à des benchmarks mesurables sur lesquels GPT-5.5 prend une avance nette sur la concurrence, notamment Terminal-Bench 2.0 où l'écart avec Opus 4.7 est de 13 points.

Le doublement des tarifs est le signal économique le plus structurant de cette sortie. OpenAI fait le pari que la valeur créée par les workflows agentiques justifie une montée en gamme tarifaire. Ce pari est cohérent si la cible est l'enterprise, où la valeur d'une heure de travail cognitif automatisé dépasse très largement le coût marginal d'utilisation de l'API. En revanche, pour les développeurs indépendants et les startups en phase de croissance, ce doublement constitue une pression significative qui peut accélérer les migrations vers des alternatives moins chères, open source ou non.

Le taux d'hallucination de 86 % relevé sur le benchmark AA-Omniscience par des évaluateurs tiers mérite une attention particulière. Il ne s'agit pas d'un chiffre publié par OpenAI, et les conditions exactes de ce benchmark doivent être prises en compte dans l'interprétation. Cela dit, l'écart avec Opus 4.7 (36 %) est de 50 points et ne peut pas être simplement balayé. Pour les cas d'usage où la précision factuelle est critique (droit, médecine, finance, compliance), ce signal est disqualifiant tant qu'il n'est pas contredit par des évaluations indépendantes supplémentaires. La force agentique de GPT-5.5 et sa faiblesse factuelle ne sont pas nécessairement contradictoires : un modèle peut être très efficace pour exécuter des séquences d'actions tout en étant peu fiable sur des affirmations de faits isolés.

La cadence de publication, avec une sortie toutes les six semaines environ, transforme la relation entre OpenAI et ses utilisateurs enterprise. Elle oblige ces derniers à gérer des migrations régulières, à tester et valider des comportements en production à un rythme difficile à absorber pour des équipes d'ingénierie. C'est un avantage compétitif à court terme pour OpenAI (toujours en avance), mais potentiellement un irritant opérationnel à moyen terme.

Impact business / sectoriel

Pour les équipes de développement logiciel : GPT-5.5 prend la tête sur Terminal-Bench 2.0 avec un écart significatif sur ses concurrents. Pour les workflows de codage agentique, d'automatisation de tests et de revue de code, c'est le modèle à évaluer en priorité. La faiblesse sur SWE-Bench Pro (tâches de résolution de bugs réels) tempère cependant ce tableau.
Pour les secteurs à forte exigence factuelle (juridique, finance, santé) : le taux d'hallucination relevé sur AA-Omniscience est un signal d'alerte qui justifie une validation indépendante avant tout déploiement en production. L'usage en assistance ou brouillon reste pertinent, mais toute automatisation de flux décisionnels nécessite une vérification humaine renforcée.
Pour la recherche et la science : OpenAI cite explicitement la découverte de médicaments et les workflows de recherche scientifique parmi les cas d'usage de GPT-5.5. La combinaison d'une fenêtre de contexte d'un million de tokens et de capacités agentiques ouvre des perspectives concrètes pour l'analyse de corpus scientifiques volumineux.
Pour les éditeurs de logiciels et intégrateurs : le doublement des coûts API impose une révision des modèles de pricing et des marges. Les applications construites sur GPT-5.4 devront absorber cette hausse ou migrer vers des alternatives. La compatibilité des contextes et des prompts avec la nouvelle version reste à vérifier cas par cas.
Pour les concurrents (Anthropic, Google, DeepSeek) : la pression s'intensifie sur le terrain agentique, qui s'impose comme le nouveau champ de bataille principal. L'avance de GPT-5.5 sur Terminal-Bench 2.0 est réelle, mais les faiblesses identifiées sur le multilingue et la fiabilité factuelle laissent des espaces de différenciation exploitables.

Ce qu'il faut retenir

GPT-5.5 acte un pivot clair d'OpenAI vers les usages agentiques et enterprise. La refonte complète de l'architecture, la fenêtre de contexte d'un million de tokens et les performances sur Terminal-Bench 2.0 confirment que le modèle est conçu pour exécuter, pas seulement répondre. La montée tarifaire simultanée signale qu'OpenAI considère avoir franchi un seuil de valeur qui justifie une capture plus agressive de la valeur créée.

Le taux d'hallucination relevé sur AA-Omniscience par des évaluateurs tiers est la variable la plus importante à surveiller dans les semaines suivant ce lancement. Si ce chiffre résiste à la vérification indépendante, il constitue un frein structurel au déploiement de GPT-5.5 dans les secteurs à contrainte réglementaire. C'est précisément là que se joue la vraie bataille : non pas sur les benchmarks de vitesse ou de raisonnement, mais sur la fiabilité factuelle dans des contextes à fort enjeu.

GPT-5.5 : OpenAI double ses prix, domine le codage agentique et affiche une limite qui dérange

Résumé exécutif

Les faits

Analyse stratégique

Impact business / sectoriel

Ce qu'il faut retenir

Nvidia Nemotron 3 Nano Omni: modele multimodal

IA et satellites: localiser le Charles de Gaulle

DeepSeek V4: 1 million de tokens