Humanity’s Last Exam : l’examen qui pousse l’IA dans ses derniers retranchements

Articles et publications | Intelligence artificielle

Publié le 12 Déc, 2025

Humanity’s Last Exam – l’examen qui pousse l’IA dans ses derniers retranchements

Les modèles d’intelligence artificielle progressent si rapidement qu’ils rendent obsolètes les tests censés mesurer leurs capacités. GPT-4, Claude ou Gemini obtiennent désormais des scores si élevés sur les benchmarks traditionnels que ces évaluations perdent leur pertinence. Face à cette saturation, les chercheurs conçoivent des examens d’un nouveau genre, plus exigeants et plus révélateurs des véritables limites de l’IA.

Parmi ces nouveaux défis émerge Humanity’s Last Exam (le dernier examen de l’humanité), un benchmark au nom provocateur qui ambitionne de repousser les frontières du savoir académique accessible aux machines. Conçu par le Center for AI Safety et Scale AI, ce test révèle que même les modèles les plus avancés peinent encore face à la complexité du raisonnement humain expert.

Pourquoi les tests traditionnels ne suffisent plus

Les benchmarks constituent l’étalon de mesure des capacités des modèles de langage. Ils permettent de comparer objectivement les performances et d’identifier les domaines de progrès. Mais leur efficacité dépend de leur capacité à distinguer les modèles entre eux.

Or, les tests classiques comme MMLU (Massive Multitask Language Understanding) atteignent leurs limites. Les meilleurs modèles y obtiennent des scores supérieurs à 90%, rendant difficile l’évaluation des progrès futurs. Cette saturation pousse les chercheurs à concevoir des évaluations plus sophistiquées.

Les nouveaux benchmarks multiplient les approches. AGIEval teste les modèles sur des examens humains standardisés (SAT, LSAT, Gaokao chinois), révélant leurs capacités de raisonnement structuré. GPQA et son extension SuperGPQA proposent des questions de niveau doctoral dans les sciences exactes. ARC-AGI explore le raisonnement abstrait, tandis que MathVista combine compréhension visuelle et résolution mathématique.

Ces tests de nouvelle génération partagent un objectif commun : identifier les lacunes persistantes de l’IA plutôt que de célébrer ses réussites.

Un examen né de la frustration

Humanity’s Last Exam naît d’une observation partagée par Dan Hendrycks, directeur du Center for AI Safety, et Elon Musk : les évaluations existantes sont devenues trop faciles pour les modèles actuels. Cette discussion informelle débouche sur un projet ambitieux visant à créer le test le plus difficile jamais conçu pour une IA.

Le nom choisi, délibérément provocateur, souligne l’ambition du projet. Il ne s’agit pas du dernier examen que passera l’humanité avant d’être surpassée par les machines, mais plutôt du test ultime pour révéler les limites actuelles de l’intelligence artificielle.

La construction de ce benchmark mobilise une approche collaborative inédite. Plusieurs centaines de chercheurs et professeurs du monde entier sont invités à soumettre leurs questions les plus ardues. Un système de récompenses financières (jusqu’à 5000 dollars pour les meilleures contributions) encourage la participation et garantit la qualité des soumissions.

Le processus de validation suit une logique inversée par rapport aux benchmarks classiques. Les questions sont d’abord testées sur les modèles d’IA les plus performants. Celles qui les mettent en échec ou les font performer moins bien que le hasard sont retenues après validation par des experts humains lors de deux tours de révision.

Cette méthode garantit que chaque question du benchmark constitue réellement un défi pour l’IA contemporaine, évitant l’écueil des tests rapidement dépassés par les progrès techniques.

Un test à la mesure de l’expertise humaine

Humanity’s Last Exam rassemble entre 2500 et 3000 questions couvrant plus d’une centaine de disciplines académiques. Les mathématiques dominent avec 41% des questions, suivies par la biologie et la médecine (11%), puis l’informatique (10%). Cette répartition reflète les domaines où l’expertise humaine atteint ses plus hauts niveaux de complexité.

Le benchmark intègre une dimension multimodale significative : environ 14% des questions requièrent la compréhension simultanée de textes et d’images. Cette approche teste la capacité des modèles à traiter des informations complexes dans des formats variés, comme le font naturellement les experts humains.

Les formats de questions diversifient les défis cognitifs. Si 24% adoptent le format QCM traditionnel, la majorité exige des réponses courtes à correspondance exacte, éliminant la possibilité de réussir par élimination ou approximation.

Un jeu de données public de 2500 questions permet aux chercheurs d’évaluer leurs modèles, tandis qu’un ensemble privé plus restreint évite les risques de surapprentissage qui fausseraient les résultats.

Des performances qui révèlent les limites actuelles

Les résultats de Humanity’s Last Exam dressent un constat nuancé sur l’état actuel de l’IA. Les modèles les plus performants montrent des écarts significatifs selon leurs versions et spécialisations. GPT-5 Pro d’OpenAI, la version la plus avancée avec capacités de raisonnement étendues, atteint 42% de réussite sur le benchmark multimodal. Les autres versions d’OpenAI, comme o3 en mode « high », plafonnent autour de 20% sur les questions textuelles uniquement.

Gemini 2.5 Pro Preview de Google obtient 18,38% de réussite avec un taux d’erreur de calibration de 70%, révélant des difficultés de confiance dans ses propres réponses. Les modèles d’autres acteurs, comme Qwen3 d’Alibaba, atteignent environ 12% de réussite.

Ces chiffres contrastent fortement avec les performances de ces mêmes modèles sur des tâches plus conventionnelles, révélant l’existence de lacunes profondes dans leur compréhension et leur raisonnement.

Tableau des performances sur Humanity’s Last Exam

Modèle	Développeur	Précision	Erreur de calibration
GPT-5 Pro	OpenAI	42,0%	n.d.
o3 (high)	OpenAI	20,57%	36%
o3 (medium)	OpenAI	19,78%	37%
o4-mini (high)	OpenAI	18,90%	58%
Gemini 2.5 Pro Preview	Google	18,38%	70%
o4-mini (medium)	OpenAI	14,53%	58%
o3 mini (high)	OpenAI	13,37%	80%
Gemini 2.5 Flash	Google	12,58%	81%
Qwen3-235B-A22B	Alibaba	11,75%	74%

Résultats datés d’avril 2025 selon le leaderboard SEAL officiel.

L’erreur de calibration mesure l’écart entre la confiance exprimée par le modèle et sa précision réelle.

Un révélateur des défis à venir

Humanity’s Last Exam fonctionne comme un test adversarial intentionnel, conçu pour identifier les failles des systèmes d’IA actuels. Les questions peuvent porter sur des domaines aussi variés que la chimie avancée, l’épigraphie ancienne, ou des problèmes mathématiques de niveau recherche.

Cette difficulté extrême sert un objectif stratégique : mieux comprendre les limites de l’IA pour anticiper les risques et orienter les développements futurs. Dans un contexte où l’intelligence artificielle influence de plus en plus les décisions politiques et économiques, cette connaissance des limitations devient cruciale.

Le benchmark soulève également des questions sur l’éthique de l’évaluation. Ses créateurs évitent soigneusement les contenus sensibles (armement, par exemple) et maintiennent une transparence complète sur leurs méthodes. Cette approche responsable contraste avec d’autres initiatives moins scrupuleuses dans le domaine.

Certains critiques jugent le nom « Humanity’s Last Exam » trop alarmiste. Des propositions alternatives comme « Humanity’s Best Exam » émergent, recentrant l’objectif sur la contribution positive de l’IA à la société plutôt que sur une vision dystopique de remplacement de l’humain.

Au-delà de la performance, une réflexion sur l’intelligence

L’existence de Humanity’s Last Exam interroge la nature même de l’intelligence artificielle. Ces questions ultra-spécialisées ont-elles vraiment du sens pour évaluer une IA destinée à assister les humains dans leurs tâches quotidiennes ?

La réponse dépasse la simple performance technique. Un modèle capable de réussir ce test disposerait d’une compréhension du monde suffisamment profonde pour aborder des problèmes inédits avec une expertise de niveau humain. Cette capacité de généralisation constitue l’un des objectifs ultimes de la recherche en IA.

Inversement, l’échec relatif des modèles actuels rappelle que l’intelligence artificielle reste spécialisée dans des tâches spécifiques. Malgré leurs prouesses impressionnantes, ces systèmes ne possèdent pas encore la flexibilité cognitive qui caractérise l’expertise humaine.

Cette perspective influence déjà la conception des futurs modèles. Les chercheurs intègrent les leçons de ces benchmarks exigeants pour améliorer les architectures, les méthodes d’entraînement et les processus de calibration.

Vers une évaluation plus constructive

L’évolution future des benchmarks pourrait inverser la logique actuelle. Plutôt que de chercher à mettre en échec l’IA, les prochains tests pourraient mesurer sa capacité à contribuer positivement à la société : diagnostic médical, résolution de défis climatiques, ou assistance à la recherche scientifique.

Cette approche constructive maintiendrait l’exigence technique tout en orientant le développement de l’IA vers des applications bénéfiques. Elle éviterait également l’écueil d’une course à la difficulté qui pourrait éloigner la recherche des besoins réels.

Les limites des benchmarks méritent aussi une vigilance constante. Aucun test, aussi sophistiqué soit-il, ne peut capturer intégralement la complexité de l’intelligence. Les risques de biais, d’erreurs dans les données, ou de sur-optimisation des modèles sur ces tests spécifiques restent présents.

L’intelligence artificielle face à ses propres limites

Humanity’s Last Exam révèle que l’intelligence artificielle, malgré ses progrès spectaculaires, demeure loin de l’expertise humaine dans de nombreux domaines. Cette constatation n’enlève rien aux capacités remarquables des modèles actuels, mais replace leur développement dans une perspective plus réaliste.

Le benchmark illustre aussi l’importance d’une évaluation rigoureuse et continue des systèmes d’IA. À mesure que ces technologies s’intègrent dans des secteurs critiques, la compréhension de leurs limites devient aussi importante que la célébration de leurs réussites.

L’enjeu dépasse la simple performance technique. Il s’agit de construire une intelligence artificielle qui complète et augmente les capacités humaines plutôt que de les remplacer. Cette collaboration suppose une connaissance précise des forces et faiblesses de chaque partenaire.

Humanity’s Last Exam, au-delà de son nom provocateur, offre un outil précieux pour naviguer dans cette complexité. En révélant où l’IA échoue encore, il éclaire le chemin vers une intelligence artificielle plus fiable, plus transparente et mieux intégrée dans notre société.

Découvrez Radio Mercure - Une nouvelle Radio Web Culturelle | www.radio-mercure.com

Écouter la radio

Dernières publications

Classement des IA : le vote du public compte-t-il plus que les tests officiels ?

Déc 19, 2025 | Articles et publications, Intelligence artificielle

Les benchmarks techniques sont-ils vraiment représentatifs de votre usage quotidien de l'IA ? Cette question traverse de plus en plus souvent les discussions sur l'intelligence artificielle. Alors que les laboratoires multiplient les tests sophistiqués pour mesurer...

Traduction en temps réel : la révolution silencieuse qui transforme le monde

Déc 5, 2025 | Articles et publications, Intelligence artificielle

La vidéo dure moins d'une minute. On y voit deux personnes en visioconférence qui conversent naturellement. L'une s'exprime en espagnol, l'autre en anglais. Entre elles, aucun interprète humain, mais Google Translate dans une démonstration de ses capacités futures. La...

Et si le progrès consistait à douter ? L’hypothèse qui bouleverse les modèles de langage

Nov 28, 2025 | Articles et publications, Intelligence artificielle

Dans un de nos précédents articles, nous avons exploré pourquoi les modèles de langage inventent des informations avec une assurance déconcertante. Les hallucinations, avons-nous démontré, ne sont pas des bugs à corriger mais des conséquences directes de leur mode...

Les agents IA autonomes : promesse d’efficacité ou risque mal calibré ?

Nov 21, 2025 | Articles et publications, Intelligence artificielle

L’intelligence artificielle change de nature. Nous avons appris à dialoguer avec des assistants capables de générer du texte, de répondre à des questions, de synthétiser des documents. Mais une nouvelle catégorie émerge : celle des agents IA autonomes, capables non...

L’AI Act européen : ce qui change vraiment pour le secteur tech à partir de 2026

Nov 14, 2025 | Articles et publications, Intelligence artificielle

L'Europe entre dans la dernière ligne droite avant l'application complète de l'AI Act. Si le texte est entré en vigueur le 1er août 2024, avec des premières obligations dès février 2025 (interdictions et formation "AI literacy") et août 2025 (modèles généralistes),...

FONDATION MERCURIUS A.I.

Humanity’s Last Exam : l’examen qui pousse l’IA dans ses derniers retranchements

Pourquoi les tests traditionnels ne suffisent plus

Un examen né de la frustration

Un test à la mesure de l’expertise humaine

Des performances qui révèlent les limites actuelles

Tableau des performances sur Humanity’s Last Exam

Un révélateur des défis à venir

Au-delà de la performance, une réflexion sur l’intelligence

Vers une évaluation plus constructive

L’intelligence artificielle face à ses propres limites

Dernières publications

Classement des IA : le vote du public compte-t-il plus que les tests officiels ?

Traduction en temps réel : la révolution silencieuse qui transforme le monde

Et si le progrès consistait à douter ? L’hypothèse qui bouleverse les modèles de langage

Les agents IA autonomes : promesse d’efficacité ou risque mal calibré ?

L’AI Act européen : ce qui change vraiment pour le secteur tech à partir de 2026

Ces publications pourraient vous intéresser …

Classement des IA : le vote du public compte-t-il plus que les tests officiels ?

Traduction en temps réel : la révolution silencieuse qui transforme le monde

Et si le progrès consistait à douter ? L’hypothèse qui bouleverse les modèles de langage