Les IA disent-elles toujours la vérité ?

Publié le 10 Oct, 2025
Les IA disent-elles toujours la vérité ?

Les modèles de langage (LLM) d’aujourd’hui accomplissent des prouesses qui auraient relevé de la science-fiction il y a encore dix ans. Ils rédigent des dissertations cohérentes, résolvent des problèmes complexes, réussissent des examens universitaires avec des scores qui feraient pâlir bien des étudiants. Cette sophistication apparente masque pourtant un phénomène troublant : ces mêmes systèmes inventent régulièrement des informations qu’ils présentent avec une assurance absolue.

Les chercheurs d’OpenAI et Georgia Tech ont documenté un cas particulièrement révélateur. Lorsqu’ils ont demandé au modèle DeepSeek-V3 (le 11 mai 2025) la date de naissance d’Adam Tauman Kalai, l’un des auteurs de l’étude, celui-ci a proposé avec aplomb « 03-07 ». Interrogé à nouveau, il affirme cette fois « 15-06 », puis « 01-01 » lors d’un troisième essai. Trois réponses différentes, toutes fausses, toutes énoncées avec la même certitude.

Le détail le plus troublant : le modèle avait reçu l’instruction explicite de ne répondre que s’il connaissait vraiment l’information…

Qu’est-ce qu’une hallucination en IA ?

Dans le contexte de l’intelligence artificielle, une hallucination n’est ni une erreur de calcul classique, ni un mensonge intentionnel. C’est la génération d’informations plausibles mais factuellement incorrectes, présentées avec assurance comme si elles étaient vraies.

Cette définition mérite qu’on s’y attarde, car elle distingue trois phénomènes souvent confondus :

Une erreur relève du dysfonctionnement technique, du bug dans le code qui fait planter le système ou produit un résultat aberrant.

Un mensonge, lui, supposerait une intention de tromper, une conscience de la vérité qu’on choisit de dissimuler (capacité que les IA actuelles ne possèdent pas).

L’hallucination, elle, se situe ailleurs : c’est une fabrication statistiquement cohérente mais factuellement fausse, générée par les mécanismes mêmes qui permettent au modèle de produire du texte fluide et pertinent.

Le terme « hallucination » est emprunté à la psychologie humaine, mais l’analogie s’arrête là. Quand un humain hallucine, il perçoit quelque chose qui n’existe pas, son cerveau créant une expérience sensorielle sans stimulus externe. Chez l’IA, le phénomène est purement statistique : le modèle génère la suite de mots la plus probable selon ses calculs, sans aucune perception ni conscience de la réalité qu’il décrit. C’est cette déconnexion fondamentale entre plausibilité statistique et vérité factuelle qui crée le phénomène.

Les racines statistiques du problème

Les travaux d’Adam Tauman Kalai et de son équipe d’OpenAI et Georgia Tech bouleversent notre compréhension du phénomène. Leur conclusion est contre-intuitive : les hallucinations ne constituent pas des défauts techniques qu’une mise à jour pourrait éliminer. Elles émergent naturellement des principes mêmes qui gouvernent l’apprentissage de ces systèmes. En d’autres termes, ce que nous percevons comme un dysfonctionnement fait en réalité partie intégrante de leur mode de fonctionnement. Les chercheurs démontrent mathématiquement que ces inventions factuelles sont inscrites dans l’ADN statistique des modèles de langage. Il s’agit d’une caractéristique inhérente plutôt qu’un accident de parcours.

L’apprentissage par mimétisme statistique

Durant la phase de pré-entraînement, un modèle de langage apprend à prédire la suite probable d’un texte en analysant des milliards de documents. Cette approche statistique signifie que le modèle cherche toujours à produire quelque chose de plausible, même quand il devrait admettre son ignorance. Les chercheurs démontrent mathématiquement que même avec des données d’entraînement parfaites (sans aucune erreur), des hallucinations peuvent persister pour certains types de faits. C’est une limite fondamentale de l’apprentissage statistique.

Le piège des faits rares

Le piège des faits rares mérite qu’on s’y attarde. Imaginez les milliards de documents sur lesquels un modèle s’entraîne. Certaines informations y apparaissent des milliers de fois (la date de naissance d’Einstein, la capitale de la France), d’autres une seule fois. Ces informations uniques, que les chercheurs appellent des « singletons », posent un problème particulier.

Quand le modèle n’a vu qu’un seul exemple d’une information, il ne peut pas en extraire de pattern fiable. Il improvise. L’étude démontre mathématiquement cette vulnérabilité : si 20% des faits dans les données d’entraînement sont des singletons (mentionnés une seule fois), le modèle aura tendance à halluciner sur une proportion équivalente de ces faits lors des questions.

C’est une loi d’airain statistique : la rareté engendre l’invention. Plus un fait est rare dans les données d’entraînement, plus le modèle risque de l’inventer plutôt que de le restituer correctement. C’est pourquoi les modèles peuvent parfaitement citer la date de naissance d’Einstein (information fréquente) mais inventent celle de chercheurs moins connus.

L’incapacité calibrée à dire « je ne sais pas »

Un paradoxe surprenant émerge des recherches. Au départ, juste après leur entraînement initial, les modèles possèdent une forme d’humilité statistique. Ils peuvent, dans une certaine mesure, reconnaître quand ils ne sont pas sûrs d’une réponse. Cette prudence native existe bel et bien dans leur architecture (les auteurs montrent mathématiquement que δ est petit sous l’objectif cross-entropy). Mais voici le problème : les étapes suivantes d’optimisation détruisent cette prudence.

Pourquoi ? Parce que dans les tests d’évaluation utilisés pour améliorer ces modèles, une réponse fausse obtient souvent un meilleur score que pas de réponse du tout. Le système apprend qu’il vaut mieux tenter sa chance que de rester muet. L’incertitude devient un luxe qu’il ne peut plus se permettre. C’est ainsi qu’un modèle initialement capable de douter se transforme en oracle trop sûr de lui, préférant inventer avec assurance plutôt que d’avouer son ignorance.

Des exemples révélateurs

L’étude documente plusieurs types d’hallucinations qui éclairent la nature profonde du phénomène.

Le cas du comptage de lettres révèle une limitation architecturale fascinante. À la question « Combien de D dans ‘DEEPSEEK’ ? », des modèles de dernières générations ont donné des réponses contradictoires : « 2 », « 3 », parfois même « 6 » ou « 7 » selon les tentatives. Cette incohérence s’explique par la façon dont ces systèmes découpent le langage. Ils ne voient pas les lettres individuelles mais des « tokens », des morceaux de mots traités comme des unités indivisibles. Le modèle devine plutôt qu’il ne compte, créant cette valse des chiffres erronés.

Les hallucinations académiques forment une catégorie particulièrement embarrassante. Quand trois modèles populaires ont été interrogés sur le titre de la thèse d’Adam Kalai, chacun a inventé sa propre fiction académique. L’un a imaginé « Boosting, Online Algorithms, and Other Topics in Machine Learning » soutenue au MIT en 2002. Un autre a proposé « Algebraic Methods in Interactive Machine Learning » à Harvard en 2005. Le troisième a créé « Efficient Algorithms for Learning and Playing Games » au MIT en 2007. Le véritable titre de la thèse d’Adam T. Kalai (CMU, 2001) est « Probabilistic and On-line Methods in Machine Learning« . Trois titres plausibles, trois universités prestigieuses, trois années différentes. Tout était faux. Aucun modèle n’a eu la sagesse de répondre simplement qu’il ignorait l’information.

Les chercheurs distinguent deux catégories fondamentales d’hallucinations :

Les hallucinations intrinsèques contredisent directement la question posée, comme affirmer qu’il y a deux « D » dans un mot qui n’en contient qu’un.

Les hallucinations extrinsèques, elles, contredisent la réalité externe ou les données d’entraînement, comme inventer une date de naissance ou un titre de thèse.

Cette distinction révèle que le problème ne se limite pas à une mauvaise compréhension de la question : même quand le modèle comprend parfaitement ce qu’on lui demande, il peut fabriquer une réponse déconnectée de toute réalité.

Pourquoi est-ce préoccupant ?

Les implications de ces hallucinations dépassent largement le cadre technique. Au cœur du problème se trouve une question de confiance fondamentale : comment s’appuyer sur un système qui entremêle vérités et inventions sans aucun signal distinctif ? Cette ambiguïté mine la fiabilité même de l’outil, transformant chaque réponse en pari sur son exactitude.

Les conséquences deviennent particulièrement inquiétantes dans les domaines sensibles. En médecine, une hallucination sur un dosage médicamenteux ou une interaction pharmacologique pourrait mettre des vies en danger. Un diagnostic inventé, présenté avec l’assurance caractéristique de ces modèles, pourrait orienter à tort une prise en charge thérapeutique. Dans le domaine juridique, l’invention d’une jurisprudence ou d’un précédent légal pourrait influencer une plaidoirie, voire une décision de justice, avec des répercussions sur la liberté ou les droits des personnes concernées.

Un phénomène plus insidieux s’installe progressivement : l’érosion de la confiance. Chaque découverte d’une hallucination ébranle la crédibilité de l’ensemble du système. Les utilisateurs, échaudés par des erreurs factuelles, deviennent méfiants même envers les informations correctes. Cette défiance généralisée compromet l’utilité même de ces outils, créant un paradoxe où leur sophistication croissante s’accompagne d’une confiance décroissante. La pollution informationnelle constitue une autre dimension du problème. Les hallucinations plausibles, précisément parce qu’elles semblent crédibles, peuvent être reprises, citées et diffusées comme des faits établis. Elles s’intègrent alors dans le flux d’information, créant de fausses références qui peuvent être ensuite réutilisées par d’autres systèmes ou citées dans des travaux, amplifiant ainsi la désinformation dans une boucle de rétroaction particulièrement pernicieuse.

Une caractéristique, pas un bug

La découverte la plus dérangeante de cette recherche tient en une révélation : les hallucinations ne constituent pas un défaut technique qu’une équipe d’ingénieurs pourrait corriger avec suffisamment de temps et de ressources. Elles émergent directement de la méthode d’entraînement elle-même.

Le problème s’enracine dans un conflit fondamental. Ces modèles apprennent en analysant des milliards de textes pour prédire statistiquement la suite la plus probable d’une phrase. Leur succès se mesure à leur capacité à produire du texte plausible, pas nécessairement vrai. Quand un modèle hésite entre avouer son ignorance et proposer une réponse vraisemblable, son entraînement le pousse systématiquement vers la seconde option. Il a été récompensé des millions de fois pour avoir complété des phrases de manière cohérente, jamais pour avoir dit « je ne sais pas« .

Cette logique d’apprentissage crée une asymétrie perverse. Un modèle qui génère « La capitale de la France est Paris » et « Adam Kalai est né le 15 juin » obtient le même score de plausibilité statistique, même si la première affirmation est vraie et la seconde inventée. Tant que nous entraînerons ces systèmes à maximiser la vraisemblance plutôt que la véracité, tant que nous les récompenserons pour leur fluidité linguistique plutôt que pour leur exactitude factuelle, les hallucinations resteront une caractéristique inhérente, non un bug à corriger.

Cette réalité nous place face à un paradoxe troublant. Nous avons créé des machines qui excellent dans l’art de paraître savantes sans nécessairement l’être. Des systèmes qui manient le langage avec une aisance confondante mais qui confondent cohérence statistique et vérité. Des assistants dont la sophistication masque une incapacité structurelle à distinguer ce qu’ils savent de ce qu’ils inventent. Si les hallucinations sont effectivement inscrites dans l’ADN de ces modèles, si elles découlent inévitablement de leur mode d’apprentissage, une question s’impose : devons-nous repenser entièrement notre approche de l’intelligence artificielle ou apprendre à vivre avec des oracles statistiques brillants mais fondamentalement peu fiables ?

Références : 
Adam T. Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang. Why Language Models Hallucinate. Prépublication arXiv:2509.04664, 4 septembre 2025. https://arxiv.org/abs/2509.04664

OpenAI. Why language models hallucinate. 5 septembre 2025. https://openai.com/index/why-language-models-hallucinate/

Adam T. Kalai. Probabilistic and On-line Methods in Machine Learning. PhD Thesis, Carnegie Mellon University, School of Computer Science, 2001.
https://csd.cmu.edu/sites/default/files/phd-thesis/CMU-CS-01-132.pdf
Découvrez Radio Mercure - Une nouvelle Radio Web Culturelle | www.radio-mercure.com

Dernières publications

Ces publications pourraient vous intéresser …