Alors que les modèles d’intelligence artificielle affichent des performances impressionnantes en mathématiques, capable de décrocher des médailles d’or aux Olympiades internationales, leur aptitude à accomplir des tâches élémentaires, comme lire une horloge analogique, montre des limites étonnantes. Ce fossé, mis en lumière dans le rapport AI Index 2026 de Stanford, illustre une intelligence dont les compétences sont très inégalement réparties, un phénomène décrit par les chercheurs sous le nom de « jagged intelligence ». Entre prouesses complexes et erreurs quotidiennes, cette situation invite à reconsidérer les attentes vis-à-vis de l’automatisation et à tester systématiquement les IA sur des cas d’usage pratiques avant implantation en entreprise ou dans la vie courante.
En bref :
- Les IA gagnent des médailles d’or aux Olympiades internationales de mathématiques, résolvant des problèmes complexes en quelques heures.
- Malgré cela, elles ne dépassent que 50,6 % de réussite dans la lecture d’horloges analogiques, avec des erreurs allant jusqu’à plusieurs heures.
- Cette disparité, appelée « jagged intelligence », souligne que les progrès en IA ne sont pas uniformes et varient selon les types de tâches.
- En robotique, les systèmes réussissent bien en simulation, mais échouent sur la quasi-totalité des tâches ménagères réalistes.
- Il est crucial pour les professionnels du digital de mesurer la performance de l’IA sur leurs propres cas d’usage avant de l’adopter.
Triomphe de l’IA aux Olympiades internationales de mathématiques : un bond technologique spectaculaire
Les dernières éditions des Olympiades internationales de mathématiques ont vu des performances sans précédent de la part des modèles d’IA. En 2025, le modèle Gemini Deep Think de Google a émergé en tête, décrochant une médaille d’or en résolvant cinq des six problèmes dans le temps imparti, soit 4 heures 30, et cela entièrement en langage naturel. Ce résultat est un saut qualitatif notable, comparé à 2024 où il lui avait fallu traduire les énoncés en langage formel et plusieurs jours de calcul.
Ces IA démontrent une maîtrise exceptionnelle des structures logiques et des chaînes de raisonnement, ainsi qu’une rapidité de calcul qui laisse loin derrière les meilleurs mathématiciens humains. Cette avancée s’appuie sur des cadres mathématiques solides, permettant à ces systèmes de tester différentes stratégies et valider des étapes complexes de manière autonome.
Des erreurs surprenantes dans les tâches simples du quotidien
Si les exploits en mathématiques ont de quoi impressionner, les mêmes IA atteignent des performances bien plus modestes sur des tâches qui paraissent élémentaires à l’humain. Prenons la lecture d’horloges analogiques : sur ClockBench, un test qui évalue la capacité des modèles à reconnaître l’heure sur 180 designs différents, le meilleur modèle GPT-5.4 High plafonne à 50,6 % de réussite, contre plus de 90 % chez l’humain.
Mais ce qui interpelle le plus, ce sont les erreurs en termes de décalage horaire. Alors que les humains se trompent généralement de quelques minutes, l’erreur médiane des IA varie entre 1 à 3 heures. Cela reflète un vrai problème d’interprétation visuelle, où le modèle peine à distinguer correctement l’aiguille des heures de celle des minutes, ce qui fausse ensuite toute estimation.
Jagged intelligence : quand les capacités de l’IA sont en dents de scie
Cette disparité frappante fait l’objet d’un concept clé du rapport AI Index 2026, baptisé « jagged intelligence ». Il s’agit d’un constat fondamental : un même modèle peut exceller dans des tâches très complexes et échouer lamentablement sur des tâches jugées triviales. Cette réalité met en lumière des limites profondes dans la manière dont l’IA traite et combine différentes sources d’informations visuelles et cognitives.
Une autre illustration vient de la robotique, où les simulations donnent lieu à des scores proches de 90 % de réussite sur des environnements virtuels (RLBench). Pourtant, dans les concours réels comme le BEHAVIOR Challenge 2025, qui teste 1 000 tâches ménagères, les robots ne complètent en moyenne que 12,4 % des actions demandées. C’est un signal fort que les capacités sur le papier ne correspondent pas forcément à une efficacité opérationnelle sur le terrain.
| Type de tâche | Performance IA | Performance humaine | Erreur médiane IA | Erreur médiane humaine |
|---|---|---|---|---|
| Lecture d’horloge analogique (ClockBench) | 50,6 % de réussite | 90,1 % de réussite | 1-3 heures | 3 minutes |
| Tâches ménagères robotisées (BEHAVIOR Challenge) | 12,4 % de tâches complètes | — | — | — |
| Résolution de problèmes mathématiques (Olympiades 2025) | Médaille d’or – 5/6 problèmes résolus | Variable selon candidat | — | — |
Quelles conséquences pour les professionnels du digital ?
Cette « jagged intelligence » impose une vigilance particulière aux entreprises et indépendants qui souhaitent intégrer l’IA dans leurs process. Entre la démo impressionnante en conférence et la réalité de terrain, le décalage peut être énorme. Le rapport rappelle que le seul indicateur fiable reste l’évaluation concrète sur ses propres cas d’usage. Tester, mesurer, ajuster : c’est la règle d’or pour éviter déception et frustration.
Par exemple, sur la solution Claude Opus 4.5 qui évolue rapidement, on observe une progression surprenante, passant d’une réussite de 12 % à plus de 66 % en un an sur des tâches informatiques, à seulement 6 points de la moyenne humaine. Cependant, une tâche sur trois est encore ratée, ce qui peut s’avérer problématique si l’on attend une automatisation sans faille.
Les défis persistants à surmonter pour une IA plus fiable
Les causes de ces échecs ne se limitent pas à un manque ou une insuffisance de données. Une étude de 2025 citée dans le rapport a entraîné des modèles sur 5 000 images synthétiques d’horloges pour améliorer la précision. Si les résultats sur ces images étaient meilleurs, les IA échouaient à généraliser la lecture sur des horloges réelles ou d’aspects atypiques.
C’est en substance le problème : les modèles ont du mal à fusionner correctement plusieurs indices visuels au sein d’une seule et même image. Cette faiblesse dans l’assemblage d’informations complexes affecte non seulement la lecture de l’heure, mais aussi d’autres domaines plus vastes.
Liste clé pour intégrer efficacement l’IA dans vos usages quotidiens :
- Toujours tester l’IA avec vos propres données et scénarios pour vérifier la pertinence réelle de ses réponses.
- Ne pas se fier uniquement aux résultats impressionnants sur des benchmarks élites, qui ne reflètent pas forcément la réalité d’usage.
- Suivre régulièrement les évolutions des modèles et leurs mises à jour, car les capacités peuvent très vite progresser ou régresser.
- Privilégier les outils offrant transparence et possibilité de contrôle sur leurs résultats et processus décisionnels.
- Accompagner l’intégration avec un plan d’adoption progressif, en adaptant l’IA aux processus existants et en formant les équipes.
Entre nous, c’est une invitation à garder les pieds sur terre : admirer les prouesses, mais rester vigilant sur la fiabilité opérationnelle dans vos projets. La technologie progresse vite, oui, mais l’intelligence reste, pour l’heure, inégale selon les domaines.
Qu’est-ce que la « jagged intelligence » ?
C’est un phénomène où un modèle d’IA montre des compétences très avancées sur certaines tâches complexes, tout en échouant sur des tâches simples ou basiques. Cette intelligence ‘dentelée’ reflète une répartition inégale des capacités.
Pourquoi l’IA a-t-elle du mal à lire une horloge analogique ?
Les modèles AI ont du mal à assembler plusieurs indices visuels dans une seule image et confondent souvent l’aiguille des heures avec celle des minutes, ce qui provoque des erreurs de plusieurs heures.
Comment mesurer l’efficacité d’une IA avant de l’adopter ?
Il est crucial de tester la solution sur ses propres cas d’usage, en reproduisant les conditions réelles de travail, et d’évaluer sa performance au-delà des résultats sur des benchmarks standard.
Les progrès récents en IA garantissent-ils une fiabilité totale ?
Non, même si les modèles améliorent leurs résultats, certaines tâches restent difficiles à généraliser, notamment la lecture d’images complexes ou la gestion de tâches réalistes en robotique.
Quelles implications pour les entreprises ?
Les organisations doivent rester prudentes, adopter une approche progressive et intégrer les IA en complément des équipes humaines, en s’assurant que les objectifs soient réalistes et mesurés concrètement.