La raison : des applications génératrices de textes comme ChatGPT ou génératrices d’images comme MidJourney, consomment de l’information plus vite que nous ne pouvons en produire. Résultat, le contenu « de haute qualité » utilisable pour les alimenter, va être rattrapé en 2026, selon une évaluation sommaire pondue en octobre par un groupe d’observateurs de la scène de l’IA.
Autrement dit, le contenu que peut produire ChatGPT ne coûte peut-être pas grand-chose, mais le contenu produit par les humains, lui, coûte cher. Les auteurs de cette évaluation prennent d’ailleurs soin de distinguer le contenu « de qualité », incluant des livres, des recherches scientifiques et du code informatique. « C’est économiquement coûteux de les produire », résume l’un de ces chercheurs, Pablo Villalobos.
Il existe certes aussi une production de moins bonne qualité, allant des vidéos YouTube à des textes de toutes sortes circulant dans l’espace public : la quantité totale de cette autre partie de l’information est difficile à mesurer, de sorte que le « mur » pourrait ne pas être atteint avant 2050. Mais les concepteurs d’une IA sur qui on compte pour fournir de l’information fiable pourraient hésiter à la laisser être submergée par des contenus de moindre qualité.
Jusqu’à maintenant, avaient écrit ces chercheurs dans leur article publié en octobre sur le serveur de pré-publication ArXiv, les contenus de données utilisés pour nourrir ce type d’IA ont grossi d’environ 50 % par année, alors que les contenus dits « de qualité » disponibles n’ont grossi que de 7 % par année. D’où le mur de 2026.
Dans le langage de ces chercheurs, cette IA est toutefois avant tout une application qui apprend à converser, de sorte que la qualité des « données langagières » ne compte peut-être pas autant que la quantité de données utilisées pour l’entraîner. Si tel est le cas, spécule Villalobos, l’épuisement des textes produits par des humains pourrait être compensé par des textes produits… par des IA.