Le modèle langagier de l’entreprise OpenAI a été salué comme étant « carrément le meilleur robot conversationnel basé sur l’intelligence artificielle jamais rendu public », ou encore comme « l’un des meilleurs accomplissements de l’informatique ». Mais des chercheurs de l’Université Stanford et de l’Université de la Californie à Berkeley, disent ne pas être prêts à dépendre de ChatGPT pour prendre des décisions importantes.
Reprenant des déclarations d’un nombre croissant d’utilisateurs, qui ont manifesté leur inquiétude, les chercheurs Lingjiao Chen, Matei Zaharia et James Zhu affirment que la performance de ChatGPT n’a pas été constante. Dans certains cas, elle est de pire en pire.
Dans des travaux publiés sur le serveur de préimpression arXiv, la semaine dernière, ces spécialistes affirment que « la performance et le comportement des modèles GPT-3.5 et GPT-4 varie de façon importante » et que les réponses à certaines tâches « sont devenues définitivement moins exactes avec le temps ».
Ces chercheurs ont ainsi noté des changements importants, en matière de performance, lors d’une période de quatre mois, entre mars et juin.
Pour en avoir le coeur net, les auteurs des travaux se sont concentrés sur certains domaines, y compris la résolution de problèmes mathématiques et la production de code informatique.
En mars 2023, GPT-4 atteignait un taux de précision de 97,6 % lorsqu’il était temps de résoudre des problèmes liés aux nombres premiers. Ce taux a chuté jusqu’à 2,4 % lorsqu’est venu le temps d’utiliser le modèle mis à jour, en juin de la même année, selon les chercheurs de Stanford.
Du côté de la programmation informatique, toujours en mars, GPT-4 a répondu aux demandes des programmeurs en fournissant des routines efficaces et prêtes à être lancées dans un peu plus de 50 % des cas. Mais en juin, ce taux a chuté à 10 %. Chatp GPT-3.5 a lui aussi révélé une forte baisse de sa précision, passant de 22 %, en mars, à 2 %, en juin.
De façon intéressante, les capacités en mathématiques de ChatGPT-3.5 ont suivi une tendance presque inversée, avec seulement une précision de 7,4 % pour résoudre des problèmes liés aux nombres premiers, en mars, mais un taux de réussite de 86,8 %, en juin, avec la version améliorée.
Selon M. Zhu, il est difficile de déterminer la cause de ces changements, bien qu’il semble que des modifications système et des mises à jour soient autant de facteurs.
« Nous ne comprenons pas entièrement ce qui a provoqué ces changements dans les réponses de ChatGPT, parce que les modèles sont opaques », a poursuivi M. Zhu. « Il est possible que des ajustements effectués au sein du modèle pour améliorer sa performance dans certains domaines puissent avoir eu des effets secondaires inattendus, et aient empiré les résultats lors d’autres tâches. »
Des conspirationnistes qui ont noté une détérioration de certains résultats ont suggéré qu’OpenAI procède à des expérimentations avec des versions alternatives plus petites des modèles langagiers comme façon d’économiser de l’argent. D’autres croient qu’OpenAI affaiblit volontairement GPT-4 pour que les utilisateurs, frustrés, soient davantage portés à payer pour des services et des fonctionnalités supplémentaires.
L’entreprise rejette de telles affirmations. Au début de juillet, rappellent les chercheurs, le vice-président produits d’OpenAI, Peter Welinder, a déclaré sur Twitter que « nous n’avons pas rendu GPT-4 idiot. Bien au contraire: nous avons rendu chaque nouvelle version plus intelligente que la précédente ».
Selon M. Welinder, la solution pourrait être plus simple. « Lorsque vous utilisez [l’outil] plus intensément, vous commencez à découvrir des problèmes que vous ne voyiez pas auparavant. »
Pendant ce temps, poursuivent les chercheurs, certains observateurs de l’industrie s’inquiètent de l’impact de ce changement disruptif et font pression sur OpenAi pour divulguer la teneur des contenus utilisés pour le développement de leur modèle langagier sous-tendant ChatGPT-4.0.
Au dire de Sasha Luccioni, de la compagnie Hugging Face, spécialisée en IA, « tout résultat s’appuyant sur des modèles à source fermée ne sont pas reproductibles et ne sont pas non plus vérifiables, et donc, d’un point de vue scientifique, nous comparons des pommes et des oranges ».
« Ce n’est pas aux scientifiques de constamment surveiller les modèles langagiers », a récemment confié Mme Luccioni à Ars Technica. « Il faut que les créateurs de modèles donnent accès à leurs données qui servent d’assises, ne serait-ce qu’à des fins de vérification. »