Des chercheurs de chez Apple, le géant de l’informatique, disent avoir découvert des preuves, dans le cadre de tests, que les réponses soi-disant intelligentes fournies par les grands modèles langagies basés sur l’IA ne sont largement que des illusions.
Dans leurs résultats téléversés sur le serveur de prépublication arXiv, ces spécialistes soutiennent ainsi qu’après avoir testé plusieurs de ces modèles, ils ont constaté que ceux-ci ne sont pas capables d’effectuer des tâches nécessitant un véritable raisonnement.
Au cours des dernières années, rappellent les chercheurs, plusieurs modèles langagiers, comme ChatGPT, ont progressé à un point tel que plusieurs utilisateurs ont commencé à se demander si ces logiciels étaient véritablement dotés d’intelligence.
Dans le cadre de ces nouveaux travaux de recherche, les spécialistes de chez Apple se sont penchés sur cette question en estimant que la réponse se trouvait du côté de la capacité d’un être ou d’une machine intelligente de comprendre les nuances présentes dans diverses situations simples, qui nécessitent un raisonnement logique.
L’une de ces nuances se trouve du côté de l’habileté à séparer les informations pertinentes de celles qui ne le sont pas. Si un enfant demande à un parent combien de pommes se trouvent dans un sac, tout en constatant que plusieurs d’entre elles sont trop petites pour être mangées, l’enfant et le parent comprennent que la taille des fruits n’a rien à voir avec leur nombre. Cela s’explique parce que les deux personnes possèdent des capacités de raisonnement logique.
Et donc, dans leur étude, les chercheurs de chez Apple ont soumis plusieurs modèles langagiers à des tests pour déterminer si les programmes informatiques comprenaient vraiment ce qu’on leur demande, en exigeant indirectement qu’ils ignorent les informations non pertinentes.
Pour ce faire, ils ont posé plusieurs centaines de questions à divers modèles, des questions qui avaient déjà été employées afin d’évaluer les capacités de ces mêmes logiciels – mais les chercheurs ont aussi inclus certaines données superflues. Et cela, ont-ils constaté, était suffisant pour provoquer de la confusion au sein des modèles langagiers, poussant ceux-ci à donner des réponses erronées, voire complètement farfelues, à des questions pour lesquelles ils fournissaient auparavant de bonnes réponses.
Cela, estiment les chercheurs, démontre que les logiciels d’IA ne comprennent pas vraiment ce qu’on leur demande. Ils reconnaissent plutôt la structure d’une phrase et fournissent une réponse basée sur ce qu’ils ont appris via des algorithmes d’apprentissage machine.
Les spécialistes de chez Apple notent encore que la plupart des modèles langagiers testés répondent souvent avec des informations qui peuvent sembler justes, mais qu’en observant le tout de plus près, on constate qu’il s’agit plutôt d’erreurs, comme lorsque l’on demande à l’IA comment elle se « sent » par rapport à quelque chose, et que celle-ci répond de façon à laisser croire qu’elle est capable d’avoir un tel comportement.