Une nouvelle gamme d’algorithmes a maîtrisé des jeux sur la console Atari à une vitesse 10 fois supérieure à celle d’une intelligence artificielle (IA) hautement développée, en tirant partie d’une nouvelle approche en matière de résolution de problèmes.
Concevoir une IA pouvant s’attaquer à des problèmes nécessitant de la planification, particulièrement aux problèmes où les récompenses ne sont pas immédiatement évidentes, est l’un des obstacles les plus importants dans le domaine.
Une étude de 2015 a démontré que l’IA DeepMind, de Google, avait appris à jouer à des jeux vidéo d’Atari, comme Video Pinball, et avait atteint le niveau d’un joueur humain, mais qu’elle était absolument incapable de franchir l’obstacle de la première clé à découvrir dans Montezuma’s Revenge, sorti en 1980, en raison de la complexité du jeu.
À l’aide de la nouvelle méthode développée à l’Université RMIT de Melbourne, en Australie, des ordinateurs configurés pour jouer de façon autonome à Montezuma’s Revenge ont appris de leurs erreurs et ont identifié des sous-objectifs 10 fois plus rapidement que DeepMind pour compléter le jeu.
La méthode en question, développée par les professeurs Fabio Zambetta et John Thangarajah, du RMIT, ainsi que par Michael Dann, combine l’approche de la « carotte et du bâton » portant sur l’apprentissage par renforcement avec une motivation intrinsèque qui récompense la curiosité de l’IA et la tendance à explorer l’environnement.
« Une IA véritablement intelligente doit être capable d’apprendre à accomplir des tâches de façon autonome dans des environnements ambigus », estime M. Zambetta.
« Nous avons démontré que le bon genre d’algorithmes peut améliorer les résultats en s’appuyant sur une approche plus futée, plutôt que de recourir à la force brute pour résoudre un problème dans son entièreté à l’aide d’ordinateurs très puissants. Nos résultats démontrent que nous nous rapprochons fortement d’une IA autonome, et ceux-ci pourraient servir de base à partir de laquelle nous élancer pour poursuivre notre progression dans ce domaine. »
La méthode de M. Zambetta récompense le système pour son exploration autonome des sous-objectifs utiles tels que « grimpe à cette échelle », ou « saute par-dessus ce puits », des tâches qui pourraient ne pas être évidentes pour un ordinateur, sans le contexte d’un objectif ultérieur et plus vaste à atteindre.
D’autres systèmes informatiques dernier cri ont eu besoin de l’aide d’un humain pour identifier ces sous-objectifs ou décider des prochaines tâches à accomplir de façon aléatoire.
« Non seulement nos algorithmes ont-ils identifié des tâches utiles de façon autonome en approximativement 10 fois moins de temps que DeepMind en jouant à Montezuma’s Revenge, mais ils ont également adopté des comportements similaires à ceux d’êtres humains pendant qu’ils agissaient de la sorte », a indiqué le chercheur.
Pour ce dernier, le système pourrait également fonctionner à l’extérieur du monde des jeux vidéo pour accomplir diverses tâches, si on lui fournit des données visuelles.
« Créer un algorithme qui peut compléter des jeux vidéo peut sembler trivial, mais le fait est que nous en avons conçu un qui peut gérer l’ambiguïté tout en sélectionnant une action dans une liste définie: cela représente une percée importante. »
Les scientifiques s’attendent ainsi à des avancées dans des domaines aussi variés que la conduite autonome, ou la reconnaissance du langage pour des assistants robotiques.
Bientôt dans les classes, les pensées des étudiants sous la loupe?
Un commentaire
Pingback: Roku Express, l’appareil conçu pour zapper