Trouver le drapeau sans trop de peine avec une IA

Après Diplomacy et son intelligence artificielle capable de négocier avec âpreté des ententes politiques dans l’objectif de l’emporter dans une Europe à feu et à sang, voilà que des chercheurs chez DeepMind Technologies annoncent avoir créé une application d’intelligence artificielle, appelée DeepNash, qui peut jouer à Stratego aussi bien qu’un expert.

Dans leurs travaux publiés dans Science, le groupe de recherche décrit l’approche unique employée pour améliorer le niveau de jeu de l’application.

Stratego est un jeu de société à deux joueurs considéré comme étant difficile à maîtriser. Chaque participer doit capturer le drapeau de son adversaire, qui est caché à travers un ensemble de 40 pièces. Chacune d’entre elle possède un niveau d’influence – les pièces plus influentes l’emportent sur les autres. Ce qui rend la chose encore plus complexe, c’est qu’aucun des joueurs ne connaît la puissance des pièces de l’autre, jusqu’à ce que ses propres pions en viennent au contact.

De précédentes études ont démontré que la complexité de ce genre est plus importante que celle des échecs ou du go, avec 10 à la puissance 535 comme nombre de scénarios possibles.

Ce niveau de complexité fait en sorte que les experts en informatique éprouvent de grandes difficultés pour concevoir des systèmes d’intelligence artificielle capables de jouer à ce jeu. Dans le cadre des nouvelles recherches, les spécialistes ont adopté une nouvelle approche, en créant une application capable de vaincre la plupart des humains et les autres systèmes d’IA.

À l’instar d’autres intelligences artificielles, DeepNash a d’abord appris à jouer à Stratego en jouant contre lui-même à plusieurs reprises – dans ce cas-ci, 5,5 milliards de fois –, soit l’équivalent de plusieurs siècles de jeu pour un humain. Après avoir appris à l’IA comment jouer, les chercheurs n’ont pas tenté de lui inculquer des stratégies en provenance de joueurs humains experts, ou même de lui faire jouer des parties contre d’autres adversaires, en général.

Les spécialistes ont plutôt conçu un algorithme qui permettait de développer une stratégie optimale pour chaque coup, plutôt que d’atteindre la perfection. Cet algorithme s’appuyait sur la théorie des jeux : une stratégie optimale donnerait environ 50 % de chances de succès à DeepNash, à chaque coup joué. Soit bien au-delà de ce que les joueurs humains peuvent espérer.

Des tests ont démontré que l’équipe a bel et bel réussi à accroître la capacité d’une IA de jouer correctement à Stratego – cette IA a gagné 84 % lors d’une série de 50 parties effectuées sur une plateforme en ligne. Ce faisant, DeepNash est devenu l’un des trois meilleurs « joueurs » sur ce site. Et les adversaires humains n’ont jamais été informés qu’il s’agissait d’un ordinateur, et non pas d’un stratège formé de zéros et de uns.