Imaginez pouvoir dire à votre véhicule que « vous êtes pressé », et que celui-ci choisisse automatiquement le trajet le plus efficace pour atteindre votre destination. Des ingénieurs de l’Université Purdue ont ainsi constaté qu’une voiture sans pilote peut accomplir ceci en s’appuyant sur ChatGPT ou d’autres robots conversationnels, le tout grâce aux modèles langagiers de grande taille.
Leurs travaux, dont les résultats sont pour l’instant disponibles sur le serveur de préimpression arXiv, font partie des premières études visant à déterminer comment un véhicule autonome peut utiliser de tels modèles langagiers pour interpréter des commandes des passagers, et agir en conséquence.
Selon Ziran Wang, professeur adjoint en génie civil et de la construction, et principal responsable de l’étude, estime que pour que les voitures deviennent pleinement autonomes, un jour, elles devront être en mesure de comprendre toutes les demandes de leurs passagers, même lorsque ladite demande est implicite. Un chauffeur de taxi, par exemple, saurait ce dont vous avez besoin lorsque vous dites que vous êtes pressé, sans avoir besoin de spécifier le chemin à prendre pour éviter la circulation.
Comme le rappellent les chercheurs, si les voitures autonomes modernes sont équipées de systèmes de reconnaissance vocale, ceux-ci nécessitent des instructions claires, plus claires que si l’on s’adressait à des humains.
Par contraste, jugent les chercheurs, les modèles langagiers peuvent interpréter les déclarations et fournir des réponses de façon plus humaine, puisqu’ils sont formés à établir des relations entre de gigantesques quantités de mots et de phrases, en plus d’être amenés à continuellement apprendre.
« Les systèmes conventionnels présents dans nos véhicules possèdent une interface où vous devez appuyer sur des boutons pour indiquer ce que vous voulez, ou un système de reconnaissance audio qui nécessite d’être particulièrement clair lorsque vous parlez, pour que votre voiture vous comprenne », soutient le Pr Wang. « Mais la puissance des modèles langagiers est telle qu’ils peuvent plus aisément comprendre toutes sortes de choses que vous dites. Je ne crois pas qu’un autre système puisse fonctionner de la sorte. »
Une nouvelle méthode d’évaluation
Dans le cadre de la recherche, ce ne sont pas les modèles langagiers qui conduisaient les véhicules. Ils faisaient plutôt office d’assistants à la conduite, à l’aide de fonctionnalités déjà existantes. Le Pr Wang et ses étudiants ont constaté qu’en intégrant ces systèmes, une voiture autonome pouvait non seulement mieux comprendre ses passagers, mais aussi personnaliser sa conduite afin d’améliorer la satisfaction de ceux-ci.
Avant de mener leurs tests, les chercheurs ont formé ChatGPT avec des commandes allant de demandes plus directes, comme par exemple « conduisez plus vite » à des déclarations plus indirectes, comme « j’ai un peu le mal des transports ». À mesure que le système apprenait comment répondre à ces commandes, les scientifiques ont donné des paramètres à suivre aux modèles langagiers, notamment la nécéssité de tenir compte du Code de la route, des conditions routières, de la météo et d’autres informations détectées par les senseurs du véhicule, comme les caméras et autres systèmes de détection.
Les chercheurs ont mis leur système à l’épreuve en connectant le tout à un système d’infonuagique, et en l’embarquant dans une voiture dite de catégorie quatre, soit un véhicule qui n’est pas encore considéré comme étant pleinement autonome.
Lorsque le système de reconnaissance vocale de la voiture a détecté une commande provenant d’un passager, lors des tests, les modèles langagiers accessibles via l’infonuagique ont évalué cette commande en fonction des paramètres définis par les chercheurs. Ces modèles ont ensuite généré des instructions pour le système de conduite du véhicule.
Au cours des tests, les participants ayant voyagé à bord des véhicules autonomes disent avoir ressenti moins d’inconfort en utilisant les voitures « aidées » par les modèles langagiers. Les chercheurs jugent aussi que cette combinaison de conduite autonome et de modèle langagier permet d’obtenir une efficacité plus importante qu’en s’appuyant simplement sur les capacités « de base », même lorsqu’il s’agit de comprendre de nouvelles commandes.
Temps de réaction et hallucinations
Selon les auteurs des travaux, les modèles langagiers ont eu besoin d’environ 1,6 seconde pour comprendre la commande d’un passager, ce qui est considéré comme acceptable, dans un contexte non urgent, « mais qui devrait être amélioré pour les situations où un véhicule doit réagir plus vite », affirme le Pr Wang.
Et bien que cela n’ait pas fait l’objet de démarches spécifiques dans le cadre de l’étude, il est connu que les modèles comme ChatGPT sont prompts à « inventer » des choses, ce qui veut dire qu’ils peuvent mal interpréter quelque chose, voire carrément choisir une mauvaise information, ou afficher un mauvais résultat.
Les chercheurs avaient équipé leurs véhicules autonomes d’une mesure de sécurité n’autorisant le départ que lorsque la commande était parfaitement comprise, mais « les hallucinations demeurent un problème qui doit être réglé avant que les fabricants automobiles ne commencent à intégrer les modèles langagiers dans leurs véhicules », affirment-ils.
Les auteurs des travaux rappellent également que les autorités réglementaires doivent évidemment donner le feu vert pour intégrer les modèles de véhicules possédant une connexion avec les modèles langagiers, afin que les voitures en question puissent bel et bien prendre la route.