Recherche

Aurore Loisy, post-doctorante : Entraîner une intelligence artificielle pour faire aussi bien que l’Humain dans la recherche olfactive

Comment remonter à la source d’une odeur lorsqu’il n’y a aucune piste à suivre ? Le problème de recherche olfactive, qui concerne aussi bien le plancton que les moustiques, avait été résolu partiellement par des physiciens. C’était sans compter l’intelligence artificielle. Elle s’impose désormais dans le domaine en battant la meilleure stratégie humaine.À l’origine de ces travaux : Aurore Loisy, post-doctorante, et Christophe Eloy, enseignant-chercheur. Les deux scientifiques du laboratoire Irphé (UMR 7342) ont restitué leurs travaux dans la revue britannique, Proceedings of the royal society A. Aurore Loisy a accepté de nous en dire plus sur ces travaux de recherche à la croisée de l’intelligence artificielle, des jeux vidéo et du génie de la nature.

Dans votre article, vous montrez comment des méthodes de type intelligence artificielle, initialement développées pour battre des humains aux jeux vidéo, peuvent être utilisées pour résoudre le problème de recherche olfactive...

Nos travaux portent sur les applications de l’intelligence artificielle au problème de recherche d’odeur, ou recherche olfactive.
Ici, il ne s’agit pas d’identifier la nature d’une odeur, mais d’en trouver la source d’émission. C’est un problème de navigation pertinent pour de nombreux animaux qui utilisent leur odorat pour trouver de la nourriture ou des congénères (à des fins de reproduction, notamment). Les moustiques et les mites, par exemple, sont connus pour être capables de remonter à la source d’une odeur située à des dizaines voire des centaines de mètres.

Comment retrouver la source d’une odeur dispersée par le vent ?

Le problème est compliqué, car les turbulences dans l’air dispersent l’odeur de manière aléatoire. Ainsi, contrairement aux chiens qui peuvent suivre une piste olfactive au sol, il n’est pas possible pour les insectes de suivre une « trace » ou une « piste » dans l’air : toute piste est en effet rapidement détruite par les mouvements turbulents de l’air. C’est en partie pour cette raison que le ventilateur est un anti-moustique très efficace : plus il y a de turbulence, plus le CO₂ et les odeurs que nous émettons sont dispersées, plus il est difficile pour les moustiques de nous retrouver.
Le même problème existe pour les espèces marines (de nombreux crustacés comme les crabes ou les copépodes ont un sens de l’odorat). Ici, ce sont les turbulences dans l’eau qui rendent le « suivi de piste » impossible. La question qui se pose alors est : comment peut-on trouver une source d’odeur lorsque qu’il n’existe pas de piste à suivre et que l’odeur n’est détectée que de manière très aléatoire et sporadique ?

Photo : Espèce de copépode. Les chercheurs s’étaient déjà intéressés aux copépodes pour déterminer comment les individus rejoignent leurs congénères ou trouvent de la nourriture : « Les copépodes font partie des planctons qui utilisent leur odorat pour trouver des congénères. Les femelles relâchent des phéromones en infime quantité dans l’océan, et les mâles arrivent à les retrouver, alors même que la piste laissée par la femelle est très altérée par la turbulence et qu’il n’est pas possible de simplement la suivre », explique Aurore Loisy, co-auteure de l’article.

Votre recherche est interdisciplinaire, située au croisement de la mécanique des fluides, de la biologie et de l’intelligence artificielle. Quels en sont les enjeux ?

L’objectif ultime est de « décrypter » les algorithmes de navigation « inventés » par la nature. Existe-t-il un algorithme « universel » utilisé par les moustiques comme par les crabes pour naviguer grâce aux odeurs ?

En dépit des différences évidentes entre ces espèces et leurs habitats respectifs, ils doivent tous faire face au même problème : la turbulence. Il est donc plausible que leurs stratégies respectives aient, au-delà des différences pratiques liées à leur mode de propulsion ou de reproduction, des caractéristiques communes apparues par convergence évolutive.

Plutôt que de comparer le comportement de différents animaux, nous utilisons l’approche inverse. Grâce à l’IA, nous cherchons la stratégie optimale dans un problème idéalisé de navigation en turbulence. Ensuite, nous pouvons nous demander si ce que réalise l’IA ressemble à ce que font les animaux. Une réponse positive pourrait signifier que nous avons réussi à « décoder », au moins en partie, ce que fait la nature !

Vous avez découvert qu’une intelligence artificielle peut battre l’infotaxie...

L’état de l’art reposait sur la stratégie appelée « infotaxie », qui est la meilleure stratégie connue pour ce problème de navigation olfactive sans piste à suivre. Inventée par des physiciens voilà une quinzaine d’années, elle consiste à suivre la trajectoire qui permet de récolter le maximum d’informations. D’où son nom. En biologie, le suffixe « taxie » fait référence au déplacement d’un organisme lié à un stimulus : ici, l’information. Il est établi que l’infotaxie n’est pas optimale. Pour autant, personne n’a réussi à faire mieux depuis.

Nous avons voulu savoir si une intelligence artificielle serait capable de relever le défi. Pour ce faire, nous avons développé une méthode d’apprentissage automatique inspirée de celle utilisée pour entraîner des IA à battre des joueurs humains à des jeux vidéo. Grâce à cette méthode, nos IA apprennent des stratégies redoutables pour notre « jeu » de recherche olfactive. En fait, tellement bonnes qu’elles sont quasiment imbattables (quasiment optimales).

L’agent (point noir) cherche la source (petite croix) et, de temps en temps, « sent » quelque chose (point orange). Mais, la plupart du temps, il doit naviguer sans information (les points gris signalent l’absence de détection).

Vous posez la question : quelle est la meilleure stratégie pour trouver la source le plus rapidement possible en se servant uniquement de son odorat ? Quelle est donc la réponse ?

Il est difficile d’en donner une description simple, puisque l’IA agit de manière optimale, mais ne donne pas d’explication à ses choix (c’est une des limites bien connue de l’apprentissage automatique et des IA, souvent qualifiées de « boîtes noires »). Ce que l’on peut dire, c’est que cette stratégie correspond à un équilibre parfait entre exploration et exploitation.
Au début de la recherche, la source est sans doute loin, et les détections, très rares : il faut donc explorer l’espace de manière efficace, pour identifier là où la source n’est pas et restreindre la zone de recherche.
Plus proche de la source, les détections restent aléatoires mais sont plus fréquentes : il faut alors se diriger vers là où on pense que la source se trouve probablement, au risque de se tromper, c’est l’exploitation. Trouver le bon équilibre entre exploration et exploitation est la clé d’un comportement optimal.

En comparaison, l’infotaxie est une stratégie qui favorise l’exploration, mais qui ne prend pas assez de risque dans la phase finale de la recherche. De ce fait, elle n’est pas optimale.

Une intelligence artificielle a été développée pour battre des humains à ce jeu. Nos chercheurs centraliens s’en sont inspirés pour concevoir la leur.

Image : Space Invaders, jeu vidéo iconique des années 1980. Une intelligence artificielle a été développée pour battre des humains à ce jeu. Nos chercheurs centraliens s’en sont inspirés pour concevoir la leur.

Vous avez entraîné des réseaux neuronaux pour réaliser cette recherche olfactive. Comment entraîne-t-on des neurones artificiels ?

Notre IA est un réseau de neurones qui est entraîné grâce à une méthode d’apprentissage automatique par renforcement (reinforcement learning). Le réseau de neurones est responsable de la prise de décision : à chaque instant, il doit décider s’il vaut mieux, par exemple, aller à gauche ou à droite en fonction de ce que l’agent ‒ celui qui cherche la source ‒ a senti auparavant et des endroits qu’il a déjà visités.

Le problème de trouver la source peut donc être vu comme un jeu, où l’on déplace un agent sur une carte qui contient, quelque part, une source. Cette source est cachée, mais elle émet des odeurs. Ces odeurs sont dispersées sur la carte et peuvent être détectées par l’agent s’il n’est pas trop loin. Elles fournissent donc de précieux indices. Plus vite la source est trouvée, plus le score est élevé.

Le principe de l’apprentissage automatique par renforcement pose que l’IA apprend seule, comme un joueur humain le ferait : en jouant des parties. Au début, elle n’a aucune idée de la stratégie à adopter et erre sur la carte au hasard. Pendant les premières dizaines de parties, elle teste différents comportements et établit une ébauche de stratégie. Cette ébauche est affinée graduellement au fil des parties suivantes. Après plusieurs milliers de parties, elle devient imbattable.

Les deux chercheurs ont entraîné des neurones artificiels à adopter la meilleure stratégie dans le cadre d’une recherche olfactive grâce à une méthode d’apprentissage automatique par renforcement.

Quelles sont les applications possibles ?

Les stratégies de recherche olfactive sont couramment utilisées par des robots renifleurs dont les missions consistent, notamment, à détecter l’origine d’une fuite de produits chimiques toxiques, la localisation d’explosifs ou de mines terrestres.
Nos résultats sont directement utilisables sur ces robots renifleurs, pour les rendre plus performants. Par ailleurs, la méthode d’apprentissage que nous proposons est très générale et peut être adaptée à d’autres problèmes de prise de décision inspirés du monde animal.

Qu’est-ce qui vous a le plus surpris au cours de vos recherches ?

D’abord, la difficulté du problème. Nous l’avons traité comme un jeu et avons essayé d’inventer nos propres stratégies. Nous avons développé un logiciel qui permet de visionner les stratégies, de les comparer entre elles, etc. Après plusieurs mois, force a été de constater que nous n’arrivions pas, comme beaucoup d’autres avant nous, à faire mieux que l’infotaxie (inventée voilà 15 ans, jamais battue).

Parallèlement, nous étions intéressés par les récents progrès en intelligence artificielle, et plus particulièrement par les techniques d’apprentissage automatiques par renforcement utilisées pour les jeux vidéo. Nous avons alors décidé d’adapter ces techniques à notre problème de recherche olfactive, et le résultat a largement dépassé nos attentes !

À quelles perspectives vos résultats ouvrent-ils ?

La comparaison entre notre IA et des comportements animaliers est l’objectif, à terme, de notre projet. Par ailleurs, une autre question nous intéresse, celle de l’interprétabilité de l’IA : l’IA agit de la meilleure manière possible, mais peut-on rationaliser sa décision ?

À présent, quels sont vos projets ?

Nous pensons que l’intersection entre la biophysique et l’intelligence artificielle est très riche, notamment pour comprendre comment certains animaux parviennent à résoudre, avec beaucoup moins de neurones, de mémoire et d’informations sensorielles que les humains, des problèmes qui nous semblent particulièrement ardus.
Nous continuons à travailler sur ces sujets et espérons renforcer l’interaction entre ces deux disciplines.

Ce projet a reçu le financement du Conseil européen de la recherche (ERC) dans le cadre du programme de recherche et d’innovation Horizon 2020 de l’Union européenne (convention de subvention no 834238).

À vous de jouer !

Développé par les auteurs, le logiciel OTTO est disponible en ligne.
Celles et ceux qui savent programmer en langage Python peuvent contribuer à leur étude en soumettant leurs idées de stratégie de recherche olfactive !