1-0 pour l’humain : ces images auxquelles l’IA ne comprend rien

L’IA est partout. Produire un paysage photoréaliste, corriger les copies du bac, débattre sur le cannabis, ou même battre les humains aux échecs ou au poker : aujourd’hui, les intelligences artificielles sont capables de véritables prouesses… mais pas dans tous les cas. The Verge a déniché une étude qui le montre de façon très explicite.  

Nous n’en sommes pas encore au stade où les capacités humaines sont entièrement reléguées au second plan par des algorithmes.  Mais si certaines sont capables d’identifier des objets dans des images, comme cet outil capable de détecter les attributs masculins, la détection et l’identification reste l’un des champs d’application où l’IA reste largement surclassée par un cerveau humain.

Il existe une flopée d’images sur laquelle les algorithmes ont tendance à buter régulièrement : on les appelles adversarial images. En substance, ils ‘agit d’une illusion d’optique pour algorithme de reconnaissance : des images qui se lisent sans souci pour un humain, mais particulièrement piégeuse pour l’ordinateur.

D’après une IA, cet homme pratique le tir à l’arc. © Hendrycks, Basart, Steinhardt, Zhao, Song

A tel point que ces adversarial  images sont même devenues un champ de recherche à part entière. Certains s’amusent donc à créer de toute pièce des images spécialement pensées pour berner ces systèmes, comme cette tortue identifiée comme un pistolet par l’IA de Google.  Mais celles qui inquiètent les ingénieurs travaillant dans ce domaine sont bien celles qui apparaissent de façon impromptue, car de plus en plus de systèmes automatisés se basent sur cette technologie.

Pour démontrer l’ampleur du problème, un groupe de chercheurs issus des universités de Berkeley, Washington et Chicago ont publié un énorme ensemble de 7500 adversarial images. Parmi ces 666 Mo d’image, toutes sont “naturelles”, c’est à dire qu’elles n’ont pas été prises dans le but de tromper l’ordinateur. Après avoir livré cet ensemble à différents systèmes de “vision” informatique, le résultat est sans appel : l’ordinateur s’est trompé dans plus de 90% des cas. Dans le papier qui accompagne leurs recherches, ils parlent de “failles profondes” qui viennent de la “dépendance du logiciel à la couleur, à la texture et à l’arrière-plan pour identifier un objet”.

Voici un petit florilège d’exemples d’erreur d’interprétation fournis par l’équipe de recherche :

D’après l’IA, il s’agirait d’un volcan. © Hendrycks, Basart, Steinhardt, Zhao, Song
Une sandale, sans aucun doute. © Hendrycks, Basart, Steinhardt, Zhao, Song
Il est pas beau, mon berger allemand ? © Hendrycks, Basart, Steinhardt, Zhao, Song
Une superbe balle de basket. © Hendrycks, Basart, Steinhardt, Zhao, Song
La banane la moins appétissante qui soit. © Hendrycks, Basart, Steinhardt, Zhao, Song
Un drôle de sous-marin. © Hendrycks, Basart, Steinhardt, Zhao, Song
Un majestueux bison. © Hendrycks, Basart, Steinhardt, Zhao, Song

La reconnaissance d’image souffre d’un problème de flexibilité

Toutes les IA ne seront pas forcément bernées par ces images, ou du moins pas de la même manière.  Cela illustre bien les limites actuelles des systèmes de deep learning, en la matière : il leur manque la flexibilité dont dispose le cerveau humain pour interpréter un large éventail d’informations dans des conditions très différentes. Pour s’en approcher, elles ont besoin d’ingurgiter une énorme quantité d’images dont le sens est déjà défini. C’est par exemple ce que à quoi vous participez à chaque fois que Google vous demande de lui indiquer les panneaux, passages piétons, motos ou autres.

Il est paradoxal d’imaginer qu’une intelligence artificielle puisse identifier une tumeur bien mieux qu’un humain, alors que d’autres confondent des mouettes avec des biplans. Cela signifie qu’à l’heure actuelle, elles restent limitées à des cas très particuliers où elle peuvent alors se révéler très performantes, par exemple en médecine. Des recherches comme celle de ce groupe sont donc fondamentales, car elles mettent en lumière les mécanismes précis qui ont tendance à tromper l’IA. Cela permettra, à terme, d’améliorer la flexibilité de ces systèmes qui vont encore certainement progresser à vue d’œil pendant les prochaines années, à n’en pas douter.