Intelligence artificielle : la vision par ordinateur s'approche d'un cap crucial

Pour nous autres, humains, la reconnaissance des objets est un jeu d’enfant. C’est en effet une compétence que l’on développe activement depuis notre plus jeune âge, et le cerveau humain est fantastiquement doué pour réaliser ce genre de tâches avec une précision redoutable.

Il est même si doué que des machines nous demandent régulièrement notre avis sur la question; c’est le cas à chaque fois que nous remplissons certains types de captchas. En effet, ce n’est pas pour le plaisir que Google et consorts vous demandent régulièrement quelle case comporte un voilier, un passage piéton ou un de ces fichus feux tricolores.

Les réponses des internautes sont ensuite utilisées comme références pour améliorer la fiabilité de systèmes autonomes basés sur l’intelligence artificielle. En multipliant ainsi les échantillons, les grands noms de l’IA espèrent rendre leurs créations de plus en plus fiables.

Mais aujourd’hui, il semble évident que cette approche ne se suffit pas à elle-même; s’il suffisait de demander au grand public si une image représente un bus ou un camion pour entraîner une IA généraliste dite “forte”, cela fait belle lurette que notre civilisation aurait changé du tout au tout.

L’étiquetage des données est un véritable casse-tête qui demande un temps fou aux chercheurs qui travaillent avec des IAs appliquées à l’image. © Tim Gouw – Unsplash

L’étiquetage, le calvaire des chercheurs en IA

Lorsqu’il s’agit de développer des systèmes à la fois ultra-précis et fiables, très peu d’approches sont viables – et faire confiance à des internautes exaspérés n’en fait assurément pas partie. A la place, il faut passer un temps fou pour s’assurer de la fiabilité informations que le réseau de neurones va ingérer.

Si elles sont approximatives, l’IA se basera sur des données erronées et les résultats ne seront donc pas forcément significatifs. En résumé : “garbage in, garbage out” (des déchets à l’entrée, des déchets à la sortie), comme disent les spécialistes de la discipline.

Cela impose aux chercheurs de sélectionner les images une par une pour y “dessiner” des masques colorés qui délimitent chacun un élément censé être identifié par l’IA, comme ci-dessous. On parle alors d’étiquetage des données.

C’est un processus extrêmement chronophage qui se compte régulièrement en centaines d’heures. En effet, les banques de données en question rassemblent des milliers, voire des centaines de milliers d’images. Et pas question de bâcler le travail; la qualité du produit final dépend directement de la quantité de données à disposition.

Cette approche semble donc excessivement paradoxale, pour ne pas dire archaïque dans un domaine aussi pointu que la recherche en IA. C’est un problème d’autant plus conséquent que ce temps pourrait être consacré à des travaux de fond, bien plus importants pour le développement de cette technologie.

Les chercheurs tentent donc de développer des systèmes capables de réaliser cette tâche excessivement ingrate à leur place. Jusqu’à présent, les résultats ont toujours été mitigés en termes de qualité. De plus, cette approche implique de travailler pixel par pixel; pas besoin d’être un grand informaticien pour comprendre que cela pose rapidement un problème de puissance de calcul. Après tout, il s’agit d’utiliser des centaines de milliers d’images qui doivent toutes être cohérentes entre elles du début à la fin.

S'abonner à Journal du Geek

Un algorithme pour prémâcher le travail

Le cerveau humain reste le grand spécialiste de cette discipline. Mais les derniers travaux des chercheurs du MIT repérés par Engadget viennent peut-être de réduire considérablement l’écart. Avec l’aide de l’Université de Cornell et de Microsoft, le MIT a développé un algorithme baptisé STEGO. Son objectif : étiqueter les images de façon autonome en un temps record et avec une précision de l’ordre du pixel.

“L’idée, c’est que ces algorithmes peuvent définir des ensembles cohérents de façon largement automatique pour qu’on ait pas à le faire nous-mêmes”, explique Mark Hamilton, auteur principal de l’étude.

Pour y parvenir, cet algorithme analyse l’ensemble du dataset à la recherche d’objets récurrents, qui apparaissent plusieurs fois au fil des images. “Il les associe ensuite pour construire un résultat final cohérent sur l’ensemble des images dont il apprend”, explique l’équipe dans un communiqué.

Les chercheurs ont ensuite comparé les résultats de STEGO à d’autres systèmes d’étiquetage autonome. Et le résultat a été assez saisissant. Ils expliquent que STEGO s’est montré au moins deux fois plus performant que ses congénères. C’est la première fois qu’un algorithme de ce type s’aligne presque parfaitement avec les images de contrôles étiquetées par les humains.

C’est un gros progrès; cela pourrait permettre à de nombreux chercheurs d’augmenter considérablement la vitesse à laquelle ils peuvent annoter d’immenses jeux de données. Mais il sera aussi très réducteur de limiter l’impact des systèmes autonomes comme STEGO à la simple productivité.

Les images étiquetées (en bas) ont été générées par STEGO en autonomie. © Hamilton et. al.

Outrepasser les limites humaines une bonne fois pour toutes

Le principal intérêt de cette méthode, c’est de pouvoir identifier des motifs complexes que l’humain n’est pas capable d’étiqueter avec précision. “Si on regarde des scans oncologiques, des images de la surface d’une planète ou des images microbiologiques en haute résolution, c’est difficile de savoir où regarder sans être un véritable expert”, expliquent les chercheurs.

“Dans certains domaines, même les experts humains ne savent pas à quoi les objets en question ressemblent”, renchérit Hamilton. “Dans ce type de situations où l’on opère aux frontières de la science, on ne peut pas se reposer sur l’humain pour comprendre avant la machine”, précise-t-il.

Un système autosupervisé de ce genre pourrait ainsi faire de véritables miracles dans certains domaines. Il n’y a qu’à penser au diagnostic du cancer ou à la reconnaissance de l’environnement chez les véhicules autonomes. Mais il ne s’agit que de la pointe émergée d’un immense iceberg d’applications possibles.

Il y a encore du travail pour arriver à ce stade. Par exemple, en l’état, STEGO souffre encore de quelques limites. Il est par exemple possible de lui faire perdre complètement les pédales en lui soumettant une image farfelue comme une banane posée sur le réceptacle d’un téléphone fixe. Ce bon vieux garbage in, garbage out est donc toujours valable. Mais ce n’est probablement qu’une question de temps avant que STEGO et ses successeurs deviennent suffisamment matures pour donner lieu à une vraie révolution dans cette niche très importante de l’intelligence artificielle.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.