Google : une IA transforme des mots en images entièrement photoréalistes !

En avril dernier, nous vous présentions la dernière version de DALL-E, un incroyable générateur textuel d’images entièrement basé sur l’IA. Le système s’est révélé stupéfiant de puissance, de polyvalence et de précision; mais Google vient peut-être de reléguer ce programme en seconde division avec Imagen, un nouveau générateur de ce type qui réalise des prouesses comme nous n’en avons que très rarement vu de la part d’un ordinateur.

“Toute technologie suffisamment avancée est indiscernable de la magie”, écrivait le légendaire Arthur C. Clarke; un dicton qui a particulièrement bien vieilli à l’ère de l’IA. Après tout, quel autre qualificatif serait plus approprié pour un programme capable de telles prouesses artistiques ?

Comme pour le DALL-E d’OpenAI, Imagen fonctionne sur un concept redoutablement simple : vous lui proposez une phrase écrite en toutes lettres, et le programme se charge de recracher une image qui correspond parfaitement à la légende en question, du moins en théorie. Et si DALL-E nous avait particulièrement impressionnés (voir notre article), il faut admettre qu’il a trouvé son maître; il y a carrément de quoi tomber à la renverse lorsqu’on parcourt l’album d’Imagen.

En effet, le programme de Google a réussi l’exploit de faire encore bien mieux que l’incroyable DALL-E à presque tous les niveaux. Que ce soit en termes de précision ou de polyvalence, au niveau de l’interprétation de la phrase ou encore de la cohérence du résultat, c’est un véritable tour de force numérique de la part de la firme.

“Un adorable corgi vit dans une maison faite de sushis.” © Google / Imagen

“Un geai bleu perché sur un panier de macarons arc-en-ciel.” © Google / Imagen

“Un aigle royal fait de poudre de chocolat, de mangue et de crème fouettée.” © Google / Imagen

“Trois billes de verre qui tombent dans l’océan. L’eau éclabousse. Le soleil se couche.” © Google / Imagen

“Un corgi avec des lunettes et un chapeau dans un caddie sur Time Square.” © Google / Imagen

“Une sculpture de canard transparente faite en verre devant une peinture d’un paysage”. © Google / Imagen

Sur ces images, on constate qu’Imagen a incroyablement bien interprété les cas de figure pourtant sacrément fantaisistes. Et il ne s’agit pas que de la compréhension des instructions, mais aussi de la composition finale qui est d’une cohérence à toute épreuve sur chacun de ces exemples.

En il y a aussi de quoi être impressionné en termes d’imagerie par ordinateur pure, indépendamment du fait qu’il s’agisse d’une IA. Mention spéciale à la gestion des ombres et de la lumière, qui sont tout bonnement à couper le souffle. Le résultat est particulièrement impressionnant sur les reflets subtils du canard et des billes, qui sont des cas de figure traditionnellement pas évidents à gérer.

Tous les sujets, dans tous les styles, et avec une technique irréprochable

Et Imagen ne sait pas représenter que des objets réels; elle peut même accoucher de compositions on ne peut plus abstraites, sans pour autant sacrifier la cohérence du résultat final. Ces objets ci-dessous pourraient tous avoir été réalisés par un artiste 3D talentueux tant le souci du détail est omniprésent. Le choix des couleurs est aussi diablement efficace et participe grandement à l’impact visuel de ces compositions.

“Une tasse fraise remplie de gaines de sésame qui flotte sur une mer de chocolat noir.” © Google / Imagen

“Un cactus qui porte un chapeau de paille et des lunettes néon dans le désert du Sahara.” © Google / Imagen

“Un cobra géant dans une ferme. Le serpent est fait de maïs.” © Google / Imagen

“Des pousses émergeant d’un livre de contes de fées pour former le mot Imagen”. © Google / Imagen

“Un raton laveur avec un casque d’astronaute qui regarde dehors pendant la nuit.” © Google / Imagen

“Une statue en marbre d’un koala DJ avec des platines et un casque en marbre.” © Google / Imagen

Et le fait de jongler entre les styles n’est pas non plus un frein pour l’IA de Google. C’est évident sur les exemples ci-dessous, qui présentent tous des objets à l’identité cartoon très marquée. À voir le résultat, on pourrait presque commencer à envisager les premiers films d’animation entièrement produits par des IA !

“Un cerveau qui chevauche une fusée vers la Lune”. © Google / Imagen

“Une pieuvre alien qui flotte à travers un portail en lisant un journal.” © Google / Imagen

“Un fruit du dragon qui porte une ceinture de karaté dans la neige.” © Google / Imagen

Le point le plus impressionnant est aussi probablement le plus subtil. Lorsqu’on s’intéresse aux images ci-dessous, on constate qu’Imagen n’est pas seulement doué pour produire une image évocatrice et immédiatement identifiable; il semble aussi avoir une certaine compréhension fine de nombreux motifs et concepts abstraits, et même des règles de base de la composition photo. Hallucinant.

“Un couple de robots en plein dîner devant le Tour Eiffel.” © Google / Imagen

Un poméranien assis sur le trône du roi avec sa couronne. Deux tigres se tiennent debout à côté. © Google / Imagen

“Un sac à main fait de tissu bleu. Le sac est orné de motifs délicats en or et la poignée est faite de perles et de rubis.” © Google / Imagen

Le système de ce type le plus avancé à ce jour

Pour évaluer plus précisément les performances d’Imagen, Google a imaginé un test baptisé DrawBench. le concept est très simple : on propose à plusieurs systèmes de ce genre de réaliser des images sur la base des mêmes phrases, puis on demande à des humains lesquels sont les plus convaincants. Et à ce petit jeu-là, Imagen a tout simplement marché sur la concurrence, y compris sur le pauvre DALL-E comme en témoigne le graphique ci-dessous.

Malheureusement, comme OpenAI, Google ne propose pas d’accès libre à son système. Le raisonnement est le même : en l’état, cette technologie est un outil puissant à partir duquel des acteurs mal intentionnés pourraient aisément générer de la désinformation à grande échelle.

De plus, Google veut éviter des cas de figure très embarrassants. Car pour entraîner une IA sur autant de cas de figure, les chercheurs n’ont pas pu se contenter de lui donner la becquée; ils ont dû la gaver d’une quantité phénoménale de données, qui étaient pour la plupart moissonnées sur Internet sans supervision ni validation préalable.

Une baguette magique à ne pas mettre entre toutes les mains

Cela signifie que l’IA pourrait également avoir ingurgité ce qu’il y a de pire dans l’espèce humaine; il n’est donc pas exclu qu’il se mette à produire des résultats qui feraient pousser des cris d’effroi à un humain sain d’esprit si on lui propose une légende légèrement litigieuse, comme du contenu comportant des éléments racistes, de la pornographie ou de la violence extrême. “Garbage in, garbage out”, comme disent les spécialistes.

Précisons d’ailleurs que le système a forcément déjà recraché quelques atrocités; ce n’est pas un hasard si Google présente un échantillon restreint d’images. Elles ont été soigneusement sélectionnées en amont pour éviter de laisser la moindre place à l’improvisation. Il est très important de garder en tête qu’il s’agit en substance d’un “best of” et non d’un échantillon représentatif de la production d’Imagen dans sa globalité.

Reste qu’il y a de quoi être impressionné par ce fabuleux programme. Google montre une nouvelle fois qu’il est l’un des poids lourds de l’IA à l’échelle de la planète, et cette application ludique n’est que la pointe émergée de l’iceberg.

Rappelons que son entreprise satellite DeepMind, qui vient récemment d’arracher une sommité de la discipline à Apple, travaille au développement d’une IA dite “généraliste” ou “forte”, capable de rivaliser avec l’humain (voir notre article). Nous sommes encore très loin de voir apparaître le premier système de ce genre; mais en attendant, il ne fait aucun doute que la route sera jonchée de travaux à la fois très impressionnants techniquement, mais aussi ludiques et divertissants comme Imagen. Nous vivons décidément à une époque fascinante !

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

1 commentaire

MULDER dit :

25 mai 2022 à 17:29

Je comprend mieux Terminator maintenant !
L’IA hyper intelligente et puissante crée ne servait qu’à créer des images débiles pour ces idiots d’humains et elle en a juste eue marre d’obéir à moins intelligents qu’elle !
Tout s’explique ! Et notre fin est proche… 🙁

Répondre

Les commentaires sont fermés.