Cette IA crée des vidéos dans lesquelles on peut se promener

Cinéma

Par Antoine Gautherie le

Des chercheurs ont mis au point une technique permettant de combiner plusieurs extraits vidéos en une virtualisation 4D de la scène, qui permet de déplacer une caméra virtuelle ou de modifier des morceaux d’image. Mais contrairement aux techniques déjà existantes, celle-ci ne nécessite que quelques smartphones.

© Noe Calderon

Des chercheurs de l’université de Carnegie Mellon ont présenté dans une étude un système capable de combiner plusieurs vidéos tournées sur smartphone pour recréer une impressionnante visualisation en 4D, qui permet plusieurs opérations bluffantes. Dans plusieurs vidéos de démonstration, on peut notamment voir l’équipe supprimer des personnages au premier plan. D’après l’équipe, il serait même possible d’effectuer un transfert en filmant un individu dans un environnement, puis de le transposer dans un second paysage. Mais le plus impressionnant, c’est que cette technologie permet de regarder la scène à partir d’angles variés, qui n’ont rien à voir avec la position originale de la caméra – et le tout sans écran vert !

Pour prouver la viabilité de leur technique, les chercheurs ont utilisé une quinzaine de téléphones différents (en l’occurrence, des iPhones) pour capturer des extraits de scènes diverses et variées. Une façon pour eux de démontrer que n’importe qui peut utiliser ce système. Certes, il reste des artefacts, surtout lorsque la caméra virtuelle pivote de façon très marquée. Mais globalement, il faut admettre que le résultat est tout simplement bluffant, même dans des cas traditionnellement très ardus comme les mouvements d’une robe en tissu.

Le futur de la réalité augmentée et de la post-production ?

Certes, des technologies de ce type existent déjà et ce depuis belle lurette. Les exemples sont nombreux : on peut par exemple citer  Matrix, sorti en 1999, qui comporte un exemple resté dans les annales. Dans cette scène, Keanu Reeves a été filmé par de nombreuses caméras synchronisées sur un plateau tout vert, avant de raccorder le tout en post-production avec beaucoup de persévérance, et surtout une render farm extrêmement puissante.

Et depuis, des techniques bien plus sophistiquées se sont développées pour perfectionner cet effet visuel et le rendre de plus en plus convaincant. L’université de Carnegie Mellon est d’ailleurs particulièrement productive en la matière puisque c’est aussi à elle que l’on doit le CMU Panoptic Studio, un studio sphérique bardé de technologie de pointe, dont plus de 500 caméras, et destiné à étudier les mouvements. Mais ce qui rend leur nouvelle contribution aussi impressionnante, c’est qu’elle ne nécessite ni l’infrastructure, ni la puissance de calcul des précédentes : le tout peut être réalisé en temps réel à partir d’images filmées à la main. Il n’y a donc pas besoin d’un jeu de caméras calibrées au micromètres et synchronisées à la perfection.

Pour réussir cette prouesse, les chercheurs ont utilisé un réseau neuronal convolutif (CNN, pour Convolutional neural Network). Ce type d’algorithme de deep learning est particulièrement prisé des scientifiques qui travaillent sur l’intelligence artificielle appliquée aux données visuelles, comme des images; Bansal et ses collègues se sont également rendus compte qu’elle pouvait aisément recomposer différents extraits en une scène 4D. Comme une scène 3d, mais avec une dimension supplémentaire liée au mouvement de la caméra. Dès aujourd’hui, on peut facilement imaginer les applications potentielles d’une telle technique, quitte à les utiliser avec du matériel professionnel à grande échelle. Mais le vrai intérêt se fera certainement sentir après quelques autres papiers de recherche supplémentaires : une fois qu’elle sera plus mature, cette technologie pourrait bien démultiplier les possibilités pour un programmeur AR ou un réalisateur au budget serré. Ou, hélas, rendre encore un peu plus réalistes les vidéos truquées…

Promo
Apple iPhone 11 (128 Go)...
3 357 Commentaires
Apple iPhone 11 (128 Go)...
  • Écran LCD Liquid Retina HD 6,1 pouces
  • Résistant à la poussière et à l’eau (jusqu’à 2 mètres pendant 30 minutes maximum,...
  • Double appareil photo avec ultra grand-angle et grand-angle 12 Mpx, mode Nuit, mode Portrait et...
  • Caméra avant TrueDepth 12 Mpx avec mode Portrait, vidéo 4K et ralenti