Dossier

Deepfake : est-il facile de créer des vidéos truquées crédibles ?

Créer des vidéos truquées surprenantes de réalisme devrait devenir de plus en plus simple. Aussi bien au niveau de l’image que de l’audio.

Un Barack Obama qui traite son successeur d’«abruti complet». Un Donald Trump appelant les Belges à se retirer de l’accord de Paris. On a vu apparaître l’an dernier des deepfake surprenants de réalisme. Ces vidéos truquées qui jouent souvent à substituer un visage par un autre sont-elles complexes à fabriquer ? Pas spécialement, nous explique Vincent Nozick, enseignant chercheur au laboratoire d’informatique Gaspard Monge (LIGM) qui travaille sur un programme de détection des Deepfake baptisé Mesonet : “Il suffit d’avoir des bases d’informatique pour créer ce type de vidéos. L’algorithme est disponible sur Internet.”

La première étape est de constituer une base de photos. “Il suffit de collecter environ 10 000 images de la personne que l’on souhaite imiter. L’idéal est d’avoir plein de petites vidéos où elle apparaît sous des angles de vue et des éclairages variés”, précise le chercheur. Une base autrement dit facile à constituer s’il s’agit d’opérer une substitution entre deux personnes très médiatiques (politiques, stars de ciné, etc.).

Substituer le visage d’un “acteur” complice par celui d’une personnalité n’est cependant guère plus difficile. “Idéalement, il faut prendre une personne qui lui ressemble un peu et la filmer sous différents angles et éclairages en lui demandant des faire de expressions faciales variées”, détaille Vincent Nozick. Des vidéos qui ne requièrent pas plus d’une journée de tournage et qui, une fois dans la boîte, pourront servir de base à de nombreux Deepfake. Pas besoin en effet de refaire ce travail à chaque fois : une fois que la base relative au complice est créée, il est possible de s’appuyer dessus pour toutes les vidéos.

Cinq minutes de vidéo de la cible

Une autre technologie, Face2Face, permet de produire des vidéos truquées avec encore moins de données, précise le chercheur du LIGM. Elle est très complexe à coder et pour le moment son code n’est pas accessible. Elle devrait donc rester “sécurisée” pendant encore quelques années mais à terme, d’autres arriveront à la reproduire. Ce qui peut poser problème car Face2Face fonctionne avec à peine 5 minutes de vidéo de la cible.

Pas de doute pour les experts du secteur : ces vidéos truquées vont se perfectionner avec le temps. D’autant que la recherche progresse également sur l’analyse de la voix. “Il y a trois ou quatre ans, il fallait presque deux mois d’enregistrement pour créer une voix de synthèse assez ressemblante. Aujourd’hui c’est faisable en quelques jours d’enregistrement”, nous confie William Simonin, PDG de Vivoka, une start-up spécialisée dans la reconnaissance vocale. Des progrès utiles dans bien d’autres domaines que ceux du trucage vidéo (ils aident notamment à améliorer les assistants vocaux). Mais ils pourraient bien apporter aux deepfake, au passage, une touche supplémentaire de réalisme.

Quels problèmes ces Deepfake risquent-ils de poser? Existe-t-il des outils permettant de les détecter ? Nous nous pencherons sur ces sujets dans les prochains articles de cette série consacrée aux Deepfake.

Pour plus de détails sur MesoNet, voir la publication sur Arxiv.org (auteurs: Darius Afchar, Vincent Nozick, Junichi Yamagishi, Isao Echizen)