Alibaba : Wan 2.6 injecte plus de cohérence dans les vidéos générées par IA

En Chine, les acteurs de l’IA se concentrent sur des modèles de génération de vidéos IA réellement utilisables au quotidien. Avec Wan 2.6, Alibaba Cloud met le paquet sur la mise en scène, la continuité des personnages et la facilité de production, même si les résultats restent solidement ancrés dans l’« uncanny valley ».

On connait Sora et Vibes, mais Alibaba aussi veut faire passer le mot : la génération de vidéos IA ne se limite pas aux acteurs américains (en l’occurrence OpenAI et Meta). Le géant chinois veut sortir sa technologie du laboratoire et entrer dans les usages concrets. La nouvelle famille de modèles Wan 2.6 reprend précisément cette logique. Annoncée comme une évolution majeure de ses modèles de génération visuelle, elle veut rendre la production de vidéos « cinématographiques » plus accessible, y compris pour des créateurs aux moyens limités.

Remettre de l’ordre dans les vidéos générées par IA

La nouveauté la plus mise en avant est Wan 2.6-R2V, un modèle dit « reference-to-video ». Le principe est simple sur le papier, mais très ambitieux dans l’exécution : l’utilisateur fournit une vidéo de référence d’un personnage (son apparence, sa voix…), puis génère de nouvelles scènes à partir de requêtes textuelles. Le système se charge de conserver une cohérence visuelle et sonore d’une scène à l’autre.

S'abonner à Journal du Geek

Alibaba affirme qu’il s’agit du premier modèle chinois capable d’intégrer de manière stable une personne, un animal ou un objet dans des scènes générées par IA, sans variations intempestives de visage ou de voix. Les résultats sont intéressants, mais les exemples d’Alibaba ont toujours ce côté « vallée de l’étrange » typique des vidéos IA.

Wan 2.6 ne se limite pas à ce seul modèle. La famille comprend aussi des versions améliorées du text-to-video (Wan 2.6-T2V), de l’image-to-video (Wan 2.6-I2V), ainsi que des outils dédiés à la génération et à l’édition d’images. L’ensemble met l’accent sur le « storytelling multi-plans », la synchronisation audio-vidéo et une meilleure compréhension de requêtes longues, en chinois comme en anglais.

Avec des vidéos pouvant atteindre 15 secondes, Alibaba vise clairement les créateurs de formats courts, tout en promettant un rendu plus soigné et plus de cohérence d’un plan à l’autre. Les modèles sont accessibles via Model Studio, la plateforme de développement IA d’Alibaba Cloud, et doivent aussi être intégrés à l’application Qwen.

Alibaba n’est évidemment pas seul sur ce créneau. À Pékin, Shengshu Tech a récemment présenté Vidu Agent, un outil de gestion de la chaîne de création vidéo dans un flux unique. De la planification créative à la génération des images et de la voix off, l’entreprise met en avant un usage « en un clic » destiné aussi bien aux marques qu’aux créateurs indépendants.

Même son de cloche chez Kuaishou. La plateforme de vidéos courtes a lancé ses modèles Kling O1 et Kling Video 2.6, conçus pour réunir génération, montage et compréhension du contenu au sein d’un même environnement. Une approche pensée pour répondre aux besoins de l’industrie créative, habituée à travailler vite et en volume. SenseTime, de son côté, a dévoilé Seko 2.0, un agent IA capable de produire jusqu’à une centaine d’épisodes de séries courtes à moindre coût, selon l’entreprise. Là encore, le discours cible les studios, mais aussi les créateurs individuels.

🟣 Pour ne manquer aucune news sur le Journal du Geek, suivez-nous sur Google et sur notre canal WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.