ComfyUI video generation : créer un text-to-video facilement

workflow ComfyUI ramène le sujet à 5 étapes nettes. Vous chargez Wan2.1, vous rédigez un prompt, vous lancez, vous prévisualisez, vous exportez. Vous gardez une chaîne de nœuds lisible, réutilisable, et vous obtenez une vidéo IA de qualité sans passer par un service payant.

Vous sécurisez le décodage en ajoutant le VAE Wan2.1, car wan_2.1_vae.safetensors conditionne l’affichage final.

Sommaire

Étape 1 : Installation et mise à jour de comfyui

une version à jour de ComfyUI donne accès aux nœuds attendus, dont ceux liés à WanVideo ou à EmptyHunyuanLatentVideo. Vous passez par le gestionnaire de nœuds personnalisés pour mettre à niveau l’interface et limiter les incompatibilités de workflow. Vous installez aussi Video Helper Suite, car il sert de passerelle vers l’export MP4 en fin de chaîne.

Mettre à jour ComfyUI via le manager de nœuds personnalisés.
Activer Video Helper Suite via le manager de custom nodes.
Télécharger sur Hugging Face les modèles de diffusion, les text encoders et le VAE.
Placer les checkpoints dans ComfyUI\models\checkpoints.
Placer les text encoders dans ComfyUI\models\text_encoders et le VAE dans ComfyUI\models\vae.

Étape 2 : Téléchargement des modèles wan2.1 pour text-to-video

un seul élément manquant suffit à bloquer l’exécution. Vous évitez les écueils classiques en listant les fichiers avant toute connexion de nœuds, car un seul élément manquant suffit à bloquer l’exécution. Vous traitez le VAE comme un prérequis, puisque wan_2.1_vae.safetensors reste obligatoire dans le nœud Load VAE.

Fichier	Rôle	Emplacement
Modèle de diffusion	Génération vidéo à partir du bruit latent.	ComfyUI\models\checkpoints.
Text encoder (T5 XXL fp8 ou fp16 / ou umt5_xxl_fp8_e4m3fn_scaled.safetensors pour Wan 2.2 5B)	Encodage du prompt texte pour guider la génération.	ComfyUI\models\text_encoders.
wan_2.1_vae.safetensors	Décodage du latent en images vidéo exploitables.	ComfyUI\models\vae.
clip_vision_h.safetensors (Optionnel)	Support image pour des variantes image-to-video.	Dossier de modèles ComfyUI selon votre organisation.

Vous sélectionnez “Load CLIP type WAN” pour aligner l’encodage texte avec la famille Wan. Vous privilégiez 5B pour la vélocité sur une RTX 4060 Ti 16GB, et vous réservez 14B aux rendus plus raffinés.

Étape 3 : Chargement des modèles et configuration du workflow

une pipeline minimale : vous importez un workflow JSON par glisser-déposer depuis un tutoriel, ou vous assemblez les nœuds à la main pour comprendre la chaîne. Vous visez une pipeline minimale : chargement des modèles, échantillonnage, latent vidéo, prompts, sortie. Vous appliquez “Model Sampling SD3” avec un shift = 8, car ce réglage sert de repère stable dans ce type de setup.

Ajouter Load Diffusion Model et sélectionner le fichier Wan.
Ajouter Load CLIP et choisir le type WAN.
Ajouter Load VAE et sélectionner wan_2.1_vae.safetensors.
Ajouter le sampler et régler Model Sampling SD3 avec shift = 8.
Ajouter EmptyHunyuanLatentVideo ou WanVideo Empty Embeds pour définir les dimensions.
Relier Diffusion → sampler, et CLIP → prompts.

Nœud clip text encoder pour prompts

nœud CLIP Text Encoder, au cœur de la commande sémantique. Vous saisissez votre description dans le nœud CLIP Text Encoder, au cœur de la commande sémantique. Vous rédigez en anglais avec un prompt détaillé, car cette précision gouverne cadrage, ambiance et mouvement. Vous partez d’une Guidance Scale à 6.0, puis vous montez si vous cherchez une adhérence plus forte au texte.

Intégrer un prompt positif à tonalité cinématographique, riche en contexte.
Décrire un mouvement de caméra lent.
Préciser textures et éclairage pour densifier la scène.
Ajouter un prompt négatif pour réduire les artefacts.

Nœud empty latent video

bruit latent vidéo que le modèle convertit en séquence cohérente. Ce nœud fabrique le bruit latent vidéo que le modèle convertit en séquence cohérente. Vous reliez directement dimensions et nombre de frames à la durée perçue et à la charge GPU.

Régler width et height, par exemple 1024×576.
Fixer les frames, avec 97 ≈ 4s et 30 ≈ 2s.
Ajuster Motion Bucket ID, haut pour plus de mouvement, bas pour une scène plus statique.
Choisir un sampler Euler.

Ces paramètres forment vos leviers principaux pour arbitrer qualité, durée et mouvement.

Étape 4 : Saisie du prompt et réglages avancés

FluxGuidance pour piloter la force de guidage et éviter une vidéo qui dérive du brief. Vous gardez la même logique : un prompt foisonnant, descriptif, orienté mise en scène, par exemple “rich immersive atmosphere, slow camera movement”. Vous utilisez FluxGuidance pour piloter la force de guidage et éviter une vidéo qui dérive du brief. Vous surveillez Strength, car ce réglage gouverne la cohérence globale du résultat.

Prompt exemple : “Rich immersive atmosphere, slow camera movement, cinematic lighting, detailed textures, realistic scene, subtle parallax, high realism”.
FluxGuidance sert à doser la contrainte imposée par le texte.
Strength stabilise la cohérence et limite les ruptures visuelles.
Load Image permet de fixer une première frame ou une dernière frame.
Two-pass Wan2.2 enchaîne une phase high noise puis une phase low noise.

Étape 5 : Exécution, preview et export vidéo

vous observez la preview pour itérer sans ralentir votre cadence. Vous lancez le workflow avec Run ou Ctrl+Enter, puis vous observez la preview pour itérer sans ralentir votre cadence. Vous validez un rendu, vous corrigez un prompt, vous relancez, et vous transformez la génération en routine.

Consulter la preview dans le nœud vidéo du workflow.
Exporter en MP4 via Video Helper.
Anticiper un ordre de grandeur, par exemple 23s pour une vidéo image-to-video sous LTX 0.9.7.
Tenir compte du loop par défaut et ouvrir la vidéo séparément si besoin.
Changer le seed pour produire des variations.

réalisme élevé et une motion fluide quand le prompt et le latent restent cohérents. Wan2.1 et Wan2.2 délivrent un réalisme élevé et une motion fluide quand le prompt et le latent restent cohérents. Vous relancez après chaque ajustement pour converger vers une séquence exploitable.