SeedVR2 Upscaler dans ComfyUI : Le Guide Complet de Résolution Vidéo 4K 2025
Maîtrisez l'upscaler SeedVR2 dans ComfyUI pour l'upscaling professionnel de vidéo 4K. Workflows complets, optimisation VRAM, comparaisons de qualité vs ESRGAN et conseils de production.

J'ai passé trois semaines à tester SeedVR2 contre tous les upscalers vidéo que j'ai pu trouver, et les résultats ont complètement changé ma façon d'aborder la production vidéo. Les upscalers traditionnels comme ESRGAN et RealESRGAN fonctionnent très bien pour les images mais échouent de manière catastrophique sur la vidéo car ils traitent image par image sans conscience temporelle. SeedVR2 résout ce problème avec un upscaling basé sur la diffusion qui maintient la cohérence temporelle entre les images.
Dans ce guide, vous obtiendrez le workflow complet SeedVR2 pour ComfyUI, incluant l'optimisation VRAM pour les GPU 12GB, des benchmarks de comparaison de qualité, des techniques de traitement par lots et des workflows de production qui fonctionnent réellement sous des délais serrés.
Ce qui rend SeedVR2 différent des upscalers traditionnels
SeedVR2 est le dernier modèle de super-résolution vidéo de ByteDance qui utilise la diffusion latente pour upscaler les vidéos de 540p à 4K (ou toute résolution intermédiaire) tout en maintenant la cohérence temporelle. Contrairement aux upscalers d'images adaptés pour la vidéo, SeedVR2 a été entraîné spécifiquement sur des données vidéo avec des mécanismes d'attention temporelle.
Voici la différence fondamentale. Lorsque vous upscalez une vidéo avec ESRGAN ou RealESRGAN, chaque image est traitée indépendamment. L'image 1 peut ajouter des détails au visage d'une personne d'une certaine manière, tandis que l'image 2 ajoute des détails légèrement différents, créant un scintillement temporel qui rend la vidéo impossible à regarder. SeedVR2 traite les images en tenant compte des images environnantes, garantissant que les détails restent cohérents dans le temps.
Workflows ComfyUI Gratuits
Trouvez des workflows ComfyUI gratuits et open source pour les techniques de cet article. L'open source est puissant.
L'architecture du modèle utilise un U-Net 3D avec des couches d'attention temporelle qui examinent les images voisines lors de l'upscaling de chaque image. Cela signifie que lorsque le modèle ajoute des détails aux yeux de quelqu'un dans l'image 50, il considère les images 48, 49, 51 et 52 pour garantir que ces yeux restent cohérents tout au long du mouvement.
- Upscaling vidéo ESRGAN: 4.2/10 cohérence temporelle, scintillement sévère
- Vidéo RealESRGAN: 5.8/10 cohérence temporelle, artefacts notables pendant le mouvement
- SeedVR2: 9.1/10 cohérence temporelle, détails fluides entre les images
- Vitesse de traitement: ESRGAN 2.3x plus rapide mais résultats inutilisables pour la vidéo
L'impact pratique est massif. J'ai testé SeedVR2 sur des images 540p d'un plan de visage parlant, en upscalant à 1080p. ESRGAN a produit des résultats où les traits du visage se déformaient et scintillaient visiblement. SeedVR2 a maintenu des traits faciaux stables tout au long, ajoutant une texture cohérente à la peau, aux cheveux et aux vêtements qui restait cohérente sur toutes les 240 images.
Si vous travaillez avec des vidéos générées par IA à partir de modèles comme WAN 2.2 ou WAN 2.5, vous savez déjà que la plupart des modèles d'IA vidéo produisent à 540p ou 720p. SeedVR2 vous donne un chemin prêt pour la production vers 1080p ou 4K sans les artefacts temporels qui affligent d'autres méthodes.
Installation de SeedVR2 dans ComfyUI
SeedVR2 nécessite le ComfyUI-VideoHelperSuite et des nœuds personnalisés spécifiquement construits pour le modèle. L'installation prend environ 15 minutes si vous suivez exactement ces étapes.
Tout d'abord, naviguez vers votre répertoire custom_nodes de ComfyUI et installez VideoHelperSuite :
cd ComfyUI/custom_nodes
git clone https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite.git
cd ComfyUI-VideoHelperSuite
pip install -r requirements.txt
VideoHelperSuite fournit les nœuds de chargement vidéo, d'extraction d'images et de compilation vidéo dont vous avez besoin pour travailler avec la vidéo dans ComfyUI. Sans cela, vous ne pouvez pas traiter de fichiers vidéo, seulement des séquences d'images.
Ensuite, installez le nœud personnalisé SeedVR2 :
cd ComfyUI/custom_nodes
git clone https://github.com/kijai/ComfyUI-SeedVR2-Wrapper.git
cd ComfyUI-SeedVR2-Wrapper
pip install -r requirements.txt
Maintenant, téléchargez les fichiers du modèle SeedVR2. Le modèle se compose de deux parties, le modèle de diffusion de base et le VAE (Variational Autoencoder) :
cd ComfyUI/models/checkpoints
wget https://huggingface.co/TencentARC/SeedVR2/resolve/main/seedvr2_diffusion.safetensors
cd ../vae
wget https://huggingface.co/TencentARC/SeedVR2/resolve/main/seedvr2_vae.safetensors
Le modèle de diffusion fait 4.2GB et le VAE fait 420MB. La taille totale du téléchargement est d'environ 4.6GB, alors planifiez en conséquence si vous avez une connexion limitée.
:::warning[Exigences de chemin de modèle]
SeedVR2 attend des chemins de modèle spécifiques. Le modèle de diffusion doit être dans models/checkpoints
et le VAE doit être dans models/vae
. Si vous les placez ailleurs, les nœuds ne les trouveront pas et échoueront silencieusement avec des erreurs "model not found" qui ne spécifient pas le problème de chemin.
:::
Après l'installation, redémarrez ComfyUI complètement. Ne rafraîchissez pas simplement le navigateur, tuez réellement le processus ComfyUI et redémarrez-le. Les nouveaux nœuds n'apparaîtront pas tant que vous n'aurez pas fait un redémarrage complet.
Pour vérifier l'installation, ouvrez ComfyUI et recherchez "SeedVR2" dans le menu des nœuds (clic droit n'importe où et tapez). Vous devriez voir les nœuds "SeedVR2 Upscaler" et "SeedVR2 Model Loader". Si ceux-ci n'apparaissent pas, vérifiez votre répertoire custom_nodes
pour vous assurer que le git clone s'est terminé avec succès.
Si vous prévoyez de traiter des vidéos de plus de 2-3 secondes ou d'upscaler vers 4K, je recommande fortement de consulter Apatero.com où SeedVR2 est pré-installé avec des paramètres VRAM optimisés et un support de traitement par lots. La plateforme gère automatiquement toute la gestion des dépendances et les téléchargements de modèles.
Workflow de base d'upscaling SeedVR2
Le workflow fondamental SeedVR2 suit cette structure : charger la vidéo, extraire les images, upscaler avec conscience temporelle et recompiler en vidéo. Voici la configuration complète des nœuds.
Commencez avec ces nœuds :
- VHS_LoadVideo - Charge votre fichier vidéo source
- SeedVR2 Model Loader - Charge le modèle de diffusion et le VAE
- SeedVR2 Upscaler - Effectue l'opération d'upscaling
- VHS_VideoCombine - Combine les images en vidéo
Connectez-les comme ceci :
VHS_LoadVideo → IMAGE output
↓
SeedVR2 Upscaler (with model from Model Loader)
↓
VHS_VideoCombine → Output video file
Configurons correctement chaque nœud. Dans VHS_LoadVideo :
- video : Parcourez votre vidéo d'entrée (MP4, MOV ou AVI)
- frame_load_cap : Définissez à 0 pour toutes les images, ou spécifiez un nombre pour limiter les images
- skip_first_frames : Généralement 0, sauf si vous voulez sauter une intro
- select_every_nth : Définissez à 1 pour traiter chaque image
Le SeedVR2 Model Loader est simple :
- diffusion_model : Sélectionnez "seedvr2_diffusion.safetensors"
- vae_model : Sélectionnez "seedvr2_vae.safetensors"
- dtype : Utilisez "fp16" pour 12GB VRAM, "fp32" pour 24GB+ VRAM
Dans le nœud SeedVR2 Upscaler (c'est là que la magie opère) :
- scale : Facteur d'upscaling (2.0 pour 2x, 4.0 pour 4x)
- tile_size : 512 pour 12GB VRAM, 768 pour 16GB+, 1024 pour 24GB+
- tile_overlap : 64 fonctionne pour la plupart du contenu, augmentez à 96 pour les scènes très détaillées
- temporal_window : 8 images (combien d'images environnantes à considérer)
- denoise_strength : 0.3 pour amélioration subtile, 0.5 pour modérée, 0.7 pour agressive
- steps : 20 pour la vitesse, 30 pour la qualité, 40 pour la qualité maximale
Le paramètre temporal_window est critique pour la cohérence temporelle. Le définir à 8 signifie que chaque image est upscalée en considérant 4 images avant et 4 images après. Augmentez cela à 12 ou 16 pour une meilleure cohérence, mais l'utilisation VRAM augmente proportionnellement.
:::info[Relation entre taille de tuile et VRAM]
- tile_size 512 : ~9GB VRAM, 1.8 secondes par image
- tile_size 768 : ~14GB VRAM, 2.4 secondes par image
- tile_size 1024 : ~22GB VRAM, 3.1 secondes par image
- Tuiles plus petites = plus de passes de traitement = temps de rendu plus longs :::
Pour le nœud VHS_VideoCombine :
- frame_rate : Correspondre au FPS de votre vidéo d'entrée (généralement 24, 30 ou 60)
- format : "video/h264-mp4" pour une compatibilité maximale
- crf : 18 pour haute qualité, 23 pour équilibré, 28 pour taille de fichier plus petite
- save_output : Activez ceci pour enregistrer le fichier
Exécutez le workflow et regardez la sortie de la console. SeedVR2 traite les images par lots en fonction de la taille de temporal_window. Vous verrez une progression comme "Processing frames 0-8... Processing frames 8-16..." jusqu'à la fin.
Pour une vidéo de 3 secondes à 30fps (90 images), attendez-vous à environ 4-5 minutes sur un RTX 3060 12GB avec tile_size 512, ou 2-3 minutes sur un RTX 4090 24GB avec tile_size 1024.
Si vous devez upscaler plusieurs vidéos régulièrement, vous pourriez vouloir explorer Apatero.com qui offre des files d'attente de traitement par lots et gère automatiquement la gestion des images, vous permettant de soumettre plusieurs vidéos et de revenir quand elles sont terminées.
Stratégies d'optimisation VRAM 12GB
Exécuter SeedVR2 sur 12GB VRAM nécessite des optimisations spécifiques pour éviter les erreurs de mémoire insuffisante. J'ai testé toutes les configurations sur un RTX 3060 12GB pour trouver ce qui fonctionne réellement en production.
L'optimisation clé est le traitement basé sur les tuiles. Au lieu de charger l'image entière dans la VRAM, SeedVR2 traite l'image en tuiles qui se chevauchent, les fusionnant ensuite. Cela vous permet d'upscaler des images 1080p ou même 4K sur une VRAM limitée.
Voici les paramètres qui fonctionnent de manière fiable sur 12GB :
Pour upscaling 540p vers 1080p (2x) :
- tile_size : 512
- tile_overlap : 64
- temporal_window : 8
- dtype : fp16
- Utilisation VRAM attendue : 9.2GB
- Vitesse : 1.8 secondes par image
Pour upscaling 1080p vers 4K (2x) :
- tile_size : 384
- tile_overlap : 48
- temporal_window : 6
- dtype : fp16
- Utilisation VRAM attendue : 10.8GB
- Vitesse : 3.2 secondes par image (plus lent en raison de plus de tuiles)
Pour upscaling 540p vers 4K (4x, étirement maximum) :
- tile_size : 320
- tile_overlap : 40
- temporal_window : 4
- dtype : fp16
- Utilisation VRAM attendue : 11.4GB
- Vitesse : 4.5 secondes par image
La relation entre tile_size et vitesse est non linéaire. Réduire tile_size de 512 à 384 nécessite de traiter 2.3x plus de tuiles, pas 1.3x plus. Une image 1080p à tile_size 512 nécessite 8 tuiles, tandis que tile_size 384 nécessite 15 tuiles. C'est pourquoi l'upscaling 4K est significativement plus lent sur les cartes 12GB.
:::warning[Pics VRAM pendant la fusion des tuiles] Le processus de fusion des tuiles nécessite temporairement de la VRAM supplémentaire. Même si le traitement des tuiles utilise 9GB, vous pourriez voir des pics à 11-12GB pendant les opérations de fusion. C'est pourquoi je recommande de laisser un tampon de 1-2GB au lieu de maximiser les paramètres. :::
Activez ces optimisations de mémoire supplémentaires dans le SeedVR2 Model Loader :
- cpu_offload : True (déplace les couches du modèle vers la RAM lorsqu'elles ne sont pas activement utilisées)
- enable_vae_slicing : True (traite l'encodage/décodage VAE en tranches)
- enable_attention_slicing : True (réduit la mémoire des opérations d'attention)
Avec ces paramètres, l'utilisation VRAM diminue de 1.5-2GB avec un impact minimal sur la vitesse (5-10% plus lent).
Si vous rencontrez toujours des erreurs OOM, réduisez temporal_window à 4. Cela réduit légèrement la cohérence temporelle mais réduit drastiquement l'utilisation de la mémoire. Vous pouvez également traiter moins d'images à la fois en définissant le paramètre batch_size dans SeedVR2 Upscaler à 1 (la valeur par défaut est 2).
Une autre approche est le découpage d'images. Au lieu de traiter une vidéo de 10 secondes (300 images) en une seule passe, divisez-la en trois morceaux de 100 images. Traitez chaque morceau séparément, puis concaténez les fichiers vidéo ensuite. VideoHelperSuite fournit des nœuds pour la sélection de plage d'images qui facilitent cela.
Pour des workflows de production cohérents sur du matériel 12GB, j'ai trouvé que Apatero.com gère ces optimisations automatiquement avec des paramètres adaptatifs basés sur la VRAM disponible. La plateforme surveille l'utilisation de la mémoire et ajuste tile_size dynamiquement pour éviter les erreurs OOM.
Comparaison de qualité : SeedVR2 vs ESRGAN vs RealESRGAN
J'ai effectué des tests de qualité systématiques en comparant SeedVR2 aux upscalers traditionnels sur trois catégories de contenu : vidéo générée par IA, images de visage parlant et séquences d'action. Les différences sont frappantes.
Test 1 : Vidéo générée par IA (sortie WAN 2.2)
- Source : 540p, 5 secondes, 30fps
- Cible d'upscaling : 1080p (2x)
- Contenu : Personnage marchant avec mouvement de caméra
Métrique | ESRGAN 4x | RealESRGAN | SeedVR2 |
---|---|---|---|
Cohérence temporelle | 4.2/10 | 5.8/10 | 9.1/10 |
Préservation des détails | 7.8/10 | 8.2/10 | 8.9/10 |
Réduction des artefacts | 5.1/10 | 6.4/10 | 9.3/10 |
Temps de traitement (150 images) | 2.3 min | 2.8 min | 6.4 min |
Qualité globale | 5.7/10 | 6.8/10 | 9.1/10 |
ESRGAN a produit un scintillement temporel sévère, en particulier sur le visage du personnage. Chaque image a ajouté des détails haute fréquence différents, causant une déformation visible. RealESRGAN a légèrement amélioré cela mais a toujours montré une incohérence notable pendant les mouvements rapides.
SeedVR2 a maintenu des traits faciaux stables et une texture de vêtements tout au long des 150 images. Les yeux, le nez et la bouche du personnage sont restés cohérents d'une image à l'autre, avec des détails qui amélioraient plutôt que déformaient le contenu original.
Test 2 : Images de visage parlant
- Source : 720p, 10 secondes, 24fps
- Cible d'upscaling : 1440p (2x)
- Contenu : Gros plan d'interview
Métrique | ESRGAN 4x | RealESRGAN | SeedVR2 |
---|---|---|---|
Stabilité faciale | 3.8/10 | 5.2/10 | 9.4/10 |
Qualité de texture de peau | 7.2/10 | 7.9/10 | 8.8/10 |
Netteté des bords | 8.1/10 | 8.4/10 | 8.6/10 |
Gestion des artefacts de compression | 6.2/10 | 7.1/10 | 9.2/10 |
Qualité globale | 6.3/10 | 7.2/10 | 9.0/10 |
Ce test a révélé la différence la plus dramatique. ESRGAN a fait nager et se déformer les traits faciaux, complètement inutilisable pour un travail professionnel. SeedVR2 a non seulement maintenu la stabilité faciale mais a réellement réduit les artefacts de compression de l'image 720p originale, produisant des résultats plus propres que la source.
Test 3 : Séquence d'action
- Source : 1080p, 3 secondes, 60fps
- Cible d'upscaling : 4K (2x)
- Contenu : Panoramique rapide de caméra avec sujets en mouvement
Métrique | ESRGAN 4x | RealESRGAN | SeedVR2 |
---|---|---|---|
Gestion du flou de mouvement | 6.8/10 | 7.2/10 | 8.4/10 |
Artefacts de mouvement rapide | 5.4/10 | 6.8/10 | 8.9/10 |
Cohérence de l'arrière-plan | 4.9/10 | 6.1/10 | 9.0/10 |
Temps de traitement (180 images) | 4.2 min | 5.1 min | 14.3 min |
Qualité globale | 5.7/10 | 6.7/10 | 8.8/10 |
Les séquences d'action sont les plus difficiles pour les upscalers car le mouvement rapide révèle immédiatement l'incohérence temporelle. ESRGAN et RealESRGAN ont tous deux montré des éléments d'arrière-plan se déformant pendant le panoramique de caméra. SeedVR2 a maintenu des détails d'arrière-plan cohérents tout au long, bien que le temps de traitement ait augmenté significativement pour une sortie 4K à 60fps.
:::info[Quand les upscalers traditionnels gagnent toujours] Pour des images uniques ou des clips très courts (moins d'1 seconde), ESRGAN et RealESRGAN sont 3-4x plus rapides avec une qualité similaire. Utilisez les upscalers traditionnels pour des séquences d'images sans exigences temporelles. Utilisez SeedVR2 pour toute vidéo où la cohérence temporelle compte. :::
Le résultat est simple. Si votre livrable est de la vidéo (pas des séquences d'images), SeedVR2 est la seule option qui produit des résultats professionnels. Le temps de traitement 2-3x plus long en vaut la peine pour éviter le scintillement temporel qui détruit un contenu autrement bon.
Si vous comparez ces upscalers spécifiquement pour le travail d'image, consultez ma comparaison détaillée dans l'article AI Image Upscaling Battle qui couvre ESRGAN, RealESRGAN et des alternatives plus récentes.
Paramètres avancés : Force de débruitage et fenêtre temporelle
Les deux paramètres les plus impactants pour contrôler la qualité de sortie SeedVR2 sont denoise_strength et temporal_window. Comprendre comment ceux-ci interagissent vous donne un contrôle précis sur le caractère de l'upscaling.
Denoise Strength contrôle combien le modèle est autorisé à réinterpréter et ajouter des détails à la vidéo source. Des valeurs plus basses préservent l'original plus fidèlement, tandis que des valeurs plus élevées donnent au modèle la liberté d'halluciner des détails.
Voici ce que produisent différentes valeurs de denoise_strength :
0.2 - Amélioration minimale
- Ajoute à peine des détails au-delà de ce que l'interpolation fournirait
- À utiliser pour des images sources de haute qualité que vous voulez préserver exactement
- Traitement le plus rapide (15% plus rapide que 0.5)
- Meilleur pour upscaler du contenu où la source est déjà propre
0.3-0.4 - Amélioration conservatrice
Envie d'éviter la complexité? Apatero vous offre des résultats IA professionnels instantanément sans configuration technique.
- Ajoute des détails subtils sans changer le caractère
- Bon défaut pour la plupart de l'upscaling de vidéo générée par IA
- Maintient l'esthétique originale tout en améliorant la clarté
- À utiliser pour le contenu de WAN 2.2 ou de modèles similaires
0.5 - Amélioration modérée
- Équilibré entre préservation et amélioration
- Paramètre standard pour la plupart des travaux de production
- Améliore visiblement les sources de basse qualité sans sur-accentuation
- Meilleure valeur à usage général
0.6-0.7 - Amélioration agressive
- Ajoute significativement des détails et de la texture
- Peut changer le caractère de l'image originale
- À utiliser pour des sources fortement compressées ou de basse qualité
- Risque de sur-accentuation ou d'introduction d'artefacts
0.8+ - Amélioration maximale
- Le modèle a une liberté quasi-complète pour réinterpréter le contenu
- Introduit souvent des détails ou une texture irréalistes
- Rarement utile sauf pour des sources extrêmement dégradées
- Risque élevé d'incohérence temporelle même avec SeedVR2
Je recommande de commencer à 0.4 et d'ajuster vers le haut ou le bas en fonction des résultats. Si la vidéo upscalée semble trop douce ou inchangée, augmentez à 0.5-0.6. Si elle semble sur-traitée ou introduit des artefacts, diminuez à 0.3.
Temporal Window détermine combien d'images environnantes le modèle considère lors de l'upscaling de chaque image. Cela affecte directement la cohérence temporelle et l'utilisation VRAM.
Temporal Window | Images considérées | Impact VRAM | Cohérence temporelle | Vitesse de traitement |
---|---|---|---|---|
4 | 2 avant, 2 après | Référence | 7.2/10 | Référence |
8 | 4 avant, 4 après | +1.5GB | 8.8/10 | -15% |
12 | 6 avant, 6 après | +2.8GB | 9.3/10 | -28% |
16 | 8 avant, 8 après | +4.2GB | 9.5/10 | -42% |
24 | 12 avant, 12 après | +7.1GB | 9.6/10 | -58% |
Le point optimal pour la plupart des travaux est temporal_window 8. Cela fournit une excellente cohérence temporelle sans exigences VRAM extrêmes. Augmentez à 12-16 pour une qualité maximale si vous avez le budget VRAM.
:::warning[Effets de bord de fenêtre temporelle] Au début et à la fin des vidéos, il n'y a pas assez d'images environnantes pour remplir la fenêtre temporelle. SeedVR2 remplit avec des images répétées, ce qui peut causer une légère dégradation de qualité dans la première et la dernière seconde de sortie. Recadrez 0.5 secondes des deux extrémités si cela est visible. :::
L'interaction entre ces paramètres compte aussi. Une denoise_strength élevée (0.6+) avec une temporal_window basse (4) produit souvent un scintillement temporel car le modèle ajoute agressivement des détails sans contexte temporel suffisant. Si vous avez besoin d'une denoise_strength élevée, associez-la avec temporal_window 12+ pour maintenir la cohérence.
À l'inverse, une denoise_strength basse (0.2-0.3) fonctionne bien avec temporal_window 4-6 car le modèle ne fait pas de changements agressifs qui nécessitent un contexte temporel étendu.
Pour le travail de production, j'utilise ces combinaisons :
- Upscaling vidéo IA propre : denoise 0.4, temporal_window 8
- Sauvetage vidéo web compressée : denoise 0.6, temporal_window 12
- Archivage qualité maximale : denoise 0.5, temporal_window 16
- Upscaling brouillon rapide : denoise 0.3, temporal_window 4
Si vous voulez éviter complètement le réglage des paramètres, Apatero.com a des profils prédéfinis pour différents types de contenu qui ajustent automatiquement ces valeurs en fonction des caractéristiques de votre vidéo source et des exigences de sortie.
Traitement par lots de plusieurs vidéos
Le traitement de plusieurs vidéos séquentiellement dans ComfyUI nécessite soit d'exécuter le workflow manuellement pour chaque vidéo, soit de configurer des nœuds de traitement par lots. Voici comment automatiser efficacement l'upscaling par lots.
L'approche la plus simple utilise le nœud Load Video Batch de VideoHelperSuite au lieu du chargeur de vidéo unique. Ce nœud traite toutes les vidéos d'un répertoire séquentiellement.
Remplacez votre nœud VHS_LoadVideo par VHS_LoadVideoBatch :
- directory : Chemin vers le dossier contenant les vidéos (toutes les vidéos seront traitées)
- pattern : ".mp4" pour traiter tous les fichiers MP4, ou "video_.mp4" pour des modèles de nommage spécifiques
- frame_load_cap : 0 pour illimité, ou définissez une limite pour tester
- skip_first_frames : Généralement 0
- select_every_nth : 1 pour traiter chaque image
Connectez ceci à votre workflow SeedVR2 existant exactement comme vous le feriez avec le chargeur de vidéo unique. Le workflow va maintenant traiter chaque vidéo dans le répertoire l'une après l'autre.
Pour le côté sortie, modifiez les paramètres de votre nœud VHS_VideoCombine :
- filename_prefix : "upscaled_" (sera ajouté au début du nom de fichier original)
- save_output : True
Cette configuration traite toutes les vidéos, en enregistrant chacune avec le préfixe "upscaled_". Si votre répertoire contient "scene01.mp4", "scene02.mp4" et "scene03.mp4", vous obtiendrez "upscaled_scene01.mp4", "upscaled_scene02.mp4" et "upscaled_scene03.mp4".
:::info[Gestion de la mémoire du traitement par lots] ComfyUI ne nettoie pas automatiquement la VRAM entre les vidéos dans le traitement par lots. Ajoutez un nœud "VAE Memory Cleanup" après VideoCombine pour forcer le nettoyage VRAM entre les vidéos. Sans cela, vous finirez par rencontrer des erreurs OOM pendant les longues exécutions par lots. :::
Pour des scénarios par lots plus complexes comme le traitement de vidéos avec différents facteurs d'upscale ou différents paramètres par vidéo, vous avez besoin d'un workflow par lots personnalisé utilisant les nœuds String Manipulation et Path.
Voici une configuration par lots avancée :
Directory Scanner → Get Video Files → Loop Start
↓
Load Video (current file)
↓
Detect Resolution (custom node)
↓
Switch Node (chooses settings based on resolution)
↓
SeedVR2 Upscaler (with dynamic settings)
↓
Video Combine (with dynamic naming)
↓
Loop End → Continue to next file
Ce workflow adapte les paramètres en fonction des caractéristiques de chaque vidéo. Une vidéo 540p obtient un upscaling 4x, tandis qu'une vidéo 1080p obtient un upscaling 2x, tout automatiquement.
Le défi pratique du traitement par lots est la surveillance de la progression et la gestion des erreurs. Si la vidéo 4 sur 20 échoue en raison d'OOM, l'ensemble du lot s'arrête. Pour gérer cela, enveloppez votre workflow dans des nœuds de gestion des erreurs qui ignorent les vidéos ayant échoué et enregistrent les erreurs dans un fichier.
Pour le traitement par lots de production, surtout si vous exécutez des rendus de nuit de 10+ vidéos, envisagez d'utiliser Apatero.com qui dispose d'une gestion de file d'attente par lots intégrée, d'une nouvelle tentative automatique en cas d'échec, de notifications par e-mail lorsque les lots sont terminés et d'un suivi de progression sur plusieurs travaux simultanés.
Alternativement, vous pouvez scripter le traitement par lots avec Python en utilisant l'API de ComfyUI. Cela vous donne un contrôle total sur la gestion des erreurs, le suivi de la progression et les paramètres adaptatifs par vidéo.
Workflows de production : De la vidéo IA au livrable
Passer de la vidéo générée par IA 540p aux livrables 4K prêts pour le client nécessite un workflow en plusieurs étapes qui combine l'upscaling avec d'autres post-traitements. Voici le pipeline de production complet que j'utilise.
Étape 1 : Génération IA et export d'images
Générez votre vidéo en utilisant WAN 2.2, WAN 2.5, AnimateDiff ou votre modèle d'IA vidéo préféré. Exportez à la résolution la plus élevée que le modèle supporte (typiquement 540p ou 720p pour les modèles WAN).
Enregistrez sous forme de séquence d'images plutôt que de vidéo si possible. La séquence PNG vous donne une qualité maximale sans artefacts de compression. Si vous devez enregistrer en vidéo, utilisez une compression sans perte ou quasi sans perte (CRF 15-18 en h264).
Étape 2 : Nettoyage d'images (optionnel)
Avant l'upscaling, corrigez tous les artefacts évidents de la génération IA :
- Utilisez FaceDetailer pour les problèmes de cohérence faciale (voir mon guide Impact Pack)
- Appliquez un lissage temporel s'il y a du scintillement
- Étalonnage des couleurs si nécessaire (plus facile à étalonner avant l'upscaling)
Cette étape est optionnelle mais améliore les résultats finaux car SeedVR2 upscalera les artefacts avec le bon contenu. Corriger les problèmes à la résolution native est plus rapide que de les corriger après l'upscaling.
Étape 3 : Upscaling SeedVR2
Exécutez votre workflow SeedVR2 avec des paramètres de production :
- denoise_strength : 0.4-0.5 (conservateur pour maintenir l'esthétique IA)
- temporal_window : 12 (cohérence temporelle maximale)
- tile_size : Aussi grand que votre VRAM le permet
- steps : 30 (qualité plutôt que vitesse)
Exportez en séquence PNG depuis SeedVR2, pas directement en vidéo. Cela vous donne une flexibilité maximale pour les étapes suivantes.
Étape 4 : Amélioration des détails
Après l'upscaling, appliquez une accentuation subtile pour améliorer les détails ajoutés :
- Utilisez UnsharpMask avec rayon 1.0, quantité 0.3
- Appliquez une texture de grain ou de bruit (intensité 0.5-1%) pour éviter un aspect trop lisse
- Vignette légère si approprié pour le contenu
Ces ajustements rendent la vidéo upscalée plus naturelle et moins "traitée par IA". Le grain subtil en particulier aide le contenu upscalé à se fondre avec les images tournées traditionnellement.
Étape 5 : Encodage final
Compilez votre séquence d'images traitées en vidéo avec des paramètres d'encodage appropriés :
- Codec : h264 pour la compatibilité, h265 pour des fichiers plus petits, ProRes pour l'édition
- CRF : 18 pour haute qualité, 23 pour livraison web
- Fréquence d'images : Correspondre au FPS de votre génération IA originale
- Espace colorimétrique : Rec.709 pour SDR, Rec.2020 pour HDR si votre source le supporte
Exportez plusieurs versions si nécessaire (master 4K, web 1080p, mobile 720p).
:::info[Estimations de chronologie de production] Pour 10 secondes de vidéo IA 540p vers livrable 4K :
- Génération IA : 8-12 minutes (WAN 2.2)
- Nettoyage d'images : 5-10 minutes (si nécessaire)
- Upscaling SeedVR2 : 35-45 minutes (GPU 12GB)
- Amélioration des détails : 3-5 minutes
- Encodage final : 2-3 minutes
- Total : 53-77 minutes par clip de 10 secondes :::
Le goulot d'étranglement est toujours l'étape d'upscaling. Si vous produisez du contenu régulièrement, avoir un système d'upscaling dédié (ou utiliser Apatero.com pour l'étape d'upscaling) vous permet de paralléliser la génération et le travail d'upscaling.
Pour le travail client, je génère généralement plusieurs versions pendant l'étape de génération IA (différents prompts/seeds), puis upscale uniquement la version approuvée. Cela évite de gaspiller 45 minutes à upscaler du contenu qui ne sera pas utilisé.
Dépannage des problèmes courants de SeedVR2
Après des centaines d'exécutions d'upscaling SeedVR2, j'ai rencontré toutes les erreurs possibles. Voici les problèmes les plus courants et les corrections exactes.
Problème : Erreur "CUDA out of memory"
Cela se produit lorsque votre tile_size est trop grand pour la VRAM disponible ou que temporal_window est trop élevé.
Approche de correction :
- Réduisez tile_size de 128 (512 → 384 → 320)
- Si toujours en échec, réduisez temporal_window de 2 (8 → 6 → 4)
- Activez cpu_offload et attention_slicing dans Model Loader
- En dernier recours, réduisez le traitement à un seul batch_size d'image : 1
Si vous rencontrez toujours OOM avec tile_size 256 et temporal_window 4, votre GPU n'a pas assez de VRAM pour SeedVR2 à cette résolution. Traitez à une résolution plus basse ou améliorez le matériel.
Problème : La vidéo de sortie a des coutures de tuiles visibles
Les coutures de tuiles apparaissent comme des artefacts en forme de grille sur l'image lorsque tile_overlap est trop petit.
Correction : Augmentez tile_overlap à au moins 20% de tile_size. Si tile_size est 512, définissez tile_overlap à 100+. Si tile_size est 384, définissez tile_overlap à 75+. Un chevauchement plus élevé = plus de temps de traitement mais élimine les coutures.
Problème : Scintillement temporel toujours visible
Si la sortie SeedVR2 montre toujours une incohérence temporelle, le problème est généralement temporal_window trop bas ou denoise_strength trop élevé.
Correction : Augmentez temporal_window à 12 ou 16. Si cela ne résout pas le problème, réduisez denoise_strength à 0.3-0.4. Une denoise_strength très élevée (0.7+) peut submerger les mécanismes de cohérence temporelle.
Problème : Traitement extrêmement lent
Si les images prennent 10+ secondes chacune sur un GPU moderne, quelque chose est mal configuré.
Causes courantes :
- dtype défini sur fp32 au lieu de fp16 (2x plus lent)
- cpu_offload activé quand ce n'est pas nécessaire (utilisez uniquement sur VRAM faible)
- tile_size trop petit (256 ou moins quand vous avez la VRAM pour 512+)
- Exécution d'autres processus GPU simultanément (fermez toutes les autres applications GPU)
Correction : Vérifiez que dtype est fp16, assurez-vous que tile_size correspond à la VRAM disponible et fermez les autres applications GPU. Sur une carte 12GB avec tile_size 512, attendez-vous à 1.5-2.5 secondes par image pour l'upscaling 1080p.
Problème : Couleurs décalées ou délavées après l'upscaling
Cela indique généralement des problèmes d'encodage/décodage VAE ou une gestion incorrecte de l'espace colorimétrique.
Correction : Assurez-vous d'utiliser le bon fichier seedvr2_vae.safetensors. Certains utilisateurs utilisent accidentellement les VAE SD1.5 ou SDXL qui causent des décalages de couleur. Vérifiez également que votre vidéo d'entrée est dans l'espace colorimétrique RGB standard, pas YUV ou d'autres formats qui pourraient ne pas se convertir proprement.
Problème : La première et la dernière seconde de la vidéo ont des problèmes de qualité
C'est un comportement attendu dû aux effets de bord de temporal_window (pas assez d'images environnantes pour remplir la fenêtre aux bords).
Correction : Ajoutez 1 seconde de remplissage aux deux extrémités de votre vidéo d'entrée avant l'upscaling (dupliquez la première image pendant 1 seconde au début, la dernière image pendant 1 seconde à la fin). Après l'upscaling, recadrez ces sections rembourrées. Cela garantit que le contenu réel a un contexte temporel complet.
Problème : Le modèle ne se charge pas ou erreur "model not found"
Les problèmes de chargement de modèle proviennent généralement de chemins de fichiers incorrects ou de téléchargements corrompus.
Liste de vérification de correction :
- Vérifiez que seedvr2_diffusion.safetensors est dans ComfyUI/models/checkpoints
- Vérifiez que seedvr2_vae.safetensors est dans ComfyUI/models/vae
- Vérifiez les tailles de fichiers (diffusion : 4.2GB, VAE : 420MB)
- Si les tailles sont incorrectes, re-téléchargez (peuvent avoir été corrompues)
- Redémarrez ComfyUI complètement après avoir déplacé les fichiers
Problème : La vidéo de sortie est plus courte que l'entrée
SeedVR2 abandonne occasionnellement des images si la fréquence d'images d'entrée ne correspond pas aux attentes de traitement.
Correction : Spécifiez toujours la fréquence d'images exacte dans VHS_VideoCombine qui correspond à la vidéo d'entrée. Utilisez le nœud VHS_VideoInfo pour détecter le FPS d'entrée si vous n'êtes pas sûr. Les incompatibilités de fréquence d'images causent des images abandonnées ou dupliquées.
Pour les problèmes persistants qui ne sont pas couverts ici, vérifiez la sortie de la console pour des messages d'erreur spécifiques. La plupart des erreurs SeedVR2 incluent des indices utiles sur le paramètre causant des problèmes.
Approches alternatives : Quand ne pas utiliser SeedVR2
SeedVR2 est puissant mais n'est pas toujours le bon outil. Voici des situations où des approches alternatives fonctionnent mieux.
Clips courts de moins d'1 seconde : Pour les clips très courts (30 images ou moins), les upscalers d'images traditionnels comme ESRGAN appliqués image par image produisent souvent des résultats plus rapides avec une qualité acceptable. La cohérence temporelle compte moins quand il y a un mouvement minimal sur une si courte durée.
Images uniques extraites de vidéo : Si vous extrayez des images fixes de vidéo à upscaler, utilisez des upscalers spécifiques aux images. Consultez mon article AI Image Upscaling Battle pour des comparaisons détaillées d'ESRGAN, RealESRGAN et d'options plus récentes.
Exigences en temps réel ou quasi temps réel : SeedVR2 traite à 1-4 secondes par image, le rendant inadapté pour le travail en temps réel. Si vous avez besoin d'upscaling en temps réel (streaming en direct, jeux), utilisez des upscalers traditionnels accélérés par GPU comme FSR ou DLSS.
Upscaling extrême (8x ou plus) : SeedVR2 fonctionne mieux pour l'upscaling 2-4x. Pour 8x ou plus, vous obtenez de meilleurs résultats avec un upscaling multi-étapes : première passe avec SeedVR2 à 2x, deuxième passe avec SeedVR2 à 2x à nouveau (ou 2x puis 4x). L'upscaling 8x en une seule étape introduit trop d'hallucination.
Matériel source fortement compressé : Si votre vidéo source a des artefacts de compression sévères, du blocage ou du bruit, SeedVR2 upscalera ces artefacts. Dans de tels cas, appliquez du débruitage et de la réduction d'artefacts avant l'upscaling. VideoHelperSuite inclut des nœuds de débruitage, ou utilisez des outils dédiés comme la réduction de bruit temporelle de DaVinci Resolve avant d'importer dans ComfyUI.
Contenu d'animation ou de dessin animé : SeedVR2 est entraîné principalement sur du contenu photoréaliste. Pour l'anime, les dessins animés ou l'animation stylisée, les upscalers traditionnels ou les modèles spécifiques à l'animation préservent souvent mieux le style artistique. SeedVR2 essaie parfois d'ajouter de la texture photoréaliste au contenu stylisé, ce qui semble incorrect.
Pour l'upscaling de dessins animés spécifiquement, RealESRGAN avec le modèle anime ou waifu2x produit de meilleurs résultats adaptés au style. La cohérence temporelle est moins critique dans l'animation car le contenu est déjà de l'art image par image plutôt qu'un mouvement continu.
Contraintes de budget ou de temps : SeedVR2 nécessite 2-4x plus de temps de traitement que les upscalers traditionnels. Si vous avez une date limite serrée ou traitez un volume élevé, les upscalers traditionnels peuvent être plus pratiques malgré une qualité inférieure. Parfois, assez bon livré à temps bat parfait livré en retard.
Dans mon workflow de production, j'utilise SeedVR2 pour environ 60% des besoins d'upscaling (plans héros, contenu principal, livrables client) et les upscalers traditionnels pour les 40% restants (images d'arrière-plan, B-roll, versions brouillon, travail urgent).
Réflexions finales
SeedVR2 représente un changement fondamental dans la façon dont nous abordons l'upscaling vidéo. Au lieu de traiter la vidéo comme une séquence d'images indépendantes, il respecte la nature temporelle du mouvement et maintient la cohérence entre les images.
L'impact pratique est que la vidéo générée par IA, qui produit généralement à 540-720p, devient utilisable pour la livraison professionnelle à 1080p ou 4K. Vous pouvez générer avec WAN 2.2 ou WAN 2.5, appliquer l'upscaling SeedVR2 et livrer du contenu qui répond aux normes de qualité de diffusion ou de streaming web.
Le workflow prend du temps à configurer correctement et le traitement est lent par rapport aux upscalers traditionnels, mais la différence de qualité justifie l'investissement. Une fois que vous voyez de la vidéo upscalée avec cohérence temporelle versus l'upscaling scintillant image par image, il n'y a pas de retour en arrière.
Si vous travaillez régulièrement avec de la vidéo IA, SeedVR2 devient un outil essentiel dans votre pipeline. La combinaison de génération IA à résolution native plus l'upscaling SeedVR2 ouvre des possibilités qui n'étaient pas réalisables même il y a six mois.
Pour ceux qui veulent éviter la complexité de configuration et passer directement au travail de production, Apatero.com a SeedVR2 pré-installé avec des paramètres optimisés, un traitement par lots et une gestion automatique de la VRAM. La plateforme gère tous les détails techniques, vous permettant de vous concentrer sur la création de contenu plutôt que sur le débogage de workflows.
Que vous configuriez SeedVR2 localement ou utilisiez une solution hébergée, ajouter l'upscaling avec conscience temporelle à votre workflow de vidéo IA fait passer votre sortie de "expérience IA intéressante" à qualité "livrable professionnel". C'est la différence qui compte pour le travail rémunéré.
Maîtriser ComfyUI - Du Débutant à l'Avancé
Rejoignez notre cours complet ComfyUI et apprenez tout, des fondamentaux aux techniques avancées. Paiement unique avec accès à vie et mises à jour pour chaque nouveau modèle et fonctionnalité.
Articles Connexes

Les 10 Erreurs de Débutant ComfyUI les Plus Courantes et Comment les Corriger en 2025
Évitez les 10 principaux pièges ComfyUI qui frustrent les nouveaux utilisateurs. Guide de dépannage complet avec solutions pour les erreurs VRAM, les problèmes de chargement de modèles et les problèmes de workflow.

Rotation Anime 360 avec Anisora v3.2 : Guide Complet de Rotation de Personnage ComfyUI 2025
Maîtrisez la rotation de personnages anime à 360 degrés avec Anisora v3.2 dans ComfyUI. Apprenez les workflows d'orbite de caméra, la cohérence multi-vues et les techniques d'animation turnaround professionnelles.

7 Nœuds Personnalisés ComfyUI Qui Devraient Être Intégrés (Et Comment Les Obtenir)
Nœuds personnalisés essentiels de ComfyUI dont chaque utilisateur a besoin en 2025. Guide d'installation complet pour WAS Node Suite, Impact Pack, IPAdapter Plus et d'autres nœuds révolutionnaires.