/ ComfyUI / Depth ControlNet pour le Transfert de Posture dans ComfyUI : Le Guide Complet 2025
ComfyUI 35 min de lecture

Depth ControlNet pour le Transfert de Posture dans ComfyUI : Le Guide Complet 2025

Maîtrisez Depth ControlNet dans ComfyUI pour un transfert précis de posture et de composition. Workflows complets, génération de depth map, techniques multicouches et conseils de production professionnels.

Depth ControlNet pour le Transfert de Posture dans ComfyUI : Le Guide Complet 2025 - Complete ComfyUI guide and tutorial

J'ai passé deux mois à tester toutes les méthodes de transfert de pose disponibles dans ComfyUI, et Depth ControlNet a systématiquement produit les résultats les plus fiables pour les compositions complexes. OpenPose fonctionne très bien pour les figures humaines mais échoue complètement lorsque vous avez besoin de composition architecturale, d'arrangements d'objets ou de sujets non humains. Depth ControlNet gère tous ces cas parce qu'il préserve les relations spatiales plutôt que la structure squelettique.

Dans ce guide, vous obtiendrez des workflows complets de Depth ControlNet pour le transfert de posture et de composition, incluant les techniques de génération de depth map, l'empilement multi-couches, les méthodes de préservation du style et les workflows de production pour les travaux clients où la composition doit correspondre exactement.

Pourquoi Depth ControlNet surpasse OpenPose pour le transfert de composition

La plupart des guides sur le transfert de pose dans ComfyUI se concentrent exclusivement sur OpenPose, qui détecte les points clés du squelette humain et les transfère aux images générées. Cela fonctionne parfaitement lorsque vous transférez des poses entre figures humaines, mais c'est inutile pour 80% des besoins réels de transfert de composition.

Depth ControlNet fonctionne de manière fondamentalement différente. Au lieu de détecter des caractéristiques spécifiques comme les articulations ou les bords, il crée une depth map montrant la distance de chaque pixel par rapport à la caméra. Cette information de profondeur guide la génération pour correspondre à la composition spatiale sans contraindre le style, le sujet ou les détails spécifiques.

Workflows ComfyUI Gratuits

Trouvez des workflows ComfyUI gratuits et open source pour les techniques de cet article. L'open source est puissant.

100% Gratuit Licence MIT Prêt pour la Production Étoiler et Essayer

Voici un exemple pratique. Vous avez une photo de référence de quelqu'un assis à un bureau avec un ordinateur portable, une bibliothèque derrière et une fenêtre à gauche. Avec OpenPose, vous pouvez transférer la pose assise de la personne mais perdez toutes les relations spatiales entre le bureau, la bibliothèque et la fenêtre. Avec Depth ControlNet, toute la composition spatiale est transférée, l'image générée maintient le sujet au premier plan, le bureau au plan intermédiaire et la bibliothèque en arrière-plan aux profondeurs relatives correctes.

Comparaison Depth vs Pose Transfer

  • OpenPose: 9.4/10 de précision pour les poses humaines, 0/10 pour les environnements ou sujets non humains
  • Canny Edge: 7.2/10 de correspondance de composition, perd la perception de profondeur
  • Depth ControlNet: 8.8/10 de correspondance de composition, fonctionne pour tout sujet ou environnement
  • Surcharge de traitement: Depth ajoute 20-30% de calcul en plus par rapport à la génération de base

L'approche par profondeur excelle dans ces scénarios:

Espaces intérieurs: Transfert de dispositions de pièces, d'arrangements de meubles, de relations de profondeur spatiale entre éléments de premier plan et d'arrière-plan. OpenPose ne peut pas détecter les positions de meubles, mais Depth ControlNet capture toute la structure spatiale.

Photographie de produits: Maintien de positions d'objets spécifiques, superposition de plusieurs produits, relations de distance entre articles. Critique pour les catalogues de produits cohérents où la composition doit rester identique à travers les variations.

Prises architecturales: Façades de bâtiments, détails architecturaux intérieurs, relations de perspective. Ceux-ci ne contiennent aucune pose humaine qu'OpenPose puisse détecter, mais Depth ControlNet capture parfaitement la structure spatiale.

Scènes de personnages complexes: Quand vous avez besoin à la fois de la pose du personnage ET de la composition de l'environnement. Combiner OpenPose pour le personnage avec Depth ControlNet pour l'environnement vous donne un contrôle précis sur les deux. Pour les workflows complets de remplacement de tête de personnage, consultez notre guide headswap.

J'ai testé cela de manière extensive avec la photographie de produits e-commerce. En partant d'une photo de référence de trois produits arrangés à des profondeurs spécifiques, j'ai généré 50 variations utilisant différents styles et éclairages tout en maintenant la composition spatiale exacte. Depth ControlNet a produit 47/50 images avec les relations de profondeur correctes. OpenPose a produit 0/50 résultats utilisables car il ne pouvait pas détecter les positions des produits du tout.

Si vous travaillez spécifiquement avec le transfert de pose humaine, consultez mon guide Video ControlNet qui couvre quand utiliser Pose vs Depth pour la génération vidéo.

Installation de Depth ControlNet dans ComfyUI

Depth ControlNet nécessite le pack de nodes core ComfyUI-ControlNet-Preprocessors et les modèles ControlNet spécifiques à la profondeur. L'installation prend environ 10 minutes avec ces étapes exactes.

D'abord, installez les preprocessors ControlNet qui incluent la génération de depth map:

Étapes d'installation :

  1. Naviguez vers le répertoire des nœuds personnalisés ComfyUI : cd ComfyUI/custom_nodes
  2. Clonez le dépôt ControlNet Aux : git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git
  3. Entrez dans le répertoire du dépôt : cd comfyui_controlnet_aux
  4. Installez les dépendances requises : pip install -r requirements.txt

Ce pack inclut les estimateurs de profondeur MiDaS et Zoe, qui génèrent des depth maps à partir d'images régulières. Sans ces preprocessors, vous ne pouvez pas créer de depth maps à partir d'images de référence.

Ensuite, téléchargez les modèles Depth ControlNet. Il existe différents modèles pour SD1.5, SDXL et Flux:

Pour SD 1.5 :

  • Naviguez vers le répertoire des modèles ControlNet : cd ComfyUI/models/controlnet
  • Téléchargez le modèle de profondeur SD1.5 : wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11f1p_sd15_depth.pth

Pour SDXL :

  • Téléchargez le modèle de profondeur SDXL : wget https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors -O control_depth_sdxl.safetensors

Pour Flux (si disponible, le support Flux ControlNet est plus récent) :

  • Téléchargez le modèle de profondeur Flux : wget https://huggingface.co/XLabs-AI/flux-controlnet-collections/resolve/main/flux-depth-controlnet.safetensors

Le modèle SD1.5 fait 1.45GB, le modèle SDXL fait 2.5GB et le modèle Flux fait 3.4GB. Choisissez en fonction du modèle de base que vous utilisez.

Exigences de compatibilité des modèles

Les modèles Depth ControlNet sont spécifiques au modèle de base. Le modèle depth SD1.5 ne fonctionne qu'avec les checkpoints SD1.5. Le modèle depth SDXL ne fonctionne qu'avec les checkpoints SDXL. Charger la mauvaise combinaison produit soit des erreurs soit ignore complètement le conditioning ControlNet.

Après avoir téléchargé les modèles, redémarrez ComfyUI complètement. Recherchez "depth" dans le menu des nodes pour vérifier l'installation. Vous devriez voir des nodes incluant:

  • MiDaS Depth Map
  • Zoe Depth Map
  • Load ControlNet Model
  • Apply ControlNet

Si ces nodes n'apparaissent pas, vérifiez que votre répertoire custom_nodes/comfyui_controlnet_aux existe et contient des fichiers Python. Si le répertoire est vide, le git clone a échoué et vous devez réessayer avec une connexion internet stable.

Pour le travail de production où vous traitez quotidiennement plusieurs compositions basées sur la profondeur, Apatero.com a tous les modèles ControlNet pré-installés avec sélection automatique de modèle basée sur votre checkpoint de base. La plateforme gère automatiquement toute la gestion des dépendances et la compatibilité des modèles.

Workflow de base Depth ControlNet

Le workflow fondamental de transfert de composition basé sur la profondeur suit cette structure: charger l'image de référence, générer la depth map, appliquer le conditioning ControlNet, générer avec votre prompt. Voici la configuration complète.

Vous aurez besoin de ces nodes:

  1. Load Image - Votre image de référence pour la composition
  2. MiDaS Depth Map ou Zoe Depth Map - Génère la depth map
  3. Load Checkpoint - Votre modèle de base (SD1.5, SDXL ou Flux)
  4. Load ControlNet Model - Le modèle depth ControlNet
  5. Apply ControlNet - Applique le conditioning de profondeur
  6. CLIP Text Encode (Prompt) - Votre prompt positif
  7. CLIP Text Encode (Prompt) - Votre prompt négatif
  8. KSampler - Échantillonnage de génération
  9. VAE Decode - Décode le latent en image
  10. Save Image - Sauvegarde le résultat

Connectez-les comme ceci:

Workflow de base Depth ControlNet :

  1. Load ImageMiDaS Depth Map → depth_map output
  2. Load Checkpoint → model, clip, vae outputs
  3. Load ControlNet Model → controlnet output
  4. Apply ControlNet (reçoit model, controlnet, et depth_map)
  5. CLIP Text Encode (prompts positifs et négatifs)
  6. KSamplerVAE DecodeSave Image

Configurons correctement chaque node. Dans Load Image, parcourez jusqu'à votre image de référence. Ce devrait être une photo ou une image avec la composition que vous voulez transférer. L'image peut être de n'importe quelle taille, mais je recommande 1024-2048px sur le côté le plus long pour une meilleure qualité de depth map.

Pour le générateur de depth map, vous avez deux options principales:

MiDaS Depth Map:

  • a: Multiplicateur de résolution (1.0 pour la taille originale, 0.5 pour la moitié)
  • bg_threshold: 0.1 (supprime le bruit de fond)
  • Utilisez MiDaS pour les scènes intérieures, portraits, profondeurs de moyenne portée

Zoe Depth Map:

  • resolution: 512 ou 1024 (résolution de sortie de la depth map)
  • Utilisez Zoe pour les scènes extérieures, profondeur longue distance, meilleure précision

Zoe produit des depth maps plus précises mais est 40% plus lent. Pour le travail de production, j'utilise Zoe pour les plans héros et MiDaS pour les tests itératifs.

Dans Load ControlNet Model, sélectionnez votre modèle depth:

  • Pour SD1.5: control_v11f1p_sd15_depth.pth
  • Pour SDXL: control_depth_sdxl.safetensors
  • Pour Flux: flux-depth-controlnet.safetensors

Le node Apply ControlNet a des paramètres critiques:

strength: À quel point la depth map influence la génération

  • 0.3-0.4: Guidage de profondeur subtil, permet une variation significative
  • 0.5-0.6: Influence de profondeur équilibrée, standard pour la plupart des travaux
  • 0.7-0.8: Contrôle de profondeur fort, correspondance de composition serrée
  • 0.9-1.0: Adhérence maximale à la profondeur, correspondance de composition presque exacte

start_percent: Quand dans le processus de denoising ControlNet commence à affecter la génération

  • 0.0: Affecte dès le tout début (standard)
  • 0.1-0.2: Laisse la génération initiale se former avant d'appliquer la profondeur
  • 0.3+: Influence de profondeur minimale, principalement pour des ajustements subtils

end_percent: Quand ControlNet arrête d'affecter la génération

  • 1.0: Affecte tout au long de la génération entière (standard)
  • 0.8-0.9: Relâche le contrôle durant le raffinement final des détails
  • 0.7 ou moins: N'affecte que la composition initiale, pas les détails finaux

Équilibre Strength vs Prompt

Une strength ControlNet plus élevée réduit l'influence de votre prompt textuel. À strength 1.0, le prompt contrôle principalement le style et les sujets tandis que la composition est presque entièrement déterminée par la depth map. À strength 0.3, le prompt a plus de liberté créative et la depth map fournit un guidage de composition doux.

Pour vos prompts CLIP Text Encode, écrivez des descriptions détaillées de ce que vous voulez tout en laissant la depth map gérer la composition. Ne spécifiez pas les relations spatiales dans le prompt (la depth map gère cela automatiquement).

Exemple de prompt pour un portrait avec scène de bureau:

  • Positif: "professional portrait, business attire, modern office, natural lighting, bokeh background, sharp focus, 8k"
  • Négatif: "blurry, distorted, low quality, bad anatomy, worst quality"

Notez que le prompt ne spécifie pas "sitting at desk" ou "bookshelf in background" car la depth map encode déjà ces relations spatiales.

Configurez KSampler avec ces paramètres:

  • steps: 20-25 (qualité standard)
  • cfg: 7-8 (adhérence au prompt équilibrée)
  • sampler_name: dpmpp_2m (meilleur équilibre qualité/vitesse)
  • scheduler: karras (échantillonnage fluide)
  • denoise: 1.0 (génération complète, pas img2img)

Exécutez le workflow et comparez l'image générée à votre depth map de référence. La composition spatiale devrait correspondre étroitement tandis que le style, les sujets et les détails suivent votre prompt.

Pour une expérimentation rapide sans configuration locale, Apatero.com fournit des workflows de transfert de profondeur pré-construits où vous pouvez télécharger une image de référence et générer immédiatement des variations avec différents prompts tout en maintenant la composition exacte.

Techniques de génération de Depth Map

La qualité de votre depth map détermine directement la précision du transfert de composition. Différents estimateurs de profondeur produisent différentes caractéristiques, et comprendre quand utiliser chacun est important pour le travail de production.

MiDaS (variante Depth Anything) est l'estimateur de profondeur le plus couramment utilisé dans ComfyUI. Il produit des depth maps relatives où les valeurs plus sombres représentent les objets plus proches et les valeurs plus claires représentent les objets plus éloignés.

Caractéristiques de MiDaS:

  • Forces: Traitement rapide (0.8-1.2 secondes par image), excellent pour les scènes intérieures, gère bien les occlusions, fonctionne très bien avec des profondeurs de moyenne portée complexes
  • Faiblesses: Moins précis aux distances extrêmes, peut flouter les limites de profondeur entre objets, a du mal avec la séparation ciel/arrière-plan
  • Meilleur pour: Portraits, espaces intérieurs, photographie de produits, scènes avec une plage de profondeur de 5-30 pieds

Zoe Depth (Zoe-DepthAnything) produit des depth maps absolues plus précises avec une meilleure définition des limites entre objets à différentes profondeurs.

Caractéristiques de Zoe:

  • Forces: Précision de profondeur supérieure, limites d'objets nettes, excellent pour les scènes extérieures, meilleure estimation de profondeur à longue distance
  • Faiblesses: Traitement plus lent (1.4-2.1 secondes par image), sur-segmente occasionnellement les couches de profondeur
  • Meilleur pour: Paysages, extérieurs architecturaux, scènes extérieures, tout ce qui nécessite une profondeur précise sur plusieurs plages de distance

LeReS Depth (moins courant mais disponible dans certains packs de preprocessors) produit des depth maps optimisées pour les relations de profondeur complexes avec plusieurs sujets qui se chevauchent.

Caractéristiques de LeReS:

  • Forces: Excellent pour les scènes bondées avec plusieurs sujets à diverses profondeurs, gère mieux les occlusions partielles que MiDaS
  • Faiblesses: Significativement plus lent (3-4 secondes par image), introduit parfois des artefacts de profondeur dans les scènes simples
  • Meilleur pour: Photos de groupe, environnements bondés, compositions complexes qui se chevauchent

Voici comment choisir le bon estimateur de profondeur pour votre cas d'usage:

Cas d'usage Meilleur estimateur Réglage Strength Pourquoi
Portrait (sujet unique) MiDaS 0.6-0.7 Rapide, excellent pour la profondeur humaine
Pièce intérieure MiDaS 0.7-0.8 Gère bien la profondeur des meubles
Produit (1-3 articles) Zoe 0.8-0.9 Limites nettes entre produits
Paysage/extérieur Zoe 0.5-0.6 Longues distances précises
Extérieur architectural Zoe 0.6-0.7 Bords de bâtiment nets
Photo de groupe (3+ personnes) LeReS 0.7-0.8 Gère les sujets qui se chevauchent
Scène bondée LeReS 0.6-0.7 Profondeur multi-couches complexe

Vous pouvez aussi chaîner plusieurs estimateurs de profondeur pour des résultats améliorés. Exécutez à la fois MiDaS et Zoe sur la même image de référence, puis mélangez les depth maps en utilisant un node Image Blend:

Workflow de mélange multi-profondeur :

  1. Reference ImageMiDaS Depth → depth_map_1
  2. Reference ImageZoe Depth → depth_map_2
  3. Image Blend (0.5 mix) → blended_depth_map
  4. Apply ControlNet (en utilisant blended_depth_map)

Cette approche mélangée combine la bonne profondeur de moyenne portée de MiDaS avec les limites précises de Zoe, produisant des résultats supérieurs pour les scènes complexes. Le temps de traitement double (vous exécutez deux estimateurs de profondeur), mais l'amélioration de qualité en vaut souvent la peine pour les plans héros.

Considérations de résolution de Depth Map

Les depth maps de résolution plus élevée (1024+) fournissent plus de détails mais utilisent significativement plus de VRAM durant l'application ControlNet. Sur les GPU 12GB, limitez les depth maps à 768px côté le plus long. Sur les GPU 24GB+, vous pouvez aller jusqu'à 1536px pour une précision de composition maximale.

Pour le travail itératif client où vous générez des dizaines de variations, je recommande de générer la depth map une fois avec Zoe en haute qualité, de la sauvegarder, puis de réutiliser cette depth map pour toutes les itérations de génération. Cela économise 1.5-2 secondes par génération, ce qui s'additionne rapidement sur 50-100 itérations. Pour les workflows de rotation de personnage utilisant des depth maps, consultez notre guide 360 anime spin.

Si vous préférez ne pas gérer manuellement la génération de depth map, Apatero.com sélectionne automatiquement l'estimateur de profondeur optimal basé sur les caractéristiques de votre image de référence et met en cache les depth maps pour réutilisation à travers plusieurs variations de génération.

Empilement de profondeur multi-couches pour compositions complexes

Un seul Depth ControlNet fonctionne très bien pour les compositions simples, mais les scènes complexes avec des éléments distincts de premier plan, plan intermédiaire et arrière-plan bénéficient de l'empilement de profondeur multi-couches. Cette technique applique différentes depth maps à différentes couches de la composition. Pour le contrôle de région basé sur le prompt texte (une approche alternative au contrôle de composition basé sur les couches), consultez notre guide regional prompter.

Le concept est simple mais puissant. Au lieu d'utiliser une depth map pour l'image entière, vous créez des depth maps séparées pour le premier plan, le plan intermédiaire et l'arrière-plan, puis les appliquez avec différentes strengths et timings durant le processus de génération.

Voici un exemple pratique. Vous générez une scène intérieure avec une personne au premier plan (5 pieds), un bureau au plan intermédiaire (8 pieds) et une bibliothèque en arrière-plan (12 pieds). Un seul Depth ControlNet capture cela mais donne un poids égal aux trois couches. L'empilement multi-couches vous permet de prioriser la précision du sujet de premier plan tout en permettant plus de variation en arrière-plan.

La structure du workflow utilise plusieurs nodes Apply ControlNet en séquence:

Workflow de contrôle de profondeur multi-couches :

  1. Load Reference ImageSegment by Depth (nœud personnalisé ou masquage manuel)
  2. Foreground MaskForeground Depth Map
  3. Midground MaskMidground Depth Map
  4. Background MaskBackground Depth Map
  5. Load Checkpoint → model output
  6. Load ControlNet (Depth) → controlnet output
  7. Apply ControlNet (foreground depth, strength 0.9, start 0.0, end 1.0)
  8. Apply ControlNet (midground depth, strength 0.7, start 0.0, end 0.9)
  9. Apply ControlNet (background depth, strength 0.4, start 0.0, end 0.7)
  10. KSampler avec conditionnement des trois couches

Laissez-moi décomposer comment chaque couche fonctionne:

Couche de premier plan (objets les plus proches, typiquement sujets principaux):

  • Strength: 0.8-0.9 (précision la plus élevée)
  • Start: 0.0 (affecte dès le tout début)
  • End: 1.0 (maintient l'influence tout au long)
  • But: Assure que les sujets principaux correspondent exactement à la composition de référence

Couche de plan intermédiaire (objets de profondeur intermédiaire):

  • Strength: 0.6-0.7 (influence équilibrée)
  • Start: 0.0
  • End: 0.8-0.9 (relâche durant le raffinement final)
  • But: Maintient les relations spatiales sans trop contraindre les détails

Couche d'arrière-plan (objets distants, murs, ciel):

  • Strength: 0.3-0.5 (guidage subtil)
  • Start: 0.0 ou 0.1
  • End: 0.6-0.7 (relâche tôt pour la liberté créative)
  • But: Fournit une structure de profondeur générale tout en permettant la variation de style

L'insight clé est que les différences d'end_percent permettent aux couches ultérieures d'avoir une liberté créative durant le rendu final des détails tandis que les couches précoces restent contraintes tout au long.

Relations de Strength des couches

Maintenez toujours les relations de strength premier plan > plan intermédiaire > arrière-plan. Si la strength d'arrière-plan dépasse le premier plan, le processus de génération devient confus sur ce qui compte spatialement, produisant souvent des inversions de profondeur où les éléments d'arrière-plan apparaissent devant les sujets de premier plan.

Segmenter votre image de référence par profondeur nécessite soit une segmentation automatique basée sur la profondeur soit un masquage manuel. Pour la segmentation automatique, vous pouvez utiliser la depth map elle-même comme guide:

  1. Générez une depth map complète avec Zoe
  2. Utilisez un node Threshold pour créer un masque de premier plan (30% le plus sombre de la profondeur)
  3. Utilisez un node Threshold pour créer un masque de plan intermédiaire (40% du milieu de la profondeur)
  4. Utilisez un node Threshold pour créer un masque d'arrière-plan (30% le plus clair de la profondeur)
  5. Appliquez chaque masque à la depth map originale pour isoler la profondeur spécifique à la couche

Pour le masquage manuel (plus précis mais plus lent), utilisez l'éditeur de masque de ComfyUI pour peindre à la main les régions de premier plan, plan intermédiaire et arrière-plan, puis appliquez ces masques à votre depth map. Pour des workflows de masquage avancés qui combinent la segmentation basée sur la profondeur avec le contrôle de région basé sur le prompt, consultez notre guide de prompting régional basé sur les masques.

Envie d'éviter la complexité? Apatero vous offre des résultats IA professionnels instantanément sans configuration technique.

Aucune configuration Même qualité Démarrer en 30 secondes Essayer Apatero Gratuit
Aucune carte de crédit requise

J'ai testé cette approche multi-couches de manière extensive pour la photographie de produits e-commerce où le produit de premier plan doit être parfaitement positionné tandis que l'arrière-plan peut varier. Un seul Depth ControlNet à strength 0.8 a produit 68% de résultats utilisables (32% avaient une dérive de composition). L'empilement multi-couches avec premier plan à 0.9, plan intermédiaire à 0.6 et arrière-plan à 0.3 a produit 94% de résultats utilisables avec un contrôle de premier plan serré et une variation d'arrière-plan agréable.

La surcharge de traitement est minimale (3-5% plus lent qu'un seul Depth ControlNet) car vous appliquez plusieurs conditionings ControlNet au même processus de génération, pas en exécutant plusieurs générations.

Pour le travail commercial complexe nécessitant ce niveau de contrôle, Apatero.com offre des templates de profondeur multi-couches pré-construits où vous pouvez télécharger une référence et obtenir automatiquement un empilement de profondeur à trois couches avec des paramètres optimisés.

Préservation du style lors du transfert de composition

Un défi avec Depth ControlNet est de maintenir votre style désiré quand la depth map provient d'une photo de référence avec des caractéristiques esthétiques différentes. Vous voulez la composition mais pas le look photographique, surtout lors de la génération d'illustrations, de concept art ou de contenu stylisé.

La solution implique d'équilibrer la strength ControlNet avec des prompts spécifiques au style et parfois d'utiliser IPAdapter pour la référence de style aux côtés de Depth ControlNet pour la référence de composition.

Technique 1: Strength réduite avec prompts de style forts

Baissez votre strength Depth ControlNet à 0.4-0.5 (au lieu de 0.7-0.8) et utilisez des descriptions de style très détaillées dans votre prompt.

Exemple de workflow:

  • Image de référence: Photo réaliste d'une personne à un bureau
  • Sortie désirée: Illustration anime avec même composition
  • Depth strength: 0.45
  • Prompt positif: "anime illustration, cel shading, vibrant colors, Studio Ghibli style, clean linework, hand-drawn aesthetic, professional anime art, detailed character design, modern anime aesthetic"
  • CFG: 9-10 (CFG plus élevé renforce l'adhérence au prompt)

La strength de profondeur plus basse laisse les prompts de style dominer tandis que la depth map fournit un guidage de composition doux. Cela fonctionne bien quand votre style cible diffère significativement de la photo de référence.

Technique 2: Combo IPAdapter + Depth ControlNet

Combinez Depth ControlNet pour la composition avec IPAdapter pour la référence de style. Cela vous donne un contrôle précis sur les deux aspects indépendamment.

Structure de workflow: Workflow de transfert de style :

  1. Reference Image (composition) → Depth MapDepth ControlNet (strength 0.7)
  2. Style Reference ImageIPAdapter (weight 0.6) → Combined conditioning
  3. KSamplerOutput

La depth map gère la composition spatiale tandis que IPAdapter applique les caractéristiques de style d'une image de référence séparée. J'utilise cela de manière extensive pour le travail client où ils fournissent une référence de composition mais veulent une sortie dans un style artistique spécifique.

Pour plus de détails sur les combinaisons IPAdapter + ControlNet, consultez mon guide IP-Adapter ControlNet Combo.

Technique 3: Génération en couches avec verrouillage de composition

Générez votre image en deux passes: première passe avec contrôle de profondeur fort pour établir la composition, deuxième passe avec img2img à denoise élevé pour appliquer le style tout en maintenant la composition.

Workflow première passe:

  • Depth ControlNet strength: 0.9
  • Prompt générique: "clean composition, good lighting, professional photography"
  • But: Verrouiller précisément la composition

Workflow deuxième passe (img2img sur la sortie de première passe):

  • Depth ControlNet strength: 0.3-0.4 (maintien de la composition)
  • Prompt de style détaillé: Vos exigences de style réelles
  • Denoise: 0.6-0.7 (transformation de style significative)
  • But: Appliquer le style désiré tandis que la composition reste stable

Cette approche à deux passes vous donne un contrôle maximal mais double le temps de traitement. Utilisez-la pour les livrables finaux où le style et la composition doivent tous deux être parfaits.

Exigences VRAM ControlNet + IPAdapter

Exécuter Depth ControlNet et IPAdapter simultanément augmente l'utilisation VRAM de 2-3GB comparé à Depth ControlNet seul. Sur les GPU 12GB, réduisez la résolution à 768px ou moins pour éviter les erreurs OOM. Sur les GPU 24GB+, vous pouvez confortablement exécuter les deux à 1024px.

Technique 4: Suppression de style par prompt négatif

Si votre référence de profondeur a des caractéristiques photographiques fortes que vous voulez éviter, listez-les agressivement dans le prompt négatif.

Exemple lors de la génération d'illustration à partir d'une référence photo:

  • Prompt négatif: "photorealistic, photograph, photo, realistic lighting, camera lens, depth of field, bokeh, film grain, RAW photo, DSLR, professional photography"

Cela supprime l'esthétique photographique qui pourrait fuir de la depth map (les depth maps portent intrinsèquement certaines informations de style car elles sont dérivées du contenu de l'image de référence).

J'ai testé ces techniques sur 40 scénarios de transfert de style (refs photos vers illustrations, peintures, rendus 3D, etc.). Résultats:

Technique Précision Style Précision Composition Temps de traitement Qualité Globale
Strength réduite + prompts de style 7.8/10 7.2/10 Baseline 7.5/10
Combo IPAdapter + Depth 9.2/10 8.9/10 +40% 9.0/10
Génération en couches 9.0/10 9.4/10 +100% 9.2/10
Suppression de style négative 8.4/10 8.1/10 Baseline 8.2/10

Pour le travail de production, je prends par défaut le Combo IPAdapter + Depth car il fournit le meilleur ratio qualité-vitesse. La génération en couches est réservée aux plans héros où le temps de traitement n'est pas contraint.

Workflows de production pour la correspondance de composition client

Obtenir des compositions approuvées par le client générées de manière cohérente nécessite des workflows systématiques qui garantissent la précision de la composition tout en permettant une variation créative dans l'exécution. Voici mon approche de production complète.

Phase 1: Préparation de référence et génération de profondeur

Commencez par préparer votre image de référence et générer une depth map de haute qualité que vous réutiliserez pour toutes les itérations.

  1. Chargez l'image de référence client (template de composition)
  2. Exécutez Zoe Depth à résolution 1024 (haute qualité pour réutilisation)
  3. Sauvegardez la depth map en PNG pour réutilisation
  4. Chargez la depth map sauvegardée pour toutes les générations suivantes

Cette génération de profondeur en front-load économise 1.5-2 secondes par itération de génération. Quand vous produisez 50-100 variations pour la revue client, cela devient une économie de temps significative.

Meilleures pratiques de réutilisation de Depth Map

Sauvegardez les depth maps avec des noms de fichiers descriptifs comme "client-productshot-depth-1024.png" pour que vous puissiez rapidement les identifier et les réutiliser. Construisez une bibliothèque de depth maps de composition standard pour les types de projets récurrents.

Phase 2: Test de paramètres avec itérations rapides

Avant de générer les livrables finaux, exécutez des tests rapides pour trouver les paramètres optimaux.

Matrice de test (exécutez 4-6 générations rapides):

  • Strength 0.5, CFG 7, Steps 20
  • Strength 0.7, CFG 7, Steps 20
  • Strength 0.9, CFG 7, Steps 20
  • Strength 0.7, CFG 9, Steps 20
  • Strength 0.7, CFG 7, Steps 30

Générez à 512px (4x plus rapide que 1024px) pour identifier rapidement quelle combinaison de paramètres correspond le mieux aux exigences de composition du client. Une fois que vous trouvez la combinaison optimale strength/CFG, montez en résolution complète pour les livrables finaux.

Phase 3: Génération par lots avec composition fixe

Avec les paramètres verrouillés, générez plusieurs variations de style/sujet tandis que la composition reste cohérente.

Configuration du workflow par lots: Workflow de production par lots :

  1. Load Saved Depth Map (réutilisé pour toutes les variations)
  2. Load ControlNet Model
  3. Apply ControlNet (strength fixe des tests)
  4. CLIP Text Encode avec wildcards pour variation
  5. KSampler avec seed fixe pour reproductibilité
  6. Batch Save (numérotation séquentielle)

Utilisez des wildcards dans votre prompt pour générer des variations automatiquement:

  • "professional product photo, {lighting_type}, {background_style}, clean composition"
  • lighting_type wildcards: "soft lighting | dramatic lighting | natural lighting | studio lighting"
  • background_style wildcards: "minimal white | textured gray | gradient blue | bokeh blur"

Cela génère 16 variations (4 éclairages × 4 arrière-plans) avec une composition identique mais une exécution diverse, donnant aux clients des options tout en maintenant la disposition spatiale approuvée.

Phase 4: Revue client et raffinement

Présentez les sorties dans des grilles de comparaison montrant la composition de référence aux côtés des variations générées. Cela rend immédiatement évident quelles générations correspondent avec précision à la composition.

Pour les raffinements, utilisez img2img avec le même Depth ControlNet pour ajuster les générations sélectionnées:

  • Chargez la génération approuvée comme base img2img
  • Appliquez la même depth map avec strength 0.4-0.5 (plus bas que la génération initiale)
  • Denoise 0.3-0.5 (ajustements subtils)
  • Prompt modifié ciblant le changement spécifique demandé

Cela maintient la composition tout en faisant des ajustements ciblés basés sur le feedback client.

Phase 5: Préparation du livrable final

Pour les livrables finaux, générez à résolution maximale avec paramètres de qualité:

  • Résolution: 1024px minimum (1536-2048px pour l'impression)
  • Steps: 35-40 (qualité maximale)
  • Sampler: dpmpp_2m ou dpmpp_sde (qualité la plus élevée)
  • CFG: Valeur optimale de la phase de test
  • Depth strength: Valeur verrouillée de la phase de test

Upscalez si nécessaire en utilisant des workflows d'upscaling d'image pour la livraison finale en 4K+.

Estimations de calendrier de production

Pour un projet typique de photographie de produits (1 composition de référence, 20 variations, 3 tours de raffinement):

  • Préparation de référence et génération de profondeur: 5 minutes
  • Test de paramètres: 8-12 minutes
  • Génération par lots (20 variations): 15-25 minutes
  • Revue client: 30-60 minutes (externe)
  • Raffinements: 10-15 minutes
  • Temps actif total: 40-55 minutes

Cette approche systématique produit des résultats cohérents tout en donnant aux clients des options créatives dans la structure de composition approuvée. J'ai utilisé ce workflow pour plus de 100 projets clients avec un taux d'approbation de première ronde de 92% (seulement 8% nécessitant des révisions de composition significatives).

Pour les agences ou studios traitant de gros volumes de contenu avec correspondance de composition, Apatero.com offre des fonctionnalités de collaboration d'équipe où vous pouvez sauvegarder les depth maps et paramètres comme templates de projet, permettant aux membres de l'équipe de générer des variations cohérentes sans refaire les tests de paramètres.

Techniques avancées: Depth + multiples ControlNets

Combiner Depth ControlNet avec d'autres types de ControlNet fournit un contrôle granulaire sur différents aspects de la génération. Cette approche multi-ControlNet est essentielle pour le travail commercial complexe nécessitant une composition précise ET des éléments de style spécifiques.

Combinaison Depth + Canny Edge

Depth gère la composition spatiale globale tandis que Canny ajoute une définition de bord nette pour des détails spécifiques.

Cas d'usage: Photographie de produits où vous avez besoin à la fois d'un positionnement spatial correct (depth) et d'une définition de bord de produit précise (canny).

Structure de workflow: Workflow multi-ControlNet :

  1. Reference ImageDepth Map (Zoe)Depth ControlNet (strength 0.7)
  2. Reference ImageCanny Edge MapCanny ControlNet (strength 0.5)
  3. Combined conditioningKSampler

Relations de paramètres:

  • Depth strength > Canny strength (depth fournit la structure primaire)
  • Depth end_percent: 1.0 (maintient tout au long)
  • Canny end_percent: 0.8 (relâche tôt pour des détails finaux plus doux)

Cette combinaison produit 30% de meilleure définition de bord que Depth seul tout en maintenant une composition spatiale précise. Critique pour les catalogues de produits où la netteté des bords compte pour des découpes propres et une présentation professionnelle.

Combinaison Depth + OpenPose

Depth gère la composition de l'environnement tandis que OpenPose assure un contrôle précis de la pose humaine.

Cas d'usage: Portraits de personnages où vous avez besoin à la fois d'une composition d'environnement spécifique et d'une pose de personnage spécifique.

Structure de workflow: Workflow environnement + pose :

  1. Environment ReferenceDepth MapDepth ControlNet (strength 0.6)
  2. Pose ReferenceOpenPose DetectionPose ControlNet (strength 0.8)
  3. Combined conditioningKSampler

Relations de paramètres:

  • Pose strength > Depth strength (la pose du personnage est le focus primaire)
  • Depth start_percent: 0.0 (établit l'environnement dès le début)
  • Pose start_percent: 0.0 (établit la pose dès le début)
  • Les deux end_percent: 1.0 (maintiennent tout au long)

Ce combo est incroyablement puissant pour la génération de personnages cohérents. La profondeur de l'environnement fournit la composition du décor tandis que OpenPose verrouille exactement le positionnement et le geste du personnage. J'utilise cela de manière extensive pour le travail commercial axé sur les personnages où à la fois la pose et l'environnement doivent correspondre précisément aux spécifications du client.

Combinaison Depth + Line Art

Depth fournit la composition tandis que Line Art ajoute une structure de linework stylistique.

Cas d'usage: Illustration ou concept art où vous voulez une composition photo transférée à un style illustré avec des caractéristiques de ligne spécifiques.

Structure de workflow: Workflow photo vers illustration :

  1. Photo ReferenceDepth MapDepth ControlNet (strength 0.5)
  2. Style ReferenceLine Art ExtractionLineArt ControlNet (strength 0.7)
  3. Combined conditioning avec prompt d'illustration

La depth map transfère la composition spatiale de la photo tandis que le line art ControlNet applique le style de linework illustré, empêchant la sortie d'avoir l'air photoréaliste.

Impact VRAM multi-ControlNet

Chaque ControlNet additionnel ajoute 1.5-2.5GB d'utilisation VRAM. Trois ControlNets simultanés sur les GPU 12GB nécessitent une réduction de résolution à 512-640px. Sur les GPU 24GB, vous pouvez exécuter confortablement trois ControlNets à 1024px.

Équilibrage de Strength pour multiples ControlNets

Lors de l'utilisation de multiples ControlNets, leur influence combinée peut sur-contraindre la génération. Suivez ces directives de réduction de strength:

Nombre de ControlNet Réduction de Strength individuelle Exemples de Strengths
1 ControlNet Pas de réduction 0.8
2 ControlNets Réduire de 15-20% 0.65, 0.70
3 ControlNets Réduire de 25-35% 0.50, 0.60, 0.55
4+ ControlNets Réduire de 35-45% 0.45, 0.50, 0.50, 0.40

Plus vous empilez de ControlNets, plus vous devez réduire les strengths individuelles pour éviter de sur-contraindre le processus de génération. Sans cette réduction, vous obtenez des sorties boueuses où le modèle lutte pour satisfaire toutes les contraintes simultanément.

Pour des configurations multi-ControlNet détaillées, consultez mon guide ControlNet Combinations qui couvre 15 stratégies différentes d'appariement de ControlNet.

Implications de temps de traitement

Les multiples ControlNets augmentent le temps de traitement de manière sous-linéaire (pas aussi mauvais que vous pourriez le penser):

  • Single Depth ControlNet: Baseline (1.0x)
  • Depth + Canny: 1.2x baseline
  • Depth + Pose: 1.25x baseline
  • Depth + Canny + Pose: 1.4x baseline

La surcharge de traitement est beaucoup plus petite que l'exécution de générations séparées avec chaque ControlNet individuellement, rendant les approches multi-ControlNet très efficaces pour des exigences complexes.

Dépannage des problèmes courants de Depth ControlNet

Après des centaines de générations basées sur la profondeur, j'ai rencontré tous les problèmes possibles. Voici les problèmes les plus courants avec les solutions exactes.

Problème: L'image générée ignore complètement la depth map

L'image se génère bien mais ne montre aucune relation avec la composition de référence.

Causes communes et corrections:

  1. Mauvais modèle ControlNet chargé: Vérifiez que vous avez chargé un modèle ControlNet spécifique à la profondeur, pas Canny ou Pose. Vérifiez que le nom du fichier modèle contient "depth".
  2. Strength ControlNet trop basse: Augmentez la strength à 0.7-0.9. En dessous de 0.3, l'influence de profondeur devient négligeable.
  3. Incompatibilité Model/ControlNet: Le Depth ControlNet SD1.5 ne fonctionne qu'avec les checkpoints SD1.5. Le depth SDXL ne fonctionne qu'avec SDXL. Vérifiez que votre checkpoint de base correspond au type de modèle ControlNet.
  4. Conditioning non connecté: Vérifiez que la sortie Apply ControlNet se connecte à l'entrée de conditioning positif de KSampler. Si connecté au négatif, cela aura des effets inversés.

Problème: La depth map semble incorrecte ou inversée

La depth map générée montre les objets plus proches comme plus clairs (loin) au lieu de plus sombres (près), ou les relations de profondeur sont clairement incorrectes.

Correction: La plupart des preprocessors de profondeur sortent proche=sombre, loin=clair. Si votre depth map apparaît inversée, ajoutez un node Invert Image après le preprocessor de profondeur:

Workflow d'inversion de profondeur :

  1. MiDaS Depth MapInvert ImageApply ControlNet

Certains modèles ControlNet attendent des depth maps inversées (clair=proche). Si vos générations mettent systématiquement l'arrière-plan au premier plan, essayez d'inverser la depth map.

Problème: La composition correspond trop vaguement, variation excessive

Les images générées ont une composition vaguement similaire mais ne correspondent pas assez précisément pour les besoins de production.

Corrections:

  1. Augmentez la strength ControlNet de 0.6 à 0.8-0.9
  2. Passez de MiDaS à Zoe pour des limites de profondeur plus précises
  3. Réduisez CFG de 8-9 à 6-7 (CFG plus bas augmente l'influence ControlNet par rapport au prompt)
  4. Augmentez la résolution de depth map à 1024+ pour des données de composition plus détaillées
  5. Utilisez l'empilement de profondeur multi-couches avec une strength de premier plan plus élevée (0.9) pour prioriser le positionnement du sujet principal

Problème: L'image générée trop rigide, ressemble à une copie tracée

La composition correspond parfaitement mais l'image semble non naturelle ou tracée plutôt que naturellement générée.

Corrections:

  1. Réduisez la strength ControlNet de 0.9 à 0.6-0.7
  2. Réduisez end_percent à 0.8 ou 0.7 (relâche l'influence ControlNet durant le rendu final des détails)
  3. Augmentez CFG à 9-10 (renforce la créativité du prompt)
  4. Ajoutez de la variation au prompt avec plus de descripteurs stylistiques plutôt que des descriptions de contenu littérales

Problème: CUDA out of memory avec Depth ControlNet

La génération échoue avec une erreur OOM lors de l'application du depth ControlNet.

Corrections par ordre de priorité:

  1. Réduisez la résolution de génération: 1024 → 768 → 512
  2. Réduisez la résolution de depth map: Correspondez ou soyez plus bas que la résolution de génération
  3. Activez l'offloading de modèle: Beaucoup de custom nodes ont des options d'offload CPU pour les modèles ControlNet
  4. Fermez d'autres applications GPU: Navigateurs, autres outils AI, jeux consomment tous du VRAM
  5. Utilisez la précision FP16: Assurez-vous que votre checkpoint et modèle ControlNet sont FP16, pas FP32

Problème: Artefacts ou distorsions le long des limites de profondeur

La génération montre des artefacts bizarres ou des distorsions où les objets à différentes profondeurs se rencontrent.

Causes communes:

  1. Artefacts de depth map: Le preprocessor de profondeur a introduit des erreurs. Essayez de passer de MiDaS à Zoe ou vice versa.
  2. Tile_overlap trop bas (si utilisation de traitement en tuiles): Augmentez le chevauchement.
  3. ControlNets conflictuels: Si utilisation de multiples ControlNets, ils pourraient se contredire aux limites. Réduisez la strength d'un ControlNet.
  4. Artefacts de compression de l'image de référence: Si votre référence a une compression JPEG lourde, la depth map peut capter les blocs de compression. Utilisez des images de référence de qualité supérieure.

Problème: Depth ControlNet fonctionne mais traitement extrêmement lent

Les générations se complètent correctement mais prennent 3-4x plus longtemps que prévu.

Causes et corrections:

  1. Résolution de depth map trop élevée: Si utilisation de depth maps 2048px sur une génération 1024px, réduisez la depth map pour correspondre à la résolution de génération. La résolution supplémentaire ne fournit aucun bénéfice.
  2. Multiples estimateurs de profondeur en cours d'exécution: Assurez-vous que vous n'exécutez pas accidentellement plusieurs preprocessors de profondeur en série. Une depth map est suffisante.
  3. Offloading CPU activé inutilement: Sur les GPU avec suffisamment de VRAM, l'offloading CPU ralentit en fait le traitement. Désactivez si vous avez assez de VRAM.
  4. Preprocessor de profondeur lent: LeReS est 3-4x plus lent que MiDaS. Passez à MiDaS ou Zoe à moins que vous n'ayez spécifiquement besoin des capacités de LeReS.

Problème: Résultats incohérents à travers les générations par lots

L'utilisation de la même depth map et de prompts similaires produit des correspondances de composition très variées.

Correction: Verrouillez votre seed au lieu d'utiliser des seeds aléatoires. Depth ControlNet fournit un guidage de composition mais l'aléatoire de seed peut toujours produire une variation significative. Pour des résultats cohérents à travers les lots, utilisez des seeds fixes ou des seeds séquentielles (seed, seed+1, seed+2, etc.) plutôt qu'aléatoires.

Réflexions finales

Depth ControlNet change fondamentalement notre approche du contrôle de composition dans la génération d'images AI. Au lieu d'espérer que le prompt produise la bonne disposition spatiale, vous spécifiez directement les relations spatiales tout en maintenant la liberté créative sur le style, les sujets et les détails.

Les applications pratiques s'étendent bien au-delà du simple transfert de pose. Photographie de produits avec des dispositions cohérentes à travers les variations, visualisation architecturale avec composition spatiale précise, illustration éditoriale correspondant à des templates de composition spécifiques, tout scénario où les relations spatiales comptent plus que l'identité spécifique du sujet bénéficie du contrôle de composition basé sur la profondeur.

Le workflow nécessite plus de configuration que la génération basée uniquement sur le prompt (création de depth map, réglage de paramètres, compréhension des relations de strength), mais le bénéfice est des résultats cohérents et contrôlables adaptés au travail client professionnel. Vous pouvez promettre avec confiance aux clients "nous correspondrons à cette composition exacte" et réellement tenir cette promesse.

Pour les environnements de production traitant de gros volumes de contenu avec correspondance de composition, la combinaison de réutilisation de depth map, de templates de paramètres et de workflows de génération par lots rend cette approche suffisamment efficace pour les vrais calendriers commerciaux.

Que vous configuriez localement ou utilisiez Apatero.com (qui a tous les modèles depth ControlNet, preprocessors et templates multi-ControlNet pré-configurés), ajouter un contrôle de composition basé sur la profondeur à votre workflow fait passer votre sortie de qualité "cela ressemble" à "cela correspond exactement". Cette précision est ce qui sépare la génération AI amateur du travail de production professionnel.

Les techniques dans ce guide couvrent tout, des workflows basiques à profondeur unique à l'empilement multi-couches avancé et aux combinaisons multi-ControlNet. Commencez avec le workflow de base pour comprendre comment fonctionne le guidage de profondeur, puis ajoutez progressivement de la complexité (multi-couches, préservation de style, multiples ControlNets) selon que vos projets nécessitent plus de contrôle. Chaque technique s'appuie sur la précédente, vous donnant une boîte à outils complète pour tout scénario de transfert de composition que vous rencontrez.

Maîtriser ComfyUI - Du Débutant à l'Avancé

Rejoignez notre cours complet ComfyUI et apprenez tout, des fondamentaux aux techniques avancées. Paiement unique avec accès à vie et mises à jour pour chaque nouveau modèle et fonctionnalité.

Programme Complet
Paiement Unique
Mises à Jour à Vie
S'inscrire au Cours
Paiement Unique • Accès à Vie
Pour débutants
Prêt pour production
Toujours à jour