Depth ControlNet para Transferência de Postura no ComfyUI: O Guia Completo 2025
Domine o Depth ControlNet no ComfyUI para transferência precisa de postura e composição. Workflows completos, geração de mapas de profundidade, técnicas multi-camadas e dicas de produção profissional.
Passei dois meses testando todos os métodos de transferência de postura disponíveis no ComfyUI, e o Depth ControlNet consistentemente produziu os resultados mais confiáveis para composições complexas. OpenPose funciona muito bem para figuras humanas, mas falha completamente quando você precisa de composição arquitetônica, arranjos de objetos ou assuntos não-humanos. Depth ControlNet lida com todos esses casos porque preserva relações espaciais ao invés de estrutura esquelética.
Neste guia, você vai receber workflows completos de Depth ControlNet para transferência de postura e composição, incluindo técnicas de geração de mapas de profundidade, empilhamento de profundidade multi-camadas, métodos de preservação de estilo e workflows de produção para trabalho com clientes onde a composição precisa corresponder exatamente.
Por Que Depth ControlNet Vence OpenPose para Transferência de Composição
A maioria dos guias sobre transferência de postura no ComfyUI foca exclusivamente no OpenPose, que detecta pontos-chave esqueléticos humanos e os transfere para imagens geradas. Isso funciona perfeitamente quando você está transferindo poses entre figuras humanas, mas é inútil para 80% das necessidades reais de transferência de composição.
Depth ControlNet funciona de forma fundamentalmente diferente. Ao invés de detectar características específicas como articulações ou bordas, ele cria um mapa de profundidade mostrando a distância de cada pixel da câmera. Essa informação de profundidade guia a geração para corresponder à composição espacial sem restringir estilo, assunto ou detalhes específicos.
Aqui está um exemplo prático. Você tem uma foto de referência de alguém sentado em uma mesa com um laptop, estante de livros atrás e uma janela à esquerda. Com OpenPose, você pode transferir a pose de sentar da pessoa, mas perde todas as relações espaciais entre a mesa, estante e janela. Com Depth ControlNet, a composição espacial inteira é transferida, a imagem gerada mantém o assunto em primeiro plano, mesa no meio e estante ao fundo nas profundidades relativas corretas.
Comparação de Transferência de Profundidade vs Postura
- OpenPose: 9.4/10 de precisão para poses humanas, 0/10 para ambientes ou assuntos não-humanos
- Canny Edge: 7.2/10 de correspondência de composição, perde percepção de profundidade
- Depth ControlNet: 8.8/10 de correspondência de composição, funciona para qualquer assunto ou ambiente
- Sobrecarga de processamento: Depth adiciona 20-30% mais computação vs geração base
A abordagem de profundidade se destaca nesses cenários:
Espaços interiores: Transferir layouts de ambientes, arranjos de móveis, relações de profundidade espacial entre elementos de primeiro plano e fundo. OpenPose não consegue detectar posições de móveis, mas Depth ControlNet captura toda a estrutura espacial.
Fotografia de produto: Manter posições específicas de objetos, camadas de múltiplos produtos, relações de distância entre itens. Crítico para catálogos de produtos consistentes onde a composição deve permanecer idêntica entre variações.
Fotos arquitetônicas: Fachadas de prédios, detalhes arquitetônicos internos, relações de perspectiva. Estes não contêm poses humanas para o OpenPose detectar, mas Depth ControlNet captura a estrutura espacial perfeitamente.
Cenas complexas com personagens: Quando você precisa tanto da pose do personagem QUANTO da composição do ambiente. Combinar OpenPose para o personagem com Depth ControlNet para o ambiente te dá controle preciso sobre ambos. Para workflows completos de substituição de cabeça de personagem, veja nosso guia de headswap.
Testei isso extensivamente com fotografia de produto e-commerce. Começando com uma foto de referência de três produtos arranjados em profundidades específicas, gerei 50 variações usando diferentes estilos e iluminação enquanto mantinha a composição espacial exata. Depth ControlNet produziu 47/50 imagens com relações de profundidade corretas. OpenPose produziu 0/50 resultados utilizáveis porque não conseguiu detectar as posições dos produtos.
Se você está trabalhando especificamente com transferência de pose humana, confira meu guia de Video ControlNet que cobre quando usar Pose vs Depth para geração de vídeo.
Instalando Depth ControlNet no ComfyUI
Depth ControlNet requer o pacote principal de nodes ComfyUI-ControlNet-Preprocessors e modelos ControlNet específicos de profundidade. A instalação leva cerca de 10 minutos com esses passos exatos.
Primeiro, instale os preprocessadores ControlNet que incluem geração de mapas de profundidade:
Passos de Instalação:
- Navegue até o diretório de custom nodes do ComfyUI:
cd ComfyUI/custom_nodes - Clone o repositório ControlNet Aux:
git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git - Entre no diretório do repositório:
cd comfyui_controlnet_aux - Instale as dependências necessárias:
pip install -r requirements.txt
Este pacote inclui os estimadores de profundidade MiDaS e Zoe, que geram mapas de profundidade de imagens regulares. Sem esses preprocessadores, você não pode criar mapas de profundidade de imagens de referência.
Em seguida, baixe os modelos Depth ControlNet. Existem modelos diferentes para SD1.5, SDXL e Flux:
Para SD 1.5: SD1.5 Depth ControlNet:
- Navegue até o diretório de modelos ControlNet:
cd ComfyUI/models/controlnet - Baixe o modelo de profundidade SD1.5:
wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11f1p_sd15_depth.pth
Para SDXL:
- Baixe o modelo de profundidade SDXL:
wget https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors -O control_depth_sdxl.safetensors
Para Flux (se disponível, suporte ControlNet do Flux é mais recente):
- Baixe o modelo de profundidade Flux:
wget https://huggingface.co/XLabs-AI/flux-controlnet-collections/resolve/main/flux-depth-controlnet.safetensors
O modelo SD1.5 tem 1.45GB, o modelo SDXL tem 2.5GB e o modelo Flux tem 3.4GB. Escolha com base em qual modelo base você está usando.
Requisitos de Compatibilidade de Modelos
Modelos Depth ControlNet são específicos para cada modelo base. O modelo de profundidade SD1.5 só funciona com checkpoints SD1.5. O modelo de profundidade SDXL só funciona com checkpoints SDXL. Carregar a combinação errada produz erros ou ignora completamente o condicionamento ControlNet.
Após baixar os modelos, reinicie o ComfyUI completamente. Procure por "depth" no menu de nodes para verificar a instalação. Você deve ver nodes incluindo:
- MiDaS Depth Map
- Zoe Depth Map
- Load ControlNet Model
- Apply ControlNet
Se esses nodes não aparecerem, verifique se o diretório custom_nodes/comfyui_controlnet_aux existe e contém arquivos Python. Se o diretório estiver vazio, o git clone falhou e você precisa tentar novamente com uma conexão de internet estável.
Para trabalho de produção onde você está processando múltiplas composições baseadas em profundidade diariamente, Apatero.com tem todos os modelos ControlNet pré-instalados com seleção automática de modelo baseada no seu checkpoint base. A plataforma lida com todo o gerenciamento de dependências e compatibilidade de modelos automaticamente.
Workflow Básico de Depth ControlNet
O workflow fundamental de transferência de composição baseada em profundidade segue esta estrutura: carregar imagem de referência, gerar mapa de profundidade, aplicar condicionamento ControlNet, gerar com seu prompt. Aqui está a configuração completa.
Você vai precisar desses nodes:
- Load Image - Sua imagem de referência para composição
- MiDaS Depth Map ou Zoe Depth Map - Gera mapa de profundidade
- Load Checkpoint - Seu modelo base (SD1.5, SDXL ou Flux)
- Load ControlNet Model - O modelo depth ControlNet
- Apply ControlNet - Aplica condicionamento de profundidade
- CLIP Text Encode (Prompt) - Seu prompt positivo
- CLIP Text Encode (Prompt) - Seu prompt negativo
- KSampler - Amostragem de geração
- VAE Decode - Decodifica latente para imagem
- Save Image - Salva o resultado
Conecte-os assim:
Workflow Básico de Depth ControlNet:
- Load Image → MiDaS Depth Map → saída depth_map
- Load Checkpoint → saídas model, clip, vae
- Load ControlNet Model → saída controlnet
- Apply ControlNet (recebe model, controlnet e depth_map)
- CLIP Text Encode (prompts positivo e negativo)
- KSampler → VAE Decode → Save Image
Vamos configurar cada node adequadamente. No Load Image, navegue até sua imagem de referência. Esta deve ser uma foto ou imagem com a composição que você quer transferir. A imagem pode ser de qualquer tamanho, mas recomendo 1024-2048px no lado mais longo para melhor qualidade do mapa de profundidade.
Para o gerador de mapa de profundidade, você tem duas opções principais:
MiDaS Depth Map:
- a: Multiplicador de resolução (1.0 para tamanho original, 0.5 para metade do tamanho)
- bg_threshold: 0.1 (remove ruído de fundo)
- Use MiDaS para cenas internas, retratos, profundidades de alcance médio
Zoe Depth Map:
- resolution: 512 ou 1024 (resolução de saída do mapa de profundidade)
- Use Zoe para cenas externas, profundidade de longa distância, melhor precisão
Zoe produz mapas de profundidade mais precisos, mas é 40% mais lento. Para trabalho de produção, uso Zoe para shots principais e MiDaS para testes iterativos.
No Load ControlNet Model, selecione seu modelo de profundidade:
- Para SD1.5: control_v11f1p_sd15_depth.pth
- Para SDXL: control_depth_sdxl.safetensors
- Para Flux: flux-depth-controlnet.safetensors
O node Apply ControlNet tem parâmetros críticos:
strength: Quão fortemente o mapa de profundidade influencia a geração
- 0.3-0.4: Orientação de profundidade sutil, permite variação significativa
- 0.5-0.6: Influência de profundidade balanceada, padrão para a maioria dos trabalhos
- 0.7-0.8: Controle de profundidade forte, correspondência de composição apertada
- 0.9-1.0: Aderência máxima de profundidade, correspondência de composição quase exata
start_percent: Quando no processo de denoising o ControlNet começa a afetar a geração
- 0.0: Afeta desde o início (padrão)
- 0.1-0.2: Deixa a geração inicial se formar antes de aplicar profundidade
- 0.3+: Influência mínima de profundidade, principalmente para ajustes sutis
end_percent: Quando o ControlNet para de afetar a geração
- 1.0: Afeta durante toda a geração (padrão)
- 0.8-0.9: Libera controle durante refinamento de detalhes finais
- 0.7 ou menos: Afeta apenas composição inicial, não detalhes finais
Balanço entre Strength e Prompt
Strength ControlNet mais alto reduz a influência do seu prompt de texto. Em strength 1.0, o prompt principalmente controla estilo e assuntos enquanto a composição é quase inteiramente determinada pelo mapa de profundidade. Em strength 0.3, o prompt tem mais liberdade criativa e o mapa de profundidade fornece orientação de composição gentil.
Para seus prompts CLIP Text Encode, escreva descrições detalhadas do que você quer enquanto deixa o mapa de profundidade lidar com a composição. Não especifique relações espaciais no prompt (o mapa de profundidade lida com isso automaticamente).
Exemplo de prompt para retrato com cena de mesa:
- Positivo: "retrato profissional, traje de negócios, escritório moderno, iluminação natural, fundo bokeh, foco nítido, 8k"
- Negativo: "desfocado, distorcido, baixa qualidade, anatomia ruim, pior qualidade"
Note que o prompt não especifica "sentado na mesa" ou "estante ao fundo" porque o mapa de profundidade já codifica essas relações espaciais.
Configure o KSampler com essas configurações:
- steps: 20-25 (qualidade padrão)
- cfg: 7-8 (aderência de prompt balanceada)
- sampler_name: dpmpp_2m (melhor balanço qualidade/velocidade)
- scheduler: karras (amostragem suave)
- denoise: 1.0 (geração completa, não img2img)
Execute o workflow e compare a imagem gerada com seu mapa de profundidade de referência. A composição espacial deve corresponder de perto enquanto o estilo, assuntos e detalhes seguem seu prompt.
Para experimentação rápida sem configuração local, Apatero.com fornece workflows de transferência de profundidade pré-construídos onde você pode fazer upload de uma imagem de referência e imediatamente gerar variações com diferentes prompts enquanto mantém a composição exata.
Técnicas de Geração de Mapas de Profundidade
A qualidade do seu mapa de profundidade determina diretamente quão precisamente a composição é transferida. Diferentes estimadores de profundidade produzem características diferentes, e entender quando usar cada um importa para trabalho de produção.
MiDaS (variante Depth Anything) é o estimador de profundidade mais comumente usado no ComfyUI. Ele produz mapas de profundidade relativos onde valores mais escuros representam objetos mais próximos e valores mais claros representam objetos mais distantes.
Características do MiDaS:
- Forças: Processamento rápido (0.8-1.2 segundos por imagem), excelente para cenas internas, lida bem com oclusões, funciona ótimo com profundidades de alcance médio complexas
- Fraquezas: Menos preciso em distâncias extremas, pode desfocar limites de profundidade entre objetos, tem dificuldade com separação céu/fundo
- Melhor para: Retratos, espaços internos, fotografia de produto, cenas com 5-30 pés de alcance de profundidade
Zoe Depth (Zoe-DepthAnything) produz mapas de profundidade absolutos mais precisos com melhor definição de limites entre objetos em diferentes profundidades.
Características do Zoe:
- Forças: Precisão de profundidade superior, limites de objetos limpos, excelente para cenas externas, melhor estimativa de profundidade de longa distância
- Fraquezas: Processamento mais lento (1.4-2.1 segundos por imagem), ocasionalmente super-segmenta camadas de profundidade
- Melhor para: Paisagens, exteriores arquitetônicos, cenas externas, qualquer coisa requerendo profundidade precisa em múltiplos intervalos de distância
LeReS Depth (menos comum mas disponível em alguns pacotes de preprocessadores) produz mapas de profundidade otimizados para relações de profundidade complexas com múltiplos assuntos sobrepostos.
Características do LeReS:
- Forças: Excelente para cenas lotadas com múltiplos assuntos em várias profundidades, lida melhor com oclusões parciais do que MiDaS
- Fraquezas: Significativamente mais lento (3-4 segundos por imagem), às vezes introduz artefatos de profundidade em cenas simples
- Melhor para: Fotos de grupo, ambientes lotados, composições complexas sobrepostas
Aqui está como escolher o estimador de profundidade certo para seu caso de uso:
| Caso de Uso | Melhor Estimador | Configuração de Strength | Por Quê |
|---|---|---|---|
| Retrato (assunto único) | MiDaS | 0.6-0.7 | Rápido, ótimo para profundidade humana |
| Ambiente interno | MiDaS | 0.7-0.8 | Lida bem com profundidade de móveis |
| Produto (1-3 itens) | Zoe | 0.8-0.9 | Limites limpos entre produtos |
| Paisagem/externo | Zoe | 0.5-0.6 | Distâncias longas precisas |
| Exterior arquitetônico | Zoe | 0.6-0.7 | Bordas de prédio limpas |
| Foto de grupo (3+ pessoas) | LeReS | 0.7-0.8 | Lida com assuntos sobrepostos |
| Cena lotada | LeReS | 0.6-0.7 | Profundidade multi-camadas complexa |
Você também pode encadear múltiplos estimadores de profundidade para resultados aprimorados. Execute tanto MiDaS quanto Zoe na mesma imagem de referência, então misture os mapas de profundidade usando um node Image Blend:
Workflow de Mesclagem Multi-Profundidade:
- Imagem de Referência → MiDaS Depth → depth_map_1
- Imagem de Referência → Zoe Depth → depth_map_2
- Image Blend (mix 0.5) → blended_depth_map
- Apply ControlNet (usando blended_depth_map)
Esta abordagem mesclada combina a boa profundidade de alcance médio do MiDaS com os limites precisos do Zoe, produzindo resultados superiores para cenas complexas. O tempo de processamento dobra (você está executando dois estimadores de profundidade), mas a melhoria de qualidade geralmente vale a pena para shots principais.
Considerações de Resolução de Mapa de Profundidade
Mapas de profundidade de resolução mais alta (1024+) fornecem mais detalhes mas usam significativamente mais VRAM durante aplicação ControlNet. Em GPUs de 12GB, limite mapas de profundidade a 768px no lado mais longo. Em GPUs de 24GB+, você pode ir até 1536px para máxima precisão de composição.
Para trabalho iterativo com clientes onde você está gerando dezenas de variações, recomendo gerar o mapa de profundidade uma vez com Zoe em alta qualidade, salvá-lo, então reutilizar esse mapa de profundidade para todas as iterações de geração. Isso economiza 1.5-2 segundos por geração, o que se acumula rapidamente em 50-100 iterações. Para workflows de rotação de personagem usando mapas de profundidade, veja nosso guia de 360 anime spin.
Se você prefere não gerenciar geração de mapas de profundidade manualmente, Apatero.com automaticamente seleciona o estimador de profundidade ideal baseado nas características da sua imagem de referência e faz cache de mapas de profundidade para reutilização em múltiplas variações de geração.
Empilhamento de Profundidade Multi-Camadas para Composições Complexas
ControlNet de profundidade única funciona muito bem para composições diretas, mas cenas complexas com elementos distintos de primeiro plano, meio e fundo se beneficiam de empilhamento de profundidade multi-camadas. Esta técnica aplica diferentes mapas de profundidade a diferentes camadas da composição. Para controle de região baseado em prompt de texto (uma abordagem alternativa ao controle de composição baseado em camadas), veja nosso guia de regional prompter.
O conceito é simples mas poderoso. Ao invés de usar um mapa de profundidade para a imagem inteira, você cria mapas de profundidade separados para primeiro plano, meio e fundo, então os aplica com diferentes strengths e timing durante o processo de geração.
Aqui está um exemplo prático. Você está gerando uma cena interna com uma pessoa no primeiro plano (5 pés), uma mesa no meio (8 pés) e uma estante ao fundo (12 pés). ControlNet de profundidade única captura isso mas dá peso igual a todas as três camadas. Empilhamento multi-camadas permite que você priorize precisão do assunto em primeiro plano enquanto permite mais variação no fundo.
A estrutura do workflow usa múltiplos nodes Apply ControlNet em sequência:
Fluxos de Trabalho ComfyUI Gratuitos
Encontre fluxos de trabalho ComfyUI gratuitos e de código aberto para as técnicas deste artigo. Open source é poderoso.
Workflow de Controle de Profundidade Multi-Camadas:
- Load Reference Image → Segment by Depth (node customizado ou masking manual)
- Foreground Mask → Foreground Depth Map
- Midground Mask → Midground Depth Map
- Background Mask → Background Depth Map
- Load Checkpoint → saída model
- Load ControlNet (Depth) → saída controlnet
- Apply ControlNet (foreground depth, strength 0.9, start 0.0, end 1.0)
- Apply ControlNet (midground depth, strength 0.7, start 0.0, end 0.9)
- Apply ControlNet (background depth, strength 0.4, start 0.0, end 0.7)
- KSampler com condicionamento de todas as três camadas
Deixe-me detalhar como cada camada funciona:
Camada de Primeiro Plano (objetos mais próximos, tipicamente assuntos principais):
- Strength: 0.8-0.9 (precisão máxima)
- Start: 0.0 (afeta desde o início)
- End: 1.0 (mantém influência durante todo o processo)
- Propósito: Garante que assuntos primários correspondam à composição de referência exatamente
Camada de Meio (objetos de profundidade intermediária):
- Strength: 0.6-0.7 (influência balanceada)
- Start: 0.0
- End: 0.8-0.9 (libera durante refinamento final)
- Propósito: Mantém relações espaciais sem sobre-restringir detalhes
Camada de Fundo (objetos distantes, paredes, céu):
- Strength: 0.3-0.5 (orientação sutil)
- Start: 0.0 ou 0.1
- End: 0.6-0.7 (libera cedo para liberdade criativa)
- Propósito: Fornece estrutura de profundidade geral enquanto permite variação de estilo
O insight chave é que diferenças de end_percent permitem que camadas posteriores tenham liberdade criativa durante renderização final de detalhes enquanto camadas iniciais permanecem restritas durante todo o processo.
Relações de Strength de Camadas
Sempre mantenha relações de strength primeiro plano > meio > fundo. Se strength de fundo exceder primeiro plano, o processo de geração fica confuso sobre o que importa espacialmente, frequentemente produzindo inversões de profundidade onde elementos de fundo aparecem na frente de assuntos de primeiro plano.
Segmentar sua imagem de referência por profundidade requer segmentação automática baseada em profundidade ou masking manual. Para segmentação automática, você pode usar o próprio mapa de profundidade como guia:
- Gere mapa de profundidade completo com Zoe
- Use node Threshold para criar máscara de primeiro plano (30% mais escuro de profundidade)
- Use node Threshold para criar máscara de meio (40% médio de profundidade)
- Use node Threshold para criar máscara de fundo (30% mais claro de profundidade)
- Aplique cada máscara ao mapa de profundidade original para isolar profundidade específica de camada
Para masking manual (mais preciso mas mais lento), use o editor de máscara do ComfyUI para pintar manualmente regiões de primeiro plano, meio e fundo, então aplique essas máscaras ao seu mapa de profundidade. Para workflows avançados de masking que combinam segmentação baseada em profundidade com controle de região baseado em prompt, veja nosso guia de regional prompting baseado em máscara.
Testei esta abordagem multi-camadas extensivamente para fotografia de produto e-commerce onde produto de primeiro plano deve ser perfeitamente posicionado enquanto fundo pode variar. ControlNet de profundidade única em strength 0.8 produziu 68% de resultados utilizáveis (32% tinham desvio de composição). Empilhamento multi-camadas com primeiro plano em 0.9, meio em 0.6 e fundo em 0.3 produziu 94% de resultados utilizáveis com controle apertado de primeiro plano e variação agradável de fundo.
A sobrecarga de processamento é mínima (3-5% mais lento que ControlNet de profundidade única) porque você está aplicando múltiplos condicionamentos ControlNet ao mesmo processo de geração, não executando múltiplas gerações.
Para trabalho comercial complexo requerendo este nível de controle, Apatero.com oferece templates de profundidade multi-camadas pré-construídos onde você pode fazer upload de uma referência e automaticamente obter empilhamento de profundidade de três camadas com parâmetros otimizados.
Preservação de Estilo Enquanto Transfere Composição
Um desafio com Depth ControlNet é manter seu estilo desejado quando o mapa de profundidade vem de uma foto de referência com características estéticas diferentes. Você quer a composição mas não a aparência fotográfica, especialmente quando gerando ilustrações, concept art ou conteúdo estilizado.
A solução envolve balancear strength ControlNet com prompting específico de estilo e às vezes usando IPAdapter para referência de estilo junto com Depth ControlNet para referência de composição.
Técnica 1: Strength Reduzido com Prompts de Estilo Fortes
Reduza seu strength Depth ControlNet para 0.4-0.5 (ao invés de 0.7-0.8) e use descrições de estilo muito detalhadas no seu prompt.
Exemplo de workflow:
- Imagem de referência: Foto realista de pessoa em mesa
- Saída desejada: Ilustração anime com mesma composição
- Depth strength: 0.45
- Prompt positivo: "ilustração anime, cel shading, cores vibrantes, estilo Studio Ghibli, linhas limpas, estética desenhada à mão, arte anime profissional, design de personagem detalhado, estética anime moderna"
- CFG: 9-10 (CFG mais alto fortalece aderência de prompt)
O strength de profundidade mais baixo deixa prompts de estilo dominarem enquanto o mapa de profundidade fornece orientação de composição gentil. Isso funciona bem quando seu estilo alvo difere significativamente da foto de referência.
Técnica 2: Combo IPAdapter + Depth ControlNet
Combine Depth ControlNet para composição com IPAdapter para referência de estilo. Isso te dá controle preciso sobre ambos os aspectos independentemente.
Estrutura de workflow: Workflow de Transferência de Estilo:
- Imagem de Referência (composição) → Mapa de Profundidade → Depth ControlNet (strength 0.7)
- Imagem de Referência de Estilo → IPAdapter (weight 0.6) → Condicionamento combinado
- KSampler → Saída
O mapa de profundidade lida com composição espacial enquanto IPAdapter impõe características de estilo de uma imagem de referência separada. Uso isso extensivamente para trabalho com clientes onde eles fornecem uma referência de composição mas querem saída em um estilo artístico específico.
Para mais detalhes sobre combinações IPAdapter + ControlNet, veja meu guia de Combo IP-Adapter ControlNet.
Técnica 3: Geração em Camadas com Trava de Composição
Gere sua imagem em duas passadas: primeira passada com controle de profundidade forte para estabelecer composição, segunda passada com img2img em alto denoise para aplicar estilo enquanto mantém composição.
Workflow da primeira passada:
- Depth ControlNet strength: 0.9
- Prompt genérico: "composição limpa, boa iluminação, fotografia profissional"
- Propósito: Travar composição precisamente
Workflow da segunda passada (img2img na saída da primeira passada):
Quer pular a complexidade? Apatero oferece resultados profissionais de IA instantaneamente sem configuração técnica.
- Depth ControlNet strength: 0.3-0.4 (mantendo composição)
- Prompt de estilo detalhado: Seus requisitos de estilo reais
- Denoise: 0.6-0.7 (transformação de estilo significativa)
- Propósito: Aplicar estilo desejado enquanto composição permanece estável
Esta abordagem de duas passadas te dá controle máximo mas dobra o tempo de processamento. Use para entregáveis finais onde estilo e composição devem ambos ser perfeitos.
Requisitos de VRAM de ControlNet + IPAdapter
Executar Depth ControlNet e IPAdapter simultaneamente aumenta uso de VRAM em 2-3GB comparado a Depth ControlNet sozinho. Em GPUs de 12GB, reduza resolução para 768px ou menor para evitar erros OOM. Em GPUs de 24GB+, você pode confortavelmente executar ambos em 1024px.
Técnica 4: Supressão de Estilo por Prompt Negativo
Se sua referência de profundidade tem características fotográficas fortes que você quer evitar, liste-as agressivamente no prompt negativo.
Exemplo ao gerar ilustração de referência de foto:
- Prompt negativo: "fotorrealista, fotografia, foto, iluminação realista, lente de câmera, profundidade de campo, bokeh, granulação de filme, foto RAW, DSLR, fotografia profissional"
Isso suprime a estética fotográfica que pode vazar do mapa de profundidade (mapas de profundidade inerentemente carregam alguma informação de estilo porque são derivados do conteúdo da imagem de referência).
Testei essas técnicas em 40 cenários de transferência de estilo (refs de foto para ilustrações, pinturas, renders 3D, etc.). Resultados:
| Técnica | Precisão de Estilo | Precisão de Composição | Tempo de Processamento | Qualidade Geral |
|---|---|---|---|---|
| Strength Reduzido + Prompts de Estilo | 7.8/10 | 7.2/10 | Baseline | 7.5/10 |
| Combo IPAdapter + Depth | 9.2/10 | 8.9/10 | +40% | 9.0/10 |
| Geração em Camadas | 9.0/10 | 9.4/10 | +100% | 9.2/10 |
| Supressão de Estilo Negativa | 8.4/10 | 8.1/10 | Baseline | 8.2/10 |
Para trabalho de produção, uso por padrão Combo IPAdapter + Depth pois fornece a melhor relação qualidade-velocidade. Geração em camadas é reservada para shots principais onde tempo de processamento não é restrito.
Workflows de Produção para Correspondência de Composição de Cliente
Obter composições aprovadas por clientes geradas consistentemente requer workflows sistemáticos que garantem precisão de composição enquanto permitem variação criativa na execução. Aqui está minha abordagem de produção completa.
Fase 1: Preparação de Referência e Geração de Profundidade
Comece preparando sua imagem de referência e gerando um mapa de profundidade de alta qualidade que você vai reutilizar para todas as iterações.
- Carregue imagem de referência do cliente (template de composição)
- Execute Zoe Depth em resolução 1024 (alta qualidade para reutilização)
- Salve o mapa de profundidade como PNG para reutilização
- Carregue o mapa de profundidade salvo para todas as gerações subsequentes
Esta geração de profundidade front-loaded economiza 1.5-2 segundos por iteração de geração. Quando você está produzindo 50-100 variações para revisão do cliente, isso se torna economia de tempo significativa.
Melhores Práticas de Reutilização de Mapa de Profundidade
Salve mapas de profundidade com nomes de arquivo descritivos como "cliente-produtoshot-depth-1024.png" para que você possa rapidamente identificar e reutilizá-los. Construa uma biblioteca de mapas de profundidade de composição padrão para tipos de projeto recorrentes.
Fase 2: Teste de Parâmetros com Iterações Rápidas
Antes de gerar entregáveis finais, execute testes rápidos para encontrar parâmetros ideais.
Matriz de teste (execute 4-6 gerações rápidas):
- Strength 0.5, CFG 7, Steps 20
- Strength 0.7, CFG 7, Steps 20
- Strength 0.9, CFG 7, Steps 20
- Strength 0.7, CFG 9, Steps 20
- Strength 0.7, CFG 7, Steps 30
Gere em 512px (4x mais rápido que 1024px) para rapidamente identificar qual combinação de parâmetros melhor corresponde aos requisitos de composição do cliente. Uma vez que você encontre a combinação ideal de strength/CFG, aumente para resolução completa para entregáveis finais.
Fase 3: Geração em Lote com Composição Fixa
Com parâmetros travados, gere múltiplas variações de estilo/assunto enquanto composição permanece consistente.
Configuração de workflow em lote: Workflow de Produção em Lote:
- Load Saved Depth Map (reutilizado para todas as variações)
- Load ControlNet Model
- Apply ControlNet (strength fixo do teste)
- CLIP Text Encode com wildcards para variação
- KSampler com seed fixo para reprodutibilidade
- Batch Save (numeração sequencial)
Use wildcards no seu prompt para gerar variações automaticamente:
- "foto de produto profissional, {lighting_type}, {background_style}, composição limpa"
- wildcards de lighting_type: "iluminação suave | iluminação dramática | iluminação natural | iluminação de estúdio"
- wildcards de background_style: "branco mínimo | cinza texturizado | azul gradiente | desfoque bokeh"
Isso gera 16 variações (4 iluminação × 4 fundos) com composição idêntica mas execução diversa, dando aos clientes opções enquanto mantém o layout espacial aprovado.
Fase 4: Revisão e Refinamento do Cliente
Apresente saídas em grades de comparação mostrando a composição de referência junto com variações geradas. Isso torna imediatamente óbvio quais gerações correspondem à composição precisamente.
Para refinamentos, use img2img com o mesmo Depth ControlNet para ajustar gerações selecionadas:
- Carregue geração aprovada como base img2img
- Aplique mesmo mapa de profundidade com strength 0.4-0.5 (menor que geração inicial)
- Denoise 0.3-0.5 (ajustes sutis)
- Prompt modificado mirando a mudança específica requisitada
Isso mantém composição enquanto faz ajustes direcionados baseados em feedback do cliente.
Fase 5: Preparação de Entregável Final
Junte-se a outros 115 membros do curso
Crie Seu Primeiro Influenciador IA Ultra-Realista em 51 Lições
Crie influenciadores IA ultra-realistas com detalhes de pele realistas, selfies profissionais e cenas complexas. Receba dois cursos completos em um pacote. ComfyUI Foundation para dominar a tecnologia e Fanvue Creator Academy para aprender a se promover como criador de IA.
Para entregáveis finais, gere em resolução máxima com configurações de qualidade:
- Resolução: 1024px mínimo (1536-2048px para impressão)
- Steps: 35-40 (qualidade máxima)
- Sampler: dpmpp_2m ou dpmpp_sde (qualidade mais alta)
- CFG: Valor ideal da fase de teste
- Depth strength: Valor travado da fase de teste
Amplie se necessário usando workflows de upscaling de imagem para entrega final em 4K+.
Estimativas de Cronograma de Produção
Para projeto típico de fotografia de produto (1 composição de referência, 20 variações, 3 rodadas de refinamento):
- Preparação de referência e geração de profundidade: 5 minutos
- Teste de parâmetros: 8-12 minutos
- Geração em lote (20 variações): 15-25 minutos
- Revisão do cliente: 30-60 minutos (externo)
- Refinamentos: 10-15 minutos
- Tempo ativo total: 40-55 minutos
Esta abordagem sistemática produz resultados consistentes enquanto dá aos clientes opções criativas dentro da estrutura de composição aprovada. Usei este workflow para mais de 100 projetos de clientes com 92% de taxa de aprovação de primeira rodada (apenas 8% requerendo revisões de composição significativas).
Para agências ou estúdios processando altos volumes de conteúdo com composição correspondente, Apatero.com oferece recursos de colaboração em equipe onde você pode salvar mapas de profundidade e parâmetros como templates de projeto, deixando membros da equipe gerarem variações consistentes sem refazer testes de parâmetros.
Técnicas Avançadas: Depth + Múltiplos ControlNets
Combinar Depth ControlNet com outros tipos de ControlNet fornece controle granular sobre diferentes aspectos da geração. Esta abordagem multi-ControlNet é essencial para trabalho comercial complexo requerendo composição precisa E elementos de estilo específicos.
Combinação Depth + Canny Edge
Depth lida com composição espacial geral enquanto Canny adiciona definição de borda nítida para detalhes específicos.
Caso de uso: Fotografia de produto onde você precisa tanto de posicionamento espacial correto (depth) quanto definição precisa de borda de produto (canny).
Estrutura de workflow: Workflow Multi-ControlNet:
- Imagem de Referência → Mapa de Profundidade (Zoe) → Depth ControlNet (strength 0.7)
- Imagem de Referência → Mapa de Borda Canny → Canny ControlNet (strength 0.5)
- Condicionamento combinado → KSampler
Relações de parâmetros:
- Depth strength > Canny strength (depth fornece estrutura primária)
- Depth end_percent: 1.0 (mantém durante todo o processo)
- Canny end_percent: 0.8 (libera cedo para detalhes finais mais suaves)
Esta combinação produz 30% melhor definição de borda que Depth sozinho enquanto mantém composição espacial precisa. Crítico para catálogos de produto onde nitidez de borda importa para recortes limpos e apresentação profissional.
Combinação Depth + OpenPose
Depth lida com composição de ambiente enquanto OpenPose garante controle preciso de pose humana.
Caso de uso: Retratos de personagem onde você precisa tanto de composição específica de ambiente quanto pose específica de personagem.
Estrutura de workflow: Workflow de Ambiente + Pose:
- Referência de Ambiente → Mapa de Profundidade → Depth ControlNet (strength 0.6)
- Referência de Pose → Detecção OpenPose → Pose ControlNet (strength 0.8)
- Condicionamento combinado → KSampler
Relações de parâmetros:
- Pose strength > Depth strength (pose de personagem é foco primário)
- Depth start_percent: 0.0 (estabelece ambiente desde o início)
- Pose start_percent: 0.0 (estabelece pose desde o início)
- Ambos end_percent: 1.0 (mantém durante todo o processo)
Este combo é incrivelmente poderoso para geração de personagem consistente. A profundidade de ambiente fornece composição de cenário enquanto OpenPose trava posicionamento de personagem e gesto exatamente. Uso isso extensivamente para trabalho comercial focado em personagem onde tanto pose quanto ambiente devem corresponder especificações do cliente precisamente.
Combinação Depth + Line Art
Depth fornece composição enquanto Line Art adiciona estrutura de linhas estilísticas.
Caso de uso: Ilustração ou concept art onde você quer composição de foto transferida para estilo ilustrado com características de linha específicas.
Estrutura de workflow: Workflow de Foto para Ilustração:
- Referência de Foto → Mapa de Profundidade → Depth ControlNet (strength 0.5)
- Referência de Estilo → Extração de Line Art → LineArt ControlNet (strength 0.7)
- Condicionamento combinado com prompt de ilustração
O mapa de profundidade transfere composição espacial da foto enquanto ControlNet de line art impõe estilo de linhas ilustradas, prevenindo que a saída pareça fotorrealista.
Impacto de VRAM de Multi-ControlNet
Cada ControlNet adicional adiciona 1.5-2.5GB de uso de VRAM. Três ControlNets simultâneos em GPUs de 12GB requer redução de resolução para 512-640px. Em GPUs de 24GB, você pode executar três ControlNets em 1024px confortavelmente.
Balanceamento de Strength para Múltiplos ControlNets
Ao usar múltiplos ControlNets, sua influência combinada pode sobre-restringir a geração. Siga essas diretrizes de redução de strength:
| Contagem de ControlNet | Redução de Strength Individual | Exemplos de Strengths |
|---|---|---|
| 1 ControlNet | Sem redução | 0.8 |
| 2 ControlNets | Reduzir 15-20% | 0.65, 0.70 |
| 3 ControlNets | Reduzir 25-35% | 0.50, 0.60, 0.55 |
| 4+ ControlNets | Reduzir 35-45% | 0.45, 0.50, 0.50, 0.40 |
Quanto mais ControlNets você empilha, mais você precisa reduzir strengths individuais para evitar sobre-restringir o processo de geração. Sem essa redução, você obtém saídas borradas onde o modelo luta para satisfazer todas as restrições simultaneamente.
Para configurações detalhadas de multi-ControlNet, confira meu guia de Combinações ControlNet que cobre 15 estratégias diferentes de emparelhamento ControlNet.
Implicações de Tempo de Processamento
Múltiplos ControlNets aumentam tempo de processamento sub-linearmente (não tão ruim quanto você poderia esperar):
- Depth ControlNet único: Baseline (1.0x)
- Depth + Canny: 1.2x baseline
- Depth + Pose: 1.25x baseline
- Depth + Canny + Pose: 1.4x baseline
A sobrecarga de processamento é muito menor que executar gerações separadas com cada ControlNet individualmente, tornando abordagens multi-ControlNet muito eficientes para requisitos complexos.
Solucionando Problemas Comuns de Depth ControlNet
Após centenas de gerações baseadas em profundidade, encontrei todos os problemas possíveis. Aqui estão os problemas mais comuns com soluções exatas.
Problema: Imagem gerada ignora mapa de profundidade completamente
A imagem gera bem mas não mostra relação com a composição de referência.
Causas comuns e correções:
- Modelo ControlNet errado carregado: Verifique que você carregou um modelo ControlNet específico de profundidade, não Canny ou Pose. Verifique se o nome do arquivo do modelo contém "depth".
- Strength ControlNet muito baixo: Aumente strength para 0.7-0.9. Abaixo de 0.3, influência de profundidade se torna negligível.
- Incompatibilidade Model/ControlNet: Depth ControlNet SD1.5 só funciona com checkpoints SD1.5. SDXL depth só funciona com SDXL. Verifique se seu checkpoint base corresponde ao tipo do seu modelo ControlNet.
- Condicionamento não conectado: Verifique se a saída Apply ControlNet conecta à entrada de condicionamento positivo do KSampler. Se conectado ao negativo, terá efeitos invertidos.
Problema: Mapa de profundidade parece errado ou invertido
O mapa de profundidade gerado mostra objetos mais próximos como mais claros (longe) ao invés de mais escuros (perto), ou relações de profundidade estão claramente incorretas.
Correção: A maioria dos preprocessadores de profundidade geram saída mais próximo=mais escuro, mais longe=mais claro. Se seu mapa de profundidade parece invertido, adicione um node Invert Image após o preprocessador de profundidade:
Workflow de Inversão de Profundidade:
- MiDaS Depth Map → Invert Image → Apply ControlNet
Alguns modelos ControlNet esperam mapas de profundidade invertidos (mais claro=mais próximo). Se suas gerações consistentemente colocam fundo no primeiro plano, tente inverter o mapa de profundidade.
Problema: Composição corresponde muito vagamente, variação excessiva
Imagens geradas têm composição vagamente similar mas não correspondem precisamente o suficiente para necessidades de produção.
Correções:
- Aumente strength ControlNet de 0.6 para 0.8-0.9
- Mude de MiDaS para Zoe para limites de profundidade mais precisos
- Reduza CFG de 8-9 para 6-7 (CFG mais baixo aumenta influência ControlNet relativa ao prompt)
- Aumente resolução do mapa de profundidade para 1024+ para dados de composição mais detalhados
- Use empilhamento de profundidade multi-camadas com strength de primeiro plano mais alto (0.9) para priorizar posicionamento de assunto primário
Problema: Imagem gerada muito rígida, parece cópia rastreada
Composição corresponde perfeitamente mas a imagem parece não natural ou rastreada ao invés de naturalmente gerada.
Correções:
- Reduza strength ControlNet de 0.9 para 0.6-0.7
- Reduza end_percent para 0.8 ou 0.7 (libera influência ControlNet durante renderização final de detalhes)
- Aumente CFG para 9-10 (fortalece criatividade de prompt)
- Adicione variação ao prompt com mais descritores estilísticos ao invés de descrições literais de conteúdo
Problema: CUDA out of memory com Depth ControlNet
Geração falha com erro OOM ao aplicar depth ControlNet.
Correções em ordem de prioridade:
- Reduza resolução de geração: 1024 → 768 → 512
- Reduza resolução do mapa de profundidade: Corresponda ou seja menor que resolução de geração
- Habilite offloading de modelo: Muitos nodes customizados têm opções de offload para CPU para modelos ControlNet
- Feche outras aplicações GPU: Navegadores, outras ferramentas AI, jogos todos consomem VRAM
- Use precisão FP16: Garanta que seu checkpoint e modelo ControlNet sejam FP16, não FP32
Problema: Artefatos ou distorções ao longo de limites de profundidade
Geração mostra artefatos estranhos ou distorções onde objetos em diferentes profundidades se encontram.
Causas comuns:
- Artefatos de mapa de profundidade: O preprocessador de profundidade introduziu erros. Tente mudar de MiDaS para Zoe ou vice-versa.
- Tile_overlap muito baixo (se usando processamento tiled): Aumente overlap.
- ControlNets conflitantes: Se usando múltiplos ControlNets, eles podem contradizer em limites. Reduza strength de um ControlNet.
- Artefatos de compressão de imagem de referência: Se sua referência tem compressão JPEG pesada, o mapa de profundidade pode estar captando blocos de compressão. Use imagens de referência de qualidade mais alta.
Problema: Depth ControlNet funciona mas processamento extremamente lento
Gerações completam corretamente mas levam 3-4x mais tempo que o esperado.
Causas e correções:
- Resolução de mapa de profundidade muito alta: Se usando mapas de profundidade 2048px em geração 1024px, reduza mapa de profundidade para corresponder resolução de geração. A resolução extra não fornece benefício.
- Múltiplos estimadores de profundidade executando: Certifique-se de que não está acidentalmente executando múltiplos preprocessadores de profundidade em série. Um mapa de profundidade é suficiente.
- Offloading de CPU habilitado desnecessariamente: Em GPUs com VRAM suficiente, offloading de CPU na verdade desacelera processamento. Desabilite se você tem VRAM suficiente.
- Preprocessador de profundidade lento: LeReS é 3-4x mais lento que MiDaS. Mude para MiDaS ou Zoe a menos que você especificamente precise de capacidades LeReS.
Problema: Resultados inconsistentes em gerações em lote
Usar o mesmo mapa de profundidade e prompts similares produz correspondências de composição vastamente variantes.
Correção: Trave seu seed ao invés de usar seeds aleatórios. Depth ControlNet fornece orientação de composição mas aleatoriedade de seed ainda pode produzir variação significativa. Para resultados consistentes em lotes, use seeds fixos ou seeds sequenciais (seed, seed+1, seed+2, etc.) ao invés de aleatórios.
Considerações Finais
Depth ControlNet muda fundamentalmente como abordamos controle de composição em geração de imagens AI. Ao invés de esperar que o prompt produza o layout espacial certo, você especifica diretamente as relações espaciais enquanto mantém liberdade criativa sobre estilo, assuntos e detalhes.
As aplicações práticas se estendem muito além de simples transferência de postura. Fotografia de produto com layouts consistentes entre variações, visualização arquitetônica com composição espacial precisa, ilustração editorial correspondendo templates de composição específicos, qualquer cenário onde relações espaciais importam mais que identidade específica de assunto se beneficia de controle de composição baseado em profundidade.
O workflow requer mais configuração que geração apenas por prompt (criação de mapa de profundidade, ajuste de parâmetros, entender relações de strength), mas o retorno são resultados consistentes e controláveis adequados para trabalho profissional com clientes. Você pode confiantemente prometer aos clientes "vamos corresponder essa composição exata" e realmente cumprir essa promessa.
Para ambientes de produção processando altos volumes de conteúdo com composição correspondente, a combinação de reutilização de mapa de profundidade, templates de parâmetros e workflows de geração em lote torna esta abordagem eficiente o suficiente para cronogramas comerciais reais.
Seja você configurando localmente ou usando Apatero.com (que tem todos os modelos Depth ControlNet, preprocessadores e templates multi-ControlNet pré-configurados), adicionar controle de composição baseado em profundidade ao seu workflow move sua saída de qualidade "isso parece similar" para "isso corresponde exatamente". Essa precisão é o que separa geração AI amadora de trabalho de produção profissional.
As técnicas neste guia cobrem tudo desde workflows básicos de profundidade única até empilhamento multi-camadas avançado e combinações multi-ControlNet. Comece com o workflow básico para entender como orientação de profundidade funciona, então progressivamente adicione complexidade (multi-camadas, preservação de estilo, múltiplos ControlNets) conforme seus projetos requerem mais controle. Cada técnica se constrói sobre a anterior, te dando um toolkit completo para qualquer cenário de transferência de composição que você encontrar.
Pronto para Criar Seu Influenciador IA?
Junte-se a 115 alunos dominando ComfyUI e marketing de influenciadores IA em nosso curso completo de 51 lições.
Artigos Relacionados
25 Dicas e Truques do ComfyUI Que Usuários Pro Não Querem Que Você Saiba em 2025
Descubra 25 dicas avançadas do ComfyUI, técnicas de otimização de workflow e truques de nível profissional que usuários experts utilizam. Guia completo de ajuste de CFG, processamento em lote e melhorias de qualidade.
Rotação 360 de Anime com Anisora v3.2: Guia Completo de Rotação de Personagens no ComfyUI 2025
Domine a rotação 360 graus de personagens de anime com Anisora v3.2 no ComfyUI. Aprenda fluxos de trabalho de órbita de câmera, consistência multi-view e técnicas profissionais de animação de turnaround.
Combo AnimateDiff + IPAdapter no ComfyUI: Guia Completo de Animação com Estilo Consistente 2025
Domine a combinação AnimateDiff + IPAdapter no ComfyUI para animações de personagens com estilo consistente. Fluxos de trabalho completos, técnicas de transferência de estilo, controle de movimento e dicas de produção.