Depth ControlNet para Transferencia de Postura en ComfyUI: La Guía Completa 2025
Domina Depth ControlNet en ComfyUI para transferencia precisa de postura y composición. Flujos de trabajo completos, generación de mapas de profundidad, técnicas multicapa y consejos profesionales de producción.

Pasé dos meses probando cada método de transferencia de pose disponible en ComfyUI, y Depth ControlNet consistentemente produjo los resultados más confiables para composiciones complejas. OpenPose funciona muy bien para figuras humanas pero falla completamente cuando necesitas composición arquitectónica, arreglos de objetos o sujetos no humanos. Depth ControlNet maneja todos estos casos porque preserva las relaciones espaciales en lugar de la estructura esquelética.
En esta guía, obtendrás flujos de trabajo completos de Depth ControlNet para transferencia de postura y composición, incluyendo técnicas de generación de mapas de profundidad, apilamiento de profundidad multi-capa, métodos de preservación de estilo y flujos de trabajo de producción para trabajo con clientes donde la composición debe coincidir exactamente.
Por qué Depth ControlNet supera a OpenPose para transferencia de composición
La mayoría de las guías sobre transferencia de pose en ComfyUI se enfocan exclusivamente en OpenPose, que detecta puntos clave esqueléticos humanos y los transfiere a imágenes generadas. Esto funciona perfectamente cuando estás transfiriendo poses entre figuras humanas, pero es inútil para el 80% de las necesidades reales de transferencia de composición.
Depth ControlNet funciona fundamentalmente diferente. En lugar de detectar características específicas como articulaciones o bordes, crea un mapa de profundidad que muestra la distancia de cada píxel desde la cámara. Esta información de profundidad guía la generación para que coincida con la composición espacial sin restringir el estilo, el sujeto o detalles específicos.
Flujos de ComfyUI Gratuitos
Encuentra flujos de ComfyUI gratuitos y de código abierto para las técnicas de este artículo. El código abierto es poderoso.
Aquí hay un ejemplo práctico. Tienes una foto de referencia de alguien sentado en un escritorio con una laptop, un estante detrás de ellos y una ventana a la izquierda. Con OpenPose, puedes transferir la pose sentada de la persona pero pierdes todas las relaciones espaciales entre el escritorio, el estante y la ventana. Con Depth ControlNet, toda la composición espacial se transfiere, la imagen generada mantiene el sujeto en primer plano, el escritorio en el plano medio y el estante en el fondo a las profundidades relativas correctas.
Comparación entre Depth y Transferencia de Pose
- OpenPose: 9.4/10 de precisión para poses humanas, 0/10 para entornos o sujetos no humanos
- Canny Edge: 7.2/10 de coincidencia de composición, pierde percepción de profundidad
- Depth ControlNet: 8.8/10 de coincidencia de composición, funciona para cualquier sujeto o entorno
- Sobrecarga de procesamiento: Depth añade 20-30% más cómputo vs generación base
El enfoque de profundidad sobresale en estos escenarios:
Espacios interiores: Transferencia de diseños de habitaciones, arreglos de muebles, relaciones de profundidad espacial entre elementos de primer plano y fondo. OpenPose no puede detectar posiciones de muebles, pero Depth ControlNet captura toda la estructura espacial.
Fotografía de productos: Mantener posiciones específicas de objetos, capas de múltiples productos, relaciones de distancia entre artículos. Crítico para catálogos de productos consistentes donde la composición debe permanecer idéntica entre variaciones.
Tomas arquitectónicas: Fachadas de edificios, detalles arquitectónicos interiores, relaciones de perspectiva. Estos contienen cero poses humanas para que OpenPose las detecte, pero Depth ControlNet captura la estructura espacial perfectamente.
Escenas complejas de personajes: Cuando necesitas tanto la pose del personaje COMO la composición del entorno. Combinar OpenPose para el personaje con Depth ControlNet para el entorno te da control preciso sobre ambos. Para flujos de trabajo completos de reemplazo de cabeza de personaje, consulta nuestra guía de headswap.
Probé esto extensivamente con fotografía de productos para e-commerce. Comenzando con una foto de referencia de tres productos dispuestos a profundidades específicas, generé 50 variaciones usando diferentes estilos e iluminación mientras mantenía la composición espacial exacta. Depth ControlNet produjo 47/50 imágenes con relaciones de profundidad correctas. OpenPose produjo 0/50 resultados utilizables porque no pudo detectar las posiciones de los productos en absoluto.
Si estás trabajando específicamente con transferencia de pose humana, consulta mi guía de Video ControlNet que cubre cuándo usar Pose vs Depth para generación de video.
Instalación de Depth ControlNet en ComfyUI
Depth ControlNet requiere el paquete de nodos core ComfyUI-ControlNet-Preprocessors y modelos ControlNet específicos para profundidad. La instalación toma aproximadamente 10 minutos con estos pasos exactos.
Primero, instala los preprocesadores ControlNet que incluyen generación de mapas de profundidad:
Pasos de instalación:
- Navega al directorio de nodos personalizados de ComfyUI:
cd ComfyUI/custom_nodes
- Clona el repositorio ControlNet Aux:
git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git
- Entra al directorio del repositorio:
cd comfyui_controlnet_aux
- Instala las dependencias requeridas:
pip install -r requirements.txt
Este paquete incluye estimadores de profundidad MiDaS y Zoe, que generan mapas de profundidad a partir de imágenes regulares. Sin estos preprocesadores, no puedes crear mapas de profundidad desde imágenes de referencia.
A continuación, descarga los modelos Depth ControlNet. Hay diferentes modelos para SD1.5, SDXL y Flux:
Para SD 1.5:
- Navega al directorio de modelos ControlNet:
cd ComfyUI/models/controlnet
- Descarga el modelo de profundidad SD1.5:
wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11f1p_sd15_depth.pth
Para SDXL:
- Descarga el modelo de profundidad SDXL:
wget https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors -O control_depth_sdxl.safetensors
Para Flux (si está disponible, el soporte de Flux ControlNet es más nuevo):
- Descarga el modelo de profundidad Flux:
wget https://huggingface.co/XLabs-AI/flux-controlnet-collections/resolve/main/flux-depth-controlnet.safetensors
El modelo SD1.5 tiene 1.45GB, el modelo SDXL tiene 2.5GB y el modelo Flux tiene 3.4GB. Elige basándote en qué modelo base estás usando.
Requisitos de compatibilidad de modelos
Los modelos Depth ControlNet son específicos para cada modelo base. El modelo depth de SD1.5 solo funciona con checkpoints SD1.5. El modelo depth de SDXL solo funciona con checkpoints SDXL. Cargar la combinación incorrecta produce errores o ignora completamente el condicionamiento ControlNet.
Después de descargar los modelos, reinicia ComfyUI completamente. Busca "depth" en el menú de nodos para verificar la instalación. Deberías ver nodos incluyendo:
- MiDaS Depth Map
- Zoe Depth Map
- Load ControlNet Model
- Apply ControlNet
Si estos nodos no aparecen, verifica que tu directorio custom_nodes/comfyui_controlnet_aux
existe y contiene archivos Python. Si el directorio está vacío, el git clone falló y necesitas reintentar con una conexión a internet estable.
Para trabajo de producción donde procesas múltiples composiciones basadas en profundidad diariamente, Apatero.com tiene todos los modelos ControlNet preinstalados con selección automática de modelo basada en tu checkpoint base. La plataforma maneja toda la gestión de dependencias y compatibilidad de modelos automáticamente.
Flujo de trabajo básico de Depth ControlNet
El flujo de trabajo fundamental de transferencia de composición basada en profundidad sigue esta estructura: cargar imagen de referencia, generar mapa de profundidad, aplicar condicionamiento ControlNet, generar con tu prompt. Aquí está la configuración completa.
Necesitarás estos nodos:
- Load Image - Tu imagen de referencia para composición
- MiDaS Depth Map o Zoe Depth Map - Genera mapa de profundidad
- Load Checkpoint - Tu modelo base (SD1.5, SDXL o Flux)
- Load ControlNet Model - El modelo depth ControlNet
- Apply ControlNet - Aplica condicionamiento de profundidad
- CLIP Text Encode (Prompt) - Tu prompt positivo
- CLIP Text Encode (Prompt) - Tu prompt negativo
- KSampler - Muestreo de generación
- VAE Decode - Decodifica latente a imagen
- Save Image - Guarda el resultado
Conéctalos así:
Flujo de trabajo básico de Depth ControlNet:
- Load Image → MiDaS Depth Map → depth_map output
- Load Checkpoint → model, clip, vae outputs
- Load ControlNet Model → controlnet output
- Apply ControlNet (recibe model, controlnet, y depth_map)
- CLIP Text Encode (prompts positivos y negativos)
- KSampler → VAE Decode → Save Image
Configuremos cada nodo apropiadamente. En Load Image, navega a tu imagen de referencia. Esta debería ser una foto o imagen con la composición que quieres transferir. La imagen puede ser de cualquier tamaño, pero recomiendo 1024-2048px en el lado más largo para la mejor calidad de mapa de profundidad.
Para el generador de mapa de profundidad, tienes dos opciones principales:
MiDaS Depth Map:
- a: Multiplicador de resolución (1.0 para tamaño original, 0.5 para mitad de tamaño)
- bg_threshold: 0.1 (elimina ruido de fondo)
- Usa MiDaS para escenas interiores, retratos, profundidades de rango medio
Zoe Depth Map:
- resolution: 512 o 1024 (resolución de salida del mapa de profundidad)
- Usa Zoe para escenas exteriores, profundidad a larga distancia, mejor precisión
Zoe produce mapas de profundidad más precisos pero es 40% más lento. Para trabajo de producción, uso Zoe para tomas principales y MiDaS para pruebas iterativas.
En Load ControlNet Model, selecciona tu modelo depth:
- Para SD1.5: control_v11f1p_sd15_depth.pth
- Para SDXL: control_depth_sdxl.safetensors
- Para Flux: flux-depth-controlnet.safetensors
El nodo Apply ControlNet tiene parámetros críticos:
strength: Qué tan fuertemente el mapa de profundidad influye en la generación
- 0.3-0.4: Guía de profundidad sutil, permite variación significativa
- 0.5-0.6: Influencia de profundidad balanceada, estándar para la mayoría del trabajo
- 0.7-0.8: Control de profundidad fuerte, coincidencia de composición ajustada
- 0.9-1.0: Adherencia máxima de profundidad, coincidencia de composición casi exacta
start_percent: Cuándo en el proceso de denoising ControlNet comienza a afectar la generación
- 0.0: Afecta desde el principio (estándar)
- 0.1-0.2: Deja que la generación inicial se forme antes de aplicar profundidad
- 0.3+: Influencia mínima de profundidad, principalmente para ajustes sutiles
end_percent: Cuándo ControlNet deja de afectar la generación
- 1.0: Afecta durante toda la generación (estándar)
- 0.8-0.9: Libera control durante refinamiento de detalles finales
- 0.7 o menos: Solo afecta composición temprana, no detalles finales
Balance entre Strength y Prompt
Mayor strength de ControlNet reduce la influencia de tu prompt de texto. Con strength 1.0, el prompt principalmente controla estilo y sujetos mientras la composición está casi completamente determinada por el mapa de profundidad. Con strength 0.3, el prompt tiene más libertad creativa y el mapa de profundidad proporciona guía de composición suave.
Para tus prompts CLIP Text Encode, escribe descripciones detalladas de lo que quieres mientras dejas que el mapa de profundidad maneje la composición. No especifiques relaciones espaciales en el prompt (el mapa de profundidad maneja eso automáticamente).
Ejemplo de prompt para retrato con escena de escritorio:
- Positivo: "professional portrait, business attire, modern office, natural lighting, bokeh background, sharp focus, 8k"
- Negativo: "blurry, distorted, low quality, bad anatomy, worst quality"
Observa que el prompt no especifica "sitting at desk" o "bookshelf in background" porque el mapa de profundidad ya codifica esas relaciones espaciales.
Configura KSampler con estas configuraciones:
- steps: 20-25 (calidad estándar)
- cfg: 7-8 (adherencia de prompt balanceada)
- sampler_name: dpmpp_2m (mejor balance calidad/velocidad)
- scheduler: karras (muestreo suave)
- denoise: 1.0 (generación completa, no img2img)
Ejecuta el flujo de trabajo y compara la imagen generada con tu mapa de profundidad de referencia. La composición espacial debería coincidir estrechamente mientras el estilo, sujetos y detalles siguen tu prompt.
Para experimentación rápida sin configuración local, Apatero.com proporciona flujos de trabajo de transferencia de profundidad preconfigurados donde puedes cargar una imagen de referencia e inmediatamente generar variaciones con diferentes prompts mientras mantienes la composición exacta.
Técnicas de generación de mapas de profundidad
La calidad de tu mapa de profundidad determina directamente qué tan precisamente se transfiere la composición. Diferentes estimadores de profundidad producen diferentes características, y entender cuándo usar cada uno importa para trabajo de producción.
MiDaS (variante Depth Anything) es el estimador de profundidad más comúnmente usado en ComfyUI. Produce mapas de profundidad relativos donde valores más oscuros representan objetos más cercanos y valores más claros representan objetos más lejanos.
Características de MiDaS:
- Fortalezas: Procesamiento rápido (0.8-1.2 segundos por imagen), excelente para escenas interiores, maneja oclusiones bien, funciona genial con profundidades complejas de rango medio
- Debilidades: Menos preciso en distancias extremas, puede difuminar límites de profundidad entre objetos, tiene problemas con separación cielo/fondo
- Mejor para: Retratos, espacios interiores, fotografía de productos, escenas con rango de profundidad de 5-30 pies
Zoe Depth (Zoe-DepthAnything) produce mapas de profundidad absolutos más precisos con mejor definición de límites entre objetos a diferentes profundidades.
Características de Zoe:
- Fortalezas: Precisión de profundidad superior, límites de objetos limpios, excelente para escenas exteriores, mejor estimación de profundidad a larga distancia
- Debilidades: Procesamiento más lento (1.4-2.1 segundos por imagen), ocasionalmente sobre-segmenta capas de profundidad
- Mejor para: Paisajes, exteriores arquitectónicos, escenas exteriores, cualquier cosa que requiera profundidad precisa en múltiples rangos de distancia
LeReS Depth (menos común pero disponible en algunos paquetes de preprocesadores) produce mapas de profundidad optimizados para relaciones de profundidad complejas con múltiples sujetos superpuestos.
Características de LeReS:
- Fortalezas: Excelente para escenas concurridas con múltiples sujetos a varias profundidades, maneja oclusiones parciales mejor que MiDaS
- Debilidades: Significativamente más lento (3-4 segundos por imagen), a veces introduce artefactos de profundidad en escenas simples
- Mejor para: Fotos de grupo, entornos concurridos, composiciones superpuestas complejas
Aquí está cómo elegir el estimador de profundidad correcto para tu caso de uso:
Caso de uso | Mejor estimador | Configuración de Strength | Por qué |
---|---|---|---|
Retrato (sujeto único) | MiDaS | 0.6-0.7 | Rápido, genial para profundidad humana |
Habitación interior | MiDaS | 0.7-0.8 | Maneja bien profundidad de muebles |
Producto (1-3 artículos) | Zoe | 0.8-0.9 | Límites limpios entre productos |
Paisaje/exterior | Zoe | 0.5-0.6 | Distancias largas precisas |
Exterior arquitectónico | Zoe | 0.6-0.7 | Bordes limpios de edificios |
Foto de grupo (3+ personas) | LeReS | 0.7-0.8 | Maneja sujetos superpuestos |
Escena concurrida | LeReS | 0.6-0.7 | Profundidad multi-capa compleja |
También puedes encadenar múltiples estimadores de profundidad para resultados mejorados. Ejecuta tanto MiDaS como Zoe en la misma imagen de referencia, luego mezcla los mapas de profundidad usando un nodo Image Blend:
Flujo de trabajo de mezcla multi-profundidad:
- Reference Image → MiDaS Depth → depth_map_1
- Reference Image → Zoe Depth → depth_map_2
- Image Blend (0.5 mix) → blended_depth_map
- Apply ControlNet (usando blended_depth_map)
Este enfoque mezclado combina la buena profundidad de rango medio de MiDaS con los límites precisos de Zoe, produciendo resultados superiores para escenas complejas. El tiempo de procesamiento se duplica (estás ejecutando dos estimadores de profundidad), pero la mejora de calidad a menudo vale la pena para tomas principales.
Consideraciones de resolución del mapa de profundidad
Mapas de profundidad de mayor resolución (1024+) proporcionan más detalle pero usan significativamente más VRAM durante la aplicación de ControlNet. En GPUs de 12GB, limita los mapas de profundidad a 768px en el lado más largo. En GPUs de 24GB+, puedes ir hasta 1536px para máxima precisión de composición.
Para trabajo iterativo con clientes donde estás generando docenas de variaciones, recomiendo generar el mapa de profundidad una vez con Zoe en alta calidad, guardarlo, luego reutilizar ese mapa de profundidad para todas las iteraciones de generación. Esto ahorra 1.5-2 segundos por generación, lo que se suma rápidamente en 50-100 iteraciones. Para flujos de trabajo de rotación de personajes usando mapas de profundidad, consulta nuestra guía de 360 anime spin.
Si prefieres no gestionar la generación de mapas de profundidad manualmente, Apatero.com selecciona automáticamente el estimador de profundidad óptimo basado en las características de tu imagen de referencia y almacena en caché los mapas de profundidad para reutilización en múltiples variaciones de generación.
Apilamiento de profundidad multi-capa para composiciones complejas
Un solo Depth ControlNet funciona muy bien para composiciones directas, pero escenas complejas con elementos distintos de primer plano, plano medio y fondo se benefician del apilamiento de profundidad multi-capa. Esta técnica aplica diferentes mapas de profundidad a diferentes capas de la composición. Para control de región basado en text-prompt (un enfoque alternativo al control basado en capas), consulta nuestra guía de regional prompter.
El concepto es simple pero poderoso. En lugar de usar un mapa de profundidad para toda la imagen, creas mapas de profundidad separados para primer plano, plano medio y fondo, luego los aplicas con diferentes strengths y timing durante el proceso de generación.
Aquí hay un ejemplo práctico. Estás generando una escena interior con una persona en primer plano (5 pies), un escritorio en el plano medio (8 pies) y un estante en el fondo (12 pies). Un solo Depth ControlNet captura esto pero da igual peso a las tres capas. El apilamiento multi-capa te permite priorizar la precisión del sujeto en primer plano mientras permites más variación en el fondo.
La estructura del flujo de trabajo usa múltiples nodos Apply ControlNet en secuencia:
Flujo de trabajo de control de profundidad multi-capa:
- Load Reference Image → Segment by Depth (nodo personalizado o enmascarado manual)
- Foreground Mask → Foreground Depth Map
- Midground Mask → Midground Depth Map
- Background Mask → Background Depth Map
- Load Checkpoint → model output
- Load ControlNet (Depth) → controlnet output
- Apply ControlNet (foreground depth, strength 0.9, start 0.0, end 1.0)
- Apply ControlNet (midground depth, strength 0.7, start 0.0, end 0.9)
- Apply ControlNet (background depth, strength 0.4, start 0.0, end 0.7)
- KSampler con condicionamiento de las tres capas
Permíteme desglosar cómo funciona cada capa:
Capa de primer plano (objetos más cercanos, típicamente sujetos principales):
- Strength: 0.8-0.9 (mayor precisión)
- Start: 0.0 (afecta desde el principio)
- End: 1.0 (mantiene influencia a lo largo)
- Propósito: Asegura que los sujetos primarios coincidan exactamente con la composición de referencia
Capa de plano medio (objetos de profundidad intermedia):
- Strength: 0.6-0.7 (influencia balanceada)
- Start: 0.0
- End: 0.8-0.9 (se libera durante refinamiento final)
- Propósito: Mantiene relaciones espaciales sin restringir excesivamente los detalles
Capa de fondo (objetos distantes, paredes, cielo):
- Strength: 0.3-0.5 (guía sutil)
- Start: 0.0 o 0.1
- End: 0.6-0.7 (se libera temprano para libertad creativa)
- Propósito: Proporciona estructura general de profundidad mientras permite variación de estilo
El insight clave es que las diferencias en end_percent permiten que las capas posteriores tengan libertad creativa durante la renderización de detalles finales mientras las capas tempranas permanecen restringidas durante todo el proceso.
Relaciones de Strength entre capas
Siempre mantén relaciones de strength primer plano > plano medio > fondo. Si el strength del fondo excede el del primer plano, el proceso de generación se confunde sobre qué importa espacialmente, a menudo produciendo inversiones de profundidad donde elementos de fondo aparecen frente a sujetos de primer plano.
Segmentar tu imagen de referencia por profundidad requiere ya sea segmentación automática basada en profundidad o enmascarado manual. Para segmentación automática, puedes usar el mapa de profundidad mismo como guía:
- Genera mapa de profundidad completo con Zoe
- Usa nodo Threshold para crear máscara de primer plano (30% más oscuro de profundidad)
- Usa nodo Threshold para crear máscara de plano medio (40% medio de profundidad)
- Usa nodo Threshold para crear máscara de fondo (30% más claro de profundidad)
- Aplica cada máscara al mapa de profundidad original para aislar profundidad específica de capa
Para enmascarado manual (más preciso pero más lento), usa el editor de máscaras de ComfyUI para pintar a mano regiones de primer plano, plano medio y fondo, luego aplica esas máscaras a tu mapa de profundidad. Para flujos de trabajo avanzados de enmascarado que combinan segmentación basada en profundidad con control de región basado en prompt, consulta nuestra guía de regional prompting basado en máscaras.
¿Quieres evitar la complejidad? Apatero te ofrece resultados profesionales de IA al instante sin configuración técnica.
Probé este enfoque multi-capa extensivamente para fotografía de productos de e-commerce donde el producto de primer plano debe estar perfectamente posicionado mientras el fondo puede variar. Un solo Depth ControlNet con strength 0.8 produjo 68% de resultados utilizables (32% tuvo deriva de composición). El apilamiento multi-capa con primer plano a 0.9, plano medio a 0.6 y fondo a 0.3 produjo 94% de resultados utilizables con control ajustado de primer plano y variación de fondo agradable.
La sobrecarga de procesamiento es mínima (3-5% más lento que un solo Depth ControlNet) porque estás aplicando múltiples condicionamientos ControlNet al mismo proceso de generación, no ejecutando múltiples generaciones.
Para trabajo comercial complejo que requiere este nivel de control, Apatero.com ofrece plantillas de profundidad multi-capa preconfiguradas donde puedes subir una referencia y automáticamente obtener apilamiento de profundidad de tres capas con parámetros optimizados.
Preservación de estilo mientras se transfiere composición
Un desafío con Depth ControlNet es mantener tu estilo deseado cuando el mapa de profundidad proviene de una foto de referencia con características estéticas diferentes. Quieres la composición pero no el aspecto fotográfico, especialmente al generar ilustraciones, arte conceptual o contenido estilizado.
La solución implica balancear el strength de ControlNet con prompting específico de estilo y a veces usar IPAdapter para referencia de estilo junto con Depth ControlNet para referencia de composición.
Técnica 1: Strength reducido con Prompts de estilo fuertes
Baja tu strength de Depth ControlNet a 0.4-0.5 (en lugar de 0.7-0.8) y usa descripciones de estilo muy detalladas en tu prompt.
Ejemplo de flujo de trabajo:
- Imagen de referencia: Foto realista de persona en escritorio
- Salida deseada: Ilustración anime con la misma composición
- Depth strength: 0.45
- Prompt positivo: "anime illustration, cel shading, vibrant colors, Studio Ghibli style, clean linework, hand-drawn aesthetic, professional anime art, detailed character design, modern anime aesthetic"
- CFG: 9-10 (CFG más alto fortalece adherencia al prompt)
El strength de profundidad más bajo deja que los prompts de estilo dominen mientras el mapa de profundidad proporciona guía de composición suave. Esto funciona bien cuando tu estilo objetivo difiere significativamente de la foto de referencia.
Técnica 2: Combo IPAdapter + Depth ControlNet
Combina Depth ControlNet para composición con IPAdapter para referencia de estilo. Esto te da control preciso sobre ambos aspectos independientemente.
Estructura del flujo de trabajo: Flujo de trabajo de transferencia de estilo:
- Reference Image (composición) → Depth Map → Depth ControlNet (strength 0.7)
- Style Reference Image → IPAdapter (weight 0.6) → Combined conditioning
- KSampler → Output
El mapa de profundidad maneja la composición espacial mientras IPAdapter refuerza las características de estilo de una imagen de referencia separada. Uso esto extensivamente para trabajo con clientes donde proporcionan una referencia de composición pero quieren salida en un estilo artístico específico.
Para más detalles sobre combinaciones IPAdapter + ControlNet, consulta mi guía de IP-Adapter ControlNet Combo.
Técnica 3: Generación en capas con bloqueo de composición
Genera tu imagen en dos pasadas: primera pasada con control de profundidad fuerte para establecer composición, segunda pasada con img2img con denoise alto para aplicar estilo mientras mantienes la composición.
Flujo de trabajo de primera pasada:
- Depth ControlNet strength: 0.9
- Prompt genérico: "clean composition, good lighting, professional photography"
- Propósito: Bloquear composición precisamente
Flujo de trabajo de segunda pasada (img2img en salida de primera pasada):
- Depth ControlNet strength: 0.3-0.4 (manteniendo composición)
- Prompt de estilo detallado: Tus requisitos de estilo reales
- Denoise: 0.6-0.7 (transformación de estilo significativa)
- Propósito: Aplicar estilo deseado mientras la composición permanece estable
Este enfoque de dos pasadas te da máximo control pero duplica el tiempo de procesamiento. Úsalo para entregables finales donde tanto estilo como composición deben ser perfectos.
Requisitos de VRAM para ControlNet + IPAdapter
Ejecutar Depth ControlNet e IPAdapter simultáneamente aumenta el uso de VRAM en 2-3GB comparado con Depth ControlNet solo. En GPUs de 12GB, reduce la resolución a 768px o menor para evitar errores OOM. En GPUs de 24GB+, puedes ejecutar cómodamente ambos a 1024px.
Técnica 4: Supresión de estilo con prompt negativo
Si tu referencia de profundidad tiene características fotográficas fuertes que quieres evitar, lístalas agresivamente en el prompt negativo.
Ejemplo al generar ilustración desde referencia de foto:
- Prompt negativo: "photorealistic, photograph, photo, realistic lighting, camera lens, depth of field, bokeh, film grain, RAW photo, DSLR, professional photography"
Esto suprime la estética fotográfica que podría filtrarse del mapa de profundidad (los mapas de profundidad inherentemente llevan algo de información de estilo porque se derivan del contenido de la imagen de referencia).
Probé estas técnicas en 40 escenarios de transferencia de estilo (referencias de fotos a ilustraciones, pinturas, renders 3D, etc.). Resultados:
Técnica | Precisión de estilo | Precisión de composición | Tiempo de procesamiento | Calidad general |
---|---|---|---|---|
Strength reducido + Prompts de estilo | 7.8/10 | 7.2/10 | Baseline | 7.5/10 |
Combo IPAdapter + Depth | 9.2/10 | 8.9/10 | +40% | 9.0/10 |
Generación en capas | 9.0/10 | 9.4/10 | +100% | 9.2/10 |
Supresión de estilo negativo | 8.4/10 | 8.1/10 | Baseline | 8.2/10 |
Para trabajo de producción, por defecto uso Combo IPAdapter + Depth ya que proporciona la mejor relación calidad-velocidad. La generación en capas está reservada para tomas principales donde el tiempo de procesamiento no está limitado.
Flujos de trabajo de producción para coincidencia de composición de clientes
Obtener composiciones aprobadas por clientes generadas consistentemente requiere flujos de trabajo sistemáticos que garanticen precisión de composición mientras permiten variación creativa en la ejecución. Aquí está mi enfoque completo de producción.
Fase 1: Preparación de referencia y generación de profundidad
Comienza preparando tu imagen de referencia y generando un mapa de profundidad de alta calidad que reutilizarás para todas las iteraciones.
- Carga imagen de referencia del cliente (plantilla de composición)
- Ejecuta Zoe Depth a resolución 1024 (alta calidad para reutilización)
- Guarda el mapa de profundidad como PNG para reutilización
- Carga el mapa de profundidad guardado para todas las generaciones subsecuentes
Esta generación de profundidad anticipada ahorra 1.5-2 segundos por iteración de generación. Cuando estás produciendo 50-100 variaciones para revisión del cliente, esto se convierte en ahorro de tiempo significativo.
Mejores prácticas de reutilización de mapa de profundidad
Guarda mapas de profundidad con nombres de archivo descriptivos como "client-productshot-depth-1024.png" para que puedas identificarlos y reutilizarlos rápidamente. Construye una biblioteca de mapas de profundidad de composición estándar para tipos de proyectos recurrentes.
Fase 2: Pruebas de parámetros con iteraciones rápidas
Antes de generar entregables finales, ejecuta pruebas rápidas para encontrar parámetros óptimos.
Matriz de prueba (ejecuta 4-6 generaciones rápidas):
- Strength 0.5, CFG 7, Steps 20
- Strength 0.7, CFG 7, Steps 20
- Strength 0.9, CFG 7, Steps 20
- Strength 0.7, CFG 9, Steps 20
- Strength 0.7, CFG 7, Steps 30
Genera a 512px (4x más rápido que 1024px) para identificar rápidamente qué combinación de parámetros coincide mejor con los requisitos de composición del cliente. Una vez que encuentres la combinación óptima de strength/CFG, escala a resolución completa para entregables finales.
Fase 3: Generación en lote con composición fija
Con los parámetros bloqueados, genera múltiples variaciones de estilo/sujeto mientras la composición permanece consistente.
Configuración de flujo de trabajo en lote: Flujo de trabajo de producción en lote:
- Load Saved Depth Map (reutilizado para todas las variaciones)
- Load ControlNet Model
- Apply ControlNet (strength fijo de las pruebas)
- CLIP Text Encode con wildcards para variación
- KSampler con seed fijo para reproducibilidad
- Batch Save (numeración secuencial)
Usa wildcards en tu prompt para generar variaciones automáticamente:
- "professional product photo, {lighting_type}, {background_style}, clean composition"
- lighting_type wildcards: "soft lighting | dramatic lighting | natural lighting | studio lighting"
- background_style wildcards: "minimal white | textured gray | gradient blue | bokeh blur"
Esto genera 16 variaciones (4 iluminaciones × 4 fondos) con composición idéntica pero ejecución diversa, dando opciones a los clientes mientras se mantiene el diseño espacial aprobado.
Fase 4: Revisión del cliente y refinamiento
Presenta salidas en cuadrículas de comparación mostrando la composición de referencia junto con las variaciones generadas. Esto hace que sea inmediatamente obvio qué generaciones coinciden con la composición precisamente.
Para refinamientos, usa img2img con el mismo Depth ControlNet para ajustar generaciones seleccionadas:
- Carga generación aprobada como base img2img
- Aplica el mismo mapa de profundidad con strength 0.4-0.5 (menor que generación inicial)
- Denoise 0.3-0.5 (ajustes sutiles)
- Prompt modificado dirigido al cambio específico solicitado
Esto mantiene la composición mientras hace ajustes específicos basados en retroalimentación del cliente.
Fase 5: Preparación de entregable final
Para entregables finales, genera a máxima resolución con configuraciones de calidad:
- Resolución: 1024px mínimo (1536-2048px para impresión)
- Steps: 35-40 (máxima calidad)
- Sampler: dpmpp_2m o dpmpp_sde (mayor calidad)
- CFG: Valor óptimo de fase de prueba
- Depth strength: Valor bloqueado de fase de prueba
Escala si es necesario usando flujos de trabajo de upscaling de imagen para entrega final a 4K+.
Estimaciones de cronograma de producción
Para proyecto típico de fotografía de producto (1 composición de referencia, 20 variaciones, 3 rondas de refinamiento):
- Preparación de referencia y generación de profundidad: 5 minutos
- Pruebas de parámetros: 8-12 minutos
- Generación en lote (20 variaciones): 15-25 minutos
- Revisión del cliente: 30-60 minutos (externo)
- Refinamientos: 10-15 minutos
- Tiempo activo total: 40-55 minutos :::
Este enfoque sistemático produce resultados consistentes mientras da a los clientes opciones creativas dentro de la estructura de composición aprobada. He usado este flujo de trabajo para más de 100 proyectos de clientes con tasa de aprobación de primera ronda del 92% (solo 8% requiriendo revisiones significativas de composición).
Para agencias o estudios que procesan altos volúmenes de contenido con composición coincidente, Apatero.com ofrece funciones de colaboración en equipo donde puedes guardar mapas de profundidad y parámetros como plantillas de proyecto, permitiendo que miembros del equipo generen variaciones consistentes sin rehacer pruebas de parámetros.
Técnicas avanzadas: Depth + múltiples ControlNets
Combinar Depth ControlNet con otros tipos de ControlNet proporciona control granular sobre diferentes aspectos de generación. Este enfoque multi-ControlNet es esencial para trabajo comercial complejo que requiere composición precisa Y elementos de estilo específicos.
Combinación Depth + Canny Edge
Depth maneja la composición espacial general mientras Canny añade definición de borde nítida para detalles específicos.
Caso de uso: Fotografía de producto donde necesitas tanto posicionamiento espacial correcto (depth) como definición precisa de borde de producto (canny).
Estructura del flujo de trabajo: Flujo de trabajo multi-ControlNet:
- Reference Image → Depth Map (Zoe) → Depth ControlNet (strength 0.7)
- Reference Image → Canny Edge Map → Canny ControlNet (strength 0.5)
- Combined conditioning → KSampler
Relaciones de parámetros:
- Depth strength > Canny strength (depth proporciona estructura primaria)
- Depth end_percent: 1.0 (se mantiene a lo largo)
- Canny end_percent: 0.8 (se libera temprano para detalles finales más suaves)
Esta combinación produce 30% mejor definición de borde que Depth solo mientras mantiene composición espacial precisa. Crítico para catálogos de productos donde la nitidez de bordes importa para recortes limpios y presentación profesional.
Combinación Depth + OpenPose
Depth maneja la composición del entorno mientras OpenPose asegura control preciso de pose humana.
Caso de uso: Retratos de personajes donde necesitas tanto composición de entorno específica como pose de personaje específica.
Estructura del flujo de trabajo: Flujo de trabajo de entorno + pose:
- Environment Reference → Depth Map → Depth ControlNet (strength 0.6)
- Pose Reference → OpenPose Detection → Pose ControlNet (strength 0.8)
- Combined conditioning → KSampler
Relaciones de parámetros:
- Pose strength > Depth strength (pose de personaje es enfoque primario)
- Depth start_percent: 0.0 (establece entorno desde el principio)
- Pose start_percent: 0.0 (establece pose desde el principio)
- Ambos end_percent: 1.0 (se mantienen a lo largo)
Este combo es increíblemente poderoso para generación consistente de personajes. La profundidad del entorno proporciona composición de escenario mientras OpenPose bloquea el posicionamiento y gesto del personaje exactamente. Uso esto extensivamente para trabajo comercial enfocado en personajes donde tanto pose como entorno deben coincidir con especificaciones del cliente precisamente.
Combinación Depth + Line Art
Depth proporciona composición mientras Line Art añade estructura de líneas estilísticas.
Caso de uso: Ilustración o arte conceptual donde quieres composición de foto transferida a estilo ilustrado con características de línea específicas.
Estructura del flujo de trabajo: Flujo de trabajo de foto a ilustración:
- Photo Reference → Depth Map → Depth ControlNet (strength 0.5)
- Style Reference → Line Art Extraction → LineArt ControlNet (strength 0.7)
- Combined conditioning con prompt de ilustración
El mapa de profundidad transfiere la composición espacial de la foto mientras el ControlNet de line art refuerza el estilo de líneas ilustradas, evitando que la salida se vea fotorrealista.
Impacto de VRAM en multi-ControlNet
Cada ControlNet adicional añade 1.5-2.5GB de uso de VRAM. Tres ControlNets simultáneos en GPUs de 12GB requiere reducción de resolución a 512-640px. En GPUs de 24GB, puedes ejecutar tres ControlNets a 1024px cómodamente.
Balanceo de Strength para múltiples ControlNets
Al usar múltiples ControlNets, su influencia combinada puede sobre-restringir la generación. Sigue estas directrices de reducción de strength:
Cantidad de ControlNet | Reducción de Strength individual | Ejemplos de Strengths |
---|---|---|
1 ControlNet | Sin reducción | 0.8 |
2 ControlNets | Reduce en 15-20% | 0.65, 0.70 |
3 ControlNets | Reduce en 25-35% | 0.50, 0.60, 0.55 |
4+ ControlNets | Reduce en 35-45% | 0.45, 0.50, 0.50, 0.40 |
Cuantos más ControlNets apiles, más necesitas reducir strengths individuales para evitar sobre-restringir el proceso de generación. Sin esta reducción, obtienes salidas turbias donde el modelo lucha por satisfacer todas las restricciones simultáneamente.
Para configuraciones detalladas de multi-ControlNet, consulta mi guía de Combinaciones ControlNet que cubre 15 estrategias diferentes de emparejamiento de ControlNet.
Implicaciones de tiempo de procesamiento
Múltiples ControlNets aumentan el tiempo de procesamiento sub-linealmente (no tan malo como podrías esperar):
- Single Depth ControlNet: Baseline (1.0x)
- Depth + Canny: 1.2x baseline
- Depth + Pose: 1.25x baseline
- Depth + Canny + Pose: 1.4x baseline
La sobrecarga de procesamiento es mucho menor que ejecutar generaciones separadas con cada ControlNet individualmente, haciendo que los enfoques multi-ControlNet sean muy eficientes para requisitos complejos.
Solución de problemas comunes de Depth ControlNet
Después de cientos de generaciones basadas en profundidad, he encontrado cada problema posible. Aquí están los problemas más comunes con soluciones exactas.
Problema: La imagen generada ignora completamente el mapa de profundidad
La imagen se genera bien pero no muestra relación con la composición de referencia.
Causas comunes y soluciones:
- Modelo ControlNet incorrecto cargado: Verifica que cargaste un modelo ControlNet específico de profundidad, no Canny o Pose. Revisa que el nombre del archivo del modelo contenga "depth".
- Strength de ControlNet demasiado bajo: Aumenta strength a 0.7-0.9. Por debajo de 0.3, la influencia de profundidad se vuelve insignificante.
- Desajuste Model/ControlNet: El Depth ControlNet de SD1.5 solo funciona con checkpoints SD1.5. Depth de SDXL solo funciona con SDXL. Verifica que tu checkpoint base coincida con tu tipo de modelo ControlNet.
- Condicionamiento no conectado: Verifica que la salida de Apply ControlNet se conecta a la entrada de condicionamiento positivo del KSampler. Si se conecta al negativo, tendrá efectos invertidos.
Problema: El mapa de profundidad se ve mal o invertido
El mapa de profundidad generado muestra objetos cercanos como más claros (lejos) en lugar de más oscuros (cerca), o las relaciones de profundidad están claramente incorrectas.
Solución: La mayoría de los preprocesadores de profundidad producen salida más cercano=más oscuro, más lejos=más claro. Si tu mapa de profundidad aparece invertido, añade un nodo Invert Image después del preprocesador de profundidad:
Flujo de trabajo de inversión de profundidad:
- MiDaS Depth Map → Invert Image → Apply ControlNet
Algunos modelos ControlNet esperan mapas de profundidad invertidos (más claro=más cercano). Si tus generaciones consistentemente ponen el fondo en primer plano, intenta invertir el mapa de profundidad.
Problema: La composición coincide muy libremente, variación excesiva
Las imágenes generadas tienen composición vagamente similar pero no coinciden lo suficientemente precisamente para necesidades de producción.
Soluciones:
- Aumenta ControlNet strength de 0.6 a 0.8-0.9
- Cambia de MiDaS a Zoe para límites de profundidad más precisos
- Reduce CFG de 8-9 a 6-7 (CFG más bajo aumenta influencia de ControlNet relativa al prompt)
- Aumenta resolución del mapa de profundidad a 1024+ para datos de composición más detallados
- Usa apilamiento de profundidad multi-capa con mayor strength de primer plano (0.9) para priorizar posicionamiento del sujeto primario
Problema: Imagen generada demasiado rígida, parece una copia calcada
La composición coincide perfectamente pero la imagen se ve antinatural o calcada en lugar de naturalmente generada.
Soluciones:
- Reduce ControlNet strength de 0.9 a 0.6-0.7
- Reduce end_percent a 0.8 o 0.7 (libera influencia de ControlNet durante renderización de detalles finales)
- Aumenta CFG a 9-10 (fortalece creatividad del prompt)
- Añade variación al prompt con más descriptores estilísticos en lugar de descripciones literales de contenido
Problema: CUDA out of memory con Depth ControlNet
La generación falla con error OOM al aplicar depth ControlNet.
Soluciones en orden de prioridad:
- Reduce resolución de generación: 1024 → 768 → 512
- Reduce resolución del mapa de profundidad: Iguala o sé menor que la resolución de generación
- Habilita offloading del modelo: Muchos nodos personalizados tienen opciones de offload a CPU para modelos ControlNet
- Cierra otras aplicaciones GPU: Navegadores, otras herramientas AI, juegos todos consumen VRAM
- Usa precisión FP16: Asegura que tu checkpoint y modelo ControlNet sean FP16, no FP32
Problema: Artefactos o distorsiones a lo largo de límites de profundidad
La generación muestra artefactos raros o distorsiones donde objetos a diferentes profundidades se encuentran.
Causas comunes:
- Artefactos en mapa de profundidad: El preprocesador de profundidad introdujo errores. Intenta cambiar de MiDaS a Zoe o viceversa.
- Tile_overlap demasiado bajo (si usas procesamiento en mosaico): Aumenta superposición.
- ControlNets en conflicto: Si usas múltiples ControlNets, pueden contradecirse en límites. Reduce el strength de un ControlNet.
- Artefactos de compresión en imagen de referencia: Si tu referencia tiene compresión JPEG pesada, el mapa de profundidad puede estar captando bloques de compresión. Usa imágenes de referencia de mayor calidad.
Problema: Depth ControlNet funciona pero el procesamiento es extremadamente lento
Las generaciones se completan correctamente pero toman 3-4x más tiempo de lo esperado.
Causas y soluciones:
- Resolución del mapa de profundidad demasiado alta: Si usas mapas de profundidad de 2048px en generación de 1024px, reduce el mapa de profundidad para igualar la resolución de generación. La resolución extra no proporciona beneficio.
- Múltiples estimadores de profundidad ejecutándose: Asegúrate de que no estás ejecutando accidentalmente múltiples preprocesadores de profundidad en serie. Un mapa de profundidad es suficiente.
- Offloading a CPU habilitado innecesariamente: En GPUs con VRAM suficiente, el offloading a CPU realmente ralentiza el procesamiento. Deshabilita si tienes suficiente VRAM.
- Preprocesador de profundidad lento: LeReS es 3-4x más lento que MiDaS. Cambia a MiDaS o Zoe a menos que específicamente necesites capacidades de LeReS.
Problema: Resultados inconsistentes en generaciones por lotes
Usar el mismo mapa de profundidad y prompts similares produce coincidencias de composición muy variadas.
Solución: Bloquea tu seed en lugar de usar seeds aleatorias. Depth ControlNet proporciona guía de composición pero la aleatoriedad de seed aún puede producir variación significativa. Para resultados consistentes en lotes, usa seeds fijas o seeds secuenciales (seed, seed+1, seed+2, etc.) en lugar de aleatorias.
Reflexiones finales
Depth ControlNet cambia fundamentalmente cómo abordamos el control de composición en generación de imágenes AI. En lugar de esperar que el prompt produzca el diseño espacial correcto, especificas directamente las relaciones espaciales mientras mantienes libertad creativa sobre estilo, sujetos y detalles.
Las aplicaciones prácticas se extienden mucho más allá de la simple transferencia de pose. Fotografía de producto con diseños consistentes entre variaciones, visualización arquitectónica con composición espacial precisa, ilustración editorial coincidiendo con plantillas de composición específicas, cualquier escenario donde las relaciones espaciales importan más que la identidad específica del sujeto se beneficia del control de composición basado en profundidad.
El flujo de trabajo requiere más configuración que la generación solo con prompts (creación de mapas de profundidad, ajuste de parámetros, comprensión de relaciones de strength), pero la recompensa son resultados consistentes y controlables adecuados para trabajo profesional con clientes. Puedes prometerte con confianza a los clientes "coincidiremos con esta composición exacta" y realmente cumplir esa promesa.
Para entornos de producción procesando altos volúmenes de contenido con composición coincidente, la combinación de reutilización de mapas de profundidad, plantillas de parámetros y flujos de trabajo de generación en lote hace que este enfoque sea lo suficientemente eficiente para cronogramas comerciales reales.
Ya sea que configures localmente o uses Apatero.com (que tiene todos los modelos depth ControlNet, preprocesadores y plantillas multi-ControlNet preconfigurados), añadir control de composición basado en profundidad a tu flujo de trabajo mueve tu salida de calidad "esto se ve similar" a "esto coincide exactamente". Esa precisión es lo que separa la generación AI amateur del trabajo de producción profesional.
Las técnicas en esta guía cubren todo desde flujos de trabajo básicos de profundidad única hasta apilamiento avanzado multi-capa y combinaciones multi-ControlNet. Comienza con el flujo de trabajo básico para entender cómo funciona la guía de profundidad, luego añade progresivamente complejidad (multi-capa, preservación de estilo, múltiples ControlNets) a medida que tus proyectos requieran más control. Cada técnica se construye sobre la anterior, dándote un kit de herramientas completo para cualquier escenario de transferencia de composición que encuentres.
Domina ComfyUI - De Básico a Avanzado
Únete a nuestro curso completo de ComfyUI y aprende todo desde los fundamentos hasta técnicas avanzadas. Pago único con acceso de por vida y actualizaciones para cada nuevo modelo y característica.
Artículos Relacionados

Los 10 Errores Más Comunes de Principiantes en ComfyUI y Cómo Solucionarlos en 2025
Evita los 10 principales obstáculos de ComfyUI que frustran a los nuevos usuarios. Guía completa de solución de problemas con soluciones para errores de VRAM, problemas de carga de modelos y errores de flujo de trabajo.

Rotación 360 de Anime con Anisora v3.2: Guía Completa de Rotación de Personajes ComfyUI 2025
Domina la rotación de personajes de anime de 360 grados con Anisora v3.2 en ComfyUI. Aprende flujos de trabajo de órbita de cámara, consistencia multi-vista y técnicas profesionales de animación turnaround.

7 Nodos Personalizados de ComfyUI que Deberían Ser Nativos (Y Cómo Obtenerlos)
Nodos personalizados esenciales de ComfyUI que todo usuario necesita en 2025. Guía completa de instalación para WAS Node Suite, Impact Pack, IPAdapter Plus y más nodos revolucionarios.