Depth ControlNet cho Chuyển Tư thế trong ComfyUI: Hướng dẫn Hoàn chỉnh 2025
Làm chủ Depth ControlNet trong ComfyUI để chuyển tư thế và bố cục chính xác. Quy trình làm việc hoàn chỉnh, tạo bản đồ độ sâu, kỹ thuật đa lớp và mẹo sản xuất chuyên nghiệp.
Tôi đã dành hai tháng để thử nghiệm mọi phương pháp chuyển tư thế có sẵn trong ComfyUI, và Depth ControlNet liên tục mang lại kết quả đáng tin cậy nhất cho các bố cục phức tạp. OpenPose hoạt động tốt cho hình người nhưng hoàn toàn thất bại khi bạn cần bố cục kiến trúc, sắp xếp đối tượng hoặc đối tượng không phải con người. Depth ControlNet xử lý tất cả những điều này vì nó bảo toàn các mối quan hệ không gian thay vì cấu trúc xương.
Trong hướng dẫn này, bạn sẽ có quy trình làm việc Depth ControlNet hoàn chỉnh để chuyển tư thế và bố cục, bao gồm kỹ thuật tạo bản đồ độ sâu, xếp chồng độ sâu đa lớp, phương pháp bảo toàn phong cách và quy trình sản xuất cho công việc khách hàng nơi bố cục phải khớp chính xác.
Tại sao Depth ControlNet Vượt trội hơn OpenPose trong Chuyển Bố cục
Hầu hết các hướng dẫn về chuyển tư thế trong ComfyUI chỉ tập trung vào OpenPose, công cụ phát hiện các điểm khóa xương của con người và chuyển chúng sang hình ảnh được tạo. Điều này hoạt động hoàn hảo khi bạn đang chuyển tư thế giữa các hình người, nhưng nó vô dụng cho 80% nhu cầu chuyển bố cục trong thực tế.
Depth ControlNet hoạt động hoàn toàn khác biệt. Thay vì phát hiện các đặc điểm cụ thể như khớp hoặc cạnh, nó tạo ra một bản đồ độ sâu hiển thị khoảng cách của mọi pixel từ máy ảnh. Thông tin độ sâu này hướng dẫn quá trình tạo để khớp với bố cục không gian mà không ràng buộc phong cách, chủ đề hoặc chi tiết cụ thể.
Đây là một ví dụ thực tế. Bạn có một bức ảnh tham chiếu của một người đang ngồi ở bàn làm việc với laptop, kệ sách phía sau và cửa sổ bên trái. Với OpenPose, bạn có thể chuyển tư thế ngồi của người đó nhưng mất tất cả các mối quan hệ không gian giữa bàn, kệ sách và cửa sổ. Với Depth ControlNet, toàn bộ bố cục không gian được chuyển, hình ảnh được tạo duy trì chủ thể ở phía trước, bàn làm việc ở giữa và kệ sách ở phía sau ở độ sâu tương đối chính xác.
So sánh Chuyển Độ sâu và Tư thế
- OpenPose: 9.4/10 độ chính xác cho tư thế con người, 0/10 cho môi trường hoặc đối tượng không phải con người
- Canny Edge: 7.2/10 khớp bố cục, mất nhận thức độ sâu
- Depth ControlNet: 8.8/10 khớp bố cục, hoạt động cho bất kỳ chủ đề hoặc môi trường nào
- Chi phí xử lý: Depth thêm 20-30% tính toán so với tạo cơ bản
Phương pháp độ sâu xuất sắc trong các tình huống sau:
Không gian nội thất: Chuyển bố cục phòng, sắp xếp đồ đạc, mối quan hệ độ sâu không gian giữa các yếu tố phía trước và phía sau. OpenPose không thể phát hiện vị trí đồ đạc, nhưng Depth ControlNet nắm bắt toàn bộ cấu trúc không gian.
Chụp ảnh sản phẩm: Duy trì vị trí đối tượng cụ thể, xếp lớp nhiều sản phẩm, mối quan hệ khoảng cách giữa các vật phẩm. Rất quan trọng cho danh mục sản phẩm nhất quán nơi bố cục phải giữ nguyên giống hệt nhau qua các biến thể.
Ảnh kiến trúc: Mặt tiền tòa nhà, chi tiết kiến trúc nội thất, mối quan hệ phối cảnh. Những thứ này không chứa tư thế con người nào để OpenPose phát hiện, nhưng Depth ControlNet nắm bắt cấu trúc không gian một cách hoàn hảo.
Cảnh nhân vật phức tạp: Khi bạn cần cả tư thế nhân vật VÀ bố cục môi trường. Kết hợp OpenPose cho nhân vật với Depth ControlNet cho môi trường mang lại cho bạn sự kiểm soát chính xác cả hai. Để biết quy trình làm việc thay thế đầu nhân vật hoàn chỉnh, xem hướng dẫn headswap của chúng tôi.
Tôi đã thử nghiệm điều này rộng rãi với chụp ảnh sản phẩm thương mại điện tử. Bắt đầu với một bức ảnh tham chiếu của ba sản phẩm được sắp xếp ở các độ sâu cụ thể, tôi đã tạo 50 biến thể sử dụng các phong cách và ánh sáng khác nhau trong khi duy trì bố cục không gian chính xác. Depth ControlNet tạo ra 47/50 hình ảnh với mối quan hệ độ sâu chính xác. OpenPose tạo ra 0/50 kết quả có thể sử dụng vì nó không thể phát hiện vị trí sản phẩm hoàn toàn.
Nếu bạn đang làm việc với chuyển tư thế con người cụ thể, hãy xem hướng dẫn Video ControlNet của tôi, bao gồm khi nào sử dụng Pose so với Depth cho tạo video.
Cài đặt Depth ControlNet trong ComfyUI
Depth ControlNet yêu cầu gói node ComfyUI-ControlNet-Preprocessors cốt lõi và các mô hình ControlNet chuyên biệt về độ sâu. Cài đặt mất khoảng 10 phút với các bước chính xác sau.
Đầu tiên, cài đặt các bộ tiền xử lý ControlNet bao gồm tạo bản đồ độ sâu:
Các bước Cài đặt:
- Điều hướng đến thư mục custom nodes của ComfyUI:
cd ComfyUI/custom_nodes - Clone kho lưu trữ ControlNet Aux:
git clone https://github.com/Fannovel16/comfyui_controlnet_aux.git - Vào thư mục kho lưu trữ:
cd comfyui_controlnet_aux - Cài đặt các phụ thuộc cần thiết:
pip install -r requirements.txt
Gói này bao gồm các bộ ước lượng độ sâu MiDaS và Zoe, tạo bản đồ độ sâu từ hình ảnh thông thường. Không có các bộ tiền xử lý này, bạn không thể tạo bản đồ độ sâu từ hình ảnh tham chiếu.
Tiếp theo, tải xuống các mô hình Depth ControlNet. Có các mô hình khác nhau cho SD1.5, SDXL và Flux:
Cho SD 1.5: SD1.5 Depth ControlNet:
- Điều hướng đến thư mục mô hình ControlNet:
cd ComfyUI/models/controlnet - Tải xuống mô hình depth SD1.5:
wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11f1p_sd15_depth.pth
Cho SDXL:
- Tải xuống mô hình depth SDXL:
wget https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0/resolve/main/diffusion_pytorch_model.safetensors -O control_depth_sdxl.safetensors
Cho Flux (nếu có, hỗ trợ Flux ControlNet mới hơn):
- Tải xuống mô hình depth Flux:
wget https://huggingface.co/XLabs-AI/flux-controlnet-collections/resolve/main/flux-depth-controlnet.safetensors
Mô hình SD1.5 là 1.45GB, mô hình SDXL là 2.5GB và mô hình Flux là 3.4GB. Chọn dựa trên mô hình cơ bản bạn đang sử dụng.
Yêu cầu Tương thích Mô hình
Các mô hình Depth ControlNet cụ thể theo mô hình cơ bản. Mô hình depth SD1.5 chỉ hoạt động với các checkpoint SD1.5. Mô hình depth SDXL chỉ hoạt động với các checkpoint SDXL. Tải sự kết hợp sai sẽ tạo ra lỗi hoặc hoàn toàn bỏ qua điều kiện ControlNet.
Sau khi tải xuống mô hình, khởi động lại ComfyUI hoàn toàn. Tìm kiếm "depth" trong menu node để xác minh cài đặt. Bạn sẽ thấy các node bao gồm:
- MiDaS Depth Map
- Zoe Depth Map
- Load ControlNet Model
- Apply ControlNet
Nếu các node này không xuất hiện, kiểm tra thư mục custom_nodes/comfyui_controlnet_aux của bạn tồn tại và chứa các tệp Python. Nếu thư mục trống, lệnh git clone đã thất bại và bạn cần thử lại với kết nối internet ổn định.
Đối với công việc sản xuất nơi bạn đang xử lý nhiều bố cục dựa trên độ sâu hàng ngày, Apatero.com có tất cả các mô hình ControlNet được cài đặt sẵn với tự động chọn mô hình dựa trên checkpoint cơ bản của bạn. Nền tảng xử lý tất cả quản lý phụ thuộc và khả năng tương thích mô hình tự động.
Quy trình Làm việc Depth ControlNet Cơ bản
Quy trình làm việc chuyển bố cục dựa trên độ sâu cơ bản tuân theo cấu trúc này: tải hình ảnh tham chiếu, tạo bản đồ độ sâu, áp dụng điều kiện ControlNet, tạo với prompt của bạn. Đây là thiết lập hoàn chỉnh.
Bạn sẽ cần các node sau:
- Load Image - Hình ảnh tham chiếu cho bố cục
- MiDaS Depth Map hoặc Zoe Depth Map - Tạo bản đồ độ sâu
- Load Checkpoint - Mô hình cơ bản của bạn (SD1.5, SDXL hoặc Flux)
- Load ControlNet Model - Mô hình depth ControlNet
- Apply ControlNet - Áp dụng điều kiện độ sâu
- CLIP Text Encode (Prompt) - Prompt tích cực của bạn
- CLIP Text Encode (Prompt) - Prompt tiêu cực của bạn
- KSampler - Lấy mẫu tạo
- VAE Decode - Giải mã latent thành hình ảnh
- Save Image - Lưu kết quả
Kết nối chúng như sau:
Quy trình Làm việc Depth ControlNet Cơ bản:
- Load Image → MiDaS Depth Map → đầu ra depth_map
- Load Checkpoint → đầu ra model, clip, vae
- Load ControlNet Model → đầu ra controlnet
- Apply ControlNet (nhận model, controlnet và depth_map)
- CLIP Text Encode (prompt tích cực và tiêu cực)
- KSampler → VAE Decode → Save Image
Hãy cấu hình từng node đúng cách. Trong Load Image, duyệt đến hình ảnh tham chiếu của bạn. Đây nên là một bức ảnh hoặc hình ảnh với bố cục bạn muốn chuyển. Hình ảnh có thể có bất kỳ kích thước nào, nhưng tôi khuyên bạn nên 1024-2048px ở cạnh dài nhất cho chất lượng bản đồ độ sâu tốt nhất.
Đối với bộ tạo bản đồ độ sâu, bạn có hai tùy chọn chính:
MiDaS Depth Map:
- a: Hệ số nhân độ phân giải (1.0 cho kích thước gốc, 0.5 cho nửa kích thước)
- bg_threshold: 0.1 (loại bỏ nhiễu nền)
- Sử dụng MiDaS cho cảnh trong nhà, chân dung, độ sâu tầm trung
Zoe Depth Map:
- resolution: 512 hoặc 1024 (độ phân giải đầu ra bản đồ độ sâu)
- Sử dụng Zoe cho cảnh ngoài trời, độ sâu khoảng cách xa, độ chính xác tốt hơn
Zoe tạo ra bản đồ độ sâu chính xác hơn nhưng chậm hơn 40%. Đối với công việc sản xuất, tôi sử dụng Zoe cho các ảnh chính và MiDaS cho thử nghiệm lặp lại.
Trong Load ControlNet Model, chọn mô hình depth của bạn:
- Cho SD1.5: control_v11f1p_sd15_depth.pth
- Cho SDXL: control_depth_sdxl.safetensors
- Cho Flux: flux-depth-controlnet.safetensors
Node Apply ControlNet có các tham số quan trọng:
strength: Mức độ mạnh mẽ bản đồ độ sâu ảnh hưởng đến quá trình tạo
- 0.3-0.4: Hướng dẫn độ sâu tinh tế, cho phép biến thể đáng kể
- 0.5-0.6: Ảnh hưởng độ sâu cân bằng, tiêu chuẩn cho hầu hết công việc
- 0.7-0.8: Kiểm soát độ sâu mạnh, khớp bố cục chặt chẽ
- 0.9-1.0: Tuân thủ độ sâu tối đa, khớp bố cục gần như chính xác
start_percent: Khi nào trong quá trình khử nhiễu ControlNet bắt đầu ảnh hưởng đến quá trình tạo
- 0.0: Ảnh hưởng từ đầu (tiêu chuẩn)
- 0.1-0.2: Để quá trình tạo ban đầu hình thành trước khi áp dụng độ sâu
- 0.3+: Ảnh hưởng độ sâu tối thiểu, chủ yếu cho điều chỉnh tinh tế
end_percent: Khi ControlNet ngừng ảnh hưởng đến quá trình tạo
- 1.0: Ảnh hưởng trong suốt toàn bộ quá trình tạo (tiêu chuẩn)
- 0.8-0.9: Giải phóng kiểm soát trong quá trình tinh chỉnh chi tiết cuối cùng
- 0.7 hoặc ít hơn: Chỉ ảnh hưởng đến bố cục ban đầu, không phải chi tiết cuối cùng
Cân bằng Strength và Prompt
Strength ControlNet cao hơn làm giảm ảnh hưởng của prompt văn bản của bạn. Ở strength 1.0, prompt chủ yếu kiểm soát phong cách và chủ đề trong khi bố cục gần như hoàn toàn được xác định bởi bản đồ độ sâu. Ở strength 0.3, prompt có nhiều tự do sáng tạo hơn và bản đồ độ sâu cung cấp hướng dẫn bố cục nhẹ nhàng.
Đối với các prompt CLIP Text Encode của bạn, viết mô tả chi tiết về những gì bạn muốn trong khi để bản đồ độ sâu xử lý bố cục. Đừng chỉ định các mối quan hệ không gian trong prompt (bản đồ độ sâu xử lý điều đó tự động).
Ví dụ prompt cho cảnh chân dung với bàn làm việc:
- Positive: "chân dung chuyên nghiệp, trang phục công sở, văn phòng hiện đại, ánh sáng tự nhiên, nền bokeh, lấy nét sắc nét, 8k"
- Negative: "mờ, méo mó, chất lượng thấp, giải phẫu xấu, chất lượng tệ nhất"
Lưu ý prompt không chỉ định "ngồi ở bàn" hoặc "kệ sách ở phía sau" vì bản đồ độ sâu đã mã hóa những mối quan hệ không gian đó.
Cấu hình KSampler với các cài đặt sau:
- steps: 20-25 (chất lượng tiêu chuẩn)
- cfg: 7-8 (tuân thủ prompt cân bằng)
- sampler_name: dpmpp_2m (cân bằng chất lượng/tốc độ tốt nhất)
- scheduler: karras (lấy mẫu mượt mà)
- denoise: 1.0 (tạo đầy đủ, không phải img2img)
Chạy quy trình làm việc và so sánh hình ảnh được tạo với bản đồ độ sâu tham chiếu của bạn. Bố cục không gian nên khớp chặt chẽ trong khi phong cách, chủ đề và chi tiết tuân theo prompt của bạn.
Để thử nghiệm nhanh mà không cần thiết lập cục bộ, Apatero.com cung cấp quy trình làm việc chuyển độ sâu được xây dựng sẵn nơi bạn có thể tải lên hình ảnh tham chiếu và ngay lập tức tạo các biến thể với các prompt khác nhau trong khi duy trì bố cục chính xác.
Kỹ thuật Tạo Bản đồ Độ sâu
Chất lượng bản đồ độ sâu của bạn trực tiếp xác định mức độ chính xác bố cục được chuyển. Các bộ ước lượng độ sâu khác nhau tạo ra các đặc điểm khác nhau, và hiểu khi nào sử dụng từng loại quan trọng cho công việc sản xuất.
MiDaS (biến thể Depth Anything) là bộ ước lượng độ sâu được sử dụng phổ biến nhất trong ComfyUI. Nó tạo ra các bản đồ độ sâu tương đối trong đó các giá trị tối hơn đại diện cho các đối tượng gần hơn và các giá trị sáng hơn đại diện cho các đối tượng xa hơn.
Đặc điểm MiDaS:
- Điểm mạnh: Xử lý nhanh (0.8-1.2 giây mỗi hình ảnh), xuất sắc cho cảnh trong nhà, xử lý che khuất tốt, hoạt động tuyệt vời với độ sâu tầm trung phức tạp
- Điểm yếu: Kém chính xác hơn ở khoảng cách cực đoan, có thể làm mờ ranh giới độ sâu giữa các đối tượng, gặp khó khăn với phân tách bầu trời/nền
- Tốt nhất cho: Chân dung, không gian nội thất, chụp ảnh sản phẩm, cảnh có phạm vi độ sâu 5-30 feet
Zoe Depth (Zoe-DepthAnything) tạo ra các bản đồ độ sâu tuyệt đối chính xác hơn với định nghĩa ranh giới tốt hơn giữa các đối tượng ở độ sâu khác nhau.
Đặc điểm Zoe:
- Điểm mạnh: Độ chính xác độ sâu vượt trội, ranh giới đối tượng rõ ràng, xuất sắc cho cảnh ngoài trời, ước lượng độ sâu khoảng cách xa tốt hơn
- Điểm yếu: Xử lý chậm hơn (1.4-2.1 giây mỗi hình ảnh), đôi khi phân đoạn quá mức các lớp độ sâu
- Tốt nhất cho: Phong cảnh, kiến trúc bên ngoài, cảnh ngoài trời, bất cứ thứ gì yêu cầu độ sâu chính xác ở nhiều phạm vi khoảng cách
LeReS Depth (ít phổ biến hơn nhưng có sẵn trong một số gói bộ tiền xử lý) tạo ra các bản đồ độ sâu được tối ưu hóa cho các mối quan hệ độ sâu phức tạp với nhiều chủ đề chồng chéo.
Đặc điểm LeReS:
- Điểm mạnh: Xuất sắc cho cảnh đông đúc với nhiều chủ đề ở độ sâu khác nhau, xử lý che khuất một phần tốt hơn MiDaS
- Điểm yếu: Chậm hơn đáng kể (3-4 giây mỗi hình ảnh), đôi khi giới thiệu các artifact độ sâu trong cảnh đơn giản
- Tốt nhất cho: Ảnh nhóm, môi trường đông đúc, bố cục chồng chéo phức tạp
Dưới đây là cách chọn bộ ước lượng độ sâu phù hợp cho trường hợp sử dụng của bạn:
| Trường hợp Sử dụng | Bộ ước lượng Tốt nhất | Cài đặt Strength | Tại sao |
|---|---|---|---|
| Chân dung (chủ đề đơn) | MiDaS | 0.6-0.7 | Nhanh, tuyệt vời cho độ sâu con người |
| Phòng nội thất | MiDaS | 0.7-0.8 | Xử lý độ sâu đồ đạc tốt |
| Sản phẩm (1-3 mặt hàng) | Zoe | 0.8-0.9 | Ranh giới rõ ràng giữa các sản phẩm |
| Phong cảnh/ngoài trời | Zoe | 0.5-0.6 | Khoảng cách xa chính xác |
| Kiến trúc bên ngoài | Zoe | 0.6-0.7 | Cạnh tòa nhà rõ ràng |
| Ảnh nhóm (3+ người) | LeReS | 0.7-0.8 | Xử lý chủ đề chồng chéo |
| Cảnh đông đúc | LeReS | 0.6-0.7 | Độ sâu đa lớp phức tạp |
Bạn cũng có thể nối chuỗi nhiều bộ ước lượng độ sâu để có kết quả nâng cao. Chạy cả MiDaS và Zoe trên cùng một hình ảnh tham chiếu, sau đó pha trộn các bản đồ độ sâu bằng node Image Blend:
Quy trình Làm việc Pha trộn Đa Độ sâu:
- Hình ảnh Tham chiếu → MiDaS Depth → depth_map_1
- Hình ảnh Tham chiếu → Zoe Depth → depth_map_2
- Image Blend (hỗn hợp 0.5) → blended_depth_map
- Apply ControlNet (sử dụng blended_depth_map)
Phương pháp pha trộn này kết hợp độ sâu tầm trung tốt của MiDaS với ranh giới chính xác của Zoe, tạo ra kết quả vượt trội cho các cảnh phức tạp. Thời gian xử lý tăng gấp đôi (bạn đang chạy hai bộ ước lượng độ sâu), nhưng cải thiện chất lượng thường xứng đáng cho các ảnh chính.
Cân nhắc Độ phân giải Bản đồ Độ sâu
Bản đồ độ sâu độ phân giải cao hơn (1024+) cung cấp chi tiết hơn nhưng sử dụng nhiều VRAM hơn đáng kể trong quá trình áp dụng ControlNet. Trên GPU 12GB, giới hạn bản đồ độ sâu ở 768px cạnh dài nhất. Trên GPU 24GB+, bạn có thể lên đến 1536px cho độ chính xác bố cục tối đa.
Đối với công việc khách hàng lặp lại nơi bạn đang tạo hàng chục biến thể, tôi khuyên bạn nên tạo bản đồ độ sâu một lần với Zoe ở chất lượng cao, lưu nó, sau đó tái sử dụng bản đồ độ sâu đó cho tất cả các lần tạo lặp lại. Điều này tiết kiệm 1.5-2 giây mỗi lần tạo, điều này cộng dồn nhanh chóng qua 50-100 lần lặp lại. Đối với quy trình làm việc xoay nhân vật sử dụng bản đồ độ sâu, xem hướng dẫn 360 anime spin của chúng tôi.
Nếu bạn không muốn quản lý việc tạo bản đồ độ sâu thủ công, Apatero.com tự động chọn bộ ước lượng độ sâu tối ưu dựa trên đặc điểm hình ảnh tham chiếu của bạn và lưu bộ nhớ cache bản đồ độ sâu để tái sử dụng qua nhiều biến thể tạo.
Xếp chồng Độ sâu Đa lớp cho Bố cục Phức tạp
ControlNet độ sâu đơn hoạt động tuyệt vời cho các bố cục đơn giản, nhưng các cảnh phức tạp với các yếu tố phía trước, giữa và phía sau riêng biệt hưởng lợi từ xếp chồng độ sâu đa lớp. Kỹ thuật này áp dụng các bản đồ độ sâu khác nhau cho các lớp khác nhau của bố cục. Để kiểm soát vùng dựa trên prompt văn bản (phương pháp thay thế cho bố cục dựa trên lớp), xem hướng dẫn regional prompter của chúng tôi.
Khái niệm đơn giản nhưng mạnh mẽ. Thay vì sử dụng một bản đồ độ sâu cho toàn bộ hình ảnh, bạn tạo các bản đồ độ sâu riêng biệt cho phía trước, giữa và phía sau, sau đó áp dụng chúng với các độ mạnh và thời gian khác nhau trong quá trình tạo.
Đây là một ví dụ thực tế. Bạn đang tạo một cảnh nội thất với một người ở phía trước (5 feet), một bàn làm việc ở giữa (8 feet) và một kệ sách ở phía sau (12 feet). ControlNet độ sâu đơn nắm bắt điều này nhưng cho trọng lượng bằng nhau cho cả ba lớp. Xếp chồng đa lớp cho phép bạn ưu tiên độ chính xác chủ đề phía trước trong khi cho phép nhiều biến thể hơn ở phía sau.
Cấu trúc quy trình làm việc sử dụng nhiều node Apply ControlNet theo trình tự:
Quy Trình ComfyUI Miễn Phí
Tìm quy trình ComfyUI miễn phí và mã nguồn mở cho các kỹ thuật trong bài viết này. Mã nguồn mở rất mạnh mẽ.
Quy trình Làm việc Kiểm soát Độ sâu Đa lớp:
- Tải Hình ảnh Tham chiếu → Phân đoạn theo Độ sâu (node tùy chỉnh hoặc masking thủ công)
- Mặt nạ Phía trước → Bản đồ Độ sâu Phía trước
- Mặt nạ Giữa → Bản đồ Độ sâu Giữa
- Mặt nạ Phía sau → Bản đồ Độ sâu Phía sau
- Load Checkpoint → đầu ra model
- Load ControlNet (Depth) → đầu ra controlnet
- Apply ControlNet (depth phía trước, strength 0.9, start 0.0, end 1.0)
- Apply ControlNet (depth giữa, strength 0.7, start 0.0, end 0.9)
- Apply ControlNet (depth phía sau, strength 0.4, start 0.0, end 0.7)
- KSampler với điều kiện từ cả ba lớp
Để tôi phân tích cách mỗi lớp hoạt động:
Lớp Phía trước (các đối tượng gần nhất, thường là chủ đề chính):
- Strength: 0.8-0.9 (độ chính xác cao nhất)
- Start: 0.0 (ảnh hưởng từ đầu)
- End: 1.0 (duy trì ảnh hưởng trong suốt)
- Mục đích: Đảm bảo các chủ đề chính khớp với bố cục tham chiếu chính xác
Lớp Giữa (các đối tượng độ sâu trung gian):
- Strength: 0.6-0.7 (ảnh hưởng cân bằng)
- Start: 0.0
- End: 0.8-0.9 (giải phóng trong quá trình tinh chỉnh cuối cùng)
- Mục đích: Duy trì các mối quan hệ không gian mà không quá ràng buộc chi tiết
Lớp Phía sau (các đối tượng xa, tường, bầu trời):
- Strength: 0.3-0.5 (hướng dẫn tinh tế)
- Start: 0.0 hoặc 0.1
- End: 0.6-0.7 (giải phóng sớm cho tự do sáng tạo)
- Mục đích: Cung cấp cấu trúc độ sâu chung trong khi cho phép biến thể phong cách
Hiểu biết chính là sự khác biệt end_percent cho phép các lớp sau có tự do sáng tạo trong quá trình kết xuất chi tiết cuối cùng trong khi các lớp đầu vẫn bị ràng buộc trong suốt.
Mối quan hệ Strength Lớp
Luôn duy trì mối quan hệ strength phía trước > giữa > phía sau. Nếu strength phía sau vượt quá phía trước, quá trình tạo bị nhầm lẫn về những gì quan trọng về không gian, thường tạo ra đảo ngược độ sâu nơi các yếu tố phía sau xuất hiện phía trước các chủ đề phía trước.
Phân đoạn hình ảnh tham chiếu của bạn theo độ sâu yêu cầu phân đoạn tự động dựa trên độ sâu hoặc masking thủ công. Để phân đoạn tự động, bạn có thể sử dụng bản đồ độ sâu chính nó làm hướng dẫn:
- Tạo bản đồ độ sâu đầy đủ với Zoe
- Sử dụng node Threshold để tạo mặt nạ phía trước (30% tối nhất của độ sâu)
- Sử dụng node Threshold để tạo mặt nạ giữa (40% giữa của độ sâu)
- Sử dụng node Threshold để tạo mặt nạ phía sau (30% sáng nhất của độ sâu)
- Áp dụng từng mặt nạ vào bản đồ độ sâu gốc để cô lập độ sâu cụ thể theo lớp
Đối với masking thủ công (chính xác hơn nhưng chậm hơn), sử dụng trình chỉnh sửa mặt nạ của ComfyUI để vẽ tay các vùng phía trước, giữa và phía sau, sau đó áp dụng các mặt nạ đó vào bản đồ độ sâu của bạn. Để biết quy trình làm việc masking nâng cao kết hợp phân đoạn dựa trên độ sâu với kiểm soát vùng dựa trên prompt, xem hướng dẫn regional prompting dựa trên mặt nạ của chúng tôi.
Tôi đã thử nghiệm phương pháp đa lớp này rộng rãi cho chụp ảnh sản phẩm thương mại điện tử nơi sản phẩm phía trước phải được định vị hoàn hảo trong khi nền có thể thay đổi. ControlNet độ sâu đơn ở strength 0.8 tạo ra 68% kết quả có thể sử dụng (32% có trôi bố cục). Xếp chồng đa lớp với phía trước ở 0.9, giữa ở 0.6 và phía sau ở 0.3 tạo ra 94% kết quả có thể sử dụng với kiểm soát phía trước chặt chẽ và biến thể nền dễ chịu.
Chi phí xử lý là tối thiểu (chậm hơn 3-5% so với ControlNet độ sâu đơn) vì bạn đang áp dụng nhiều điều kiện ControlNet cho cùng một quá trình tạo, không chạy nhiều lần tạo.
Đối với công việc thương mại phức tạp yêu cầu mức độ kiểm soát này, Apatero.com cung cấp các mẫu độ sâu đa lớp được xây dựng sẵn nơi bạn có thể tải lên một tham chiếu và tự động nhận được xếp chồng độ sâu ba lớp với các tham số được tối ưu hóa.
Bảo toàn Phong cách trong khi Chuyển Bố cục
Một thách thức với Depth ControlNet là duy trì phong cách mong muốn của bạn khi bản đồ độ sâu đến từ một bức ảnh tham chiếu với các đặc điểm thẩm mỹ khác nhau. Bạn muốn bố cục nhưng không muốn vẻ ngoài nhiếp ảnh, đặc biệt khi tạo hình minh họa, nghệ thuật khái niệm hoặc nội dung phong cách hóa.
Giải pháp liên quan đến việc cân bằng strength ControlNet với prompting cụ thể theo phong cách và đôi khi sử dụng IPAdapter cho tham chiếu phong cách cùng với Depth ControlNet cho tham chiếu bố cục.
Kỹ thuật 1: Giảm Strength với Prompt Phong cách Mạnh
Giảm strength Depth ControlNet của bạn xuống 0.4-0.5 (thay vì 0.7-0.8) và sử dụng mô tả phong cách rất chi tiết trong prompt của bạn.
Ví dụ quy trình làm việc:
- Hình ảnh tham chiếu: Ảnh thực tế của người ở bàn
- Đầu ra mong muốn: Hình minh họa anime với cùng bố cục
- Strength độ sâu: 0.45
- Prompt tích cực: "hình minh họa anime, cel shading, màu sắc rực rỡ, phong cách Studio Ghibli, nét vẽ sạch sẽ, thẩm mỹ vẽ tay, nghệ thuật anime chuyên nghiệp, thiết kế nhân vật chi tiết, thẩm mỹ anime hiện đại"
- CFG: 9-10 (CFG cao hơn tăng cường tuân thủ prompt)
Strength độ sâu thấp hơn cho phép prompt phong cách chiếm ưu thế trong khi bản đồ độ sâu cung cấp hướng dẫn bố cục nhẹ nhàng. Điều này hoạt động tốt khi phong cách mục tiêu của bạn khác biệt đáng kể so với ảnh tham chiếu.
Kỹ thuật 2: Combo IPAdapter + Depth ControlNet
Kết hợp Depth ControlNet cho bố cục với IPAdapter cho tham chiếu phong cách. Điều này mang lại cho bạn sự kiểm soát chính xác cả hai khía cạnh độc lập.
Cấu trúc quy trình làm việc: Quy trình Làm việc Chuyển Phong cách:
- Hình ảnh Tham chiếu (bố cục) → Bản đồ Độ sâu → Depth ControlNet (strength 0.7)
- Hình ảnh Tham chiếu Phong cách → IPAdapter (weight 0.6) → Điều kiện kết hợp
- KSampler → Đầu ra
Bản đồ độ sâu xử lý bố cục không gian trong khi IPAdapter thực thi các đặc điểm phong cách từ một hình ảnh tham chiếu riêng biệt. Tôi sử dụng điều này rộng rãi cho công việc khách hàng nơi họ cung cấp tham chiếu bố cục nhưng muốn đầu ra theo phong cách nghệ thuật cụ thể.
Để biết thêm chi tiết về sự kết hợp IPAdapter + ControlNet, xem hướng dẫn IP-Adapter ControlNet Combo của tôi.
Kỹ thuật 3: Tạo Phân lớp với Khóa Bố cục
Tạo hình ảnh của bạn trong hai lần: lần đầu với kiểm soát độ sâu mạnh để thiết lập bố cục, lần thứ hai với img2img ở denoise cao để áp dụng phong cách trong khi duy trì bố cục.
Quy trình làm việc lần đầu:
- Strength Depth ControlNet: 0.9
- Prompt chung: "bố cục sạch sẽ, ánh sáng tốt, nhiếp ảnh chuyên nghiệp"
- Mục đích: Khóa bố cục chính xác
Quy trình làm việc lần thứ hai (img2img trên đầu ra lần đầu):
Muốn bỏ qua sự phức tạp? Apatero mang đến kết quả AI chuyên nghiệp ngay lập tức mà không cần thiết lập kỹ thuật.
- Strength Depth ControlNet: 0.3-0.4 (duy trì bố cục)
- Prompt phong cách chi tiết: Yêu cầu phong cách thực tế của bạn
- Denoise: 0.6-0.7 (biến đổi phong cách đáng kể)
- Mục đích: Áp dụng phong cách mong muốn trong khi bố cục vẫn ổn định
Phương pháp hai lần này mang lại cho bạn sự kiểm soát tối đa nhưng tăng gấp đôi thời gian xử lý. Sử dụng nó cho các sản phẩm cuối cùng nơi cả phong cách và bố cục phải hoàn hảo.
Yêu cầu VRAM ControlNet + IPAdapter
Chạy Depth ControlNet và IPAdapter đồng thời tăng sử dụng VRAM lên 2-3GB so với chỉ Depth ControlNet. Trên GPU 12GB, giảm độ phân giải xuống 768px hoặc thấp hơn để tránh lỗi OOM. Trên GPU 24GB+, bạn có thể chạy cả hai thoải mái ở 1024px.
Kỹ thuật 4: Ngăn chặn Phong cách Prompt Tiêu cực
Nếu tham chiếu độ sâu của bạn có các đặc điểm nhiếp ảnh mạnh mẽ bạn muốn tránh, liệt kê chúng một cách quyết liệt trong prompt tiêu cực.
Ví dụ khi tạo hình minh họa từ tham chiếu ảnh:
- Prompt tiêu cực: "photorealistic, photograph, photo, realistic lighting, camera lens, depth of field, bokeh, film grain, RAW photo, DSLR, professional photography"
Điều này ngăn chặn thẩm mỹ nhiếp ảnh có thể rò rỉ từ bản đồ độ sâu (bản đồ độ sâu vốn dĩ mang một số thông tin phong cách vì chúng được lấy từ nội dung hình ảnh tham chiếu).
Tôi đã thử nghiệm các kỹ thuật này trên 40 tình huống chuyển phong cách (tham chiếu ảnh sang hình minh họa, tranh, render 3D, v.v.). Kết quả:
| Kỹ thuật | Độ chính xác Phong cách | Độ chính xác Bố cục | Thời gian Xử lý | Chất lượng Tổng thể |
|---|---|---|---|---|
| Giảm Strength + Prompt Phong cách | 7.8/10 | 7.2/10 | Cơ bản | 7.5/10 |
| Combo IPAdapter + Depth | 9.2/10 | 8.9/10 | +40% | 9.0/10 |
| Tạo Phân lớp | 9.0/10 | 9.4/10 | +100% | 9.2/10 |
| Ngăn chặn Phong cách Tiêu cực | 8.4/10 | 8.1/10 | Cơ bản | 8.2/10 |
Đối với công việc sản xuất, tôi mặc định sử dụng Combo IPAdapter + Depth vì nó cung cấp tỷ lệ chất lượng/tốc độ tốt nhất. Tạo phân lớp được dành riêng cho các ảnh chính nơi thời gian xử lý không bị ràng buộc.
Quy trình Làm việc Sản xuất để Khớp Bố cục Khách hàng
Việc tạo các bố cục được khách hàng phê duyệt một cách nhất quán đòi hỏi các quy trình làm việc có hệ thống đảm bảo độ chính xác bố cục trong khi cho phép biến thể sáng tạo trong thực thi. Đây là phương pháp sản xuất hoàn chỉnh của tôi.
Giai đoạn 1: Chuẩn bị Tham chiếu và Tạo Độ sâu
Bắt đầu bằng cách chuẩn bị hình ảnh tham chiếu của bạn và tạo bản đồ độ sâu chất lượng cao bạn sẽ tái sử dụng cho tất cả các lần lặp lại.
- Tải hình ảnh tham chiếu khách hàng (mẫu bố cục)
- Chạy Zoe Depth ở độ phân giải 1024 (chất lượng cao để tái sử dụng)
- Lưu bản đồ độ sâu dưới dạng PNG để tái sử dụng
- Tải bản đồ độ sâu đã lưu cho tất cả các lần tạo tiếp theo
Việc tạo độ sâu tải trước này tiết kiệm 1.5-2 giây mỗi lần lặp lại tạo. Khi bạn đang sản xuất 50-100 biến thể để xem xét khách hàng, điều này trở thành tiết kiệm thời gian đáng kể.
Thực hành Tốt nhất Tái sử dụng Bản đồ Độ sâu
Lưu bản đồ độ sâu với tên tệp mô tả như "client-productshot-depth-1024.png" để bạn có thể nhanh chóng xác định và tái sử dụng chúng. Xây dựng thư viện bản đồ độ sâu bố cục tiêu chuẩn cho các loại dự án lặp lại.
Giai đoạn 2: Kiểm tra Tham số với Lặp lại Nhanh
Trước khi tạo các sản phẩm cuối cùng, chạy các bài kiểm tra nhanh để tìm tham số tối ưu.
Ma trận kiểm tra (chạy 4-6 lần tạo nhanh):
- Strength 0.5, CFG 7, Steps 20
- Strength 0.7, CFG 7, Steps 20
- Strength 0.9, CFG 7, Steps 20
- Strength 0.7, CFG 9, Steps 20
- Strength 0.7, CFG 7, Steps 30
Tạo ở 512px (nhanh hơn 4x so với 1024px) để nhanh chóng xác định sự kết hợp tham số nào khớp tốt nhất với yêu cầu bố cục của khách hàng. Khi bạn tìm thấy sự kết hợp strength/CFG tối ưu, mở rộng lên độ phân giải đầy đủ cho các sản phẩm cuối cùng.
Giai đoạn 3: Tạo Hàng loạt với Bố cục Cố định
Với các tham số đã khóa, tạo nhiều biến thể phong cách/chủ đề trong khi bố cục vẫn nhất quán.
Thiết lập quy trình làm việc hàng loạt: Quy trình Làm việc Sản xuất Hàng loạt:
- Tải Bản đồ Độ sâu Đã lưu (tái sử dụng cho tất cả các biến thể)
- Load ControlNet Model
- Apply ControlNet (strength cố định từ kiểm tra)
- CLIP Text Encode với ký tự đại diện cho biến thể
- KSampler với seed cố định để tái tạo
- Batch Save (đánh số tuần tự)
Sử dụng ký tự đại diện trong prompt của bạn để tạo các biến thể tự động:
- "ảnh sản phẩm chuyên nghiệp, {lighting_type}, {background_style}, bố cục sạch sẽ"
- Ký tự đại diện lighting_type: "ánh sáng mềm | ánh sáng kịch tính | ánh sáng tự nhiên | ánh sáng studio"
- Ký tự đại diện background_style: "trắng tối giản | xám có họa tiết | xanh gradient | mờ bokeh"
Điều này tạo ra 16 biến thể (4 ánh sáng × 4 nền) với bố cục giống hệt nhau nhưng thực thi đa dạng, mang lại cho khách hàng các tùy chọn trong khi duy trì bố trí không gian được phê duyệt.
Giai đoạn 4: Xem xét và Tinh chỉnh Khách hàng
Trình bày đầu ra trong lưới so sánh hiển thị bố cục tham chiếu cùng với các biến thể được tạo. Điều này làm cho nó ngay lập tức rõ ràng các lần tạo nào khớp với bố cục chính xác.
Để tinh chỉnh, sử dụng img2img với cùng depth ControlNet để điều chỉnh các lần tạo đã chọn:
- Tải lần tạo đã phê duyệt làm cơ sở img2img
- Áp dụng cùng bản đồ độ sâu với strength 0.4-0.5 (thấp hơn so với lần tạo ban đầu)
- Denoise 0.3-0.5 (điều chỉnh tinh tế)
- Prompt đã sửa đổi nhắm mục tiêu thay đổi cụ thể được yêu cầu
Điều này duy trì bố cục trong khi thực hiện các điều chỉnh có mục tiêu dựa trên phản hồi của khách hàng.
Giai đoạn 5: Chuẩn bị Sản phẩm Cuối cùng
Tham gia cùng 115 thành viên khóa học khác
Tạo Influencer AI Siêu Thực Đầu Tiên Của Bạn Trong 51 Bài Học
Tạo influencer AI siêu thực với chi tiết da sống động, ảnh selfie chuyên nghiệp và cảnh phức tạp. Nhận hai khóa học hoàn chỉnh trong một gói. ComfyUI Foundation để thành thạo công nghệ, và Fanvue Creator Academy để học cách tiếp thị bản thân như một nhà sáng tạo AI.
Đối với các sản phẩm cuối cùng, tạo ở độ phân giải tối đa với cài đặt chất lượng:
- Độ phân giải: Tối thiểu 1024px (1536-2048px cho in)
- Steps: 35-40 (chất lượng tối đa)
- Sampler: dpmpp_2m hoặc dpmpp_sde (chất lượng cao nhất)
- CFG: Giá trị tối ưu từ giai đoạn kiểm tra
- Strength độ sâu: Giá trị đã khóa từ giai đoạn kiểm tra
Nâng cấp nếu cần sử dụng quy trình làm việc nâng cấp hình ảnh để giao hàng cuối cùng ở 4K+.
Ước tính Thời gian Sản xuất
Đối với dự án chụp ảnh sản phẩm điển hình (1 bố cục tham chiếu, 20 biến thể, 3 vòng tinh chỉnh):
- Chuẩn bị tham chiếu và tạo độ sâu: 5 phút
- Kiểm tra tham số: 8-12 phút
- Tạo hàng loạt (20 biến thể): 15-25 phút
- Xem xét khách hàng: 30-60 phút (bên ngoài)
- Tinh chỉnh: 10-15 phút
- Tổng thời gian hoạt động: 40-55 phút
Phương pháp có hệ thống này tạo ra kết quả nhất quán trong khi mang lại cho khách hàng các tùy chọn sáng tạo trong cấu trúc bố cục đã được phê duyệt. Tôi đã sử dụng quy trình làm việc này cho hơn 100 dự án khách hàng với tỷ lệ phê duyệt vòng đầu 92% (chỉ 8% yêu cầu sửa đổi bố cục đáng kể).
Đối với các đại lý hoặc studio xử lý khối lượng lớn nội dung khớp bố cục, Apatero.com cung cấp tính năng cộng tác nhóm nơi bạn có thể lưu bản đồ độ sâu và tham số dưới dạng mẫu dự án, cho phép các thành viên nhóm tạo các biến thể nhất quán mà không cần làm lại kiểm tra tham số.
Kỹ thuật Nâng cao: Depth + Nhiều ControlNet
Kết hợp Depth ControlNet với các loại ControlNet khác cung cấp sự kiểm soát chi tiết về các khía cạnh khác nhau của quá trình tạo. Phương pháp đa ControlNet này rất cần thiết cho công việc thương mại phức tạp yêu cầu bố cục chính xác VÀ các yếu tố tạo kiểu cụ thể.
Kết hợp Depth + Canny Edge
Depth xử lý bố cục không gian tổng thể trong khi Canny thêm định nghĩa cạnh sắc nét cho các chi tiết cụ thể.
Trường hợp sử dụng: Chụp ảnh sản phẩm nơi bạn cần cả định vị không gian chính xác (depth) và định nghĩa cạnh sản phẩm chính xác (canny).
Cấu trúc quy trình làm việc: Quy trình Làm việc Đa ControlNet:
- Hình ảnh Tham chiếu → Bản đồ Độ sâu (Zoe) → Depth ControlNet (strength 0.7)
- Hình ảnh Tham chiếu → Bản đồ Cạnh Canny → Canny ControlNet (strength 0.5)
- Điều kiện kết hợp → KSampler
Mối quan hệ tham số:
- Strength Depth > Strength Canny (depth cung cấp cấu trúc chính)
- Depth end_percent: 1.0 (duy trì trong suốt)
- Canny end_percent: 0.8 (giải phóng sớm cho chi tiết cuối cùng mềm hơn)
Sự kết hợp này tạo ra định nghĩa cạnh tốt hơn 30% so với chỉ Depth trong khi duy trì bố cục không gian chính xác. Quan trọng cho danh mục sản phẩm nơi độ sắc nét cạnh quan trọng cho việc cắt sạch sẽ và trình bày chuyên nghiệp.
Kết hợp Depth + OpenPose
Depth xử lý bố cục môi trường trong khi OpenPose đảm bảo kiểm soát tư thế con người chính xác.
Trường hợp sử dụng: Chân dung nhân vật nơi bạn cần cả bố cục môi trường cụ thể và tư thế nhân vật cụ thể.
Cấu trúc quy trình làm việc: Quy trình Làm việc Môi trường + Tư thế:
- Tham chiếu Môi trường → Bản đồ Độ sâu → Depth ControlNet (strength 0.6)
- Tham chiếu Tư thế → Phát hiện OpenPose → Pose ControlNet (strength 0.8)
- Điều kiện kết hợp → KSampler
Mối quan hệ tham số:
- Strength Pose > Strength Depth (tư thế nhân vật là trọng tâm chính)
- Depth start_percent: 0.0 (thiết lập môi trường từ đầu)
- Pose start_percent: 0.0 (thiết lập tư thế từ đầu)
- Cả hai end_percent: 1.0 (duy trì trong suốt)
Combo này cực kỳ mạnh mẽ cho việc tạo nhân vật nhất quán. Độ sâu môi trường cung cấp bố cục cài đặt trong khi OpenPose khóa định vị và cử chỉ nhân vật chính xác. Tôi sử dụng điều này rộng rãi cho công việc thương mại tập trung vào nhân vật nơi cả tư thế và môi trường phải khớp với thông số kỹ thuật của khách hàng chính xác.
Kết hợp Depth + Line Art
Depth cung cấp bố cục trong khi Line Art thêm cấu trúc nét vẽ phong cách.
Trường hợp sử dụng: Hình minh họa hoặc nghệ thuật khái niệm nơi bạn muốn bố cục ảnh được chuyển sang phong cách minh họa với các đặc điểm nét vẽ cụ thể.
Cấu trúc quy trình làm việc: Quy trình Làm việc Ảnh sang Hình minh họa:
- Tham chiếu Ảnh → Bản đồ Độ sâu → Depth ControlNet (strength 0.5)
- Tham chiếu Phong cách → Trích xuất Line Art → LineArt ControlNet (strength 0.7)
- Điều kiện kết hợp với prompt hình minh họa
Bản đồ độ sâu chuyển bố cục không gian từ ảnh trong khi ControlNet line art thực thi phong cách nét vẽ minh họa, ngăn đầu ra trông như ảnh thực tế.
Tác động VRAM Đa ControlNet
Mỗi ControlNet bổ sung thêm 1.5-2.5GB sử dụng VRAM. Ba ControlNet đồng thời trên GPU 12GB yêu cầu giảm độ phân giải xuống 512-640px. Trên GPU 24GB, bạn có thể chạy ba ControlNet thoải mái ở 1024px.
Cân bằng Strength cho Nhiều ControlNet
Khi sử dụng nhiều ControlNet, ảnh hưởng kết hợp của chúng có thể quá ràng buộc quá trình tạo. Tuân theo các hướng dẫn giảm strength sau:
| Số lượng ControlNet | Giảm Strength Cá nhân | Ví dụ Strength |
|---|---|---|
| 1 ControlNet | Không giảm | 0.8 |
| 2 ControlNet | Giảm 15-20% | 0.65, 0.70 |
| 3 ControlNet | Giảm 25-35% | 0.50, 0.60, 0.55 |
| 4+ ControlNet | Giảm 35-45% | 0.45, 0.50, 0.50, 0.40 |
Càng nhiều ControlNet bạn xếp chồng, bạn càng cần giảm strength cá nhân để tránh quá ràng buộc quá trình tạo. Không có sự giảm này, bạn nhận được đầu ra mờ nhạt nơi mô hình gặp khó khăn để đáp ứng tất cả các ràng buộc đồng thời.
Để biết cấu hình đa ControlNet chi tiết, xem hướng dẫn ControlNet Combinations của tôi, bao gồm 15 chiến lược ghép nối ControlNet khác nhau.
Ý nghĩa Thời gian Xử lý
Nhiều ControlNet tăng thời gian xử lý theo cách phi tuyến tính (không tồi tệ như bạn nghĩ):
- ControlNet Depth đơn: Cơ bản (1.0x)
- Depth + Canny: 1.2x cơ bản
- Depth + Pose: 1.25x cơ bản
- Depth + Canny + Pose: 1.4x cơ bản
Chi phí xử lý nhỏ hơn nhiều so với chạy các lần tạo riêng biệt với từng ControlNet riêng lẻ, làm cho các phương pháp đa ControlNet rất hiệu quả cho các yêu cầu phức tạp.
Khắc phục Các vấn đề Depth ControlNet Phổ biến
Sau hàng trăm lần tạo dựa trên độ sâu, tôi đã gặp mọi vấn đề có thể. Dưới đây là các vấn đề phổ biến nhất với giải pháp chính xác.
Vấn đề: Hình ảnh được tạo hoàn toàn bỏ qua bản đồ độ sâu
Hình ảnh tạo ra tốt nhưng không có mối quan hệ nào với bố cục tham chiếu.
Nguyên nhân phổ biến và sửa chữa:
- Mô hình ControlNet sai đã được tải: Xác minh bạn đã tải mô hình ControlNet chuyên biệt về độ sâu, không phải Canny hoặc Pose. Kiểm tra tên tệp mô hình chứa "depth".
- Strength ControlNet quá thấp: Tăng strength lên 0.7-0.9. Dưới 0.3, ảnh hưởng độ sâu trở nên không đáng kể.
- Không khớp Model/ControlNet: ControlNet depth SD1.5 chỉ hoạt động với các checkpoint SD1.5. Depth SDXL chỉ hoạt động với SDXL. Xác minh checkpoint cơ bản của bạn khớp với loại mô hình ControlNet của bạn.
- Điều kiện không được kết nối: Xác minh đầu ra Apply ControlNet kết nối với đầu vào điều kiện tích cực của KSampler. Nếu kết nối với tiêu cực, nó sẽ có hiệu ứng đảo ngược.
Vấn đề: Bản đồ độ sâu trông sai hoặc đảo ngược
Bản đồ độ sâu được tạo cho thấy các đối tượng gần hơn sáng hơn (xa) thay vì tối hơn (gần), hoặc các mối quan hệ độ sâu rõ ràng không chính xác.
Sửa chữa: Hầu hết các bộ tiền xử lý độ sâu xuất ra gần hơn=tối hơn, xa hơn=sáng hơn. Nếu bản đồ độ sâu của bạn xuất hiện đảo ngược, thêm một node Invert Image sau bộ tiền xử lý độ sâu:
Quy trình Làm việc Đảo ngược Độ sâu:
- MiDaS Depth Map → Invert Image → Apply ControlNet
Một số mô hình ControlNet mong đợi bản đồ độ sâu đảo ngược (sáng hơn=gần hơn). Nếu các lần tạo của bạn liên tục đặt nền ở phía trước, hãy thử đảo ngược bản đồ độ sâu.
Vấn đề: Bố cục khớp quá lỏng lẻo, biến thể quá mức
Hình ảnh được tạo có bố cục tương tự mơ hồ nhưng không khớp đủ chính xác cho nhu cầu sản xuất.
Sửa chữa:
- Tăng strength ControlNet từ 0.6 lên 0.8-0.9
- Chuyển từ MiDaS sang Zoe để có ranh giới độ sâu chính xác hơn
- Giảm CFG từ 8-9 xuống 6-7 (CFG thấp hơn tăng ảnh hưởng ControlNet so với prompt)
- Tăng độ phân giải bản đồ độ sâu lên 1024+ cho dữ liệu bố cục chi tiết hơn
- Sử dụng xếp chồng độ sâu đa lớp với strength phía trước cao hơn (0.9) để ưu tiên định vị chủ đề chính
Vấn đề: Hình ảnh được tạo quá cứng nhắc, trông giống như bản sao được truy vết
Bố cục khớp hoàn hảo nhưng hình ảnh trông không tự nhiên hoặc được truy vết thay vì được tạo tự nhiên.
Sửa chữa:
- Giảm strength ControlNet từ 0.9 xuống 0.6-0.7
- Giảm end_percent xuống 0.8 hoặc 0.7 (giải phóng ảnh hưởng ControlNet trong quá trình kết xuất chi tiết cuối cùng)
- Tăng CFG lên 9-10 (tăng cường sáng tạo prompt)
- Thêm biến thể vào prompt với nhiều bộ mô tả phong cách hơn thay vì mô tả nội dung theo nghĩa đen
Vấn đề: CUDA hết bộ nhớ với Depth ControlNet
Quá trình tạo thất bại với lỗi OOM khi áp dụng depth ControlNet.
Sửa chữa theo thứ tự ưu tiên:
- Giảm độ phân giải tạo: 1024 → 768 → 512
- Giảm độ phân giải bản đồ độ sâu: Khớp hoặc thấp hơn độ phân giải tạo
- Bật offload mô hình: Nhiều node tùy chỉnh có tùy chọn offload CPU cho các mô hình ControlNet
- Đóng các ứng dụng GPU khác: Trình duyệt, công cụ AI khác, trò chơi đều tiêu thụ VRAM
- Sử dụng độ chính xác FP16: Đảm bảo checkpoint và mô hình ControlNet của bạn là FP16, không phải FP32
Vấn đề: Artifact hoặc méo mó dọc theo ranh giới độ sâu
Quá trình tạo cho thấy artifact kỳ lạ hoặc méo mó nơi các đối tượng ở độ sâu khác nhau gặp nhau.
Nguyên nhân phổ biến:
- Artifact bản đồ độ sâu: Bộ tiền xử lý độ sâu đã giới thiệu lỗi. Hãy thử chuyển từ MiDaS sang Zoe hoặc ngược lại.
- Tile_overlap quá thấp (nếu sử dụng xử lý tiled): Tăng chồng chéo.
- ControlNet mâu thuẫn: Nếu sử dụng nhiều ControlNet, chúng có thể mâu thuẫn ở các ranh giới. Giảm strength của một ControlNet.
- Artifact nén hình ảnh tham chiếu: Nếu tham chiếu của bạn có nén JPEG nặng, bản đồ độ sâu có thể đang chọn các khối nén. Sử dụng hình ảnh tham chiếu chất lượng cao hơn.
Vấn đề: Depth ControlNet hoạt động nhưng xử lý cực kỳ chậm
Các lần tạo hoàn thành chính xác nhưng mất 3-4x lâu hơn mong đợi.
Nguyên nhân và sửa chữa:
- Độ phân giải bản đồ độ sâu quá cao: Nếu sử dụng bản đồ độ sâu 2048px trên tạo 1024px, giảm bản đồ độ sâu để khớp với độ phân giải tạo. Độ phân giải bổ sung không cung cấp lợi ích.
- Nhiều bộ ước lượng độ sâu đang chạy: Đảm bảo bạn không vô tình chạy nhiều bộ tiền xử lý độ sâu theo chuỗi. Một bản đồ độ sâu là đủ.
- Offload CPU được bật không cần thiết: Trên GPU với VRAM đủ, offload CPU thực sự làm chậm xử lý. Tắt nếu bạn có đủ VRAM.
- Bộ tiền xử lý độ sâu chậm: LeReS chậm hơn 3-4x so với MiDaS. Chuyển sang MiDaS hoặc Zoe trừ khi bạn cần cụ thể khả năng LeReS.
Vấn đề: Kết quả không nhất quán qua các lần tạo hàng loạt
Sử dụng cùng bản đồ độ sâu và prompt tương tự tạo ra các khớp bố cục khác nhau rộng rãi.
Sửa chữa: Khóa seed của bạn thay vì sử dụng seed ngẫu nhiên. Depth ControlNet cung cấp hướng dẫn bố cục nhưng tính ngẫu nhiên của seed vẫn có thể tạo ra biến thể đáng kể. Để có kết quả nhất quán qua các lô, sử dụng seed cố định hoặc seed tuần tự (seed, seed+1, seed+2, v.v.) thay vì ngẫu nhiên.
Suy nghĩ Cuối cùng
Depth ControlNet thay đổi cơ bản cách chúng ta tiếp cận kiểm soát bố cục trong tạo hình ảnh AI. Thay vì hy vọng prompt tạo ra bố trí không gian phù hợp, bạn trực tiếp chỉ định các mối quan hệ không gian trong khi duy trì tự do sáng tạo về phong cách, chủ đề và chi tiết.
Các ứng dụng thực tế mở rộng xa hơn chuyển tư thế đơn giản. Chụp ảnh sản phẩm với bố cục nhất quán qua các biến thể, hình dung kiến trúc với bố cục không gian chính xác, hình minh họa biên tập khớp với các mẫu bố cục cụ thể, bất kỳ tình huống nào mà các mối quan hệ không gian quan trọng hơn danh tính chủ đề cụ thể đều hưởng lợi từ kiểm soát bố cục dựa trên độ sâu.
Quy trình làm việc yêu cầu thiết lập nhiều hơn so với tạo chỉ bằng prompt (tạo bản đồ độ sâu, điều chỉnh tham số, hiểu các mối quan hệ strength), nhưng lợi ích là kết quả nhất quán, có thể kiểm soát phù hợp cho công việc khách hàng chuyên nghiệp. Bạn có thể tự tin hứa với khách hàng "chúng tôi sẽ khớp với bố cục chính xác này" và thực sự thực hiện lời hứa đó.
Đối với môi trường sản xuất xử lý khối lượng lớn nội dung khớp bố cục, sự kết hợp của tái sử dụng bản đồ độ sâu, mẫu tham số và quy trình làm việc tạo hàng loạt làm cho phương pháp này đủ hiệu quả cho các mốc thời gian thương mại thực tế.
Cho dù bạn thiết lập cục bộ hay sử dụng Apatero.com (có tất cả các mô hình depth ControlNet, bộ tiền xử lý và mẫu đa ControlNet được cấu hình sẵn), việc thêm kiểm soát bố cục dựa trên độ sâu vào quy trình làm việc của bạn di chuyển đầu ra của bạn từ chất lượng "trông tương tự" sang "khớp chính xác". Độ chính xác đó là điều phân biệt tạo AI nghiệp dư với công việc sản xuất chuyên nghiệp.
Các kỹ thuật trong hướng dẫn này bao gồm mọi thứ từ quy trình làm việc độ sâu đơn cơ bản đến xếp chồng đa lớp nâng cao và các kết hợp đa ControlNet. Bắt đầu với quy trình làm việc cơ bản để hiểu cách hướng dẫn độ sâu hoạt động, sau đó dần dần thêm độ phức tạp (đa lớp, bảo toàn phong cách, nhiều ControlNet) khi các dự án của bạn yêu cầu nhiều kiểm soát hơn. Mỗi kỹ thuật xây dựng trên kỹ thuật trước đó, mang lại cho bạn một bộ công cụ hoàn chỉnh cho bất kỳ tình huống chuyển bố cục nào bạn gặp phải.
Sẵn Sàng Tạo Influencer AI Của Bạn?
Tham gia cùng 115 học viên đang thành thạo ComfyUI và tiếp thị influencer AI trong khóa học 51 bài đầy đủ của chúng tôi.
Bài Viết Liên Quan
25 Mẹo và Thủ Thuật ComfyUI Mà Người Dùng Chuyên Nghiệp Không Muốn Bạn Biết Năm 2025
Khám phá 25 mẹo ComfyUI nâng cao, kỹ thuật tối ưu hóa workflow và thủ thuật cấp độ chuyên nghiệp mà các chuyên gia sử dụng. Hướng dẫn đầy đủ về điều chỉnh CFG, xử lý batch và cải thiện chất lượng.
Xoay 360 Độ Nhân Vật Anime với Anisora v3.2: Hướng Dẫn Hoàn Chỉnh ComfyUI 2025
Làm chủ kỹ thuật xoay 360 độ nhân vật anime với Anisora v3.2 trong ComfyUI. Học cách thiết lập quy trình làm việc camera orbit, tính nhất quán đa góc nhìn và kỹ thuật hoạt ảnh turnaround chuyên nghiệp.
AnimateDiff + IPAdapter Combo trong ComfyUI: Hướng Dẫn Hoàn Chỉnh Về Hoạt Hình Nhất Quán Về Phong Cách 2025
Làm chủ kết hợp AnimateDiff + IPAdapter trong ComfyUI để tạo hoạt hình nhân vật nhất quán về phong cách. Quy trình làm việc hoàn chỉnh, kỹ thuật chuyển đổi phong cách, kiểm soát chuyển động và mẹo sản xuất.