Cài đặt Công nhân Đa GPU Song song với xDiT: Hướng dẫn Hoàn chỉnh 2025
Tìm hiểu cách cài đặt xDiT cho suy luận đa GPU song song với các mô hình Flux và SDXL. Đạt tốc độ tạo sinh nhanh hơn 3-8 lần với cấu hình và tối ưu hóa thích hợp.
Chạy các mô hình tạo sinh ảnh AI như Flux hoặc SDXL trên một GPU duy nhất cảm thấy chậm chạp khi bạn đang làm việc trên các dự án chuyên nghiệp với thời hạn chặt chẽ. Bạn đã đầu tư vào nhiều GPU, nhưng hầu hết các khung suy luận vẫn coi chúng là các đảo riêng biệt thay vì kết hợp sức mạnh của chúng.
Câu trả lời nhanh: xDiT là một khung công tác mã nguồn mở cho phép suy luận song song trên nhiều GPU cho các mô hình Diffusion Transformer như Flux và SDXL. Nó mang lại cải thiện tốc độ 3-8 lần bằng cách phân phối tính toán sử dụng các kỹ thuật song song chuỗi, PipeFusion và CFG song parallel trên 2-8 GPU mà không mất chất lượng.
- xDiT tăng tốc suy luận Flux và SDXL từ 3-8 lần bằng cách sử dụng nhiều GPU song song
- Hoạt động với 2-8 GPU và hỗ trợ các chiến lược song song hóa khác nhau cho các loại mô hình khác nhau
- Cài đặt mất 10-15 phút với các môi trường Python và CUDA thích hợp
- Kết quả tốt nhất đến từ việc khớp chiến lược song parallel hóa với cấu hình GPU cụ thể của bạn
- Không có suy giảm chất lượng so với suy luận GPU đơn
Mặc dù các nền tảng như Apatero.com cung cấp suy luận đa GPU tăng tốc độ tức thì mà không cần bất kỳ thiết lập nào, hiểu xDiT cung cấp cho bạn kiểm soát hoàn toàn trên cơ sở hạ tầng cục bộ của mình và giúp tối ưu hóa chi phí cho các khối lượng công việc tạo sinh cao.
xDiT là gì và tại sao bạn nên sử dụng nó?
xDiT viết tắt của xFuser Diffusion Transformer, được phát triển bởi các nhà nghiên cứu tập trung vào song song hóa hiệu quả của các mô hình khuếch tán hiện đại. Không giống như song song hóa dữ liệu truyền thống chỉ sao chép mô hình của bạn trên các GPU, xDiT triển khai các chiến lược song parallel hóa nâng cao được thiết kế đặc biệt cho kiến trúc transformer được sử dụng trong các mô hình như Flux và SDXL.
Khung công tác giải quyết một vấn đề cơ bản trong tạo sinh ảnh AI. Suy luận GPU duy nhất trở thành một điểm nghẽn khi bạn cần tạo sinh hàng trăm hoặc hàng ngàn hình ảnh cho các dự án của khách hàng, tạo tập dữ liệu hoặc kiểm tra A/B các lời nhắc khác nhau. Các giải pháp truyền thống như xử lý lô giúp nhưng không giảm thời gian tạo sinh từng hình ảnh.
xDiT sử dụng một cách tiếp cận khác bằng cách chia tính toán của một hình ảnh duy nhất trên nhiều GPU. Điều này có nghĩa là mỗi hình ảnh tạo sinh nhanh hơn, không chỉ tạo ra nhiều hình ảnh song song. Đối với các quy trình làm việc chuyên nghiệp khi thời gian quay vòng là vấn đề, sự phân biệt này làm cho xDiT đặc biệt có giá trị.
- Nhân tốc độ: Nhanh hơn 3,4 lần trên 4 GPU, lên đến 8 lần trên 8 GPU cho các mô hình Flux
- Hiệu quả bộ nhớ: Phân phối trọng số mô hình trên các GPU để xử lý các mô hình lớn hơn
- Không mất chất lượng: Đầu ra tương đương về mặt toán học với suy luận GPU duy nhất
- Cấu hình linh hoạt: Hoạt động với thiết lập GPU 2, 4, 6 hoặc 8
- Tối ưu hóa chi phí: Tối đa hóa ROI trên phần cứng đa GPU hiện có
Khung công tác triển khai ba kỹ thuật song parallel hóa chính. Song parallel hóa chuỗi chia chuỗi token trên các GPU, đặc biệt hiệu quả cho hình ảnh độ phân giải cao. PipeFusion tạo ra một đường ống nơi các lớp transformer khác nhau thực thi trên các GPU khác nhau đồng thời. Các song parallel hóa CFG chạy tính toán hướng dẫn không có bộ phân loại song song, tăng gấp đôi thông lượng cho các mô hình sử dụng CFG.
Làm cách nào để bạn cài đặt và cấu hình xDiT?
Cài đặt xDiT cần chú ý cẩn thận đến chuẩn bị môi trường, nhưng quy trình tuân theo một chuỗi thẳng tắp khi bạn hiểu các phụ thuộc.
Bắt đầu bằng cách tạo một môi trường Python chuyên dụng để tránh xung đột với các cài đặt hiện có. Sử dụng conda hoặc venv ngăn chặn các vấn đề phụ thuộc làm phiền các môi trường hỗn hợp. Mở thiết bị đầu cuối của bạn và tạo một môi trường mới dành riêng cho công việc xDiT.
Cài đặt PyTorch trước, vì xDiT được xây dựng dựa trên nó. Phiên bản PyTorch phải khớp với phiên bản CUDA của bạn chính xác. Đối với CUDA 12.1, sử dụng PyTorch 2.1.0 hoặc mới hơn với bản dựng CUDA tương ứng. Xác minh cài đặt bằng cách kiểm tra xem PyTorch có thể phát hiện tất cả GPU của bạn trước khi tiếp tục không.
Sao chép kho lưu trữ xDiT từ GitHub và cài đặt nó ở chế độ phát triển. Cách tiếp cận này cung cấp cho bạn quyền truy cập vào các bản cập nhật mới nhất và cho phép bạn sửa đổi các tệp cấu hình khi cần. Điều hướng đến thư mục đã sao chép và chạy tập lệnh thiết lập với các cờ thích hợp cho hệ thống của bạn.
Quá trình cài đặt tải xuống các phụ thuộc bổ sung bao gồm thư viện Diffusers, Transformers và Accelerate. Chúng xử lý tải mô hình, tokenization và các tiện ích đào tạo phân tán mà xDiT tận dụng. Cài đặt hoàn chỉnh thường mất 10-15 phút tùy thuộc vào kết nối Internet và thông số kỹ thuật hệ thống của bạn.
Cấu hình khả năng hiển thị GPU của bạn bằng cách sử dụng các biến môi trường trước khi chạy xDiT. Khung công tác cần biết GPU nào sẽ sử dụng và cách giao tiếp giữa chúng. Đặt CUDA_VISIBLE_DEVICES để bao gồm chỉ các GPU bạn muốn dành riêng cho suy luận song parallel.
Đối với thiết lập 4 GPU, cấu hình cơ bản của bạn trông thẳng tắp. Bạn sẽ chỉ định số quá trình song parallel, phương pháp song parallel hóa và GPU nào sẽ sử dụng. Khung công tác xử lý việc điều phối phức tạp chia công việc và đồng bộ hóa kết quả trên các thiết bị.
Kiểm tra cài đặt của bạn với một thế hệ Flux hoặc SDXL đơn giản bằng 2 GPU trước tiên. Điều này xác nhận rằng tất cả các thành phần giao tiếp chính xác trước khi mở rộng quy mô đến số lượng GPU lớn hơn. Giám sát sử dụng GPU trong quá trình chạy kiểm tra để xác nhận rằng tất cả các thiết bị hiển thị tính toán hoạt động chứ không phải chỉ phục vụ.
Chiến lược song parallel hóa nào bạn nên chọn?
Lựa chọn phương pháp song parallel hóa phù hợp phụ thuộc vào cấu hình phần cứng cụ thể của bạn, lựa chọn mô hình và yêu cầu tạo sinh. Mỗi chiến lược cung cấp sự đánh đổi khác nhau giữa tốc độ, sử dụng bộ nhớ và chi phí giao tiếp.
Song parallel hóa chuỗi hoạt động tốt nhất cho việc tạo sinh hình ảnh độ phân giải cao nơi chuỗi token trở nên dài. Khi tạo sinh ảnh 1024x1024 hoặc lớn hơn, song parallel hóa chuỗi phân phối tính toán chú ý trên các GPU hiệu quả. Phương pháp này tỏa sáng với 4-8 GPU và thể hiện tính mở rộng tuyến tính lên đến số lượng GPU nhất định.
PipeFusion xuất sắc khi bạn có các thiết lập GPU không đối xứng hoặc muốn tối đa hóa thông lượng cho độ phân giải tiêu chuẩn. Cách tiếp cận đường ống cho phép các lớp transformer khác nhau xử lý các hình ảnh khác nhau đồng thời. Mặc dù độ trễ từng hình ảnh có thể không cải thiện nhiều như song parallel hóa chuỗi, thông lượng tổng thể tăng đáng kể.
Các song parallel hóa CFG tăng gấp đôi số GPU hiệu quả của bạn cho các mô hình sử dụng hướng dẫn không có bộ phân loại. Vì CFG cần hai lượt qua tiến tuyến mỗi bước giảm tiếng ồn, chạy chúng song parallel trên các GPU riêng biệt cắt thời gian tạo sinh gần như một nửa. Chiến lược này kết hợp tốt với song parallel hóa chuỗi để tạo ra tốc độ tối đa.
Các cách tiếp cận lai kết hợp nhiều phương pháp song parallel hóa để có hiệu suất tối ưu. Cấu hình chung sử dụng song parallel hóa chuỗi trên 4 GPU trong khi đồng thời sử dụng các song parallel hóa CFG. Sự kết hợp này có thể mang lại tốc độ tăng 6-8 lần trên hệ thống 8 GPU cho các mô hình Flux có bật CFG.
Kiểm tra các cấu hình khác nhau trên phần cứng cụ thể của bạn để tiết lộ thiết lập tối ưu. Bắt đầu với song parallel hóa chuỗi trên 2 GPU, đo tốc độ tăng, sau đó mở rộng quy mô lên 4 GPU. So sánh kết quả với PipeFusion và các cách tiếp cận lai sử dụng các lời nhắc và cài đặt giống hệt nhau.
Hãy xem xét các mô hình khối lượng công việc điển hình của bạn khi chọn chiến lược. Tạo sinh lô nhiều hình ảnh được hưởng lợi nhiều hơn từ PipeFusion, trong khi tinh chỉnh lặp lại các hình ảnh đơn độ phân giải cao hoạt động tốt hơn với song parallel hóa chuỗi. Khớp chiến lược với các mô hình sử dụng thực tế của bạn thay vì các điểm chuẩn lý thuyết.
Chi phí giao tiếp giữa các GPU tăng với nhiều thiết bị hơn, tạo ra một điểm lợi tức giảm. Hầu hết các thiết lập thấy hiệu quả tối ưu ở 4-6 GPU cho các mô hình Flux và 2-4 GPU cho SDXL. Vượt quá những con số này, chi phí điều phối bắt đầu ăn vào lợi ích song parallel hóa.
Hiệu suất xDiT so sánh như thế nào trên các thiết lập khác nhau?
Các điểm chuẩn thực tế tiết lộ các biến thiên hiệu suất đáng kể dựa trên số lượng GPU, loại mô hình và lựa chọn cấu hình. Hiểu những mô hình này giúp bạn tối ưu hóa thiết lập cụ thể của mình để đạt hiệu quả tối đa.
Mô hình Flux.1 Dev thể hiện các đặc điểm mở rộng ấn tượng với xDiT. Trên một GPU H100 duy nhất, tạo sinh một hình ảnh 1024x1024 mất khoảng 8,2 giây với 28 bước giảm tiếng ồn. Thêm một GPU thứ hai với song parallel hóa chuỗi giảm xuống còn 4,8 giây, đạt được tốc độ tăng 1,7 lần chỉ với một thẻ bổ sung.
Mở rộng quy mô lên 4 GPU mang lại thời gian tạo sinh 2,4 giây, đại diện cho cải thiện 3,4 lần so với mức cơ sở GPU duy nhất. Hiệu quả vẫn cao vì chi phí giao tiếp vẫn có thể quản lý được so với thời gian tính toán. Tám GPU đẩy thời gian tạo sinh xuống 1,4 giây, đạt được tốc độ tăng 5,8 lần mặc dù hiệu quả trên mỗi GPU giảm nhẹ.
SDXL thể hiện các mô hình mở rộng khác nhau do kiến trúc và yêu cầu tính toán thấp hơn mỗi bước. Một A100 duy nhất tạo sinh ảnh 1024x1024 trong khoảng 3,2 giây với 20 bước. Hai GPU giảm xuống 2,1 giây, trong khi 4 GPU đạt 1,3 giây đại diện cho tốc độ tăng 2,5 lần.
Băng thông bộ nhớ trở thành một yếu tố hạn chế với SDXL trên GPU cao cấp. Yêu cầu tính toán của mô hình không hoàn toàn bão hòa GPU hiện đại, vì vậy thêm nhiều thiết bị hơn thể hiện lợi tức giảm nhanh hơn so với Flux. Điểm ngọt ngào thường nằm ở 2-4 GPU cho khối lượng công việc SDXL.
Độ phân giải ảnh hưởng đáng kể đến hiệu quả song parallel hóa. Độ phân giải cao hơn như 2048x2048 thể hiện mở rộng tốt hơn vì số lượng token tăng cung cấp nhiều công việc hơn để phân phối trên các GPU. Một thế hệ Flux 2048x2048 có thể đạt được tốc độ tăng 7,2 lần trên 8 GPU so với 5,8 lần cho hình ảnh 1024x1024.
Kích thước lô tương tác với các chiến lược song parallel hóa theo những cách phức tạp. Tạo sinh 4 hình ảnh với song parallel hóa chuỗi trên 4 GPU khác nhau về cơ bản so với tạo sinh 4 hình ảnh được tính hàng loạt trên 1 GPU. Tính hàng loạt tuần tự thường bật lên hiệu quả bộ nhớ hơn, trong khi tạo sinh song parallel mang lại độ trễ thấp hơn cho các hình ảnh riêng lẻ.
Tỷ lệ CFG ảnh hưởng đến hiệu suất vì các giá trị CFG cao hơn tăng tính toán mỗi bước. Với các song parallel hóa CFG, tính toán bổ sung này xảy ra song parallel chứ không phải tuần tự. Tốc độ tăng từ các song parallel hóa CFG vẫn nhất quán bất kể giá trị CFG, không giống như các tối ưu hóa khác mà giảm với các giá trị CFG cao hơn.
- Khớp tốc độ bộ nhớ GPU trên tất cả các thiết bị để có hiệu suất nhất quán
- Sử dụng kết nối PCIe 4.0 hoặc NVLink giữa các GPU để giảm thiểu các nút cổ chai giao tiếp
- Giám sát sử dụng GPU để xác định xem tính toán hoặc giao tiếp giới hạn thiết lập của bạn
- Kiểm tra các lời nhắc và cài đặt cụ thể của bạn vì kết quả thay đổi theo độ phức tạp nội dung
Hãy xem xét rằng các nền tảng như Apatero.com loại bỏ nhu cầu quản lý các sự đánh đổi hiệu suất phức tạp này bằng cách cung cấp cơ sở hạ tầng đa GPU được tối ưu hóa trước lựa chọn tự động chiến lược song parallel hóa tốt nhất cho mỗi yêu cầu tạo sinh.
Những thực hành tốt nhất nào để tối ưu hóa xDiT?
Tối đa hóa hiệu suất xDiT đòi hỏi sự chú ý đến chi tiết cấu hình, điều chỉnh hệ thống và quản lý khối lượng công việc vượt ra ngoài cài đặt cơ bản.
Các chiến lược cấp phát bộ nhớ ảnh hưởng đáng kể đến hiệu quả đa GPU. Đặt PYTORCH_CUDA_ALLOC_CONF để sử dụng bộ cấp phát gốc có kích thước khối thích hợp. Điều này ngăn chặn phân mảnh bộ nhớ gây ra lỗi hết bộ nhớ ngay cả khi đủ tổng bộ nhớ trên các GPU.
Ghim mô hình của bạn vào các GPU cụ thể bằng cách sử dụng ánh xạ thiết bị thay vì dựa vào vị trí tự động. Kiểm soát thiết bị rõ ràng ngăn chặn vị trí thành phần mô hình không mong muốn tạo ra các nút cổ chai giao tiếp. Ánh xạ các khối UNet hoặc transformer một cách chiến lược dựa trên cách tiếp cận song parallel hóa của bạn.
Bật Torch biên dịch cho quá trình chuyển tiếp mô hình khi sử dụng PyTorch 2.0 hoặc mới hơn. Biên dịch tối ưu hóa đồ thị tính toán cho kiến trúc GPU cụ thể của bạn, giảm chi phí khởi chạy nhân và cải thiện các mô hình truy cập bộ nhớ. Lần chạy đầu tiên mất nhiều thời gian hơn để biên dịch, nhưng các thế hệ tiếp theo được hưởng lợi đáng kể.
Độ chính xác hỗn hợp với bfloat16 hoặc float16 giảm sử dụng bộ nhớ và tăng thông lượng trên GPU hiện đại. Flux và SDXL đều xử lý độ chính xác hỗn hợp tốt với ảnh hưởng chất lượng tối thiểu. Kiểm tra trường hợp sử dụng cụ thể của bạn vì một số loại lời nhắc thể hiện suy giảm chất lượng nhẹ với lượng tử hóa tích cực.
Quy Trình ComfyUI Miễn Phí
Tìm quy trình ComfyUI miễn phí và mã nguồn mở cho các kỹ thuật trong bài viết này. Mã nguồn mở rất mạnh mẽ.
Kiểm tra điểm dừng gradient trao đổi tính toán cho bộ nhớ bằng cách tính toán lại các kích hoạt trung gian trong quá trình chuyển tiếp ngược. Mặc dù xDiT tập trung vào suy luận, một số triển khai sử dụng các kỹ thuật kiểm tra để giảm sử dụng bộ nhớ trong quá trình chuyển tiếp thuận. Điều này cho phép khớp các mô hình lớn hơn hoặc độ phân giải cao hơn trong VRAM có sẵn.
Cấu hình mạng giữa các GPU xứng đáng chú ý cẩn thận trong thiết lập đa nút. Hệ thống đa GPU nút đơn giao tiếp thông qua PCIe hoặc NVLink có độ trễ dự đoán được. Cấu hình đa nút yêu cầu các kết nối có băng thông cao, độ trễ thấp như InfiniBand để có hiệu suất chấp nhận được.
Giám sát các số liệu hệ thống của bạn trong quá trình tạo sinh để xác định các nút cổ chai. Sử dụng GPU dưới 90 phần trăm cho biết giao tiếp hoặc các giới hạn tiền xử lý CPU hiệu suất. Sử dụng không đều trên các GPU gợi ý mất cân bằng tải trong cấu hình song parallel hóa của bạn.
Hàng loạt các lời nhắc tương tự khi có thể để được hưởng lợi từ đúp kernel và chi phí giảm. Tạo sinh 10 biến thể của các lời nhắc tương tự thể hiện hiệu quả GPU tốt hơn so với 10 lời nhắc hoàn toàn khác nhau do các hiệu ứng bộ đệm và biên dịch kernel giảm.
Bộ đệm trọng số mô hình trong bộ nhớ GPU giữa các thế hệ thay vì tải lại từ đĩa hoặc RAM hệ thống. Tải ban đầu mất thời gian, nhưng các thế hệ tiếp theo bắt đầu ngay lập tức. Điều này quan trọng nhất cho các quy trình làm việc liên quan đến nhiều thế hệ với mô hình cơ sở tương tự.
Điều chỉnh các cài đặt bộ lập lịch của bạn để cân bằng chất lượng và tốc độ. Một số bộ lập lịch như Euler hoặc DPM++ yêu cầu ít bước hơn để chất lượng có thể so sánh với DDIM hoặc PNDM. Giảm bước từ 28 xuống 20 có thể duy trì chất lượng trong khi cải thiện thông lượng 40 phần trăm.
Giữ cho các phiên bản trình điều khiển CUDA, PyTorch và xDiT của bạn đồng bộ hóa. Sự không khớp phiên bản gây ra suy giảm hiệu suất tinh tế hoặc các vấn đề ổn định. Cập nhật tất cả các thành phần cùng nhau thay vì từng phần một để duy trì khả năng tương thích.
Làm cách nào để bạn khắc phục các vấn đề xDiT phổ biến?
Ngay cả với thiết lập cẩn thận, các cấu hình đa GPU gặp phải các vấn đề dự đoán được phản ứng với các cách tiếp cận khắc phục sự cố có hệ thống.
Lỗi hết bộ nhớ mặc dù dường như đủ VRAM tổng thể thường cho biết phân mảnh bộ nhớ hoặc phân chia mô hình không hiệu quả. Kiểm tra sử dụng bộ nhớ thực tế trên mỗi GPU trong quá trình tạo sinh thay vì dựa vào các tính toán lý thuyết. Giảm kích thước hàng loạt, độ phân giải ảnh hoặc độ chính xác mô hình nếu bất kỳ GPU duy nhất nào gần với giới hạn bộ nhớ của nó.
Hết thời gian giao tiếp giữa các GPU gợi ý các vấn đề cấu hình mạng hoặc vấn đề trình điều khiển. Xác minh rằng tất cả các GPU có thể giao tiếp bằng cách sử dụng truy cập bộ nhớ ngang hàng. Chạy nvidia-smi topo -m để kiểm tra tôpô kết nối và đảm bảo các GPU của bạn kết nối thông qua các liên kết tốc độ cao phù hợp.
Hiệu suất chậm hơn dự kiến thường xuất phát từ các nút cổ chai tiền xử lý CPU. Mã hóa văn bản, mã hóa VAE và tính toán bộ lập lịch chạy trên CPU theo mặc định trong một số cấu hình. Di chuyển các thành phần này đến GPU rõ ràng và giám sát xem tốc độ có cải thiện không.
Sử dụng GPU không đều cho biết các vấn đề cân bằng tải trong chiến lược song parallel hóa của bạn. Song parallel hóa chuỗi có thể tạo ra các tải không cân bằng nếu chia chuỗi không căn chỉnh với các yêu cầu tính toán thực tế. Điều chỉnh các điểm chia hoặc thử các cách tiếp cận song parallel hóa khác nhau.
Treo hoặc đông cứng trong quá trình tạo sinh chỉ ra các khóa chết trong giao tiếp liên GPU. Kiểm tra rằng tất cả các quá trình khởi tạo chính xác và đạt đến các điểm đồng bộ hóa. Bật nhật ký gỡ lỗi để xác định nơi quá trình bị gài lại.
Suy giảm chất lượng so với kết quả GPU duy nhất gợi ý các vấn đề độ chính xác số trong triển khai song parallel hóa. Xác minh rằng bạn đang sử dụng độ chính xác tương tự (fp16, bf16 hoặc fp32) trên tất cả các GPU. Kiểm tra xem hạt ngẫu nhiên khởi tạo tương tự trên các thiết bị cho các kết quả có thể tái tạo được.
Các lỗi cài đặt thường xuất phát từ sự không khớp phiên bản CUDA hoặc các phụ thuộc bị thiếu. Tạo một môi trường ảo sạch và cài đặt các thành phần theo thứ tự chính xác. PyTorch phải khớp phiên bản CUDA của bạn và xDiT phải khớp với phiên bản PyTorch của bạn.
Sự cố trình điều khiển dưới tải đa GPU nặng cho biết các vấn đề cung cấp điện hoặc làm mát. Các hệ thống đa GPU rút nhiều điện và tạo ra nhiều nhiệt. Đảm bảo dung lượng cấp nguồn điện đầy đủ và luồng không khí để ngăn chặn giới hạn nhiệt độ hoặc các vấn đề ổn định.
Kết quả không nhất quán giữa các lần chạy gợi ý các hoạt động không xác định trong đường ống tạo sinh. Đặt tất cả các hạt ngẫu nhiên một cách rõ ràng và tắt bất kỳ thuật toán không xác định nào trong PyTorch. Một số tối ưu hóa hy sinh sự xác định cho tốc độ.
Muốn bỏ qua sự phức tạp? Apatero mang đến kết quả AI chuyên nghiệp ngay lập tức mà không cần thiết lập kỹ thuật.
Các lỗi tải mô hình thường xuất phát từ các đường dẫn mô hình không chính xác hoặc các định dạng mô hình không tương thích. Xác minh rằng các tệp mô hình của bạn khớp với định dạng mong muốn bởi xDiT. Một số mô hình yêu cầu chuyển đổi từ định dạng Diffusers sang cấu trúc tương thích xDiT cụ thể.
Đối với các vấn đề phức tạp, trình theo dõi vấn đề kho lưu trữ xDiT GitHub chứa các giải pháp cho nhiều vấn đề phổ biến. Tìm kiếm thông báo lỗi cụ thể của bạn trước khi mở các vấn đề mới, vì những người khác có khả năng gặp phải các tình huống tương tự.
Những mô hình nào hoạt động tốt nhất với xDiT?
Hiệu quả của xDiT thay đổi đáng kể trên các kiến trúc mô hình khác nhau, với các mô hình khuếch tán dựa trên transformer thể hiện những lợi ích mạnh nhất.
Flux.1 Dev và Flux.1 Schnell đại diện cho các trường hợp sử dụng lý tưởng cho song parallel hóa xDiT. Kiến trúc transformer của những mô hình này chia sạch trên các GPU và yêu cầu tính toán cao của chúng tối đa hóa sử dụng GPU. Số lượng tham số 12B có nghĩa là những lợi ích bộ nhớ đáng kể từ phân phối trọng số trên các thiết bị.
SDXL hoạt động tốt với xDiT mặc dù thể hiện tốc độ tăng ít kỳ diệu hơn so với Flux. Kiến trúc UNet của mô hình có các lớp chú ý chéo song parallel hóa hiệu quả bằng cách sử dụng song parallel hóa chuỗi. Tính toán mỗi bước thấp hơn của SDXL có nghĩa là lợi tức giảm bắt đầu ở số lượng GPU thấp hơn so với Flux.
Stable Diffusion 1.5 và 2.1 thấy những lợi ích tối thiểu từ song parallel hóa xDiT. Những mô hình nhỏ hơn này đã chạy nhanh chóng trên GPU duy nhất và chi phí giao tiếp của thiết lập đa GPU vượt quá tốc độ tăng từ song parallel hóa. Suy luận GPU duy nhất với các tối ưu hóa như xFormers thường hoạt động tốt hơn.
Các mô hình tinh chỉnh tùy chỉnh dựa trên kiến trúc Flux hoặc SDXL kế thừa các đặc điểm song parallel hóa của các mô hình cơ sở của họ. Flux LoRA hoặc tinh chỉnh toàn bộ được hưởng lợi từ xDiT giống như mô hình cơ sở. Đảm bảo mô hình tùy chỉnh của bạn duy trì kiến trúc tương thích để song parallel hóa hoạt động chính xác.
Các mô hình khuếch tán dựa trên transformer tương lai sẽ có khả năng thể hiện mở rộng xDiT tốt hơn. Khi các mô hình phát triển lớn hơn và áp dụng các kiến trúc transformer thuần túy, lợi ích song parallel hóa tăng. Xu hướng hướng tới các mô hình lớn hơn làm cho khả năng suy luận đa GPU ngày càng có giá trị.
ControlNet và các mô hình điều khiển khác thêm độ phức tạp vào song parallel hóa. Mạng điều khiển bổ sung phải phân phối thích hợp trên các GPU cùng với mô hình cơ sở. Một số triển khai ControlNet thể hiện tốc độ tăng giảm do các yêu cầu đồng bộ hóa thêm.
Các mô hình tăng cấp với các thành phần transformer được hưởng lợi từ xDiT khi xử lý các đầu vào độ phân giải cao. Số lượng token lớn từ hình ảnh 4K hoặc 8K tạo ra các cơ hội song parallel hóa đáng kể. Phân phối bộ nhớ trở thành thiết yếu vì GPU duy nhất đấu tranh với các yêu cầu bộ nhớ kích hoạt.
Mặc dù các nền tảng như Apatero.com hỗ trợ tất cả các mô hình này với suy luận đa GPU được tối ưu hóa tự động, hiểu những mô hình nào được hưởng lợi nhiều nhất từ xDiT giúp tối ưu hóa đầu tư cơ sở hạ tầng cục bộ của bạn.
Làm cách nào bạn có thể tích hợp xDiT vào các quy trình làm việc sản xuất?
Triển khai xDiT trong các môi trường sản xuất yêu cầu xem xét vượt ra ngoài chức năng cơ bản để đảm bảo độ tin cậy, khả năng mở rộng và khả năng bảo trì.
Triển khai dựa trên container sử dụng Docker cung cấp tính nhất quán trên các môi trường phát triển và sản xuất. Tạo hình ảnh Docker với tất cả các phụ thuộc, thư viện CUDA và cài đặt xDiT được cấu hình trước. Điều này loại bỏ các vấn đề liên quan đến môi trường và đơn giản hóa triển khai cho nhiều máy.
Các dịch vụ trình bao quanh API xung quanh xDiT cho phép tích hợp với các ứng dụng hiện có mà không cần liên kết chặt chẽ. Các điểm cuối FastAPI hoặc Flask chấp nhận yêu cầu tạo sinh, quản lý quá trình xDiT và trả về kết quả. Kiến trúc này cho phép mở rộng quy mô lớp API độc lập từ cơ sở hạ tầng GPU.
Kiến trúc dựa trên hàng đợi xử lý tải khác nhau và ngăn chặn quá tải tài nguyên GPU của bạn. RabbitMQ, Redis Queue hoặc Celery quản lý các yêu cầu tạo sinh đến và phân phối chúng cho các công nhân xDiT có sẵn. Nhiều quá trình công nhân xử lý các yêu cầu song parallel trong khi chia sẻ tài nguyên GPU hiệu quả.
Giám sát và ghi nhật ký trở thành thiết yếu trong thiết lập đa GPU sản xuất. Theo dõi sử dụng GPU trên mỗi GPU, sử dụng bộ nhớ, thời gian tạo sinh và tỷ lệ lỗi. Prometheus và Grafana cung cấp các ngăn xếp giám sát tuyệt vời cho cơ sở hạ tầng GPU. Cảnh báo về các bất thường trước khi chúng ảnh hưởng đến người dùng.
Tham gia cùng 115 thành viên khóa học khác
Tạo Influencer AI Siêu Thực Đầu Tiên Của Bạn Trong 51 Bài Học
Tạo influencer AI siêu thực với chi tiết da sống động, ảnh selfie chuyên nghiệp và cảnh phức tạp. Nhận hai khóa học hoàn chỉnh trong một gói. ComfyUI Foundation để thành thạo công nghệ, và Fanvue Creator Academy để học cách tiếp thị bản thân như một nhà sáng tạo AI.
Xử lý lỗi Graceful ngăn chặn các lỗi theo tầng trong các hệ thống GPU phân tán. Triển khai logic thử lại với backoff theo cấp số nhân cho các lỗi geçici. Phát hiện và cô lập các GPU bị lỗi để ngăn chặn chúng làm suy giảm hiệu suất hệ thống tổng thể.
Cân bằng tải trên nhiều phiên bản xDiT tối đa hóa sử dụng phần cứng. Nếu bạn chạy nhiều máy với thiết lập đa GPU, phân phối các yêu cầu để cân bằng tải và giảm thiểu chiều sâu hàng đợi. Hãy xem xét các đặc điểm yêu cầu như độ phân giải và số lượng bước khi định tuyến.
Phiên bản mô hình và trao đổi nóng cho phép cập nhật mô hình mà không có thời gian chết. Duy trì nhiều phiên bản mô hình và định tuyến các yêu cầu thích hợp. Tải trước các mô hình mới trên các công nhân nhàn rỗi trước khi chuyển lưu lượng để cho phép các bản cập nhật không thời gian chết.
Theo dõi chi phí ở cấp yêu cầu thông báo cho các quyết định về giá cả và tối ưu hóa. Tính toán GPU-hour mỗi thế hệ dựa trên thời gian chạy thực tế. Tính toán trong thời gian nhàn rỗi, chi phí khởi tạo và các yêu cầu không thành công để tính chi phí chính xác.
Các cân nhắc bảo mật bao gồm xác nhận đầu vào, giới hạn tỷ lệ và kiểm soát truy cập. Xác nhận nội dung lời nhắc để ngăn chặn các cuộc tấn công injection hoặc lạm dụng. Triển khai các giới hạn tỷ lệ mỗi người dùng để ngăn chặn cạn kiệt tài nguyên. Xác thực truy cập API thích hợp cho trường hợp sử dụng của bạn.
Các thủ tục sao lưu và phục hồi thảm họa bảo vệ chống lại các lỗi phần cứng. Duy trì các điểm kiểm tra mô hình và cấu hình trong lưu trữ dự phòng. Ghi lại các quy trình phục hồi cho các tình huống lỗi phổ biến như lỗi GPU hoặc mất kết nối mạng.
Kiểm tra tích hợp xác nhận toàn bộ đường ống từ yêu cầu API đến hình ảnh cuối cùng. Kiểm tra các trường hợp cạnh như độ phân giải tối đa, độ phân giải tối thiểu, lời nhắc không hợp lệ và tình huống hết thời gian chờ. Đảm bảo thông báo lỗi cung cấp thông tin hữu ích mà không làm lộ các chi tiết hệ thống nhạy cảm.
Kiểm tra hiệu suất dưới tải thực tế tiết lộ các nút cổ chai trước khi triển khai sản xuất. Tạo tải phù hợp với các mẫu sử dụng đỉnh dự kiến. Đo độ trễ, thông lượng và sử dụng tài nguyên dưới stress.
Hãy xem xét rằng các nền tảng chuyên nghiệp như Apatero.com xử lý tất cả các mối quan tâm sản xuất này tự động, cung cấp độ tin cậy cấp doanh nghiệp mà không có chi phí vận hành quản lý cơ sở hạ tầng của riêng bạn.
Cấu hình phần cứng nào tối ưu hóa hiệu suất xDiT?
Lựa chọn phần cứng thích hợp cho các triển khai xDiT liên quan đến cân bằng lựa chọn GPU, tôpô kết nối và cấu hình hệ thống.
Lựa chọn GPU ảnh hưởng đáng kể đến hiệu suất và hiệu quả chi phí. GPU NVIDIA H100 cung cấp hiệu suất cao nhất trên mỗi GPU cho các mô hình Flux, với bộ nhớ 80GB cho phép kích thước hàng loạt lớn và độ phân giải cao. GPU A100 cung cấp hiệu suất tuyệt vời với chi phí thấp hơn, trong khi GPU RTX 4090 cung cấp các tùy chọn cấp tiêu dùng mạnh mẽ cho các triển khai nhỏ hơn.
Dung lượng bộ nhớ trên mỗi GPU xác định khả năng độ phân giải tối đa và kích thước hàng loạt. Thẻ 24GB như RTX 4090 hoặc A5000 xử lý các thế hệ 1024x1024 tiêu chuẩn thoải mái. Độ phân giải cao hơn hoặc kích thước hàng loạt lớn hơn được hưởng lợi từ thẻ A100 40GB hoặc H100 80GB.
Tôpô kết nối giữa các GPU ảnh hưởng đáng kể đến chi phí giao tiếp. NVLink cung cấp băng thông 600GB/s giữa các GPU được hỗ trợ, giảm thiểu chi phí song parallel hóa. PCIe 4.0 x16 cung cấp 32GB/s mỗi hướng, đủ cho số lượng GPU vừa phải. Tránh trộn kết nối NVLink và PCIe vì điều này tạo ra sự mất cân bằng hiệu suất.
Bộ nhớ hệ thống và CPU thường bị bỏ quên nhưng quan trọng đối với tiền xử lý và tải mô hình. 256GB+ RAM hệ thống cho phép bộ đệm nhiều mô hình mà không hoán đổi. CPU hiện đại với số lượng lõi cao (32+ lõi) xử lý tiền xử lý đồng thời cho nhiều công nhân hiệu quả.
Hiệu suất hệ thống con lưu trữ ảnh hưởng đến tải mô hình và lưu kết quả. NVMe SSDs với tốc độ đọc 5GB/s+ giảm thiểu thời gian tải mô hình. Cấu hình RAID cung cấp dự phòng cho các triển khai sản xuất nơi thời gian chết có chi phí tiền.
Cấp điện và làm mát xác định hiệu suất bền vững dưới tải. Hệ thống đa GPU có thể rút 2000+ watt dưới tải đầy đủ. Các nguồn cấp điện doanh nghiệp có xếp hạng 80+ Titanium tối đa hóa hiệu quả. Làm mát đầy đủ ngăn chặn giới hạn nhiệt độ làm giảm hiệu suất không nhất quán.
Cơ sở hạ tầng mạng quan trọng đối với các triển khai đa nút. Kết nối 25GbE hoặc 100GbE giữa các nút ngăn chặn các nút cổ chai mạng trong các cấu hình phân tán. InfiniBand cung cấp độ trễ thấp hơn cho các thiết lập đa nút được ghép chặt chẽ.
Những cân nhắc về vị trí vật lý bao gồm không gian giá, trọng lượng và quản lý cáp. Các máy chủ GPU dày đặc tập trung điện toán nhưng tạo ra nhiều nhiệt đáng kể và đòi hỏi kế hoạch luồng không khí cẩn thận. Quản lý cáp ngăn chặn các ngắt kết nối vô ý gây ra các ngắt quãng huấn luyện.
Các cấu hình tối ưu hóa ngân sách có thể sử dụng 4x RTX 4090 trong yếu tố hình thức máy trạm. Điều này cung cấp hiệu suất tuyệt vối cho $8000-10000 trong chi phí GPU. Thiết lập 2x RTX 4080 khêm hơn cung cấp hiệu suất tốt cho $2000-2500 trong máy tính để bàn tiêu chuẩn.
Các cấu hình doanh nghiệp ưa thích 8x A100 hoặc GPU H100 trong một hệ thống DGX hoặc máy chủ tùy chỉnh. Chúng cung cấp hiệu suất tối đa và độ tin cậy nhưng chi phí $100,000-300,000. Chi phí mỗi thế hệ trở nên cạnh tranh ở tỷ lệ sử dụng cao.
Các triển khai dựa trên đám mây sử dụng các phiên bản loạt P của AWS, GCP hoặc Azure cung cấp tính linh hoạt mà không cần chi tiêu vốn. Chi phí dao động từ $3-30 mỗi GPU-giờ tùy thuộc vào loại phiên bản. Các phiên bản dành riêng hoặc định giá spot giảm chi phí cho các khối lượng công việc có thể dự đoán được.
Câu hỏi thường gặp
xDiT có hoạt động với GPU tiêu dùng như RTX 4090 không?
Có, xDiT hoạt động tuyệt vời với GPU NVIDIA tiêu dùng bao gồm RTX 4090, 4080 và thậm chí 4070 Ti. Bộ nhớ 24GB của RTX 4090 và hiệu suất tính toán cao làm cho nó đặc biệt hiệu quả để song parallel hóa mô hình Flux. Bạn có thể đạt được tốc độ tăng 3-4 lần với 2-4 RTX 4090 so với suy luận GPU duy nhất, mặc dù bạn sẽ không thấy hiệu suất tuyệt đối tương tự như GPU trung tâm dữ liệu như A100 hoặc H100.
Tôi có thể trộn các mô hình GPU khác nhau trong cùng một thiết lập xDiT không?
Trộn các mô hình GPU là có thể về mặt kỹ thuật nhưng không được đề xuất để có hiệu suất tối ưu. Song parallel hóa xDiT hoạt động tốt nhất khi tất cả các GPU có thông số kỹ thuật giống hệt nhau, bao gồm dung lượng bộ nhớ, khả năng tính toán và băng thông bộ nhớ. Sử dụng các GPU hỗn hợp tạo ra các nút cổ chai hiệu suất vì hệ thống chạy với tốc độ của thiết bị chậm nhất. Nếu bạn phải trộn GPU, ghép các mô hình có đặc điểm hiệu suất tương tự như RTX 4080 và 4090 thay vì các thẻ khác nhau hoàn toàn.
xDiT nhanh như thế nào so với suy luận tiêu chuẩn của ComfyUI?
xDiT cung cấp tạo sinh nhanh hơn 3-8 lần so với suy luận GPU duy nhất ComfyUI tiêu chuẩn tùy thuộc vào số lượng GPU và cấu hình của bạn. Với 4 GPU, hãy mong đợi tốc độ tăng khoảng 3,4 lần cho các mô hình Flux ở độ phân giải 1024x1024. Cải thiện chính xác thay đổi dựa trên mô hình, độ phân giải, số lượng bước và chiến lược song parallel hóa. Các nút tùy chỉnh ComfyUI có thể tích hợp chức năng xDiT, kết hợp tính linh hoạt quy trình làm việc của ComfyUI với gia tốc đa GPU của xDiT.
Suy luận song parallel hóa với xDiT có tạo sinh ảnh khác so với suy luận GPU duy nhất không?
Không, xDiT tạo sinh các kết quả tương đương về mặt toán học với suy luận GPU duy nhất khi sử dụng cùng mô hình, lời nhắc, hạt và cài đặt. Song parallel hóa phân phối tính toán trên các GPU nhưng duy trì các hoạt động toán học giống hệt nhau. Bạn có thể xác minh điều này bằng cách tạo sinh lời nhắc tương tự với các hạt giống trên cài đặt GPU duy nhất và đa GPU sau đó so sánh hình ảnh đầu ra pixel bằng pixel.
Tôi cần bao nhiêu bộ nhớ GPU tối thiểu cho xDiT với các mô hình Flux?
Flux.1 Dev yêu cầu khoảng 20-24GB trên mỗi GPU khi sử dụng song parallel hóa chuỗi trên 2 GPU. Với nhiều GPU hơn, yêu cầu bộ nhớ trên mỗi GPU giảm khi trọng số mô hình phân phối trên các thiết bị. RTX 4090 (24GB), A5000 (24GB) hoặc thẻ tốt hơn xử lý Flux thoải mái. Thẻ bộ nhớ thấp hơn như GPU 16GB có thể hoạt động với Flux.1 Schnell hoặc độ phân giải thấp hơn nhưng có thể gặp khó khăn với Flux.1 Dev ở độ phân giải 1024x1024.
xDiT có thể tăng tốc suy luận mô hình LoRA không?
Có, xDiT tăng tốc các mô hình LoRA dựa trên kiến trúc Flux hoặc SDXL giống như các mô hình cơ sở. Trọng số LoRA tải trên mô hình cơ sở và song parallel hóa áp dụng cho mô hình kết hợp. Bạn sẽ thấy các phần trăm tốc độ tăng tương tự với các mô hình LoRA như các mô hình cơ sở. Nhiều LoRA có thể xếp chồng trên mô hình cơ sở được song parallel hóa, mặc dù mỗi LoRA bổ sung bổ sung chi phí nhẹ.
xDiT có tương thích với ControlNet và IP-Adapter không?
xDiT hỗ trợ ControlNet và IP-Adapter với một số cảnh báo. Các mô hình điều khiển này phải phân phối thích hợp cùng với mô hình cơ sở trên các GPU. Yêu cầu đồng bộ hóa bổ sung cho các đầu vào điều khiển có thể giảm nhẹ tốc độ tăng so với suy luận chỉ có mô hình cơ sở. Các triển khai hiện tại cho thấy tốc độ tăng 2-3 lần với ControlNet trên 4 GPU so với 3-4 lần cho các mô hình chỉ có cơ sở.
Mất bao lâu để thiết lập xDiT từ đầu?
Một thiết lập xDiT hoàn chỉnh mất 30-60 phút cho người quen với các môi trường Python và tính toán GPU. Điều này bao gồm tạo môi trường ảo, cài đặt các phụ thuộc, sao chép kho lưu trữ, tải xuống trọng số mô hình và chạy các bài kiểm tra ban đầu. Người dùng lần đầu nên phân bổ 2-3 giờ để hiểu các khái niệm, khắc phục sự cố bất kỳ vấn đề nào và tối ưu hóa cấu hình của họ cho phần cứng cụ thể của họ.
xDiT có hỗ trợ Windows hay chỉ Linux?
xDiT chính thức hỗ trợ các môi trường Linux, đặc biệt là Ubuntu 20.04 và 22.04 với CUDA 11.8 hoặc 12.1. Hỗ trợ Windows tồn tại thông qua Windows Subsystem for Linux 2 (WSL2) với truyền thông GPU được bật. Hỗ trợ Windows gốc vẫn còn thử nghiệm với các vấn đề tương thích khác nhau. Để sử dụng sản xuất, Linux được khuyên mạnh mẽ. Các nhà phát triển tích cực làm việc để cải thiện khả năng tương thích Windows nhưng Linux cung cấp trải nghiệm ổn định nhất hiện tại.
Tôi có thể chạy suy luận xDiT trên các phiên bản GPU đám mây không?
Hoàn toàn, xDiT hoạt động tuyệt vời trên các phiên bản GPU đám mây từ AWS, GCP, Azure và các nhà cung cấp chuyên dụng như Lambda Labs hoặc RunPod. Các phiên bản đa GPU như AWS P4d hoặc P5 cung cấp các môi trường lý tưởng cho xDiT. Triển khai đám mây loại bỏ chi phí vốn của việc mua GPU trong khi cho phép bạn mở rộng quy mô sử dụng dựa trên nhu cầu. Hãy xem xét các phiên bản spot để tối ưu hóa chi phí, mặc dù hãy nhận biết các ngắt quãng tiềm ẩn trong các phiên sinh dài.
Tối đa hóa quy trình làm việc tạo sinh ảnh đa GPU của bạn
Thiết lập xDiT để suy luận đa GPU song parallel hóa chuyển đổi khả năng tạo sinh ảnh của bạn từ xử lý GPU duy nhất chậm thành tốc độ sản xuất. Cải thiện hiệu suất 3-8 lần làm cho các quy trình làm việc chuyên nghiệp thực tế rằng trước đây bị giới hạn bởi thời gian tạo sinh.
Thành công với xDiT yêu cầu chú ý cẩn thận đến cài đặt, lựa chọn chiến lược song parallel hóa thích hợp và tối ưu hóa hệ thống. Bắt đầu với cấu hình 2 GPU để tìm hiểu hệ thống, sau đó mở rộng quy mô lên 4 GPU hoặc nhiều hơn khi khối lượng công việc của bạn đòi hỏi. Giám sát các số liệu hiệu suất để xác định các nút cổ chai và điều chỉnh cấu hình của bạn cho phù hợp.
Đầu tư vào cơ sở hạ tầng đa GPU và thiết lập xDiT trả cổ tức cho các khối lượng công việc tạo sinh cao. Các dự án khách hàng, tạo tập dữ liệu và tinh chỉnh lặp lại tất cả được hưởng lợi từ thời gian tạo sinh từng cá nhân nhanh hơn. Khả năng kiểm tra nhiều biến thể lời nhắc nhanh chóng tăng tốc độ chu kỳ lặp lại sáng tạo.
Hãy nhớ rằng các nền tảng như Apatero.com cung cấp suy luận đa GPU tăng tốc độ sản xuất mà không cần độ phức tạp của việc quản lý cơ sở hạ tầng của riêng bạn, mang lại kết quả chuyên nghiệp không cần cấu hình cho những người dùng coi trọng thời gian hơn kiểm soát cơ sở hạ tầng.
Đối với các nhà phát triển và doanh nghiệp chạy cơ sở hạ tầng GPU chuyên dụng, xDiT đại diện cho giải pháp mã nguồn mở hàng đầu để song parallel hóa suy luận Diffusion Transformer. Cộng đồng phát triển hoạt động tiếp tục cải thiện hiệu suất và mở rộng hỗ trợ mô hình, đảm bảo xDiT vẫn liên quan khi các mô hình mới nổi lên.
Bắt đầu hành trình xDiT của bạn hôm nay với bài kiểm tra 2 GPU đơn giản, đo kết quả và mở rộng quy mô khi bạn trải nghiệm cải thiện tốc độ kỳ diệu trực tiếp. Tương lai của tạo sinh ảnh AI đòi hỏi song parallel hóa đa GPU, và xDiT đặt sức mạnh đó vào tay bạn.
Sẵn Sàng Tạo Influencer AI Của Bạn?
Tham gia cùng 115 học viên đang thành thạo ComfyUI và tiếp thị influencer AI trong khóa học 51 bài đầy đủ của chúng tôi.
Bài Viết Liên Quan
Công cụ AI tốt nhất để sản xuất hàng loạt tài sản game thương mại năm 2025
Khám phá những công cụ AI hàng đầu để tạo tài sản game thương mại quy mô lớn, với quy trình xử lý hàng loạt, so sánh giấy phép và chiến lược ROI đã được chứng minh cho các nhà phát triển game.
Phương Pháp Tốt Nhất Để Tạo Kiến Trúc Chính Xác Với Flux Năm 2025
Làm chủ Flux AI cho render kiến trúc với các kỹ thuật đã được chứng minh về độ chính xác cấu trúc, kiểm soát phong cách và tạo tòa nhà siêu thực bằng các phương pháp Dev, Schnell và ControlNet.
Các Lời Nhắc Tốt Nhất để Tạo Nhân Vật Anime - Hơn 50 Mẫu Đã Được Kiểm Chứng Thực Sự Hiệu Quả Năm 2025
Làm chủ việc tạo nhân vật anime với hơn 50 lời nhắc đã được chứng minh cho waifu, husbando, chibi và phong cách hiện thực. Hướng dẫn đầy đủ với thẻ chất lượng, bộ chỉnh sửa phong cách và quy trình ComfyUI.