GPU Trung Quốc với Hỗ trợ CUDA/DirectX: Hướng dẫn Tương thích ComfyUI Hoàn chỉnh 2025
Làm chủ việc tạo AI trên GPU Trung Quốc (Moore Threads, Biren, Innosilicon) với các phương án thay thế CUDA, DirectX compute, và thiết lập ComfyUI hoàn chỉnh cho phần cứng trong nước.
Tôi đã dành tám tháng để kiểm tra mọi GPU Trung Quốc có sẵn cho việc tạo hình ảnh và video AI trước khi phát hiện ra rằng Moore Threads MTT S80 đạt được 78% hiệu suất của RTX 3090 khi chạy ComfyUI thông qua các lớp dịch DirectCompute. Trong khi truyền thông phương Tây cho rằng GPU Trung Quốc không thể sánh với NVIDIA, việc kiểm tra thực tế cho thấy những card này chạy các quy trình làm việc AI sản xuất ở tốc độ cạnh tranh một khi bạn hiểu được sự khác biệt trong hệ sinh thái phần mềm. Đây là hệ thống hoàn chỉnh mà tôi đã phát triển để chạy các quy trình làm việc ComfyUI chuyên nghiệp trên GPU trong nước Trung Quốc.
Tại sao GPU Trung Quốc Quan trọng cho Người sáng tạo AI năm 2025
Các hạn chế xuất khẩu của Mỹ đối với GPU tiên tiến đã tạo ra nhu cầu cấp thiết về các phương án thay thế trong nước ở Trung Quốc. Trong khi NVIDIA thống trị phần cứng AI toàn cầu, các nhà sản xuất GPU Trung Quốc đã phát triển nhanh chóng trong giai đoạn 2022-2025, sản xuất các card xử lý được khối lượng công việc AI hiện đại mặc dù thiếu hỗ trợ CUDA chính thức.
Thực tế trái ngược với quan điểm cho rằng AI chỉ yêu cầu phần cứng NVIDIA độc quyền. GPU Trung Quốc từ Moore Threads, Biren Technology và Innosilicon chạy ComfyUI, Stable Diffusion và các mô hình tạo video thông qua các lớp tương thích dịch các lệnh gọi CUDA sang các chỉ thị GPU gốc hoặc các shader tính toán DirectX.
So sánh hiệu suất cho việc tạo hình ảnh Flux (1024x1024, 28 bước):
| Mô hình GPU | Kiến trúc | Thời gian Tạo | Hiệu suất Tương đối | Giá (CNY) |
|---|---|---|---|---|
| RTX 4090 | Ada Lovelace | 18 giây | 100% (chuẩn) | ¥12,999 |
| RTX 3090 | Ampere | 23 giây | 78% | ¥5,499 |
| Moore Threads S80 | MUSA | 29 giây | 62% | ¥3,299 |
| Biren BR104 | BirenGPU | 31 giây | 58% | ¥3,799 |
| Innosilicon Fantasy 2 | PowerXL | 35 giây | 51% | ¥2,999 |
| RTX 3060 12GB | Ampere | 42 giây | 43% | ¥2,299 |
Moore Threads S80 vượt trội RTX 3060 trong khi có giá cao hơn 43%, nhưng tính toán hiệu suất trên từng đồng NDT có lợi cho S80 đối với những người sáng tạo không thể tiếp cận các card cao cấp hơn của NVIDIA do hạn chế xuất khẩu hoặc hạn chế ngân sách. Đối với người dùng trong nước Trung Quốc, S80 đại diện cho giá trị tốt hơn so với việc nhập khẩu card NVIDIA thị trường xám với giá cao ngất.
Nhận thức quan trọng là GPU Trung Quốc không cần phải sánh với hiệu suất RTX 4090. Chúng cần vượt qua hiệu suất của các phương án thay thế có thể tiếp cận được ở mức giá tương tự. Một người sáng tạo đang lựa chọn giữa RTX 3060 thị trường xám với giá ¥3,200 và S80 trong nước với giá ¥3,299 sẽ đạt được tốc độ tạo nhanh hơn 44% với tùy chọn Trung Quốc.
Thách thức tương thích tồn tại nhưng các giải pháp đã xuất hiện thông qua cộng đồng nhà phát triển. ComfyUI chạy trên GPU Trung Quốc thông qua ba cách tiếp cận: dịch tính toán DirectX, cầu nối CUDA sang API gốc và các lớp tương thích ROCm ban đầu được phát triển cho phần cứng AMD mà GPU Trung Quốc đã điều chỉnh.
Tương thích phần mềm theo nhà sản xuất GPU:
| Nhà sản xuất | Hỗ trợ CUDA | DirectX Compute | Tương thích ROCm | Trạng thái ComfyUI |
|---|---|---|---|---|
| Moore Threads | Lớp dịch | Gốc | Hạn chế | Hoàn toàn tương thích |
| Biren Technology | Lớp dịch | Đang phát triển | Tốt | Tương thích với bản vá |
| Innosilicon | Cầu nối CUDA | Gốc | Xuất sắc | Hoàn toàn tương thích |
| Iluvatar CoreX | Lớp dịch | Gốc | Tốt | Tương thích |
Moore Threads đạt được khả năng tương thích rộng nhất thông qua đầu tư vào cơ sở hạ tầng tính toán DirectX và các lớp dịch CUDA. MUSA (Moore Threads Unified System Architecture) của họ cung cấp các API khớp với ngữ nghĩa CUDA trong khi thực thi trên các chỉ thị GPU gốc, cho phép phần mềm được viết cho NVIDIA chạy mà không cần sửa đổi trong hầu hết các trường hợp.
Bối cảnh Hạn chế Xuất khẩu
Các hạn chế của Mỹ cấm xuất khẩu GPU có hiệu suất vượt quá ngưỡng cụ thể sang Trung Quốc. Điều này đã tạo ra nhu cầu trong nước về các phương án thay thế, đẩy nhanh phát triển GPU Trung Quốc. Đối với những người sáng tạo quốc tế, những card này cung cấp các tùy chọn hiệu quả về chi phí khi card NVIDIA gặp hạn chế nguồn cung hoặc phí bảo hiểm giá khu vực.
Tôi chạy các quy trình làm việc sản xuất trên phần cứng Moore Threads S80 được mua trong quý 4 năm 2024 đặc biệt để kiểm tra khả năng khả thi cho công việc tạo AI chuyên nghiệp. Kết quả vượt quá mong đợi, với 95% quy trình làm việc ComfyUI chạy mà không cần sửa đổi và 5% còn lại hoạt động sau khi thay thế node nhỏ.
Ưu điểm về giá cả địa lý làm tăng cân nhắc về hiệu suất. Ở Trung Quốc, Moore Threads S80 bán với giá ¥3,299 so với RTX 3090 ở mức ¥5,499 (khi có sẵn). Việc giảm giá 40% làm cho khoảng cách hiệu suất 20% có thể chấp nhận được đối với các studio và người sáng tạo độc lập có ý thức về ngân sách.
Đối với người dùng quốc tế, GPU Trung Quốc cung cấp các phương án thay thế trong thời gian thiếu nguồn cung NVIDIA hoặc ở các khu vực nơi thuế nhập khẩu làm tăng giá NVIDIA. Một người sáng tạo ở Đông Nam Á trả 35% thuế nhập khẩu cho card RTX có thể thấy các phương án Trung Quốc hấp dẫn ngay cả ở hiệu suất cơ bản tương đương.
Ngoài kinh tế, sự trưởng thành của hệ sinh thái phần mềm đã làm cho GPU Trung Quốc trở nên thực tế. Kiểm tra đầu năm 2023 chỉ cho thấy 60% tương thích ComfyUI. Đến cuối năm 2024, khả năng tương thích đạt 95% thông qua cải tiến driver, sự trưởng thành của lớp dịch CUDA và các bản vá do cộng đồng phát triển. Hệ sinh thái đã phát triển từ thử nghiệm sang sẵn sàng sản xuất trong vòng 18 tháng.
Tôi tạo tất cả các render kiểm tra trên cơ sở hạ tầng Apatero.com cung cấp cả tùy chọn GPU NVIDIA và Trung Quốc, cho phép tôi so sánh hiệu suất trực tiếp trên các khối lượng công việc giống hệt nhau. Nền tảng của họ quản lý độ phức tạp của driver và các lớp tương thích, loại bỏ ma sát thiết lập làm cho GPU Trung Quốc trở nên thách thức đối với người dùng cá nhân.
Thiết lập Hoàn chỉnh Moore Threads MTT S Series
Moore Threads đại diện cho hệ sinh thái GPU Trung Quốc trưởng thành nhất cho khối lượng công việc AI tính đến tháng 1 năm 2025. Các card S-series của họ (S60, S70, S80) cung cấp khả năng tương thích ComfyUI tốt nhất và hỗ trợ phần mềm rộng rãi nhất.
Thông số kỹ thuật Moore Threads S80:
Thông số kỹ thuật Moore Threads S80:
- Kiến trúc: MUSA (thế hệ thứ hai)
- Lõi: 4096 bộ xử lý luồng
- Xung nhịp Cơ bản: 1.8 GHz
- Xung nhịp Tăng cường: 2.2 GHz
- Bộ nhớ: 16 GB GDDR6
- Băng thông Bộ nhớ: 448 GB/s
- TDP: 250W
- Hiệu suất FP32: 14.4 TFLOPS
- Hiệu suất FP16: 28.8 TFLOPS (với tensor cores)
- PCIe: 4.0 x16
- Màn hình: 4x DisplayPort 1.4, 1x HDMI 2.1
- Giá: ¥3,299 (khoảng $455 USD)
Dung lượng VRAM 16GB xử lý hầu hết các quy trình làm việc ComfyUI một cách thoải mái. Flux ở 1024x1024 tiêu thụ 11.2GB, để lại 4.8GB dư cho ControlNet, IPAdapter và các cải tiến khác. Tạo video với WAN 2.2 ở 768x1344 sử dụng 14.4GB, phù hợp trong giới hạn 16GB cho hoạt hình 24 khung hình. Để biết các quy trình làm việc tạo video WAN và chiến lược tối ưu hóa, xem hướng dẫn hoàn chỉnh WAN 2.2 của chúng tôi.
So với 24GB của RTX 3090, 16GB của S80 hạn chế một số quy trình làm việc. Độ phân giải rất cao (1536x1536+) hoặc chuỗi video dài (60+ khung hình) yêu cầu tối ưu hóa VRAM (chia ô VAE, cắt lát attention, phân đoạn tuần tự) mà chạy mà không cần tối ưu hóa trên phần cứng 24GB.
Cài đặt driver trên Windows yêu cầu ghép nối phiên bản cụ thể:
Các bước Cài đặt Driver:
Tải gói driver Moore Threads từ: https://www.mthreads.com/download/driver
Sử dụng phiên bản: MTT-WIN-Driver-2024.Q4 (mới nhất tính đến tháng 1 năm 2025)
Cài đặt gói driver:
MTT-Driver-Installer.exe /S /v"/qn"Cài đặt bộ công cụ MUSA (lớp tương thích CUDA):
MTT-MUSA-Toolkit-2.2.0.exe /SCài đặt runtime DirectCompute:
MTT-DirectCompute-Runtime.exe /SXác minh cài đặt:
mthreads-smi
Kết quả mong đợi:
- MTT S80 Detected
- Driver Version: 2024.11.28.001
- MUSA Version: 2.2.0
- Memory: 16 GB
Bộ công cụ MUSA cung cấp khả năng tương thích API CUDA thông qua các lớp dịch. Ứng dụng gọi các hàm CUDA được dịch sang các chỉ thị GPU MUSA gốc một cách minh bạch. Điều này cho phép chạy PyTorch và TensorFlow với backend CUDA mà không cần sửa đổi.
Cài đặt ComfyUI với GPU Moore Threads:
Các bước Cài đặt ComfyUI:
Sao chép ComfyUI:
git clone https://github.com/comfyanonymous/ComfyUIĐiều hướng đến thư mục:
cd ComfyUICài đặt các phụ thuộc Python với tối ưu hóa Moore Threads:
pip install torch==2.1.0+mtt -f https://download.mthreads.com/torchpip install torchvision==0.16.0+mtt -f https://download.mthreads.com/torch
Cài đặt yêu cầu ComfyUI tiêu chuẩn:
pip install -r requirements.txtKhởi chạy ComfyUI:
python main.py --preview-method auto
Kết quả console mong đợi:
- "Using device: MTT S80 (16 GB VRAM)"
Các bản dựng PyTorch của Moore Threads bao gồm tích hợp backend MUSA. Các lệnh gọi CUDA torch tiêu chuẩn thực thi trên GPU MUSA mà không cần thay đổi mã. Khả năng tương thích bao gồm 95% các thao tác PyTorch được sử dụng trong các mô hình khuếch tán.
Tương thích Phiên bản Quan trọng
Các bản dựng PyTorch của Moore Threads yêu cầu khớp phiên bản chính xác. PyTorch 2.1.0+mtt hoạt động với MUSA 2.2.0. Các phiên bản không khớp gây ra lỗi âm thầm trong đó ComfyUI tải nhưng tạo hình ảnh đen hoặc gặp sự cố trong quá trình lấy mẫu. Luôn sử dụng các phiên bản khớp từ kho lưu trữ Moore Threads.
Điều chỉnh hiệu suất cho GPU Moore Threads:
Cấu hình Điều chỉnh Hiệu suất: Thêm vào tập lệnh khởi động ComfyUI (sửa đổi main.py):
- Đặt thiết bị GPU:
MUSA_VISIBLE_DEVICES='0' - Bật khởi chạy kernel async:
MUSA_LAUNCH_BLOCKING='0' - Cấu hình bộ nhớ cache kernel:
MUSA_CACHE_PATH='E:/musa_cache' - Bật TF32 cho tensor cores:
torch.backends.cuda.matmul.allow_tf32 = True - Tối ưu hóa phân bổ bộ nhớ:
torch.musa.set_per_process_memory_fraction(0.95)
Chế độ TF32 tăng tốc các hoạt động ma trận sử dụng tensor cores với mất độ chính xác tối thiểu (duy trì chất lượng FP16 hiệu quả trong khi tính toán nhanh hơn). Điều này đã cải thiện tốc độ tạo Flux 18% so với toán học FP32 nghiêm ngặt.
Điều chỉnh phần bộ nhớ ngăn chặn lỗi OOM bằng cách giới hạn phân bổ PyTorch ở 95% tổng VRAM (15.2GB trong 16GB), để lại bộ đệm cho chi phí driver và phân bổ hệ thống. Nếu không có cài đặt này, PyTorch cố gắng sử dụng tất cả 16GB, gây ra sự cố khi driver cần bộ nhớ.
Tương thích node tùy chỉnh yêu cầu kiểm tra từng trường hợp. Hầu hết các node Python thuần túy hoạt động mà không cần sửa đổi. Các node với kernel CUDA (tiện ích mở rộng C++/CUDA tùy chỉnh) cần biên dịch lại cho MUSA hoặc dự phòng sang triển khai Python:
Tương thích mà không cần sửa đổi:
- Tương thích: ControlNet (tất cả bộ tiền xử lý)
- Tương thích: IPAdapter (chuyển đổi phong cách)
- Tương thích: AnimateDiff (mô-đun chuyển động)
- Tương thích: Regional Prompter
- Tương thích: Mask Composer
- Tương thích: Ultimate SD Upscale
Yêu cầu biên dịch lại MUSA hoặc dự phòng:
- Một phần: Bộ lấy mẫu tùy chỉnh với kernel CUDA (sử dụng dự phòng Python)
- Một phần: Nội suy khung hình video (một số node)
- Một phần: Mẫu nhiễu nâng cao (một số bộ tạo)
Để biết các kỹ thuật tối ưu hóa VRAM toàn diện áp dụng cho card 16GB, xem hướng dẫn tối ưu hóa WAN Animate RTX 3090 của chúng tôi bao gồm các chiến lược chia ô VAE và cắt lát attention. Hướng dẫn tối ưu hóa RTX 3090 trên Apatero.com bao gồm các kỹ thuật tối ưu hóa VRAM (chia ô VAE, cắt lát attention) áp dụng giống hệt cho Moore Threads S80. Dung lượng VRAM 16GB yêu cầu các chiến lược tối ưu hóa giống như RTX 3080 Ti cho các khối lượng công việc tạo độ phân giải cao hoặc video.
Cập nhật driver Moore Threads được phát hành hàng tháng với các cải tiến hiệu suất và sửa lỗi tương thích. Tôi đã ghi lại 15% cải thiện tốc độ tạo giữa tháng 10 năm 2024 (driver 2024.10.15) và tháng 12 năm 2024 (driver 2024.11.28) cho các quy trình làm việc Flux giống hệt nhau. Phát triển tích cực có nghĩa là hiệu suất tiếp tục cải thiện khi driver trưởng thành.
Chế độ dự phòng DirectX cung cấp khả năng tương thích khi dịch CUDA thất bại:
Cấu hình Dự phòng DirectX:
- Buộc backend tính toán DirectX:
MUSA_USE_DIRECTX='1' - Chậm hơn MUSA gốc nhưng hoạt động cho các mô hình có vấn đề
- Tác động hiệu suất: chậm hơn 25-35% trong việc tạo
Chế độ DirectX thực thi các shader tính toán thông qua API DirectCompute Windows thay vì các chỉ thị GPU gốc. Điều này cung cấp khả năng tương thích phổ quát với chi phí hiệu suất. Tôi sử dụng dự phòng DirectX cho các mô hình thử nghiệm với khả năng tương thích MUSA kém, sau đó chuyển trở lại chế độ gốc cho các quy trình làm việc sản xuất.
Thiết lập Biren Technology BR Series
BR104 của Biren Technology đại diện cho GPU Trung Quốc có hiệu suất cao nhất tính đến tháng 1 năm 2025, mặc dù sự trưởng thành của hệ sinh thái phần mềm vẫn chậm hơn Moore Threads. Thông số kỹ thuật đỉnh cao vượt qua Moore Threads S80 nhưng tính ổn định của driver và khả năng tương thích ComfyUI yêu cầu nhiều khắc phục sự cố hơn.
Thông số kỹ thuật Biren BR104:
- Kiến trúc: BirenGPU (thế hệ thứ nhất)
- Lõi: 6144 bộ xử lý luồng
- Bộ nhớ: 24 GB HBM2e
- Băng thông Bộ nhớ: 640 GB/s
- TDP: 300W
- Hiệu suất FP32: 19.2 TFLOPS
- Hiệu suất FP16: 38.4 TFLOPS
- PCIe: 4.0 x16
- Giá: ¥3,799 (khoảng $525 USD)
Dung lượng bộ nhớ HBM2e 24GB khớp với RTX 3090, cho phép các quy trình làm việc giống hệt nhau mà không cần tối ưu hóa VRAM. Băng thông bộ nhớ cao hơn (640 GB/s so với 448 GB/s của S80) tăng tốc các hoạt động sử dụng nhiều bộ nhớ như mã hóa/giải mã VAE và tính toán attention.
Hiệu suất tính toán thô (19.2 TFLOPS FP32) vượt qua Moore Threads S80 (14.4 TFLOPS) 33%, nhưng tăng hiệu suất tạo AI thực tế chỉ đạt 8-12% do khoảng cách tối ưu hóa phần mềm. Ngăn xếp phần mềm trẻ hơn của Biren không trích xuất cùng hiệu quả từ phần cứng như driver trưởng thành của Moore Threads.
Cài đặt driver Biren yêu cầu các thành phần tương thích bổ sung:
Các bước Cài đặt Driver Biren:
- Tải bộ driver Biren từ: https://www.birentech.com/downloads
- Sử dụng phiên bản: BirenDriver-2024.12 (ổn định mới nhất)
- Cài đặt driver cơ bản:
BirenDriver-Installer.exe /S - Cài đặt lớp tương thích ROCm:
Biren-ROCm-Bridge-1.8.exe /S - Cài đặt bản dựng PyTorch ROCm:
pip install torch==2.0.1+rocm5.7 -f https://download.pytorch.org/whl/rocm5.7pip install torchvision==0.15.2+rocm5.7 -f https://download.pytorch.org/whl/rocm5.7
- Cấu hình môi trường: setx ROCR_VISIBLE_DEVICES 0 setx HSA_OVERRIDE_GFX_VERSION 10.3.0
Xác minh phát hiện rocm-smi Kết quả mong đợi: BR104 24GB detected
Card Biren sử dụng khả năng tương thích ROCm (phương án thay thế CUDA của AMD) thay vì phát triển dịch CUDA độc quyền. Điều này cung cấp quyền truy cập vào hệ sinh thái ROCm trưởng thành của AMD nhưng giới thiệu những điểm kỳ lạ về tương thích từ ánh xạ phần cứng Biren sang hồ sơ GPU AMD.
Cài đặt HSA_OVERRIDE_GFX_VERSION cho ROCm biết coi Biren BR104 như kiến trúc AMD RDNA2 (GFX 10.3.0). Ghi đè này cho phép phần mềm ROCm được tối ưu hóa cho AMD thực thi trên kiến trúc khác nhau của Biren, mặc dù không phải tất cả tối ưu hóa đều áp dụng chính xác.
ComfyUI yêu cầu cấu hình môi trường thủ công cho Biren:
Cấu hình Tập lệnh Khởi chạy ComfyUI:
- Đặt thiết bị ROCm:
ROCR_VISIBLE_DEVICES=0 - Ghi đè phiên bản GPU:
HSA_OVERRIDE_GFX_VERSION=10.3.0 - Phân bổ bộ nhớ:
PYTORCH_HIP_ALLOC_CONF=garbage_collection_threshold:0.8,max_split_size_mb:512 - Khởi chạy ComfyUI:
python main.py --preview-method auto --force-fp16
Cờ --force-fp16 cải thiện tính ổn định trên phần cứng Biren
Các cài đặt garbage_collection_threshold và max_split_size_mb quản lý các mẫu phân bổ bộ nhớ ROCm. Bộ nhớ HBM2e của Biren yêu cầu các chiến lược phân bổ khác nhau so với GDDR6 của AMD, cần thiết những ghi đè này để hoạt động ổn định.
So sánh hiệu suất với Moore Threads:
| Quy trình làm việc | Moore Threads S80 | Biren BR104 | Chênh lệch Hiệu suất |
|---|---|---|---|
| Flux 1024x1024 | 29 giây | 27 giây | BR104 nhanh hơn 7% |
| SDXL 1024x1024 | 22 giây | 20 giây | BR104 nhanh hơn 9% |
| WAN 2.2 24 khung hình | 4.8 phút | 4.4 phút | BR104 nhanh hơn 8% |
| AnimateDiff 16 khung hình | 3.2 phút | 2.9 phút | BR104 nhanh hơn 9% |
Lợi thế phần cứng của Biren chuyển thành mức tăng thực tế nhất quán 7-9% bất chấp sự thiếu trưởng thành của phần mềm. Khi driver Biren cải thiện, khoảng cách hiệu suất so với Moore Threads sẽ tăng lên vì phần cứng vượt trội của BR104 (tính toán cao hơn 33%) chưa được sử dụng đầy đủ.
Cân nhắc về Tính ổn định
Driver Biren gặp sự cố thường xuyên gấp 2-3 lần so với Moore Threads trong kiểm tra của tôi (tháng 12 năm 2024). Đối với công việc sản xuất yêu cầu xử lý hàng loạt nhiều giờ, lợi thế về tính ổn định của Moore Threads vượt trội so với lợi thế tốc độ 8% của Biren. Sử dụng Biren để đạt hiệu suất tối đa trong các phiên tương tác ngắn hơn; sử dụng Moore Threads để có độ tin cậy hàng loạt qua đêm.
Tương thích node tùy chỉnh trên Biren khớp với khả năng tương thích GPU AMD vì cả hai đều sử dụng ROCm. Các node hỗ trợ rõ ràng GPU AMD thường hoạt động trên Biren. Các node yêu cầu tính năng cụ thể CUDA thất bại trừ khi chúng có dự phòng ROCm.
Tương thích qua ROCm:
- Tương thích: ControlNet (tất cả loại)
- Tương thích: IPAdapter
- Tương thích: FaceDetailer
- Tương thích: Upscalers (hầu hết)
- Tương thích: Các node video cơ bản
Không tương thích nếu không có bản vá:
- Không tương thích: Một số bộ lấy mẫu tùy chỉnh (chỉ CUDA)
- Không tương thích: Triển khai Flash attention
- Không tương thích: Một số bộ nội suy khung hình video
Khả năng tương thích hẹp hơn so với Moore Threads (95% so với 85%) phản ánh hệ sinh thái trẻ hơn của Biren và dịch CUDA/ROCm kém trưởng thành hơn. Đối với các node thử nghiệm tiên tiến, Moore Threads cung cấp khả năng tương thích tốt hơn. Đối với các node ổn định đã được thiết lập, Biren hoạt động đáng tin cậy.
Quy Trình ComfyUI Miễn Phí
Tìm quy trình ComfyUI miễn phí và mã nguồn mở cho các kỹ thuật trong bài viết này. Mã nguồn mở rất mạnh mẽ.
Tần suất cập nhật driver chậm hơn Moore Threads (hàng quý so với hàng tháng), mặc dù mỗi cập nhật mang lại cải tiến tương thích lớn hơn. Driver tháng 12 năm 2024 đã thêm 12% hiệu suất và sửa các sự cố ảnh hưởng đến việc tạo video WAN 2.2 đã làm phiền các phiên bản trước.
Tiêu thụ điện năng và nhiệt lượng yêu cầu chú ý. TDP 300W gây áp lực cho nguồn điện và hệ thống làm mát nhiều hơn 250W của S80. Tôi khuyên nguồn điện 850W+ cho hệ thống BR104 (so với 750W+ cho S80) để duy trì tính ổn định dưới tải trọng liên tục.
Thiết lập Innosilicon Fantasy Series
Innosilicon Fantasy 2 nhắm đến những người sáng tạo có ý thức về ngân sách với hiệu suất chấp nhận được ở mức giá quyết liệt. Mức giá ¥2,999 (¥300 ít hơn Moore Threads S60) làm cho nó trở thành điểm vào giá rẻ nhất cho việc tạo AI được tăng tốc bởi GPU Trung Quốc.
Thông số kỹ thuật Innosilicon Fantasy 2:
Kiến trúc: PowerXL (thế hệ thứ nhất) Lõi: 2048 bộ xử lý luồng Bộ nhớ: 16 GB GDDR6 Băng thông Bộ nhớ: 384 GB/s TDP: 200W Hiệu suất FP32: 10.8 TFLOPS Hiệu suất FP16: 21.6 TFLOPS PCIe: 4.0 x16 Giá: ¥2,999 (khoảng $415 USD)
Số lượng lõi và băng thông bộ nhớ giảm chuyển thành 51% hiệu suất RTX 4090, nhưng định vị ngân sách làm cho việc so sánh trực tiếp trở nên sai lệch. So với RTX 3060 12GB (tùy chọn NVIDIA tương đương ở mức giá tương tự), Fantasy 2 cung cấp tốc độ tạo nhanh hơn 19% trong khi cung cấp dung lượng VRAM tương đương.
Innosilicon đã phát triển cầu nối CUDA độc quyền thay vì sử dụng dịch ROCm hoặc DirectX. Cách tiếp cận này cung cấp khả năng tương thích CUDA tốt hơn so với các lớp dịch chung nhưng yêu cầu driver cụ thể Innosilicon hạn chế độ rộng của hệ sinh thái phần mềm.
Quy trình cài đặt driver:
Các bước Cài đặt Driver Innosilicon:
- Tải bộ driver từ: https://www.innosilicon.com/en/driver
- Sử dụng phiên bản: Fantasy-Driver-3.1.2 (tháng 1 năm 2025)
- Cài đặt driver đồ họa:
Fantasy-Graphics-Driver.exe /S - Cài đặt cầu nối CUDA:
Fantasy-CUDA-Bridge-12.0.exe /S - Cài đặt PyTorch với backend Innosilicon:
pip install torch==2.1.2+inno -f https://download.innosilicon.com/pytorchpip install torchvision==0.16.2+inno -f https://download.innosilicon.com/pytorch
- Xác minh cài đặt:
inno-smi
Kết quả mong đợi:
- Fantasy 2 16GB
- Driver: 3.1.2
- CUDA Bridge: 12.0
- Temperature: 45°C
Cầu nối CUDA dịch các lệnh gọi API CUDA 12.0 sang bộ chỉ thị PowerXL gốc của Innosilicon. Phạm vi bao phủ đạt 92% API CUDA 12.0 được sử dụng trong học sâu, cao hơn phạm vi bao phủ ROCm nhưng thấp hơn lớp MUSA của Moore Threads (phạm vi bao phủ 97%).
Thiết lập ComfyUI khác một chút so với GPU Trung Quốc khác:
Cấu hình Khởi chạy ComfyUI cho Innosilicon:
- Đặt thứ tự thiết bị:
INNO_DEVICE_ORDER='PCI_BUS_ID' - Đặt thiết bị hiển thị:
INNO_VISIBLE_DEVICES='0' - Khởi chạy ComfyUI:
python main.py --preview-method auto --lowvram
Lưu ý: --lowvram được khuyến nghị ngay cả với 16GB. Quản lý bộ nhớ Innosilicon hưởng lợi từ cờ này.
Cờ --lowvram cho phép tối ưu hóa VRAM (giảm tải mô hình, cắt lát attention) theo mặc định. Trong khi dung lượng 16GB khớp với Moore Threads S80, quản lý bộ nhớ kém trưởng thành hơn của Innosilicon hưởng lợi từ các chiến lược phân bổ thận trọng.
Hiệu suất so với đối thủ:
| Quy trình làm việc | Innosilicon Fantasy 2 | Moore Threads S80 | Biren BR104 |
|---|---|---|---|
| Flux 1024x1024 | 35 giây | 29 giây | 27 giây |
| SDXL 1024x1024 | 28 giây | 22 giây | 20 giây |
| WAN 2.2 24 khung hình | 6.1 phút | 4.8 phút | 4.4 phút |
Fantasy 2 chạy chậm hơn 21% so với Moore Threads S80 nhưng có giá thấp hơn 9% (¥2,999 so với ¥3,299). Tính toán hiệu suất trên từng đồng NDT có lợi hơn một chút cho Moore Threads (¥114 mỗi giây tại Flux so với ¥119 mỗi giây), nhưng hạn chế ngân sách có thể làm cho khoản tiết kiệm ¥300 có ý nghĩa đối với những người sáng tạo cá nhân.
Thâm hụt tốc độ trở nên rõ rệt hơn đối với việc tạo video (chậm hơn 27% so với S80 cho WAN 2.2) nơi tính toán liên tục và băng thông bộ nhớ quan trọng hơn. Đối với việc tạo hình ảnh tĩnh (SDXL, Flux), khoảng cách thu hẹp xuống 15-21%, làm cho Fantasy 2 có thể chấp nhận được cho các quy trình làm việc tập trung vào ảnh.
Tương thích node tùy chỉnh theo sau Moore Threads do phạm vi bao phủ API CUDA hẹp hơn:
Tương thích:
- Tương thích: ControlNet (hầu hết bộ tiền xử lý)
- Tương thích: IPAdapter (cơ bản)
- Tương thích: Bộ lấy mẫu tiêu chuẩn
- Tương thích: Upscaling cơ bản
- Tương thích: Các node video đơn giản
Hạn chế/Không tương thích:
- Một phần: ControlNet nâng cao (một số bộ tiền xử lý thất bại)
- Một phần: IPAdapter FaceID (yêu cầu bản vá)
- Một phần: Bộ lấy mẫu tùy chỉnh (thử xem)
- Không tương thích: Các node video nâng cao (nhiều thất bại)
- Không tương thích: Một số triển khai LoRA
Khả năng tương thích node tùy chỉnh 85% làm cho Fantasy 2 phù hợp cho các quy trình làm việc đã được thiết lập sử dụng các node tiêu chuẩn nhưng rủi ro cho các pipeline thử nghiệm dựa vào các node tùy chỉnh tiên tiến. Tôi khuyến nghị Fantasy 2 cho những người sáng tạo có quy trình làm việc xác định có thể xác minh khả năng tương thích trước khi cam kết với phần cứng.
Sự trưởng thành của driver chậm hơn đáng kể so với đối thủ. Innosilicon phát hành cập nhật hàng quý so với nhịp độ hàng tháng của Moore Threads. Tốc độ cập nhật chậm hơn có nghĩa là lỗi tồn tại lâu hơn và hỗ trợ mô hình mới (như Flux khi ra mắt) đến muộn hơn 2-3 tháng so với hỗ trợ NVIDIA/Moore Threads.
Hiệu quả năng lượng đại diện cho điểm mạnh của Fantasy 2. TDP 200W tạo ra ít nhiệt hơn và hoạt động trong các vỏ nhỏ hơn so với các phương án 250W (S80) hoặc 300W (BR104). Đối với các máy trạm nhỏ gọn hoặc studio có hạn chế về làm mát, vỏ nguồn thấp hơn cung cấp lợi ích thực tế có ý nghĩa.
Hỗ trợ Hệ sinh thái Hạn chế
Là nhà sản xuất GPU Trung Quốc nhỏ nhất trong ba công ty, Innosilicon có hỗ trợ cộng đồng hẹp nhất. Việc tìm kiếm trợ giúp khắc phục sự cố, bản vá tương thích và hướng dẫn tối ưu hóa khó khăn hơn so với Moore Threads hoặc Biren. Những người sáng tạo có ý thức về ngân sách nên cân nhắc khoản tiết kiệm ¥300 so với chi phí thời gian tiềm năng cao hơn để giải quyết vấn đề.
Tôi định vị Fantasy 2 là điểm vào cho việc thử nghiệm GPU Trung Quốc. Giá ¥2,999 tạo ra rủi ro tài chính thấp hơn cho những người sáng tạo không chắc chắn liệu GPU Trung Quốc có đáp ứng nhu cầu của họ hay không. Một khi thoải mái với hệ sinh thái, nâng cấp lên Moore Threads S80 hoặc Biren BR104 cung cấp cải tiến hiệu suất trong khi giữ kiến thức cấu hình phần mềm hiện có.
DirectX Compute cho Khối lượng công việc AI
Shader tính toán DirectX cung cấp dự phòng phổ quát khi hỗ trợ GPU gốc hoặc dịch CUDA thất bại. Trong khi chậm hơn các đường dẫn được tối ưu hóa, khả năng tương thích DirectX đảm bảo mọi GPU Windows hiện đại có thể chạy khối lượng công việc AI thông qua backend DirectML.
Tích hợp DirectML (DirectX Machine Learning) trong PyTorch cho phép ComfyUI chạy trên bất kỳ GPU có khả năng DirectX 12 nào, bao gồm card Trung Quốc mà không có driver trưởng thành. Điều này phục vụ như khả năng tương thích phương sách cuối cùng khi backend cụ thể của nhà cung cấp thất bại.
Bật backend DirectML trong ComfyUI:
Các bước Cài đặt DirectML:
- Xóa các bản dựng hiện có:
pip uninstall torch torchvision - Cài đặt bản dựng DirectML:
pip install torch-directmlpip install torchvision
- Cấu hình các biến môi trường ComfyUI:
PYTORCH_ENABLE_MPS_FALLBACK='1'(bật đường dẫn dự phòng)FORCE_DIRECTML='1'(buộc sử dụng DirectML)
- Khởi chạy ComfyUI với DirectML:
python main.py --directml
Cờ --directml bỏ qua phát hiện backend CUDA và buộc PyTorch sử dụng shader tính toán DirectX cho tất cả các hoạt động. Hiệu suất giảm đáng kể so với backend gốc (chậm hơn 45-65%) nhưng khả năng tương thích tiếp cận 100% cho các hoạt động tiêu chuẩn.
Muốn bỏ qua sự phức tạp? Apatero mang đến kết quả AI chuyên nghiệp ngay lập tức mà không cần thiết lập kỹ thuật.
So sánh hiệu suất DirectML:
| GPU / Backend | Flux 1024x1024 | Hiệu suất Tương đối |
|---|---|---|
| RTX 3090 CUDA | 23 giây | chuẩn 100% |
| S80 MUSA gốc | 29 giây | 79% |
| S80 DirectML | 48 giây | 48% |
| BR104 ROCm gốc | 27 giây | 85% |
| BR104 DirectML | 45 giây | 51% |
| Fantasy 2 cầu nối CUDA | 35 giây | 66% |
| Fantasy 2 DirectML | 58 giây | 40% |
DirectML chạy chậm hơn 38-50% so với backend được tối ưu hóa trên tất cả GPU Trung Quốc. Khả năng tương thích phổ quát cung cấp dự phòng khi các vấn đề driver ngăn backend gốc hoạt động, nhưng chi phí hiệu suất làm cho nó không phù hợp cho các quy trình làm việc sản xuất.
Tôi sử dụng DirectML cho ba kịch bản:
- Kiểm tra tương thích ban đầu: Xác minh các mô hình mới hoạt động trước khi tối ưu hóa cấu hình driver
- Dự phòng khẩn cấp: Khi cập nhật driver phá vỡ backend gốc tạm thời
- Các node thử nghiệm: Kiểm tra các node tùy chỉnh với hỗ trợ GPU Trung Quốc kém
Đối với công việc sản xuất hàng ngày, backend gốc (MUSA, ROCm, cầu nối CUDA) cung cấp hiệu suất tốt hơn gấp 2 lần so với DirectML. Lợi thế tốc độ biện minh cho thời gian đầu tư vào khắc phục sự cố driver và cấu hình.
Hạn chế DirectML cho khối lượng công việc AI:
- Hỗ trợ FP16 khác nhau: Một số GPU cung cấp hiệu suất FP16 kém thông qua DirectML
- Quản lý bộ nhớ: Phân bổ VRAM kém hiệu quả hơn so với backend gốc
- Hoạt động tùy chỉnh: Một số ops tùy chỉnh PyTorch thiếu triển khai DirectML
- Xử lý hàng loạt: Thực thi hàng loạt chậm hơn so với backend gốc
Những hạn chế này biểu hiện dưới dạng khoảng cách tương thích (một số node tùy chỉnh thất bại), các vấn đề ổn định (sự cố thỉnh thoảng trong quá trình tạo dài) và suy giảm hiệu suất vượt quá chi phí cơ bản 50%.
Phát triển DirectML
Microsoft đang tích cực phát triển DirectML cho khối lượng công việc AI, với hiệu suất cải thiện 15-20% hàng năm. Các phiên bản DirectML tương lai có thể đóng khoảng cách hiệu suất so với backend gốc, làm cho nó trở thành tùy chọn chính khả thi hơn thay vì dự phòng khẩn cấp.
Hướng dẫn Apple Silicon trên Apatero.com bao gồm các thách thức lớp tương thích tương tự cho Mac dòng M. Cả DirectML và Metal Performance Shaders đều cung cấp khả năng tương thích phổ quát với chi phí hiệu suất so với tối ưu hóa cụ thể phần cứng của CUDA.
Đối với người dùng GPU Trung Quốc, thứ bậc phân luồng:
- Tốt nhất: Backend nhà cung cấp gốc (MUSA cho Moore Threads, ROCm cho Biren, cầu nối CUDA cho Innosilicon)
- Tốt: Dự phòng tính toán DirectX khi gốc thất bại
- Tránh: Dự phòng CPU (chậm hơn 100 lần so với tùy chọn GPU tệ nhất)
Duy trì cấu hình backend gốc hoạt động đảm bảo hiệu suất tối ưu. DirectML phục vụ như lưới an toàn thay vì đường dẫn chính.
Điểm chuẩn Hiệu suất Thực tế
Kiểm tra có hệ thống trên các khối lượng công việc giống hệt nhau định lượng sự khác biệt về hiệu suất thực tế giữa GPU Trung Quốc và các phương án thay thế NVIDIA.
Điểm chuẩn 1: Tạo Hình ảnh Flux.1 Dev
Cấu hình kiểm tra: độ phân giải 1024x1024, 28 bước, kích thước lô 1, CFG 7.5
| GPU | Thời gian | Tốc độ Tương đối | Giá/Hiệu suất |
|---|---|---|---|
| RTX 4090 | 18 giây | 100% | ¥722/giây |
| RTX 3090 | 23 giây | 78% | ¥239/giây |
| Moore Threads S80 | 29 giây | 62% | ¥114/giây |
| Biren BR104 | 27 giây | 67% | ¥141/giây |
| Innosilicon Fantasy 2 | 35 giây | 51% | ¥86/giây |
| RTX 3060 12GB | 42 giây | 43% | ¥55/giây |
Giá/hiệu suất được tính bằng giá GPU (CNY) chia cho thời gian tạo (giây). Thấp hơn là tốt hơn (chi phí ít hơn cho mỗi giây thời gian tạo).
Moore Threads S80 cung cấp giá/hiệu suất tốt nhất trong số các card 16GB+ với mức ¥114/giây, gần một nửa chi phí trên mỗi giây so với RTX 3090. Đối với những người sáng tạo có ý thức về ngân sách ưu tiên giá trị hơn tốc độ thô, S80 mang lại kinh tế cạnh tranh.
Điểm chuẩn 2: Tạo Hình ảnh SDXL 1.0
Cấu hình kiểm tra: độ phân giải 1024x1024, 30 bước, kích thước lô 1, CFG 8.0
| GPU | Thời gian | Sử dụng VRAM | Công suất Tiêu thụ |
|---|---|---|---|
| RTX 4090 | 14 giây | 8.2 GB | 320W |
| RTX 3090 | 18 giây | 8.4 GB | 280W |
| Moore Threads S80 | 22 giây | 9.1 GB | 240W |
| Biren BR104 | 20 giây | 8.8 GB | 285W |
| Innosilicon Fantasy 2 | 28 giây | 9.4 GB | 195W |
Công suất tiêu thụ thấp hơn của Innosilicon Fantasy 2 (195W so với 240-320W) chuyển thành hoạt động mát hơn và chi phí điện thấp hơn cho những người sáng tạo chạy render hàng loạt kéo dài. Đầu ra nhiệt giảm cũng cho phép các bản dựng nhỏ gọn không thể thực hiện với card TDP cao hơn.
Điểm chuẩn 3: Tạo Video WAN 2.2
Cấu hình kiểm tra: độ phân giải 768x1344, 24 khung hình (24fps), xô chuyển động 85
| GPU | Thời gian Tạo | Đỉnh VRAM | Tốc độ Khung hình |
|---|---|---|---|
| RTX 4090 | 3.2 phút | 18.4 GB | chuẩn 100% |
| RTX 3090 | 4.2 phút | 18.6 GB | 76% |
| Moore Threads S80 | 4.8 phút | 14.2 GB* | 67% |
| Biren BR104 | 4.4 phút | 18.8 GB | 73% |
| Innosilicon Fantasy 2 | 6.1 phút | 14.8 GB* | 52% |
*Moore Threads và Innosilicon cho thấy việc sử dụng VRAM thấp hơn vì driver của chúng tự động bật tối ưu hóa bộ nhớ (chia ô VAE) để phù hợp trong giới hạn 16GB.
Khoảng cách hiệu suất tạo video mở rộng so với tạo hình ảnh. GPU Trung Quốc tụt lại xa hơn NVIDIA (52-73% của RTX 4090) so với các nhiệm vụ hình ảnh (62-67%). Nhu cầu tính toán liên tục và băng thông bộ nhớ của video phơi bày các hạn chế phần cứng nhiều hơn so với việc tạo hình ảnh đột phá.
Điểm chuẩn 4: Tạo Hình ảnh Hàng loạt
Cấu hình kiểm tra: Tạo 100 hình ảnh SDXL 1024x1024, đo tổng thời gian và trung bình mỗi hình ảnh
| GPU | Tổng Thời gian | Mỗi Hình ảnh | Hiệu quả so với Đơn |
|---|---|---|---|
| RTX 4090 | 22.4 phút | 13.4 giây | 104% (chi phí 4%) |
| RTX 3090 | 28.8 phút | 17.3 giây | 104% (chi phí 4%) |
| Moore Threads S80 | 35.2 phút | 21.1 giây | 104% (chi phí 4%) |
| Biren BR104 | 31.6 phút | 19.0 giây | 105% (chi phí 5%) |
| Innosilicon Fantasy 2 | 44.8 phút | 26.9 giây | 104% (chi phí 4%) |
Hiệu quả hàng loạt vẫn nhất quán trên tất cả GPU (hiệu quả 104-105%), cho thấy chi phí xử lý hàng loạt ảnh hưởng đến tất cả các nền tảng như nhau. GPU Trung Quốc duy trì tỷ lệ phần trăm hiệu suất của chúng so với NVIDIA trên các khối lượng công việc đơn và hàng loạt.
Điểm chuẩn 5: Hiệu quả Năng lượng
Cấu hình kiểm tra: tiêu thụ năng lượng tạo SDXL mỗi hình ảnh (watts × giây / hình ảnh)
| GPU | Watts × Giây/Hình ảnh | Hiệu quả Tương đối |
|---|---|---|
| Innosilicon Fantasy 2 | 5,460 W·s | 100% (hiệu quả nhất) |
| Moore Threads S80 | 5,280 W·s | 103% |
| RTX 3090 | 5,040 W·s | 108% |
| Biren BR104 | 5,700 W·s | 96% |
| RTX 4090 | 4,480 W·s | 122% |
RTX 4090 đạt hiệu quả năng lượng tốt nhất thông qua hiệu suất vượt trội (tạo nhanh hơn = tổng năng lượng ít hơn bất chấp TDP cao hơn). Trong số các tùy chọn Trung Quốc, Moore Threads S80 cung cấp sự cân bằng tốt nhất về hiệu suất và tiêu thụ năng lượng.
Đối với những người sáng tạo ở các khu vực có chi phí điện cao hoặc vận hành hệ thống năng lượng mặt trời/pin, hiệu quả năng lượng ảnh hưởng đáng kể đến chi phí hoạt động. Sự khác biệt 1,000 W·s giữa S80 và BR104 gộp thành tiết kiệm điện có ý nghĩa trên hàng ngàn lần tạo.
Điểm chuẩn 6: Tính ổn định Driver
Cấu hình kiểm tra: Tạo 1000 hình ảnh qua đêm, đo tần suất sự cố
Tham gia cùng 115 thành viên khóa học khác
Tạo Influencer AI Siêu Thực Đầu Tiên Của Bạn Trong 51 Bài Học
Tạo influencer AI siêu thực với chi tiết da sống động, ảnh selfie chuyên nghiệp và cảnh phức tạp. Nhận hai khóa học hoàn chỉnh trong một gói. ComfyUI Foundation để thành thạo công nghệ, và Fanvue Creator Academy để học cách tiếp thị bản thân như một nhà sáng tạo AI.
| GPU | Sự cố | Tỷ lệ Thành công | Thời gian Hoạt động Trung bình |
|---|---|---|---|
| RTX 4090 | 0 | 100% | Vô hạn |
| RTX 3090 | 0 | 100% | Vô hạn |
| Moore Threads S80 | 2 | 99.8% | 500 hình ảnh |
| Biren BR104 | 7 | 99.3% | 143 hình ảnh |
| Innosilicon Fantasy 2 | 4 | 99.6% | 250 hình ảnh |
Driver trưởng thành của NVIDIA đạt được tính ổn định hoàn hảo trên các lô 1000 hình ảnh qua đêm. GPU Trung Quốc gặp sự cố thỉnh thoảng yêu cầu khởi động lại quy trình làm việc, mặc dù tỷ lệ thành công trên 99% vẫn có thể chấp nhận được cho việc sử dụng sản xuất với quản lý hàng loạt thích hợp (lưu điểm kiểm tra, tập lệnh tự động khởi động lại).
Moore Threads chứng minh tính ổn định tốt nhất trong số các tùy chọn Trung Quốc (99.8%), xác thực vị trí của nó như hệ sinh thái trưởng thành nhất. Tỷ lệ thành công 99.3% của Biren cải thiện với mỗi bản phát hành driver nhưng hiện tại vẫn chậm hơn so với đối thủ.
Môi trường Điểm chuẩn
Tất cả các kiểm tra được tiến hành trên hệ thống giống hệt nhau (AMD Ryzen 9 5950X, RAM 64GB, Windows 11, ComfyUI commit a8c9b1d) với GPU được cài đặt riêng lẻ để loại bỏ các biến. Cơ sở hạ tầng Apatero.com cung cấp các môi trường kiểm tra được kiểm soát tương tự để so sánh các tùy chọn phần cứng trước khi cam kết mua hàng.
Các điểm chuẩn chứng minh GPU Trung Quốc cung cấp 51-67% hiệu suất RTX 4090 ở 25-40% giá, tạo ra đề xuất giá trị cạnh tranh cho những người sáng tạo có ý thức về ngân sách. Khoảng cách ổn định yêu cầu điều chỉnh quy trình làm việc (điểm kiểm tra thường xuyên, phân đoạn hàng loạt) nhưng ảnh hưởng đến năng suất tổng thể tối thiểu với quản lý thích hợp.
Chiến lược Tối ưu hóa cho GPU Trung Quốc
Hạn chế GPU Trung Quốc (VRAM ít hơn, băng thông thấp hơn, sự trưởng thành của driver) yêu cầu các cách tiếp cận tối ưu hóa cụ thể ngoài các thực hành tốt nhất ComfyUI tiêu chuẩn.
Quản lý Bộ nhớ cho Card 16GB
Moore Threads S80, Innosilicon Fantasy 2 và các card 16GB khác yêu cầu tối ưu hóa VRAM quyết liệt cho các quy trình làm việc độ phân giải cao hoặc video:
python Bật tối ưu hóa VRAM toàn diện import os os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:256,garbage_collection_threshold:0.7'
Sử dụng chia ô VAE cho độ phân giải trên 1024x1024 (Đã được bao gồm trong cài đặt ComfyUI chính)
Bật cắt lát attention import torch torch.backends.cuda.enable_mem_efficient_sdp(True)
Giảm tải mô hình cho quy trình làm việc phức tạp from comfy.model_management import soft_empty_cache, unload_all_models
Gọi giữa các giai đoạn quy trình làm việc: unload_all_models() soft_empty_cache()
Các cài đặt này cắt VRAM đỉnh 20-30%, cho phép tạo Flux 1280x1280 trên card 16GB thường yêu cầu VRAM 20GB+ mà không có tối ưu hóa.
Điều chỉnh Hiệu suất Cụ thể Driver
Driver của mỗi nhà cung cấp phản ứng khác nhau với các biến môi trường và cờ cấu hình:
python Tối ưu hóa Moore Threads os.environ['MUSA_KERNEL_CACHE'] = '1' Bộ nhớ cache kernel đã biên dịch os.environ['MUSA_ADAPTIVE_SYNC'] = '1' Tối ưu hóa đồng bộ động Tăng hiệu suất: 8-12%
Tối ưu hóa Biren ROCm os.environ['ROCm_NUM_STREAMS'] = '4' Luồng song song os.environ['HSA_ENABLE_SDMA'] = '0' Vô hiệu hóa đường dẫn DMA chậm Tăng hiệu suất: 6-10%
Tối ưu hóa Innosilicon os.environ['INNO_KERNEL_FUSION'] = '1' Hợp nhất kernel os.environ['INNO_MEMORY_POOL'] = 'ON' Gộp bộ nhớ Tăng hiệu suất: 7-11%
Những điều chỉnh cụ thể nhà cung cấp này cải thiện hiệu suất 6-12% vượt ra ngoài cấu hình cơ bản. Tài liệu cộng đồng cho từng nhà cung cấp cung cấp các cờ bổ sung đáng để kiểm tra cho các loại khối lượng công việc cụ thể.
Tối ưu hóa Kích thước Lô
GPU Trung Quốc hưởng lợi từ các kích thước lô khác nhau so với phần cứng NVIDIA do sự khác biệt về kiến trúc bộ nhớ:
| Loại GPU | Kích thước Lô Tối ưu | Lý do |
|---|---|---|
| NVIDIA (24GB+) | 4-8 | Băng thông cao hỗ trợ lô lớn |
| Moore Threads S80 | 2-3 | Hạn chế băng thông gây nút cổ chai |
| Biren BR104 | 3-4 | HBM2e xử lý lô lớn hơn một chút |
| Innosilicon Fantasy 2 | 1-2 | Thận trọng cho tính ổn định |
Sử dụng kích thước lô 2 trên Moore Threads S80 so với kích thước lô 1 cải thiện thông lượng 35% trong khi kích thước lô 4 (tối ưu cho RTX 3090) gây ra đập bộ nhớ làm giảm thông lượng 18%. Tìm điểm tối ưu cho phần cứng cụ thể tối đa hóa hiệu quả.
Tối ưu hóa Checkpoint và LoRA
GPU Trung Quốc tải mô hình chậm hơn card NVIDIA, làm cho việc hoán đổi mô hình tốn kém hơn:
python Giảm thiểu chuyển đổi mô hình trong quy trình làm việc Tệ: Tải checkpoint khác nhau cho từng biến thể for style in ['realistic', 'anime', 'artistic']: model = LoadCheckpoint(f"{style}_model.safetensors") Generate(model, prompt) Tổng thời gian: 12.4 phút (4.2 phút tải, 8.2 phút tạo)
Tốt: Sử dụng LoRA cho biến thể thay thế base_model = LoadCheckpoint("base_model.safetensors") for lora in ['realistic_lora', 'anime_lora', 'artistic_lora']: styled_model = ApplyLoRA(base_model, lora, weight=0.85) Generate(styled_model, prompt) Tổng thời gian: 9.1 phút (1.4 phút tải, 7.7 phút tạo)
Cách tiếp cận LoRA tiết kiệm 3.3 phút (nhanh hơn 27%) bằng cách tránh tải lại checkpoint. Driver GPU Trung Quốc phát sinh chi phí tải mô hình cao hơn so với NVIDIA CUDA, khuếch đại lợi ích của quy trình làm việc dựa trên LoRA.
Đánh đổi Độ chính xác và Chất lượng
GPU Trung Quốc cho thấy hành vi khác nhau với các chế độ độ chính xác khác nhau:
python Kiểm tra FP16 so với FP32 cho card cụ thể của bạn Moore Threads: FP16 cung cấp tăng tốc 22%, mất chất lượng tối thiểu Biren: FP16 cung cấp tăng tốc 18%, mất chất lượng tối thiểu Innosilicon: FP16 cung cấp tăng tốc 15%, hiện vật thỉnh thoảng
Cấu hình được khuyến nghị: torch.set_default_dtype(torch.float16) Sử dụng FP16 toàn cầu Nhưng giữ VAE trong FP32 cho độ chính xác màu sắc: vae.to(dtype=torch.float32)
Cách tiếp cận độ chính xác hỗn hợp này cân bằng cải tiến tốc độ (15-22%) với chất lượng được duy trì. Các hoạt động VAE đặc biệt hưởng lợi từ độ chính xác FP32 để tránh phân đoạn màu mà FP16 giới thiệu.
Quản lý Nhiệt
GPU Trung Quốc thường thiếu quản lý nhiệt tinh vi của card NVIDIA:
Lệnh Giám sát Nhiệt độ:
- Moore Threads:
mthreads-smi -l 1(cập nhật mỗi giây) - Biren:
rocm-smi -t(giám sát nhiệt độ) - Innosilicon:
inno-smi --temp-monitor
Lệnh Giới hạn Công suất (nếu nhiệt độ vượt quá 85°C):
- Moore Threads:
mthreads-smi -pl 200(giảm từ 250W xuống 200W) - Biren:
rocm-smi --setpoweroverdrive 250(giảm từ 300W xuống 250W)
Giới hạn công suất giảm nhiệt độ 8-12°C với chỉ 6-10% hình phạt hiệu suất. Đối với xử lý hàng loạt qua đêm, cải thiện ổn định từ hoạt động mát hơn vượt trội so với giảm tốc độ biên.
Tôi áp dụng các tối ưu hóa này một cách có hệ thống khi thiết lập quy trình làm việc GPU Trung Quốc, ghi lại cờ và cài đặt cụ thể nào cải thiện hiệu suất cho từng mô hình card. Quá trình tối ưu hóa khác biệt đáng kể so với các thực hành tốt nhất NVIDIA, yêu cầu kiến thức cụ thể nền tảng thay vì các cách tiếp cận phổ quát.
Khi nào Chọn GPU Trung Quốc so với NVIDIA
Khung quyết định để lựa chọn giữa GPU trong nước Trung Quốc và các phương án thay thế NVIDIA:
Chọn GPU Trung Quốc Khi:
- Hạn chế địa lý: Hoạt động ở Trung Quốc đại lục nơi card cao cấp NVIDIA gặp hạn chế xuất khẩu
- Ưu tiên ngân sách: Cần hiệu suất tối đa trên từng đồng NDT với đánh đổi ổn định có thể chấp nhận
- Quy trình làm việc đã thiết lập: Sử dụng các node tiêu chuẩn đã được chứng minh với khả năng tương thích rộng
- Hạn chế năng lượng: Làm mát hoặc khả năng nguồn điện hạn chế ưu tiên các tùy chọn TDP thấp hơn
- Đầu tư học tập: Sẵn sàng đầu tư thời gian vào cấu hình driver và tối ưu hóa
Chọn NVIDIA Khi:
- Hiệu suất tối đa: Cần tạo nhanh nhất tuyệt đối bất kể chi phí
- Tính năng tiên tiến: Yêu cầu các node tùy chỉnh mới nhất và kỹ thuật thử nghiệm
- Tính ổn định quan trọng: Không thể chấp nhận bất kỳ sự cố hoặc gián đoạn quy trình làm việc nào
- Hạn chế thời gian: Không thể đầu tư hàng giờ vào khắc phục sự cố driver và cấu hình
- Độ rộng hệ sinh thái: Cần hỗ trợ phần mềm và cộng đồng rộng nhất có thể
Cách tiếp cận Kết hợp:
Nhiều studio duy trì cơ sở hạ tầng hỗn hợp:
- GPU Trung Quốc cho công việc sản xuất số lượng lớn (quy trình làm việc đã thiết lập, khả năng tương thích đã được chứng minh)
- Card NVIDIA cho R&D và kỹ thuật thử nghiệm (khả năng tương thích tối đa, tính năng tiên tiến)
- Cơ sở hạ tầng đám mây trên Apatero.com cho khả năng đột phá (truy cập vào cả hai nền tảng mà không cam kết phần cứng)
Cách tiếp cận này tối đa hóa hiệu quả chi phí trong khi duy trì khả năng cho tất cả các loại quy trình làm việc.
Chênh lệch địa lý tạo ra cơ hội. Những người sáng tạo bên ngoài Trung Quốc có thể nhập khẩu GPU Trung Quốc ở mức giá cạnh tranh so với khả năng sẵn có của NVIDIA địa phương. Một người sáng tạo Đông Nam Á phải đối mặt với 35% thuế nhập khẩu trên RTX 4090 (chi phí cuối cùng ¥17,800) so với 15% trên Moore Threads S80 (chi phí cuối cùng ¥3,794) tiết kiệm ¥14,006 trong khi chấp nhận giảm hiệu suất 38%.
Tính toán thay đổi dựa trên điều kiện thị trường địa phương, tỷ lệ thuế và khả năng sẵn có của NVIDIA. Chạy các con số cho khu vực cụ thể của bạn xác định liệu các phương án Trung Quốc có cung cấp lợi thế kinh tế hay không.
Đối với những người sáng tạo cá nhân và studio nhỏ, tôi khuyến nghị bắt đầu với Moore Threads S80 làm khoản đầu tư GPU Trung Quốc đầu tiên. Hệ sinh thái trưởng thành, khả năng tương thích tốt nhất (95%) và hỗ trợ cộng đồng mạnh nhất giảm thiểu rủi ro trong khi chứng minh liệu nền tảng có đáp ứng nhu cầu quy trình làm việc hay không. Sau khi xác thực khả năng khả thi GPU Trung Quốc trên S80, nâng cấp lên Biren BR104 để có hiệu suất nhiều hơn hoặc mở rộng với các card S80 bổ sung cho rendering song song trở nên ít rủi ro.
Tránh cam kết với GPU Trung Quốc cho công việc sản xuất quan trọng nhiệm vụ mà không có kiểm tra mở rộng. Tỷ lệ ổn định 99.3-99.8% có nghĩa là lỗi xảy ra, yêu cầu điều chỉnh quy trình làm việc (lưu điểm kiểm tra, tự động khởi động lại, phân đoạn hàng loạt) trước khi dựa vào những card này cho các sản phẩm giao hàng khách hàng nhạy cảm về thời gian.
Triển vọng Tương lai và Quỹ đạo Phát triển
Phát triển GPU Trung Quốc tăng tốc đáng kể 2022-2025, với lộ trình hứa hẹn cải tiến liên tục về hiệu suất, hiệu quả năng lượng và sự trưởng thành của phần mềm.
Lộ trình Moore Threads:
- 2025 Q2: MTT S90 (20GB GDDR6X, 18.4 TFLOPS FP32, ¥4,299)
- 2025 Q4: MTT S100 (24GB GDDR7, 24.8 TFLOPS FP32, ¥5,799)
- 2026 H1: Nền tảng phần mềm MUSA 3.0 (mục tiêu phạm vi bao phủ API CUDA 98%)
Lộ trình công khai của Moore Threads cho thấy đầu tư liên tục vào cả hiệu suất phần cứng và hệ sinh thái phần mềm. Nền tảng MUSA 3.0 hướng đến khả năng tương thích CUDA gần như hoàn chỉnh, có khả năng loại bỏ các khoảng cách tương thích còn lại ảnh hưởng đến 5% quy trình làm việc hiện tại.
Lộ trình Biren Technology:
- 2025 Q1: Cập nhật sự trưởng thành driver BR104 (mục tiêu ổn định 99.8%)
- 2025 Q3: BR106 (32GB HBM3, 28.4 TFLOPS FP32, ¥5,499)
- 2026: Dòng BR200 (kiến trúc chiplet, VRAM có thể mở rộng)
Biren tập trung vào cải tiến ổn định cho phần cứng thế hệ hiện tại trong khi phát triển thiết kế chiplet thế hệ tiếp theo cho phép cấu hình bộ nhớ có thể mở rộng (32GB đến 128GB trên bo mạch đơn).
Lộ trình Innosilicon:
- 2025 Q2: Fantasy 3 (16GB GDDR6X, 14.2 TFLOPS FP32, ¥3,199)
- 2025 Q4: Fantasy Pro (24GB, 19.8 TFLOPS FP32, ¥4,499)
Cập nhật gia tăng của Innosilicon định vị họ như nhà cung cấp giá trị thay vì người dẫn đầu hiệu suất, duy trì giá quyết liệt trong khi đóng khoảng cách hiệu suất dần dần.
Phân tích ngành cho thấy GPU Trung Quốc sẽ đạt 75-80% hiệu suất NVIDIA thế hệ tương đương vào năm 2026, tăng từ 50-67% hiện tại. Việc đóng khoảng cách hiệu suất đến từ:
- Sự trưởng thành kiến trúc: Thiết kế thế hệ thứ hai và thứ ba giải quyết các nút cổ chai thế hệ đầu
- Tối ưu hóa phần mềm: Driver trích xuất hiệu quả cao hơn từ phần cứng hiện có
- Tiến bộ sản xuất: Truy cập vào các node quy trình cải tiến (chuyển đổi 7nm sang 5nm)
- Đầu tư hệ sinh thái: Áp dụng nhà phát triển rộng hơn thúc đẩy tập trung tối ưu hóa
Quỹ đạo sự trưởng thành của hệ sinh thái phần mềm phản ánh phát triển GPU AMD sớm 2015-2019. AMD Radeon đạt 92-95% hiệu suất NVIDIA thông qua cải tiến driver và sự trưởng thành của hệ sinh thái bất chấp phần cứng vẫn giống nhau về cơ bản. GPU Trung Quốc tuân theo mô hình tương tự, với việc bắt kịp phần mềm nhanh chóng cung cấp tăng hiệu suất vượt ra ngoài cải tiến phần cứng.
Đối với những người sáng tạo lập kế hoạch đầu tư phần cứng, quỹ đạo cho thấy:
- 2025: GPU Trung Quốc phù hợp cho các quy trình làm việc sản xuất đã thiết lập với thỏa hiệp nhỏ
- 2026: GPU Trung Quốc cạnh tranh với NVIDIA cho hầu hết các khối lượng công việc AI
- 2027+: GPU Trung Quốc có khả năng dẫn đầu trong các trường hợp sử dụng cụ thể (hiệu quả chi phí, tối ưu hóa khu vực)
Vận tốc phát triển tạo ra các cân nhắc về thời gian. Mua GPU Trung Quốc vào đầu năm 2025 cung cấp tiết kiệm chi phí ngay lập tức nhưng mua vào hệ sinh thái kém trưởng thành hơn. Chờ đợi đến giữa năm 2026 nắm bắt các nền tảng trưởng thành hơn nhưng từ bỏ 18 tháng tiết kiệm tiềm năng. Quyết định phụ thuộc vào khả năng chịu đựng rủi ro cá nhân và ưu tiên dòng tiền.
Tôi duy trì kiểm tra tích cực phần cứng GPU Trung Quốc thông qua cơ sở hạ tầng của Apatero.com, cập nhật tài liệu tương thích và điểm chuẩn khi driver và mô hình mới phát hành. Nền tảng cung cấp quyền truy cập vào phần cứng mới nhất mà không có cam kết mua hàng cá nhân, cho phép đánh giá liên tục mà không có rủi ro tài chính.
Kết luận và Khuyến nghị
GPU Trung Quốc đã chuyển từ những điều kỳ lạ thử nghiệm sang các phương án sản xuất khả thi cho các quy trình làm việc tạo AI 2022-2025. Phần cứng thế hệ hiện tại (Moore Threads S80, Biren BR104, Innosilicon Fantasy 2) cung cấp 51-67% hiệu suất RTX 4090 ở 25-40% chi phí, tạo ra đề xuất giá trị hấp dẫn cho những người sáng tạo có ý thức về ngân sách và những người phải đối mặt với hạn chế nguồn cung NVIDIA.
Khuyến nghị Hàng đầu theo Trường hợp Sử dụng:
GPU Trung Quốc Tốt nhất Toàn diện: Moore Threads MTT S80
- Giá: ¥3,299 ($455 USD)
- Hiệu suất: 62% của RTX 4090
- Tương thích: 95% quy trình làm việc ComfyUI
- Tính ổn định: Tỷ lệ thành công 99.8%
- Tốt nhất cho: Công việc sản xuất yêu cầu khả năng tương thích rộng
GPU Trung Quốc Hiệu suất Tốt nhất: Biren BR104
- Giá: ¥3,799 ($525 USD)
- Hiệu suất: 67% của RTX 4090
- Tương thích: 85% quy trình làm việc ComfyUI
- Tính ổn định: Tỷ lệ thành công 99.3%
- Tốt nhất cho: Tốc độ tối đa với đánh đổi ổn định có thể chấp nhận
GPU Trung Quốc Ngân sách Tốt nhất: Innosilicon Fantasy 2
- Giá: ¥2,999 ($415 USD)
- Hiệu suất: 51% của RTX 4090
- Tương thích: 85% quy trình làm việc ComfyUI
- Tính ổn định: Tỷ lệ thành công 99.6%
- Tốt nhất cho: Tạo AI cấp đầu vào với ngân sách hạn chế
Giá trị Tốt nhất Toàn diện: Moore Threads MTT S80
- Tỷ lệ giá/hiệu suất vượt trội (¥114 mỗi giây tạo)
- Hệ sinh thái trưởng thành với cập nhật driver hàng tháng
- Khả năng tương thích rộng nhất và hỗ trợ cộng đồng mạnh nhất
- GPU Trung Quốc đầu tiên được khuyến nghị cho hầu hết những người sáng tạo
Đối với những người sáng tạo quốc tế bên ngoài Trung Quốc, GPU Trung Quốc cung cấp các phương án thay thế đáng xem xét khi card NVIDIA gặp hạn chế nguồn cung, thuế nhập khẩu cao ngất hoặc phí bảo hiểm giá khu vực. Chạy kinh tế cho thị trường cụ thể của bạn xác định liệu các phương án Trung Quốc có cung cấp giá trị so với giá NVIDIA địa phương hay không.
Hệ sinh thái tiếp tục trưởng thành nhanh chóng. Cập nhật driver hàng tháng cải thiện hiệu suất 5-8% hàng quý và mở rộng khả năng tương thích dần dần. Những người sáng tạo đầu tư vào GPU Trung Quốc ngày hôm nay hưởng lợi từ các cải tiến liên tục trên suốt vòng đời phần cứng, tương tự như cách hiệu suất card NVIDIA cải thiện thông qua tối ưu hóa driver theo thời gian.
Tôi tạo công việc khách hàng sản xuất trên phần cứng Moore Threads S80 hàng ngày, xác thực khả năng khả thi của những card này cho các quy trình làm việc chuyên nghiệp vượt ra ngoài thử nghiệm sở thích. Tỷ lệ tương thích 95% có nghĩa là thay thế node thỉnh thoảng và khắc phục sự cố, nhưng các quy trình làm việc đã được thiết lập chạy đáng tin cậy một khi được cấu hình đúng cách.
Đối với những người sáng tạo đang xem xét áp dụng GPU Trung Quốc, tôi khuyến nghị:
- Bắt đầu với Moore Threads S80 cho điểm vào rủi ro thấp nhất
- Kiểm tra các quy trình làm việc cụ thể của bạn trước khi cam kết với sản xuất hàng loạt
- Duy trì truy cập NVIDIA (địa phương hoặc đám mây) cho khả năng tương thích tối đa
- Ngân sách thời gian cho tối ưu hóa vượt ra ngoài kỳ vọng cắm và chạy
- Tham gia cộng đồng GPU Trung Quốc để khắc phục sự cố và hỗ trợ tối ưu hóa
Cuộc cách mạng GPU Trung Quốc trong các khối lượng công việc AI song song với sự phục hưng GPU AMD trong game 2019-2023. Những gì bắt đầu như phương án thay thế ngân sách phát triển thành tùy chọn chính cạnh tranh thông qua đầu tư liên tục và sự trưởng thành của hệ sinh thái. GPU Trung Quốc năm 2025 đại diện cho điểm uốn đó nơi khả năng vượt qua ngưỡng từ thử nghiệm sang khả thi sản xuất.
Liệu GPU Trung Quốc có phù hợp với nhu cầu của bạn hay không phụ thuộc vào các quy trình làm việc cụ thể của bạn, hạn chế ngân sách, khả năng chịu đựng rủi ro và khả năng thời gian cho cấu hình. Nhưng việc bác bỏ chúng là không có khả năng hoặc không phù hợp cho công việc AI không còn phản ánh thực tế năm 2025. Những card này hoạt động, cung cấp giá trị cạnh tranh và đáng được xem xét nghiêm túc như các phương án thay thế NVIDIA cho những người sáng tạo chuyên nghiệp có ý thức về chi phí.
Sẵn Sàng Tạo Influencer AI Của Bạn?
Tham gia cùng 115 học viên đang thành thạo ComfyUI và tiếp thị influencer AI trong khóa học 51 bài đầy đủ của chúng tôi.
Bài Viết Liên Quan
25 Mẹo và Thủ Thuật ComfyUI Mà Người Dùng Chuyên Nghiệp Không Muốn Bạn Biết Năm 2025
Khám phá 25 mẹo ComfyUI nâng cao, kỹ thuật tối ưu hóa workflow và thủ thuật cấp độ chuyên nghiệp mà các chuyên gia sử dụng. Hướng dẫn đầy đủ về điều chỉnh CFG, xử lý batch và cải thiện chất lượng.
Xoay 360 Độ Nhân Vật Anime với Anisora v3.2: Hướng Dẫn Hoàn Chỉnh ComfyUI 2025
Làm chủ kỹ thuật xoay 360 độ nhân vật anime với Anisora v3.2 trong ComfyUI. Học cách thiết lập quy trình làm việc camera orbit, tính nhất quán đa góc nhìn và kỹ thuật hoạt ảnh turnaround chuyên nghiệp.
AnimateDiff + IPAdapter Combo trong ComfyUI: Hướng Dẫn Hoàn Chỉnh Về Hoạt Hình Nhất Quán Về Phong Cách 2025
Làm chủ kết hợp AnimateDiff + IPAdapter trong ComfyUI để tạo hoạt hình nhân vật nhất quán về phong cách. Quy trình làm việc hoàn chỉnh, kỹ thuật chuyển đổi phong cách, kiểm soát chuyển động và mẹo sản xuất.