/ AI 图像生成 / xDiT 并行多 GPU 工作设置:完整 2025 指南
AI 图像生成 6 分钟阅读

xDiT 并行多 GPU 工作设置:完整 2025 指南

了解如何使用 xDiT 为 Flux 和 SDXL 模型设置并行多 GPU 推理。通过正确配置和优化获得 3-8 倍更快的生成速度。

xDiT 并行多 GPU 工作设置:完整 2025 指南 - Complete AI 图像生成 guide and tutorial

在单个 GPU 上运行 Flux 或 SDXL 等 AI 图像生成模型,当您在紧张的期限内从事专业项目时感到令人痛苦的缓慢。您已经投资了多个 GPU,但大多数推理框架仍然将它们视为分开的岛屿,而不是结合它们的力量。

快速答案: xDiT 是一个开源框架,为扩散变压器模型(如 Flux 和 SDXL)启用跨多个 GPU 的并行推理。通过使用序列并行化、PipeFusion 和 CFG 并行化技术在 2-8 个 GPU 上分配计算,它可以提供 3-8 倍的速度改进,而不损失质量。

主要要点:
  • xDiT 通过使用多个 GPU 并行加速 Flux 和 SDXL 推理 3-8 倍
  • 适用于 2-8 个 GPU 并支持针对不同模型类型的各种并行化策略
  • 使用适当的 Python 和 CUDA 环境安装需要 10-15 分钟
  • 最佳结果来自于匹配并行化策略与您的特定 GPU 配置
  • 与单 GPU 推理相比没有质量下降

虽然像 Apatero.com 这样的平台提供即时的多 GPU 加速推理而无需任何设置,但了解 xDiT 可以让您完全控制本地基础设施,并帮助为大容量生成工作负载优化成本。

什么是 xDiT,为什么要使用它?

xDiT 代表 xFuser 扩散变压器,由研究人员开发,专注于现代扩散模型的高效并行化。与简单地在 GPU 上复制模型的传统数据并行化不同,xDiT 实现了专门为 Flux 和 SDXL 等模型中使用的变压器架构设计的高级并行化策略。

该框架解决了 AI 图像生成中的一个根本问题。当您需要为客户项目、数据集创建或测试不同的提示来生成数百或数千张图像时,单 GPU 推理成为瓶颈。传统解决方案(如批处理)有帮助,但不会减少单个图像生成的时间。

xDiT 采用不同的方法,将单个图像的计算拆分到多个 GPU 中。这意味着每个图像生成得更快,而不仅仅是更多图像并行生成。对于周转时间很重要的专业工作流,这种区别使 xDiT 特别有价值。

主要优点:
  • 速度倍增: 4 个 GPU 上快 3.4 倍,Flux 模型上 8 个 GPU 上快 8 倍
  • 内存效率: 在 GPU 之间分配模型权重以处理更大的模型
  • 零质量损失: 与单 GPU 推理数学等效的输出
  • 灵活配置: 适用于 2、4、6 或 8 GPU 设置
  • 成本优化: 最大化现有多 GPU 硬件的投资回报率

该框架实现了三种主要的并行化技术。序列并行化将令牌序列拆分到 GPU 中,对高分辨率图像特别有效。PipeFusion 创建一条管道,其中不同的变压器层同时在不同的 GPU 上执行。CFG 并行化并行运行无分类器的指导计算,对使用 CFG 的模型产生双倍的吞吐量。

如何安装和配置 xDiT?

设置 xDiT 需要对环境准备的仔细关注,但一旦您了解依赖项,该过程就遵循一个简单的序列。

开始之前: 确保您拥有 Python 3.8 或更新版本、CUDA 11.8 或 12.1,以及至少 2 个 NVIDIA GPU,每个 16GB+ VRAM。驱动程序版本应为 520+ (CUDA 11.8) 或 530+ (CUDA 12.1)。

从创建专用 Python 环境开始,以避免与现有安装冲突。使用 conda 或 venv 可以防止混合环境中出现的依赖问题。打开您的终端并创建专门为 xDiT 工作的新环境。

首先安装 PyTorch,因为 xDiT 建立在它之上。PyTorch 版本必须与您的 CUDA 版本完全匹配。对于 CUDA 12.1,使用 PyTorch 2.1.0 或更新版本与相应的 CUDA 构建。通过检查 PyTorch 是否可以在继续进行之前检测到所有 GPU 来验证安装。

从 GitHub 克隆 xDiT 存储库并在开发模式下安装它。这种方法让您可以访问最新的更新并根据需要修改配置文件。导航到克隆的目录并使用适当的标志为您的系统运行设置脚本。

安装过程下载额外的依赖项,包括 Diffusers、Transformers 和 Accelerate 库。这些处理模型加载、标记化和 xDiT 利用的分布式训练实用程序。根据您的互联网连接和系统规格,完整安装通常需要 10-15 分钟。

在运行 xDiT 之前,使用环境变量配置 GPU 可见性。该框架需要知道要使用哪些 GPU 以及如何在它们之间进行通信。设置 CUDA_VISIBLE_DEVICES 仅包含您想要用于并行推理的 GPU。

对于 4 GPU 设置,您的基本配置看起来很简单。您将指定并行进程的数量、并行化方法以及要使用的 GPU。该框架处理跨设备分割工作和同步结果的复杂编排。

首先使用 2 个 GPU 用简单的 Flux 或 SDXL 生成测试您的安装。这验证所有组件在扩展到更大的 GPU 计数之前进行正确通信。在测试运行期间监视 GPU 利用率,以确认所有设备显示活跃计算而不是空闲。

应该选择什么并行化策略?

选择正确的并行化方法取决于您的特定硬件配置、模型选择和生成要求。每种策略在速度、内存使用和通信开销之间提供不同的权衡。

序列并行化最适合于长令牌序列的高分辨率图像生成。当生成 1024x1024 或更大的图像时,序列并行化在 GPU 中有效分配注意力计算。这种方法在 4-8 GPU 中表现出色,并显示直到某些 GPU 计数的线性缩放。

PipeFusion 在您拥有非对称 GPU 设置或想要最大化标准分辨率吞吐量时表现出色。管道方法允许不同的变压器层同时处理不同的图像。虽然单个图像延迟可能不会像序列并行化那样改进,但总体吞吐量会大幅增加。

CFG 并行化将有效的 GPU 计数增加一倍,用于使用无分类器指导的模型。由于 CFG 需要每个去噪步骤的两个前向传递,在单独的 GPU 上并行运行它们几乎可以将生成时间减少一半。此策略与序列并行化结合可以获得最大加速。

混合方法结合了多种并行化方法以获得最佳性能。常见配置在 4 个 GPU 上使用序列并行化,同时采用 CFG 并行化。此组合可以在 8 GPU 系统上为启用 CFG 的 Flux 模型提供 6-8 倍的加速。

在您的特定硬件上测试不同的配置可以揭示最佳设置。从 2 个 GPU 上的序列并行化开始,测量加速,然后缩放到 4 个 GPU。使用相同的提示和设置将 PipeFusion 和混合方法的结果进行比较。

选择策略时,请考虑您的典型工作负载模式。许多图像的批生成更受益于 PipeFusion,而对单个高分辨率图像的迭代细化在序列并行化中表现更好。将策略与实际使用模式相匹配,而不是理论基准。

GPU 之间的通信开销随着更多设备而增加,创建了一个收益递减的点。大多数设置在 Flux 模型上的 4-6 GPU 和 SDXL 上的 2-4 GPU 处看到最佳效率。超过这些计数,协调开销开始吞噬并行化优势。

xDiT 性能如何跨不同设置进行比较?

真实世界的基准显示基于 GPU 计数、模型类型和配置选择的显著性能变化。理解这些模式可以帮助您优化特定设置以获得最大效率。

Flux.1 Dev 模型展现了与 xDiT 令人印象深刻的缩放特性。在单个 H100 GPU 上,生成 1024x1024 图像需要大约 8.2 秒,有 28 个去噪步骤。使用序列并行化添加第二个 GPU 会将其减少到 4.8 秒,仅用一张额外的卡就实现了 1.7 倍的加速。

扩展到 4 个 GPU 可提供 2.4 秒的生成时间,代表与单 GPU 基线相比 3.4 倍的改进。效率仍然很高,因为通信开销相对于计算时间保持可管理。8 个 GPU 将生成时间推低至 1.4 秒,尽管每个 GPU 的效率略微降低,但实现了 5.8 倍的加速。

SDXL 由于其架构和每个步骤的较低计算要求,显示不同的缩放模式。单个 A100 以 20 个步骤在大约 3.2 秒内生成 1024x1024 图像。两个 GPU 会将其减少到 2.1 秒,而 4 个 GPU 实现 1.3 秒,代表 2.5 倍的加速。

内存带宽成为高端 GPU 上 SDXL 的限制因素。该模型的计算要求不会完全饱和现代 GPU,因此添加更多设备的回报明显减少比 Flux 更快。对于 SDXL 工作负载,最佳位置通常位于 2-4 GPU。

分辨率显著影响并行化效率。更高的分辨率(如 2048x2048)显示更好的缩放,因为增加的令牌计数提供了更多工作来在 GPU 中分配。2048x2048 Flux 生成可能在 8 个 GPU 上实现 7.2 倍的加速,相比 1024x1024 图像的 5.8 倍。

批量大小与并行化策略以复杂的方式相互作用。跨 4 个 GPU 的序列并行化生成 4 个图像与在 1 个 GPU 上生成 4 个批量图像从根本上不同。顺序批处理通常证明内存更有效,而并行生成为单个图像提供较低的延迟。

CFG 规模影响性能,因为更高的 CFG 值增加了每个步骤的计算。使用 CFG 并行化,这种额外的计算以并行方式进行。无论 CFG 规模如何,CFG 并行化的加速保持一致,与随着更高 CFG 值而降级的其他优化不同。

性能优化建议:
  • 在所有设备之间匹配 GPU 内存速度以获得一致的性能
  • 使用 PCIe 4.0 或 NVLink GPU 之间的连接以最小化通信瓶颈
  • 监视 GPU 利用率以确定计算或通信是否限制您的设置
  • 测试您的特定提示和设置,因为结果随内容复杂性而变化

考虑像 Apatero.com 这样的平台通过提供预优化的多 GPU 基础设施来消除管理这些复杂性能权衡的需要,该基础设施自动为每个生成请求选择最佳并行化策略。

xDiT 优化的最佳实践是什么?

最大化 xDiT 性能需要关注配置细节、系统调优和基本安装之外的工作负载管理。

内存分配策略显著影响多 GPU 效率。设置 PYTORCH_CUDA_ALLOC_CONF 以使用具有适当块大小的本机分配器。这可以防止内存碎片化,即使跨 GPU 存在足够的总内存也会导致内存不足错误。

使用设备映射将您的模型固定到特定 GPU,而不是依赖自动放置。显式设备控制防止意外的模型组件放置,从而造成通信瓶颈。根据您的并行化方法战略性地映射 UNet 或变压器块。

在使用 PyTorch 2.0 或更新版本时为模型的前向传递启用 Torch 编译。编译针对您的特定 GPU 架构优化了计算图,减少了内核启动开销并改善了内存访问模式。第一次运行需要编译时间较长,但后续生成会显著受益。

使用 bfloat16 或 float16 的混合精度降低内存使用并增加现代 GPU 上的吞吐量。Flux 和 SDXL 都使用最小的质量影响很好地处理混合精度。测试您的特定用例,因为某些提示类型显示积极量化的轻微质量下降。

免费ComfyUI工作流

查找本文技术的免费开源ComfyUI工作流。 开源很强大。

100%免费 MIT许可证 可用于生产 星标并试用

梯度检查点通过在向后传递期间重新计算中间激活来交易计算以用于内存。虽然 xDiT 专注于推理,但某些实现在前向传递期间使用检查点技术来减少内存使用。这允许在可用的 VRAM 中拟合更大的模型或更高的分辨率。

多节点设置中 GPU 之间的网络配置值得仔细关注。单节点多 GPU 系统通过 PCIe 或 NVLink 与可预测的延迟进行通信。多节点配置需要高带宽、低延迟互连(如 InfiniBand)才能获得可接受的性能。

在生成期间监视您的系统指标以确定瓶颈。GPU 利用率低于 90%表示通信或 CPU 预处理限制了性能。GPU 之间的不均匀利用表明并行化配置中的负载不平衡。

在可能的情况下将相似的提示批处理在一起,以受益于内核融合和减少的开销。生成 10 个相似提示的变体显示比 10 个完全不同的提示更好的 GPU 效率,因为缓存效果和减少的内核编译。

在生成之间在 GPU 内存中缓存模型权重,而不是从磁盘或系统 RAM 重新加载。初始加载需要时间,但随后的生成立即开始。这对于涉及许多具有相同基本模型的生成的工作流最为重要。

调整您的调度器设置以平衡质量和速度。诸如 Euler 或 DPM++ 等一些调度器相比 DDIM 或 PNDM 需要更少的步骤来获得可比的质量。将步骤从 28 减少到 20 可能会保持质量,同时将吞吐量提高 40%。

保持 CUDA 驱动程序、PyTorch 和 xDiT 版本同步。版本不匹配会导致微妙的性能降级或稳定性问题。同时更新所有组件而不是零碎地更新以维持兼容性。

如何解决常见的 xDiT 问题?

即使进行了仔细的设置,多 GPU 配置也会遇到对系统故障排除方法做出反应的可预测的问题。

尽管看起来有足够的总 VRAM,内存不足的错误通常表示内存碎片化或低效的模型分区。在生成期间检查每个 GPU 的实际内存使用情况,而不是依赖理论计算。如果任何单个 GPU 接近其内存限制,则减少批量大小、图像分辨率或模型精度。

GPU 之间的通信超时表示网络配置问题或驱动程序问题。验证所有 GPU 可以使用对等点对点内存访问进行通信。运行 nvidia-smi topo -m 以检查互连拓扑并确保 GPU 通过适当的高速链接连接。

比预期更慢的性能通常由 CPU 预处理瓶颈引起。在某些配置中,文本编码、VAE 编码和调度器计算默认在 CPU 上运行。显式将这些组件移动到 GPU 并监视速度是否改进。

不均匀的 GPU 利用率表示并行化策略中的负载平衡问题。如果序列拆分不与实际计算要求对齐,序列并行化可能会创建不平衡的负载。调整拆分点或尝试不同的并行化方法。

在生成期间挂起或冻结指向 GPU 间通信中的死锁。检查所有进程初始化是否正确并达到同步点。启用调试日志以确定进程停滞的位置。

与单 GPU 结果相比的质量降级表明并行化实现中的数值精度问题。验证您在所有 GPU 中使用相同的精度(fp16、bf16 或 fp32)。检查随机种子初始化在设备上是否相同,以获得可重复的结果。

安装失败通常源于 CUDA 版本不匹配或缺少的依赖项。创建干净的虚拟环境并按正确的顺序安装组件。PyTorch 必须与您的 CUDA 版本匹配,xDiT 必须与您的 PyTorch 版本匹配。

在重型多 GPU 负载下驱动程序崩溃表示电源分配或冷却问题。多 GPU 系统消耗大量电力并产生大量热量。确保足够的电源供应能力和气流,以防止热节流或稳定性问题。

运行之间的不一致结果表明生成管道中的非确定性操作。显式设置所有随机种子并在 PyTorch 中禁用任何非确定性算法。一些优化牺牲了确定性以换取速度。

想跳过复杂性吗? Apatero 无需技术设置即可立即为您提供专业的AI结果。

零设置 相同质量 30秒内开始 免费试用Apatero
无需信用卡

模型加载失败通常源于不正确的模型路径或不兼容的模型格式。验证您的模型文件与 xDiT 期望的格式匹配。某些模型需要从 Diffusers 格式转换为特定的 xDiT 兼容结构。

对于复杂问题,xDiT GitHub 存储库的问题跟踪器包含许多常见问题的解决方案。在开设新问题之前搜索您的特定错误消息,因为其他人可能遇到过类似的情况。

哪些模型最适合 xDiT?

xDiT 的有效性在不同的模型架构中差异很大,基于变压器的扩散模型显示最强的优势。

Flux.1 Dev 和 Flux.1 Schnell 代表 xDiT 并行化的理想用例。这些模型的变压器架构清晰地在 GPU 中拆分,其高计算要求每个步骤最大化 GPU 利用率。12B 参数计数意味着从在设备之间分配权重获得大量的内存优势。

SDXL 适用于 xDiT,尽管显示的加速少于 Flux。该模型的 UNet 架构与交叉关注层使用序列并行化有效并行化。与 Flux 相比,SDXL 的较低的每步计算意味着收益递减在较低的 GPU 计数处开始。

稳定扩散 1.5 和 2.1 从 xDiT 并行化中获得最小的优势。这些较小的模型已经在单个 GPU 上快速运行,多 GPU 设置的通信开销超过了并行化的加速。使用像 xFormers 这样的优化进行单 GPU 推理通常表现得更好。

基于 Flux 或 SDXL 架构的自定义微调模型继承其基本模型的并行化特性。Flux LoRA 或完整的微调与基本模型一样受益于 xDiT。确保您的自定义模型保持兼容的架构,以便并行化可以正常工作。

未来的基于变压器的扩散模型可能会显示更好的 xDiT 缩放。随着模型变大并采用纯变压器架构,并行化优势增加。向更大模型的趋势使多 GPU 推理能力越来越有价值。

ControlNet 和其他调节模型为并行化增加了复杂性。额外的调节网络必须与基础模型一起在 GPU 中适当分配。由于额外的同步所需,某些 ControlNet 实现显示的加速减少。

具有变压器组件的升级模型在处理高分辨率输入时从 xDiT 受益。来自 4K 或 8K 图像的大令牌计数创建了大量的并行化机会。当单个 GPU 与激活内存要求相争奋时,内存分配变得至关重要。

虽然像 Apatero.com 这样的平台支持所有这些具有优化多 GPU 推理的模型自动,但理解哪些模型从 xDiT 最受益有助于优化本地基础设施投资。

如何将 xDiT 集成到生产工作流中?

在生产环境中部署 xDiT 需要考虑基本功能之外的事项,以确保可靠性、可伸缩性和可维护性。

使用 Docker 的基于容器的部署在开发和生产环境中提供一致性。创建一个 Docker 映像,预配置所有依赖项、CUDA 库和 xDiT 安装。这消除了与环境相关的问题,并简化了部署到多台计算机的流程。

xDiT 周围的 API 包装器服务允许与现有应用程序集成,无需紧密耦合。FastAPI 或 Flask 端点接受生成请求、管理 xDiT 过程并返回结果。此架构允许独立于 GPU 基础设施扩展 API 层。

基于队列的体系结构处理变化的负载并防止过载 GPU 资源。RabbitMQ、Redis Queue 或 Celery 管理传入的生成请求并将其分配到可用的 xDiT 工作人员。多个工作进程在共享 GPU 资源的同时并行处理请求。

监控和日志记录在生产多 GPU 设置中变得至关重要。跟踪每个 GPU 利用率、内存使用、生成时间和失败率。Prometheus 和 Grafana 为 GPU 基础设施提供了出色的监控堆栈。对异常进行警报,然后再影响用户。

加入其他115名学员

51节课创建超逼真AI网红

创建具有逼真皮肤细节、专业自拍和复杂场景的超逼真AI网红。一个套餐获得两门完整课程。ComfyUI Foundation掌握技术,Fanvue Creator Academy学习如何将自己营销为AI创作者。

早鸟价结束倒计时:
--
:
--
小时
:
--
分钟
:
--
完整课程
一次性付款
终身更新
节省$200 - 价格永久涨至$399
为我们首批学生提供早鸟折扣。我们不断增加更多价值,但您永久锁定$199价格。
适合初学者
可用于生产
始终更新

优雅的错误处理可防止分布式 GPU 系统中的级联故障。使用指数退避为瞬时错误实现重试逻辑。检测并隔离故障的 GPU,以防止它们降低整体系统性能。

跨多个 xDiT 实例的负载平衡最大化了硬件利用率。如果您运行多台多 GPU 设置的计算机,分发请求以平衡负载并最小化队列深度。在路由时考虑请求特性(如分辨率和步骤计数)。

模型版本控制和热交换允许在不停机的情况下更新模型。维护多个模型版本并适当路由请求。在交换机流量以启用零停机更新之前在空闲工作人员上预加载新模型。

请求级别的成本跟踪通知定价和优化决策。基于实际运行时计算每个生成的 GPU 小时数。计算空闲时间、初始化开销和失败的请求以准确成本核算。

安全考虑包括输入验证、速率限制和访问控制。验证提示内容以防止注射攻击或滥用。实现针对每个用户的速率限制以防止资源耗尽。根据您的用例适当认证 API 访问。

备份和灾难恢复程序可防止硬件故障。维护冗余存储中的模型检查点和配置。记录常见故障场景(如 GPU 故障或网络中断)的恢复程序。

集成测试验证从 API 请求到最终图像的整个管道。测试极端情况,如最大分辨率、最小分辨率、无效提示和超时场景。确保错误消息提供可操作的信息,而不会暴露敏感的系统详细信息。

在现实的负载下进行性能测试可在生产部署前揭示瓶颈。生成与预期的峰值使用模式相匹配的负载。测量压力下的延迟、吞吐量和资源利用率。

考虑像 Apatero.com 这样的专业平台自动处理所有这些生产问题,而无需管理自己基础设施的操作开销,从而提供企业级可靠性。

什么硬件配置优化 xDiT 性能?

为 xDiT 部署选择适当的硬件涉及平衡 GPU 选择、互连拓扑和系统配置。

GPU 选择极大地影响性能和成本效率。NVIDIA H100 GPU 为 Flux 模型提供最高的每个 GPU 性能,80GB 的内存启用大批量大小和高分辨率。A100 GPU 以较低成本提供了出色的性能,而 RTX 4090 GPU 为较小的部署提供了强大的消费级选项。

每个 GPU 的内存容量确定最大分辨率和批量大小功能。24GB 卡(如 RTX 4090 或 A5000)舒适地处理标准 1024x1024 生成。更高的分辨率或更大的批量大小受益于 40GB A100 或 80GB H100 卡。

GPU 之间的互连拓扑显著影响通信开销。NVLink 在支持的 GPU 之间提供 600GB/s 带宽,最小化并行化开销。PCIe 4.0 x16 每个方向提供 32GB/s,足以满足中等 GPU 计数。避免混合 NVLink 和 PCIe 连接,因为这会产生性能不平衡。

系统内存和 CPU 经常被忽视,但对于预处理和模型加载很重要。256GB+ 系统 RAM 使缓存多个模型而不交换成为可能。具有高核心计数(32+ 个核心)的现代 CPU 为多个工作人员有效处理并发预处理。

存储子系统性能影响模型加载和结果保存。NVMe SSD 具有 5GB/s+ 读取速度,最小化模型加载时间。RAID 配置为生产部署提供冗余,其中停机成本金钱。

电源供应和冷却在负载下确定持续性能。多 GPU 系统在全负载下可以吸取 2000+ 瓦。带有 80+ Titanium 额定值的企业电源供应最大化效率。足够的冷却可防止热节流,这会不一致地降低性能。

网络基础设施对于多节点部署很重要。25GbE 或 100GbE 节点之间的连接防止分布式配置中的网络瓶颈。InfiniBand 为紧密耦合的多节点设置提供了更低的延迟。

物理放置考虑包括机架空间、重量和电缆管理。密集的 GPU 服务器集中计算能力,但会产生大量热量并需要仔细的气流规划。电缆管理可防止意外断开连接,从而导致训练中断。

预算优化配置可能使用 4x RTX 4090 在工作站形式因素中。这为 8000-10000 美元的 GPU 成本提供了出色的绝对性能。更温和的 2x RTX 4080 设置在标准桌面中以 2000-2500 美元提供了良好的性能。

企业配置倾向于 DGX 系统或自定义服务器中的 8x A100 或 H100 GPU。这些提供最大的性能和可靠性,但成本为 100,000-300,000 美元。在高利用率率下,每代成本变得具有竞争力。

使用 AWS、GCP 或 Azure P 系列实例的基于云的部署提供了无资本支出的灵活性。成本范围从 3-30 美元/GPU 小时,取决于实例类型。预留实例或现货定价为可预测的工作负载降低了成本。

常见问题

xDiT 是否适用于 RTX 4090 等消费级 GPU?

是的,xDiT 与消费者 NVIDIA GPU(包括 RTX 4090、4080 甚至 4070 Ti)配合出色。RTX 4090 的 24GB 内存和高计算性能使其对 Flux 模型并行化特别有效。相比单 GPU 推理,您可以使用 2-4 个 RTX 4090 实现 3-4 倍的加速,尽管您不会看到与 A100 或 H100 等数据中心 GPU 相同的绝对性能。

我能否在同一 xDiT 设置中混合不同的 GPU 模型?

混合 GPU 模型在技术上是可能的,但不建议获得最佳性能。xDiT 并行化在所有 GPU 具有相同规格(包括内存容量、计算能力和内存带宽)时效果最好。使用混合 GPU 会创建性能瓶颈,因为系统以最慢设备的速度运行。如果您必须混合 GPU,请配对具有相似性能特征的模型(如 RTX 4080 和 4090),而不是差异很大的卡。

xDiT 与 ComfyUI 的标准推理相比有多快?

xDiT 根据您的 GPU 计数和配置,比标准 ComfyUI 单 GPU 推理提供 3-8 倍更快的生成。使用 4 个 GPU,在 1024x1024 分辨率下,Flux 模型的加速约为 3.4 倍。确切的改进取决于模型、分辨率、步骤计数和并行化策略。ComfyUI 自定义节点可以集成 xDiT 功能,结合 ComfyUI 的工作流灵活性与 xDiT 的多 GPU 加速。

xDiT 的并行推理是否会产生与单 GPU 推理不同的图像?

否,当使用相同的模型、提示、种子和设置时,xDiT 产生与单 GPU 推理数学等效的结果。并行化在 GPU 之间分配计算,但维持相同的数学运算。您可以通过在单 GPU 和多 GPU 设置上生成相同的提示并进行相同的种子来验证这一点,然后像素像素地比较输出图像。

xDiT 与 Flux 模型需要什么最低 GPU 内存?

当在 2 个 GPU 中使用序列并行化时,Flux.1 Dev 需要每个 GPU 大约 20-24GB。随着更多 GPU,每个 GPU 的内存要求减少,因为模型权重在设备中分布。RTX 4090(24GB)、A5000(24GB)或更好的卡轻松处理 Flux。较低内存卡(如 16GB GPU)可以使用 Flux.1 Schnell 或较低的分辨率,但在 1024x1024 分辨率下可能对 Flux.1 Dev 有困难。

xDiT 可以加速 LoRA 模型推理吗?

是的,xDiT 加速了基于 Flux 或 SDXL 架构的 LoRA 模型,就像基本模型一样。LoRA 权重加载在基本模型之上,并且并行化应用于组合模型。您将使用 LoRA 模型看到类似的加速百分比,就像基本模型一样。多个 LoRA 可以堆叠在并行化的基本模型上,尽管每个额外的 LoRA 增加了轻微的开销。

xDiT 与 ControlNet 和 IP-Adapter 兼容吗?

xDiT 支持 ControlNet 和 IP-Adapter,有一些警告。这些调节模型必须与基础模型一起在 GPU 中适当分配。调节输入所需的额外同步可能会略微减少与仅基本模型推理相比的加速。当前实现在 4 个 GPU 上使用 ControlNet 显示 2-3 倍的加速,与仅基本模型的 3-4 倍相比。

从头开始设置 xDiT 需要多长时间?

对于熟悉 Python 环境和 GPU 计算的人,完整的 xDiT 设置需要 30-60 分钟。这包括创建虚拟环境、安装依赖项、克隆存储库、下载模型权重和运行初始测试。初次用户应该分配 2-3 小时来理解概念、故障排除任何问题并针对特定硬件优化其配置。

xDiT 是否支持 Windows 或仅支持 Linux?

xDiT 官方支持 Linux 环境,尤其是 Ubuntu 20.04 和 22.04 与 CUDA 11.8 或 12.1。Windows 支持通过启用了 GPU 传递的 Windows 子系统 2(WSL2)存在。本机 Windows 支持保持实验性,具有各种兼容性问题。对于生产使用,强烈建议使用 Linux。开发人员积极工作以改进 Windows 兼容性,但 Linux 目前提供了最稳定的体验。

我可以在云 GPU 实例上运行 xDiT 推理吗?

绝对,xDiT 在来自 AWS、GCP、Azure 和 Lambda 实验室或 RunPod 等专门提供商的云 GPU 实例上表现出色。多 GPU 实例(如 AWS P4d 或 P5)为 xDiT 提供了理想的环境。云部署消除了购买 GPU 的资本成本,同时允许您根据需求扩展使用。考虑现货实例以节省成本,尽管要意识到在较长的生成会话期间可能出现中断。

最大化您的多 GPU 图像生成工作流

设置 xDiT 用于并行多 GPU 推理将您的图像生成功能从缓慢的单 GPU 处理转换为生产就绪的速度。3-8 倍的性能改进使以前受生成时间限制的专业工作流实际可行。

xDiT 的成功需要仔细关注安装、适当的并行化策略选择和系统优化。从 2 GPU 配置开始以学习系统,然后根据工作负载需求扩展到 4 个或更多 GPU。监视性能指标以确定瓶颈并相应地调整配置。

多 GPU 基础设施和 xDiT 设置对高容量生成工作负载的投资回报率。客户项目、数据集创建和迭代细化都受益于更快的单个生成时间。快速测试多个提示变体的能力加速了创意迭代周期。

请记住,像 Apatero.com 这样的平台提供生产就绪的多 GPU 加速推理,而无需管理自己基础设施的复杂性,为重视时间而不是基础设施控制的用户提供专业结果。

对于运行专用 GPU 基础设施的开发人员和企业,xDiT 代表了用于并行化扩散变压器推理的领先开源解决方案。积极发展的社区继续改进性能并扩展模型支持,确保 xDiT 在新模型出现时保持相关性。

立即开始您的 xDiT 之旅,进行简单的 2 GPU 测试,测量结果,并在您亲身体验到戏剧性速度改进时扩大规模。AI 图像生成的未来需要多 GPU 并行化,xDiT 将这种力量掌握在您的手中。

准备好创建你的AI网红了吗?

加入115名学生,在我们完整的51节课程中掌握ComfyUI和AI网红营销。

早鸟价结束倒计时:
--
:
--
小时
:
--
分钟
:
--
立即占位 - $199
节省$200 - 价格永久涨至$399