What will I learn from this ai图像生成 tutorial?

使用梯度检查点、批量大小优化和内存管理技术解决RTX 4090上训练Flux LoRA时的OOM错误 This comprehensive guide covers all the essential concepts and practical steps you need to master ai图像生成.

Is this ai图像生成 tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand ai图像生成 concepts effectively.

How long does it take to complete this ai图像生成 tutorial?

This tutorial has an estimated reading time of 2 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more ai图像生成 tutorials and resources?

You can find more ai图像生成 tutorials in our AI图像生成 category section. We also recommend exploring our related articles and following our blog for the latest updates on ai图像生成 techniques and best practices.

/ AI图像生成 / 修复RTX 4090上Flux LoRA训练的内存不足错误

AI图像生成 • November 18, 2025 • 2 分钟阅读

修复RTX 4090上Flux LoRA训练的内存不足错误

使用梯度检查点、批量大小优化和内存管理技术解决RTX 4090上训练Flux LoRA时的OOM错误

你有一块24GB显存的RTX 4090，理论上足够进行本地Flux训练，但每次尝试都会因CUDA内存不足错误而崩溃。训练正常开始，可能运行几步，然后就停止了。你已经尝试减小批量大小，但仍然崩溃。是什么在消耗所有这些内存？

快速回答： RTX 4090上的Flux LoRA训练OOM发生是因为Flux的大型架构在默认训练设置下需要30-40GB显存。通过启用梯度检查点以计算换内存、将批量大小减少到1、使用512x512训练分辨率而非1024x1024、启用FP16或BF16的混合精度，以及使用内存高效的注意力实现来解决这个问题。这些设置允许在24GB上完成训练，同时产出高质量的LoRA。

关键要点：

梯度检查点对于24GB显卡上的Flux训练至关重要
512x512训练比1024x1024少用75%的内存
批量大小1配合梯度累积提供稳定训练
内存高效的注意力替代标准注意力实现大幅节省
优化器选择影响内存，8位Adam节省50%的优化器状态内存

当配置正确时，RTX 4090是Flux LoRA训练的优秀显卡。问题是默认训练配置假设显存超过24GB。使用正确的设置，你可以高效地训练高质量的Flux LoRA。让我们配置你的设置以实现稳定训练。

正在学习ComfyUI？加入其他115名学员

51节课涵盖ComfyUI + AI网红营销。早鸟价即将结束。

为什么Flux训练需要这么多显存？

了解训练期间什么消耗内存可以帮助你有效地优化。

模型大小

Flux的基础模型比SDXL或SD 1.5大得多。仅全精度模型权重就消耗约23GB。这在训练开始之前就已经是你4090的全部显存了。

训练期间，你需要内存用于模型、梯度、优化器状态和激活。这些中的每一个都可能接近模型本身的大小。

对于LoRA训练，你冻结基础模型，只训练小的适配器层。这有很大帮助，但不能消除流经完整模型的激活和梯度带来的内存压力。

激活内存

在前向传播期间，中间激活被存储以供反向传播使用。这些激活随批量大小和分辨率增长。

在1024x1024分辨率下，激活内存可能超过模型大小。单个训练批次可能仅激活就需要15-20GB。

这就是为什么训练在几步后崩溃。第一步可能适合，但内存碎片化和累积的状态导致后续步骤失败。

优化器状态

像Adam这样的优化器为每个可训练参数存储两个动量值。这使训练参数所需的内存翻倍。

对于完全微调，优化器状态内存等于2倍模型大小。LoRA训练有较小的优化器状态，因为训练的参数更少，但仍然相当可观。

梯度内存

每个可训练参数的梯度在反向传播期间需要存储。这给内存需求增加了可训练参数大小的完整副本。

结合模型、激活和优化器状态，默认Flux训练配置的总内存需求很容易达到40-50GB。

如何配置24GB显存的训练？

这些设置允许在RTX 4090上稳定训练Flux LoRA。

启用梯度检查点

梯度检查点是最具影响力的内存优化。它以20-30%更多计算时间为代价，减少60-70%的激活内存。

检查点不是在前向传播期间存储所有激活，而是丢弃大部分并在反向传播期间重新计算它们。内存使用变得几乎恒定，与模型深度无关。

在Kohya SS中，在训练配置中启用梯度检查点。该选项通常是一个简单的复选框或布尔参数。

在使用diffusers的自定义训练脚本中，在训练开始前调用model.enable_gradient_checkpointing()。

启用检查点后训练时间更长，但实际完成而不是崩溃。时间权衡是值得的。

将批量大小设置为1

批量大小直接乘以激活内存。批量大小4使用大约4倍于批量大小1的激活内存。

将批量大小设置为1。使用梯度累积来模拟更大的有效批量大小而不增加内存成本。

例如，批量大小1加上4个梯度累积步骤给出有效批量大小4，同时内存中只保持1个样本的激活。

梯度累积在更新权重之前在多个前向传播上累积梯度。内存使用保持在批量大小1不变，而训练动态近似于更大的批次。

降低训练分辨率

分辨率对内存有平方影响。加倍分辨率使激活内存翻四倍。

在512x512而不是1024x1024进行训练。这减少约75%的激活内存。

你可能担心512x512训练产生比原生分辨率更差的结果。实际上，在较低分辨率训练的LoRA能很好地迁移到更高分辨率推理。你正在训练的风格元素和概念仍然会在1024x1024生成中体现。

如果你需要针对特定用例进行更高分辨率训练，配合其他激进优化有时可以达到768x768。仔细测试并监控内存。

使用混合精度训练

混合精度对大多数操作使用FP16或BF16，同时保持关键值为FP32。

BF16推荐用于Ampere及更新的GPU。由于更大的动态范围，它比FP16更好地处理梯度。

在你的训练配置中启用混合精度。在Kohya SS中，从精度下拉菜单中选择BF16。在自定义脚本中，使用PyTorch的autocast上下文管理器。

混合精度大约减半模型权重和激活的内存。结合其他优化，它对24GB训练至关重要。

启用内存高效注意力

标准注意力实现分配大型中间张量。像xFormers或Flash Attention这样的内存高效变体分块处理注意力。

xFormers适用于训练且得到广泛支持。单独安装并在你的训练配置中启用它。

免费ComfyUI工作流

查找本文技术的免费开源ComfyUI工作流。开源很强大。

100%免费 MIT许可证可用于生产星标并试用

Flash Attention在最新GPU上提供更好的性能。检查你的训练框架是否支持它。

内存高效注意力可以减少80%或更多的注意力内存使用。对于像Flux这样的大型模型，这意味着节省几GB。

使用8位优化器

标准Adam优化器为每个参数存储两个FP32值。8位Adam将这些量化为INT8，将优化器内存减半。

安装bitsandbytes库并在你的训练设置中配置8位Adam。Kohya SS直接支持这个。自定义脚本需要从bitsandbytes导入8位优化器。

质量影响最小。在大多数情况下，8位Adam与全精度类似地收敛。

Kohya SS最佳设置是什么？

Kohya SS是最流行的Flux LoRA训练工具。这里是具体有效的配置。

针对不同训练类型的调整

角色LoRA可以使用较低的秩约16和较少的步骤约1000。角色特征相对容易捕获。

风格LoRA受益于较高的秩约32-64和更多的训练步骤约3000-4000。艺术风格有更多变化需要学习。

特定对象或姿势的概念LoRA差异很大。从角色设置开始，根据结果调整。

较高的秩需要更多显存。如果你将秩提高到64或更高，在训练期间监控内存使用。你可能需要将分辨率降低到448x448。

标注配置

好的标注能显著提高训练质量。Flux对自然语言描述响应良好。

使用BLIP或类似工具生成初始标注，然后手动完善。删除不准确的描述并添加你的触发词。

想跳过复杂性吗？ Apatero 无需技术设置即可立即为您提供专业的AI结果。

零设置相同质量 30秒内开始免费试用Apatero

无需信用卡

对于Flux，较长的标注通常比SD 1.5效果更好。包括超出主题的图像内容相关细节。

避免在你的数据集中使用重复的标注。在保持触发词一致的同时变化语言。

样本图像生成

在训练期间启用样本生成以监控进度。将样本频率设置为每100-200步。

样本生成增加内存开销。如果你在采样期间遇到OOM，增加梯度累积或减少样本频率。

样本告诉你训练何时进展顺利以及何时过拟合。当样本看起来不错但还没有开始退化时停止训练。

如何解决持续的OOM错误？

如果优化后崩溃继续，调查这些额外因素。

显存碎片化

PyTorch的内存分配器可能随时间碎片化显存，即使总空闲内存看起来足够也会导致失败。

使用PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128环境变量运行训练。这改变分配策略以减少碎片化。

在没有先前GPU操作的情况下全新开始有帮助。在训练前重启系统或至少终止所有Python进程。

监控内存使用

在训练期间观察显存使用以准确识别OOM何时发生。

在单独的终端中运行nvidia-smi -l 1以查看每秒更新的内存使用。

记录崩溃前的峰值使用。这告诉你需要减少多少。

如果崩溃立即发生，你的模型加载配置是错误的。如果崩溃在几步后发生，激活累积或碎片化是问题所在。

数据集问题

数据集中极高分辨率的图像可能在加载训练时导致OOM。

预处理你的数据集以确保所有图像都在训练分辨率或以下。当在512x512训练时，加载4K图像没有好处。

加入其他115名学员

51节课创建超逼真AI网红

AI Influencers created with ComfyUI - Ultra-realistic AI generated models for content creators

创建具有逼真皮肤细节、专业自拍和复杂场景的超逼真AI网红。一个套餐获得两门完整课程。ComfyUI Foundation掌握技术，Fanvue Creator Academy学习如何将自己营销为AI创作者。

立即占位 - $199

早鸟价结束倒计时：

天

小时

分钟

秒

完整课程

一次性付款

终身更新

节省$200 - 价格永久涨至$399

为我们首批学生提供早鸟折扣。我们不断增加更多价值，但您永久锁定$199价格。

适合初学者

可用于生产

始终更新

验证宽高比是合理的。非常宽或高的图像即使在相同总像素下处理时也可能需要更多内存。

其他使用显存的进程

在训练前检查是否有其他应用程序消耗GPU内存。

关闭网络浏览器、Discord和其他GPU加速应用程序。即使在其他地方消耗的几百MB也可能让你超出限制。

多个Python进程可能从之前失败的运行中保留显存。重启Python解释器或整个系统以获得干净的状态。

训练框架错误

偶尔，Kohya SS或其他训练工具中的错误会导致内存泄漏。

更新到你的训练工具的最新版本。内存相关的修复在更新中很常见。

检查工具的GitHub issues以获取与你症状匹配的报告。其他人可能已经找到了解决方法或修复。

对于想要在不管理这些技术限制的情况下训练LoRA的用户，Apatero.com提供使用专业级硬件的云端训练。你定义你的训练任务和数据集，平台自动处理内存管理和优化。

有哪些替代训练方法？

如果4090训练仍然有问题，考虑这些替代方案。

云训练

48GB+显存的云实例完全消除内存限制。

RunPod、Vast.ai和Lambda Labs按小时提供GPU实例。A100 80GB实例可以舒适地以全分辨率训练Flux LoRA。

典型LoRA训练运行的成本根据提供商和GPU类型为$5-15。这对于偶尔的训练需求是合理的。

上传你的数据集，运行训练，下载LoRA。对于大多数项目，整个过程需要1-2小时。

更低精度训练

实验性FP8训练比BF16进一步减少内存。一些社区工具支持这个。

FP8训练在质量方面不如BF16经过验证。在重要项目采用之前仔细测试结果。

额外30-40%的内存节省可以使以前不可能的配置变得可行。

更小的LoRA变体

LoKr、LoHa和类似的低秩适应使用比标准LoRA更少的内存。

这些变体对某些训练目标效果很好，但对于复杂的风格或概念可能表现不佳。

如果标准LoRA配置在优化后仍然有问题，尝试替代方案。

常见问题

为什么训练每次都在正好1步后崩溃？

这表明正在超过特定的内存阈值。前向传播适合，但在反向传播期间添加梯度超过显存。一起启用梯度检查点和降低分辨率，而不是逐步进行。

我可以在RTX 4090上以1024x1024训练吗？

理论上可以通过极端优化实现，包括最小秩、重度检查点和全部8位。实际上，512x512的结果足够好，内存挣扎不值得。在512x512训练并在1024x1024生成。

批量大小1产生的LoRA比更大批次差吗？

不会明显差。梯度累积提供等效的训练动态。有些人认为非常小的批次有稍多的噪声，但累积的梯度会平滑这一点。质量差异与其他因素相比最小。

我如何知道我的LoRA是否正确训练？

训练期间的样本图像显示进度。你应该在200-400步后看到你的触发词影响生成。完整的风格迁移通常在800-1000步出现。如果样本没有变化或立即退化，调整学习率。

为什么训练期间显存使用逐渐增加？

内存碎片化或泄漏导致逐渐增加。分配器创建无法重用的小碎片。设置max_split_size_mb环境变量并确保自定义代码中没有内存泄漏。

我应该使用xFormers还是原生PyTorch注意力？

xFormers对大多数训练场景提供更好的内存效率。原生注意力有时对特定架构效果更好。从xFormers开始，只有遇到问题时才切换。

我应该为Flux LoRA使用什么网络秩？

对于角色和简单概念从16开始，对于风格和复杂主题用32。较高的秩捕获更多细节，但需要更多内存和更多训练数据。首先测试较低的秩，因为它们通常效果很好。

我需要多少训练图像？

对于角色，10-20张好图像效果很好。对于风格，50-200张图像提供更好的覆盖。质量比数量更重要。标注良好、多样化的图像胜过数百张相似的照片。

OOM崩溃后我可以恢复训练吗？

如果你在训练配置中启用了检查点，可以。Kohya SS定期保存进度。修复内存设置后从最后一个检查点恢复。

有没有办法在开始前预测我的配置是否会OOM？

基于模型大小、批量大小、分辨率和优化的粗略估计。像accelerate estimate-memory这样的工具提供估计。但实际内存因实现细节而异，所以总是保守开始。

结论和推荐工作流程

RTX 4090上的Flux LoRA训练需要仔细的内存管理，但正确配置后会产生出色的结果。关键设置是梯度检查点、带累积的批量大小1、512x512分辨率和混合精度训练。

从本指南中提供的保守配置开始。在提交完整训练运行之前，运行100-200步的短测试以验证稳定性。

在训练期间监控你的样本。当LoRA捕获了你的目标概念，在质量因过度训练开始退化之前停止。

如果你持续与内存限制作斗争或想要比24GB允许的更高质量设置，云训练提供了实用的替代方案。像Apatero.com这样的服务使这变得可访问，而不需要自己管理云基础设施。

你的RTX 4090是本地LoRA训练的能干硬件。通过适当的配置，你可以为你的特定角色、风格和概念训练自定义Flux LoRA，同时将一切保留在你自己的机器上。

准备好创建你的AI网红了吗？

加入115名学生，在我们完整的51节课程中掌握ComfyUI和AI网红营销。