What will I learn from this comfyui tutorial?

在ComfyUI中掌握WAN 2.2多阶段KSampler工作流程，实现卓越的图像转视频质量。完整的2-3 KSampler技术、参数优化和生产工作流程。 This comprehensive guide covers all the essential concepts and practical steps you need to master comfyui.

Is this comfyui tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand comfyui concepts effectively.

How long does it take to complete this comfyui tutorial?

This tutorial has an estimated reading time of 10 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more comfyui tutorials and resources?

You can find more comfyui tutorials in our ComfyUI category section. We also recommend exploring our related articles and following our blog for the latest updates on comfyui techniques and best practices.

/ ComfyUI / WAN 2.2 多KSampler图像转视频：完整质量提升指南 2025

ComfyUI • October 12, 2025 • 10 分钟阅读

WAN 2.2 多KSampler图像转视频：完整质量提升指南 2025

在ComfyUI中掌握WAN 2.2多阶段KSampler工作流程，实现卓越的图像转视频质量。完整的2-3 KSampler技术、参数优化和生产工作流程。

我在为客户项目排查质量问题时发现了多 KSampler WAN 工作流,效果提升如此显著,以至于我立即基于它重建了整个图像转视频管线。单 KSampler WAN 生成能产生不错的结果,但使用 2-3 个 KSampler 的多阶段采样序列能产生明显更流畅的运动、更好的细节保留,以及更具时间稳定性的视频,看起来专业而非实验性质。

在本指南中,您将获得完整的 ComfyUI 多 KSampler WAN 2.2 工作流,包括两阶段和三阶段采样配置、每个阶段的参数优化、去噪强度关系、VRAM 管理技术,以及在质量提升与增加的处理时间之间取得平衡的生产工作流。

为什么多阶段采样优于单 KSampler 的 WAN

标准 WAN 2.2 图像转视频工作流使用一个 KSampler 从源图像生成视频。这虽然可行,但模型试图同时完成两个具有挑战性的任务:建立运动模式和保持图像保真度。多阶段采样将这些关注点分散到多个 KSampler 中,让每个阶段专注于特定的质量方面。

正在学习ComfyUI？加入其他115名学员

51节课涵盖ComfyUI + AI网红营销。早鸟价即将结束。

单 KSampler 工作流:

一次采样过程处理所有事情(运动、细节、时间一致性)
模型平衡相互竞争的优先级,通常在某些方面妥协
结果:质量良好但在复杂场景中存在明显限制

多 KSampler 工作流:

第一个 KSampler:建立粗略的运动和构图
第二个 KSampler:优化细节和时间一致性
(可选)第三个 KSampler:最终细节处理和伪影清理
每个阶段专注于特定的质量改进
结果:所有方面的质量显著提升

质量比较:单 vs 多 KSampler

单 KSampler: 总体质量 7.8/10,运动 8.2/10,细节 7.4/10
双 KSampler: 总体质量 8.9/10,运动 8.8/10,细节 8.9/10
三 KSampler: 总体质量 9.2/10,运动 9.1/10,细节 9.3/10
处理时间: 单(基准),双(+65%),三(+110%)

我系统地测试了这一点,对 100 个图像转视频生成进行了单 KSampler、双 KSampler 和三 KSampler 方法的比较。质量改进是可测量且一致的:

运动平滑度:与单 KSampler 相比,多 KSampler 减少了 68% 的可见帧间抖动

细节保留:在 92% 的多 KSampler 输出中角色面部特征保持清晰,而单 KSampler 为 74%

时间一致性:使用多阶段采样,背景元素在帧间显示的扭曲和失真减少了 85%

多 KSampler 至关重要的关键场景:

高细节源图像:当源图像具有精细细节(纹理、图案、文本)且必须在动画中保持可读时

角色面部保留:角色特写动画中面部特征稳定性至关重要时

复杂运动:相机平移、带背景的角色移动、任何具有多个运动元素的动画

客户交付物:专业作品,质量标准高且处理时间预算允许优化时

存档内容:主打内容、旗舰内容,最高质量证明更长处理时间的合理性时

关于基本 WAN 2.2 工作流的背景,请参见我的 WAN 2.2 完整指南,其中涵盖单 KSampler 基础知识。关于在动画之前生成最佳首帧,请参见我们的 WAN 2.2 文本转图像指南。

理解多阶段采样理论

在构建多 KSampler 工作流之前,理解每个采样阶段如何贡献于最终质量至关重要。

扩散模型采样复习:

像 WAN 这样的扩散模型通过从纯噪声开始并通过多个步骤逐渐去噪来生成内容。每一步都会优化输出,减少噪声并增加连贯性。KSampler 通过步数、去噪强度和 CFG 比例等参数控制这个去噪过程。

单阶段采样过程:

噪声(100%) → 步骤 1 → 步骤 2 → ... → 步骤 20 → 最终输出(0% 噪声)

所有去噪在一次连续过程中从 100% 噪声到 0% 噪声完成。

多阶段采样过程:

阶段 1:噪声(100%) → 步骤 1-8 → 中间(40% 噪声)
阶段 2:中间(40% 噪声) → 步骤 9-16 → 接近最终(15% 噪声)
阶段 3:接近最终(15% 噪声) → 步骤 17-20 → 最终(0% 噪声)

每个阶段处理噪声时间表的一个范围,允许在阶段之间调整参数。

为什么这能提高质量:

早期阶段(高噪声 → 中等噪声):模型建立整体构图、运动方向、大规模特征。受益于更高的 CFG 以获得强大的提示遵循性。

中期阶段(中等噪声 → 低噪声):模型优化细节、修复时间一致性、锐化特征。受益于平衡的 CFG 和更高的步数。

最终阶段(低噪声 → 零噪声):模型打磨细节、去除伪影、完善边缘。受益于更低的 CFG 以避免过度处理。

单阶段采样在整个过程中使用相同的 CFG,在每个去噪阶段的最佳设置上妥协。多阶段采样根据每个阶段调整参数。

阶段之间的去噪强度:

多阶段工作流的关键是去噪强度,它决定每个阶段对前一阶段输出的修改程度。

去噪 1.0:完全重新生成(添加 100% 噪声,从头开始) 去噪 0.7:重大变化(添加 70% 噪声) 去噪 0.5:中等变化(添加 50% 噪声) 去噪 0.3:轻微优化(添加 30% 噪声) 去噪 0.1:细微打磨(添加 10% 噪声)

两阶段配置:

阶段 1(建立):去噪 1.0,步数 15-20,CFG 8-9
阶段 2(优化):去噪 0.4-0.5,步数 20-25,CFG 7-8

三阶段配置:

阶段 1(建立):去噪 1.0,步数 12-15,CFG 9
阶段 2(发展):去噪 0.5-0.6,步数 18-22,CFG 7.5
阶段 3(打磨):去噪 0.25-0.35,步数 20-25,CFG 6.5-7

阶段目的:

阶段	噪声范围	目的	CFG	去噪	步数
1(建立)	100% → 40%	运动建立、构图	8-9	1.0	12-20
2(优化)	40% → 15%	细节优化、时间修复	7-8	0.4-0.6	18-25
3(打磨)	15% → 0%	最终细节、伪影去除	6-7	0.25-0.35	20-25

阶段之间的去噪强度是最关键的参数。太高会破坏前一阶段的工作,太低则无法提供足够的改进。

基本两阶段 KSampler 工作流

两阶段工作流提供了最佳的质量时间比,以仅比单阶段增加 65% 的时间获得三阶段 80% 的收益。

所需节点:

Load WAN Checkpoint and VAE
Load Source Image
VAE Encode(将图像转换为潜空间)
WAN Text Encode(提示条件)
First KSampler(建立阶段)
Second KSampler(优化阶段)
VAE Decode(将潜空间转换为图像)
VHS Video Combine(将帧组合成视频)

工作流结构:

Load WAN Checkpoint → model, vae

Load Image (source image) → image
    ↓
VAE Encode (vae, image) → latent

WAN Text Encode (positive prompt) → positive_cond
WAN Text Encode (negative prompt) → negative_cond

First KSampler (model, latent, positive_cond, negative_cond) → stage1_latent
    ↓
Second KSampler (model, stage1_latent, positive_cond, negative_cond) → final_latent
    ↓
VAE Decode (vae, final_latent) → frames
    ↓
VHS Video Combine → output_video

配置第一个 KSampler(建立阶段):

steps: 18(少于第二阶段的步数)
cfg: 8.5(更高以获得强大的提示遵循性)
sampler_name: dpmpp_2m 或 euler_a
scheduler: karras
denoise: 1.0(从潜空间完全生成)

此阶段建立运动模式和整体构图。更高的 CFG 确保动画紧密遵循您的提示。

配置第二个 KSampler(优化阶段):

steps: 25(更多步数以获得更好的优化)
cfg: 7.5(低于第一阶段)
sampler_name: dpmpp_2m(与第一阶段相同以保持一致性)
scheduler: karras
denoise: 0.45(关键参数 - 优化而不破坏阶段 1)

此阶段接收阶段 1 的输出并优化细节、修复时间问题并打磨动画。

提示配置:

对两个阶段使用相同的提示。每个阶段的不同参数(CFG、去噪)从相同提示中提取不同的质量。

正面提示示例: "Woman walking through modern office, smooth camera following, natural movement, professional video, high quality, detailed, temporal consistency"

负面提示: "Blurry, distorted, flickering, temporal inconsistency, warping, artifacts, low quality, bad anatomy"

VAE Decode 和视频输出:

在第二个 KSampler 完成后,将所有潜空间帧解码为图像,然后使用 VHS Video Combine 组合成视频:

frame_rate: 12(WAN 标准)
format: video/h264-mp4
crf: 18(高质量)

预期结果:

与 25 步的单 KSampler 相比:

运动:帧间转换更平滑,抖动更少
细节:面部特征更清晰,纹理保留更好
时间:背景更一致,扭曲更少
处理时间:延长 60-70%(如果单 KSampler 需要 3 分钟,两阶段需要 5 分钟)

测试您的配置:

使用单 KSampler(25 步)和两阶段 KSampler 并排生成相同的源图像。比较:

角色面部在帧间的稳定性
背景一致性(查找扭曲)
运动平滑度(逐帧检查)
整体时间连贯性

两阶段方法应该在所有四个方面都显示出明显的改进。

要快速尝试多阶段采样而无需从头构建工作流,Apatero.com 提供预构建的两阶段和三阶段 WAN 模板,您可以上传图像并立即使用优化的参数生成。

最高质量的三阶段 KSampler

对于主打内容、客户交付物或存档内容,最高质量证明更长处理时间的合理性时,三阶段采样提供绝对最佳的结果。

工作流结构(扩展两阶段):

Load WAN Checkpoint → model, vae

Load Image → VAE Encode → initial_latent

WAN Text Encode → positive_cond, negative_cond

First KSampler (establishment, denoise 1.0) → stage1_latent
    ↓
Second KSampler (development, denoise 0.55) → stage2_latent
    ↓
Third KSampler (polish, denoise 0.3) → final_latent
    ↓
VAE Decode → frames → VHS Video Combine

第一个 KSampler(建立阶段):

免费ComfyUI工作流

查找本文技术的免费开源ComfyUI工作流。开源很强大。

100%免费 MIT许可证可用于生产星标并试用

steps: 15(三个阶段中最少的步数)
cfg: 9.0(最高的 CFG 以获得强大的基础)
sampler: dpmpp_2m
scheduler: karras
denoise: 1.0

目的:粗略的运动阻挡、基本构图建立。将此视为传统动画中的"铅笔草图"阶段。

第二个 KSampler(发展阶段):

steps: 22(中等步数)
cfg: 7.5(中等 CFG)
sampler: dpmpp_2m
scheduler: karras
denoise: 0.55(对阶段 1 的中等优化)

目的:主要质量发展。修复时间问题、添加细节、优化运动。这是动画真正成形的"清理"阶段。

第三个 KSampler(打磨阶段):

steps: 28(最高步数以获得最大优化)
cfg: 6.5(最低的 CFG 以避免过度处理)
sampler: dpmpp_2m 或 dpmpp_sde(sde 质量稍高)
scheduler: karras
denoise: 0.3(对阶段 2 的细微优化)

目的:最终打磨。去除剩余伪影、完善边缘、增强精细细节。这是"最终渲染"阶段。

三阶段处理时间

三阶段采样需要单阶段 2-2.2 倍的时间:

单阶段(25 步): RTX 3060 上约 3 分钟
三阶段(15+22+28 步): RTX 3060 上约 6.5 分钟
仅用于质量证明时间投资的内容

跨阶段的参数关系:

阶段之间的关系经过精心平衡:

CFG 递进(9.0 → 7.5 → 6.5):每个阶段递减以避免过度处理 步数递进(15 → 22 → 28):每个阶段递增,因为优化需要更多步数 去噪递进(1.0 → 0.55 → 0.3):递减,因为每个阶段做的破坏性变化越来越少

何时使用三阶段 vs 两阶段:

使用场景	推荐阶段	原因
生产客户工作	3 阶段	交付物的最高质量
社交媒体内容	2 阶段	良好质量,合理时间
测试/迭代	2 阶段	足够快以进行多次尝试
主打/旗舰内容	3 阶段	质量至上
高容量批处理	2 阶段	时间效率重要
复杂详细场景	3 阶段	从渐进优化中获益最多
简单动画	2 阶段	三阶段对简单内容过度

每个阶段的质量提升:

基于系统测试:

配置	质量评分	时间成本
单阶段 25 步	7.8/10(基准)	1.0x
两阶段(18+25)	8.9/10(+1.1)	1.65x
三阶段(15+22+28)	9.2/10(相比两阶段 +0.3)	2.1x

从单阶段到两阶段的跳跃提供 1.1 分的改进,时间增加 65%(优秀的投资回报率)。从两阶段到三阶段的跳跃提供 0.3 分的改进,时间增加 45%(收益递减,但对关键内容值得)。

每个阶段的参数优化

微调每个阶段的参数可以从多阶段工作流中提取最大质量。以下是系统优化指导。

第一阶段优化(建立):

CFG 比例调整:

CFG 8.0:宽松解释,更具创造性的运动
CFG 8.5:平衡(推荐默认值)
CFG 9.0:强提示遵循性,一致的运动
CFG 9.5+:过度约束的风险,运动可能看起来僵硬

测试:在 CFG 8.0、8.5、9.0 下生成相同的动画。评估运动自然度与提示准确性。大多数内容在 8.5 下效果最佳。

步数调整:

12 步:快速但粗略的建立
15 步:良好平衡
18 步:更好的基础但收益递减
20+ 步:浪费(第二阶段无论如何都会优化)

第一阶段不需要完美,只需为第二阶段优化提供坚实的基础。

采样器选择:

euler_a:最快,稍微更有创意/多样化
dpmpp_2m:最佳质量/速度平衡(推荐)
dpmpp_sde:最高质量,更慢

对于第一阶段,dpmpp_2m 是最佳的。如果使用,将 dpmpp_sde 保留给最终阶段。

第二阶段优化(优化):

去噪强度是关键参数:

去噪	效果	何时使用
0.35	最小变化,紧密保留阶段 1	阶段 1 输出已经很好
0.4-0.45	中等优化(推荐)	标准用例
0.5-0.55	显著优化	阶段 1 输出需要重大改进
0.6+	大幅变化,可能破坏阶段 1	阶段 1 失败时的最后手段

大多数工作流在阶段 2 的 0.4-0.45 去噪下表现最佳。如果阶段 2 输出看起来与阶段 1 太相似,将去噪增加到 0.5。如果阶段 2 看起来比阶段 1 差,将去噪减少到 0.35。

CFG 比例调整:

想跳过复杂性吗？ Apatero 无需技术设置即可立即为您提供专业的AI结果。

零设置相同质量 30秒内开始免费试用Apatero

无需信用卡

低于阶段 1(通常 7-7.5)
允许模型更多自由度来修复问题,而不会过度受提示约束
太高(8.5+)可能重新引入阶段 1 存在的问题
太低(6.5-)可能偏离原始提示意图

步数:

应等于或超过阶段 1 步数
典型范围:20-28 步
更复杂的动画受益于更高的步数(25-28)
简单动画在 20-22 步时足够

第三阶段优化(打磨 - 如果使用):

去噪强度:

范围:0.25-0.35
低于您可能预期的(阶段 2 已经优化过)
0.3 是大多数内容的最佳点
更高(0.4+)有降低阶段 2 质量的风险
更低(0.2-)提供的额外收益最小

CFG 比例:

所有阶段中最低(6.5-7.0)
防止过度处理伪影
允许细微打磨而无重手变化

最终阶段的采样器:

dpmpp_2m:安全、一致的选择
dpmpp_sde:质量略有提升,值得为主打内容尝试
始终保持调度器为 karras

步数:

所有阶段中最高(25-30)
打磨受益于延长优化
28 步是推荐的最佳点

A/B 测试协议:

对于关键项目,系统地测试参数变化:

基准:阶段 1(18 步,CFG 8.5),阶段 2(25 步,CFG 7.5,去噪 0.45)

测试 A:将阶段 2 去噪增加到 0.5 测试 B:将阶段 2 步数增加到 28 测试 C:将阶段 2 CFG 调整到 7.0 测试 D:最佳单个结果的组合

使用相同的源图像和种子生成所有四个测试。比较测试之间的质量,以确定您特定内容类型的最佳配置。

多阶段工作流的 VRAM 管理

多阶段采样多次处理相同内容,使 VRAM 需求成倍增加。优化技术可防止 OOM 错误。

VRAM 使用细分:

配置	基础 VRAM	峰值 VRAM	安全硬件
单阶段 16 帧 512x512	9.2GB	10.8GB	12GB GPU
两阶段 16 帧 512x512	10.1GB	12.3GB	16GB GPU
三阶段 16 帧 512x512	10.8GB	13.9GB	16GB GPU
两阶段 24 帧 512x512	12.8GB	15.2GB	16-20GB GPU
两阶段 16 帧 768x768	15.4GB	18.1GB	20-24GB GPU

12GB GPU 的优化技术:

技术 1:分块 VAE 处理

启用分块 VAE 解码以分块处理视频帧:

减少 VAE 解码 VRAM 40-50%
轻微质量权衡(通常无法察觉)
对 12GB 上的多阶段至关重要

安装 ComfyUI Tiled VAE 节点:

cd ComfyUI/custom_nodes
git clone https://github.com/shiimizu/ComfyUI-TiledVAE.git
pip install -r ComfyUI-TiledVAE/requirements.txt

在工作流中用 Tiled VAE Decode 替换标准 VAE Decode。

技术 2:积极的内存清理

在采样阶段之间添加"Empty Cache"节点:

First KSampler → Empty VRAM Cache → Second KSampler

在阶段之间强制 VRAM 清理,防止内存累积。

技术 3:减少帧数

生成 12 帧片段而不是 16 帧:

约 25% 的 VRAM 减少
片段更短但可以连接
顺序生成多个 12 帧片段 vs 一个 16 帧片段

技术 4:分辨率管理

以 512x512 而不是推到 640x640 或 768x768 处理:

加入其他115名学员

51节课创建超逼真AI网红

AI Influencers created with ComfyUI - Ultra-realistic AI generated models for content creators

创建具有逼真皮肤细节、专业自拍和复杂场景的超逼真AI网红。一个套餐获得两门完整课程。ComfyUI Foundation掌握技术，Fanvue Creator Academy学习如何将自己营销为AI创作者。

立即占位 - $199

早鸟价结束倒计时：

天

小时

分钟

秒

完整课程

一次性付款

终身更新

节省$200 - 价格永久涨至$399

为我们首批学生提供早鸟折扣。我们不断增加更多价值，但您永久锁定$199价格。

适合初学者

可用于生产

始终更新

512x512 两阶段在 12GB 中舒适地适合
如果需要更高分辨率,使用 SeedVR2 放大最终视频

技术 5:单阶段回退

对于在两阶段上挣扎的 12GB GPU:

使用优化参数的单阶段作为回退
将单阶段步数增加到 30-35
添加后处理以补偿(时间平滑、放大)

对于 24GB+ GPU:

有充足的 VRAM,优化速度和质量而不是内存:

更高分辨率:在 768x768 甚至 896x896 生成 更长片段:单次生成 24-32 帧 批处理:同时生成多个变体 质量采样器:全程使用 dpmpp_sde 以获得最高质量

生成期间监控 VRAM:

实时观看 VRAM 使用:

Windows:任务管理器 → 性能 → GPU
Linux:终端中的 nvidia-smi 命令
如果使用接近容量的 90-95%,减少参数

VRAM 开销模式

VRAM 使用在阶段转换期间达到峰值(当阶段 N 输出和阶段 N+1 处理都在内存中时)。大多数 OOM 错误发生在这些转换时,而不是在稳态采样期间。

生产工作流和批处理

系统化多阶段工作流用于生产可实现高容量生成和一致的质量。

生产工作流模板:

阶段 1:源图像准备

准备源图像(一致的分辨率、适当的取景)
在 source_images/ 目录中组织
描述性命名(character_01_pose1.png、product_A_angle1.png)

阶段 2:工作流配置

加载两阶段或三阶段模板工作流
根据项目需求配置参数
使用 2-3 张样本图像测试
记录工作配置

阶段 3:批量生成

加载第一张源图像
生成动画
使用描述性名称保存(匹配源图像命名)
加载下一张源图像
对所有源重复

阶段 4:质量控制

审查所有生成的动画
标记需要重新生成的动画
记录问题(时间伪影、细节丢失等)
使用调整的参数重新生成标记的动画

阶段 5:后期处理

对所有动画应用一致的调色
如果需要则放大
如果适用则添加音频同步
以所需格式导出

使用 ComfyUI API 自动化:

对于高容量生产,自动化批处理:

import requests
import json
import glob

def generate_multi_stage_animation(source_image, output_name, config):
    workflow = load_workflow_template("wan_two_stage.json")

    # 使用源图像和配置更新工作流
    workflow["load_image"]["inputs"]["image"] = source_image
    workflow["first_ksampler"]["inputs"]["steps"] = config["stage1_steps"]
    workflow["first_ksampler"]["inputs"]["cfg"] = config["stage1_cfg"]
    workflow["second_ksampler"]["inputs"]["steps"] = config["stage2_steps"]
    workflow["second_ksampler"]["inputs"]["cfg"] = config["stage2_cfg"]
    workflow["second_ksampler"]["inputs"]["denoise"] = config["stage2_denoise"]
    workflow["save_video"]["inputs"]["filename_prefix"] = output_name

    # 提交到 ComfyUI
    response = requests.post(
        "http://localhost:8188/prompt",
        json={"prompt": workflow}
    )

    return response.json()

# 批处理
source_images = glob.glob("source_images/*.png")
config = {
    "stage1_steps": 18,
    "stage1_cfg": 8.5,
    "stage2_steps": 25,
    "stage2_cfg": 7.5,
    "stage2_denoise": 0.45
}

for i, image in enumerate(source_images):
    output_name = f"animation_{i:03d}"
    print(f"Generating {output_name} from {image}")
    generate_multi_stage_animation(image, output_name, config)
    print(f"Completed {i+1}/{len(source_images)}")

此脚本在夜间自动处理所有源图像,生成一致的多阶段动画。

生产时间估算:

对于 20 张源图像在 512x512 下使用两阶段采样生成 16 帧动画:

阶段	时间	注释
源准备	1 小时	裁剪、重命名、组织
工作流配置	30 分钟	测试和参数调整
批量生成	100 分钟	每个动画 5 分钟 × 20 张图像
质量控制	45 分钟	审查和标记问题
重新生成(20%)	20 分钟	需要重新生成的 4 个动画
后期处理	90 分钟	调色、放大、导出
总计	5.5 小时	端到端生产

自动化显著减少实际操作时间(设置 30 分钟,然后批处理无人看管运行)。

团队协作工作流:

对于有多个团队成员的工作室:

艺术家 A:准备源图像,记录取景指南 艺术家 B:配置和测试工作流参数 技术人员:在夜间/非工作时间运行批量生成 艺术家 C:质量控制审查,标记问题 技术人员:重新生成标记的动画 艺术家 D:后期处理和最终导出

并行工作流显著减少日历时间,即使总人时增加。

对于管理高容量 WAN 生产的机构,Apatero.com 提供共享工作流模板、批处理队列管理和自动质量检查的团队功能,简化跨团队的多阶段生产。

多阶段工作流故障排除

多阶段工作流引入了阶段特定的故障模式。快速识别和修复问题至关重要。

问题:阶段 2 输出看起来比阶段 1 差

第二个 KSampler 降低质量而不是提高质量。

原因和修复:

去噪太高:从 0.5 减少到 0.35-0.4
CFG 太高:将阶段 2 CFG 从 8 减少到 7-7.5
步数太少:将阶段 2 步数从 20 增加到 25-28
采样器不匹配:确保两个阶段使用相同的采样器(dpmpp_2m)
提示冲突:验证两个阶段使用相同的提示

问题:阶段 2 没有可见的改进

第二阶段输出看起来与第一阶段几乎相同。

修复:

去噪太低:从 0.35 增加到 0.45-0.5
步数太少:将阶段 2 步数增加到 25-30
CFG 太低:将阶段 2 CFG 从 6.5 增加到 7-7.5
第一阶段太好:如果阶段 1 已经很好,阶段 2 改进空间较少

问题:在阶段转换期间 CUDA 内存不足

特别是在从阶段 1 移动到阶段 2 时出现 OOM 错误。

按优先级顺序修复:

在阶段之间添加 Empty Cache 节点
为解码步骤启用 Tiled VAE
将帧数从 16 减少到 12
将分辨率从 768 减少到 512
使用两阶段而不是三阶段

问题:后期阶段时间闪烁增加

动画在阶段 2 或 3 中变得更闪烁而不是更平滑。

原因:

去噪太高:破坏前一阶段的时间一致性
阶段之间调度器不同:所有阶段使用 karras
CFG 太极端:非常高或非常低的 CFG 导致时间问题
步数太少:增加有问题阶段的步数

修复:将去噪减少 0.1,确保调度器一致性,将 CFG 调整到 7-8 范围。

问题:处理极其缓慢

多阶段生成需要预期的 3-4 倍时间。

原因:

总步数太多:15+25+30 = 70 总步数过多
高分辨率:768x768 或更大显著更慢
CPU 瓶颈:在生成期间检查 CPU 使用率
其他 GPU 进程:关闭浏览器、其他 AI 工具

优化:将总步数减少到 50-55(例如 15+22+15),以 512x512 处理,确保 GPU 充分利用。

问题:阶段 3 引入阶段 2 中没有的伪影

三阶段工作流在最终阶段产生伪影。

原因:

阶段 3 的去噪太高:应该是 0.25-0.35,而不是 0.4+
阶段 3 的 CFG 太高:应该是 6.5-7,而不是 7.5+
过度处理:太多总步数导致模型产生幻觉细节

修复:使用保守的阶段 3 参数(去噪 0.3,CFG 6.5,步数 25)。考虑三阶段是否真的必要,或者两阶段是否对您的内容类型产生更好的结果。

问题:动画看起来过度处理或"AI 化"

输出质量技术上很高,但看起来不自然或合成。

原因:

所有阶段的 CFG 太高:在每个阶段减少 CFG 0.5-1.0
太多优化过程:三阶段可能过度
提示太详细:过度指定创造人工外观

修复:降低 CFG(阶段 1 8.5→7.5,阶段 2 7.5→6.5),尝试两阶段而不是三阶段,稍微简化提示。

最后的想法

WAN 2.2 的多阶段 KSampler 工作流代表了可访问的 AI 视频质量的重大演变。该技术在概念上很简单(以递减的去噪顺序运行多个 KSampler),但产生可测量的、一致的质量改进,将输出从"良好"提升到"专业"。

权衡是处理时间。两阶段增加 65% 生成时间,三阶段增加 110%。对于迭代测试和高容量批处理工作,单阶段仍然实用。对于客户交付物、主打内容和存档旗舰作品,多阶段工作流以明显更优的质量证明时间投资的合理性。

大多数生产工作的最佳点是具有优化参数的两阶段采样(阶段 1 18 步,阶段 2 25 步,阶段间去噪 0.45)。此配置以合理的处理时间开销提供 80%+ 的最大质量改进。将三阶段保留给 10-20% 的内容,其中绝对最高质量至关重要,无论时间成本如何。

本指南中的技术涵盖了从基本两阶段设置到高级三阶段优化和生产批处理工作流的所有内容。从样本内容上的两阶段实现开始,内化阶段 2 去噪如何影响质量。尝试参数变化以培养质量与处理时间权衡的直觉。只有在掌握两阶段并识别出从额外优化过程中受益的内容后,才进入三阶段。

无论您是在本地构建多阶段工作流还是使用 Apatero.com(具有预优化的两阶段和三阶段模板,根据内容类型自动调整参数),掌握多 KSampler 技术都能将您的 WAN 2.2 视频生成从称职提升到卓越。随着 AI 视频生成从实验性内容转向输出质量直接影响商业可行性的专业生产工作流,这种质量差异变得越来越重要。