ComfyUI 中的 WAN 2.2:2025 年 AI 视频生成完整指南
通过这份涵盖安装、工作流、低 VRAM 优化和电影级视频生成技术的完整指南,掌握 ComfyUI 中的 WAN 2.2。

您花费数小时将 ComfyUI 完美设置用于图像生成。然后您看到像 Runway 这样的 AI 视频工具每月收费数百美元,并想知道是否有更好的方法。如果您可以使用现有硬件直接在 ComfyUI 中生成电影级质量的视频会怎样?
这正是 WAN 2.2 带来的。阿里巴巴的最新视频生成模型直接集成到 ComfyUI 中,将您的本地设置变成专业视频创作强大工具。您可以从文本提示或图像创建流畅的电影级视频,无需循环云成本。
- WAN 2.2 与其他视频生成模型的区别
- ComfyUI 中的分步安装和设置
- 如何在有限的 VRAM(甚至 6GB GPU)上运行 WAN 2.2
- 文本转视频、图像转视频和首尾帧工作流
- 更快生成的高级优化技术
- 真正有效的常见故障排除解决方案
什么是 WAN 2.2,为什么您应该关心?
WAN 2.2 代表了开源 AI 视频生成的重大飞跃。由阿里巴巴云于 2025 年发布,这不仅仅是另一个增量更新。该模型使用突破性的 专家混合(MoE)架构,通过专门的专家模型在不同时间步骤中分离视频去噪过程。
可以想象成多个熟练的艺术家同时在画作的不同方面工作。每个专家处理特定的噪声级别,从而产生更清晰、更锐利、动作连贯性更好的视频。
WAN 2.2 背后的技术
传统的视频扩散模型在去噪过程中平等对待所有帧。WAN 2.2 采用了不同的方法。根据阿里巴巴云技术文档的研究,MoE 架构在保持相同计算成本的同时扩大了整体模型容量。
该模型在精心策划的美学数据上进行训练,这些数据带有关于照明、构图、对比度和色调的详细标签。这意味着您可以精确控制电影风格,而无需电影学校的专业知识。
WAN 2.2 模型变体
WAN 2.2 系列包括几个针对不同使用场景的专用模型。
模型版本 | 参数 | 分辨率 | FPS | 所需 VRAM | 使用场景 |
---|---|---|---|---|---|
WAN 2.2-TI2V-5B | 5B | 720p | 24 | 8GB (FP8) | 混合文本和图像转视频 |
WAN 2.2-T2V-A14B | 14B | 1080p | 30 | 12GB+ (FP8) | 专业文本转视频 |
WAN 2.2-I2V-A14B | 14B | 1080p | 30 | 12GB+ (FP8) | 高质量图像转视频 |
WAN 2.2-S2V-14B | 14B | 1080p | 30 | 16GB+ | 从静态图像进行音频驱动视频 |
WAN 2.2-Animate-14B | 14B | 1080p | 30 | 16GB+ | 带表情复制的角色动画 |
5B 混合模型为大多数用户提供了最佳平衡。它在 RTX 4090 等消费级 GPU 上流畅运行,同时提供令人印象深刻的 720p 结果。
特别是对于角色动画,请查看我们专门的 WAN 2.2 Animate 指南,涵盖面部表情复制和姿势驱动的工作流。
WAN 2.2 与其他视频生成工具的比较
在深入安装之前,您需要了解 WAN 2.2 相对于商业替代品的定位。
WAN 2.2 vs Runway ML Gen-3
Runway 一直是 AI 视频生成的首选商业选项,但它有其局限性。
Runway ML 优势:
- 不需要任何技术知识的用户友好界面
- 快速生成时间,特别是在 Turbo 模式下
- 超越视频生成的更广泛的创意工具
- 更实惠的入门级定价
Runway ML 弱点:
- 在精细细节和真实运动物理方面挣扎
- 对输出参数的控制有限
- 重度用户的订阅成本迅速累积
- 依赖云端,没有离线选项
WAN 2.2 优势:
- 对生成参数的完全控制
- 一次性硬件投资,无重复费用
- 开源自由以定制和扩展
- 完全在硬件上离线运行
- 复杂场景的更好动作连贯性
当然,像 Apatero.com 这样的平台提供即时访问而无需设置复杂性。您可以通过简单的 Web 界面获得专业的视频生成,无需管理本地安装或 VRAM 限制。
WAN 2.2 vs Kling AI
快手科技的 Kling AI 可生成高达 1080p 分辨率、最长两分钟的高度逼真视频。
Kling AI 擅长:
- 长达 3 分钟的扩展视频功能
- 动态运动和电影强度
- 对复杂描述的更好提示理解
- 独特的输入选项,包括负面提示和唇同步
Kling AI 缺点:
- 显著较慢的生成速度(每个视频至少 6 分钟)
- 扩展视频的更高成本结构
- 获得最佳结果的更陡峭学习曲线
WAN 2.2 比较:
- 批处理工作流更高效
- 与现有 ComfyUI 管道更好地集成
- 创意实验的更快迭代周期
- 大批量用户每次生成的成本更低
对于需要大规模一致输出的大多数专业工作流,WAN 2.2 的本地处理胜出。然而,如果您需要无需技术设置的快速结果,Apatero.com 通过针对速度优化的直观界面提供相同的质量。
成本现实
让我们分解一年中等使用(每月 100 个视频)的经济性。
Runway ML: 每月 $76 标准计划 = 每年 $912(有生成限制) Kling AI: 专业使用约每月 $120 = 每年 $1,440 ComfyUI 中的 WAN 2.2: RTX 4090(一次性 $1,599)+ 电费 = 第一年约 $1,700,后续年度 $100 Apatero.com: 按使用付费定价,无基础设施成本或维护
数学明显支持第一年后的本地生成,假设您已经有合适的硬件或需要大规模处理视频。
在 ComfyUI 中安装 WAN 2.2
系统要求
最低规格:
- ComfyUI 版本 0.3.46 或更新
- 8GB VRAM(用于带 FP8 量化的 5B 模型)
- 推荐 32GB 系统 RAM
- 50GB 模型空闲存储空间
- 支持 CUDA 的 NVIDIA GPU(AMD 支持有限)
推荐规格:
- 14B 模型需要 12GB+ VRAM
- 64GB 系统 RAM 用于更快处理
- NVMe SSD 用于模型加载速度
- RTX 4090 或更好以获得最佳性能
步骤 1:将 ComfyUI 更新到最新版本
首先,验证您的 ComfyUI 版本并在需要时更新。
- 打开终端并导航到您的 ComfyUI 目录
- 使用 git pull origin master 拉取最新更改
- 重启 ComfyUI 并在控制台输出中检查版本
- 确认版本显示 0.3.46 或更高
如果您使用 ComfyUI Manager,您可以通过界面进行更新。
步骤 2:下载所需的模型文件
WAN 2.2 需要放置在特定目录中的几个组件。
文本编码器(所有模型都需要):
- 从 Hugging Face 下载 umt5_xxl_fp8_e4m3fn_scaled.safetensors
- 放置在 ComfyUI/models/text_encoders/
VAE 文件:
- 对于 14B 模型,下载 wan_2.1_vae.safetensors
- 对于 5B 模型,下载 wan2.2_vae.safetensors
- 放置在 ComfyUI/models/vae/
主模型文件:
对于 5B 混合模型(推荐起点):
- 从 Hugging Face 下载 Wan2.2-TI2V-5B
- 放置在 ComfyUI/models/checkpoints/
对于 14B 图像转视频模型:
- 下载 Wan2.2-I2V-A14B(FP8 版本用于较低 VRAM)
- 放置在 ComfyUI/models/checkpoints/
您可以在 WAN AI Hugging Face 存储库找到所有官方模型。
步骤 3:验证模型放置
您的 ComfyUI 安装现在应该有这些目录和文件:
主要结构:
- ComfyUI/models/text_encoders/umt5_xxl_fp8_e4m3fn_scaled.safetensors
- ComfyUI/models/vae/wan_2.1_vae.safetensors(用于 14B 模型)
- ComfyUI/models/vae/wan2.2_vae.safetensors(用于 5B 模型)
- ComfyUI/models/checkpoints/wan2.2-i2v-a14b-fp8.safetensors(或您选择的模型)
确保文本编码器直接在 text_encoders 文件夹中,两个 VAE 文件在 vae 文件夹中,您的 WAN 2.2 模型检查点在 checkpoints 文件夹中。
步骤 4:加载官方工作流模板
ComfyUI 包含官方 WAN 2.2 工作流模板,可自动处理所有节点连接。
- 启动 ComfyUI 并打开 Web 界面
- 点击工作流菜单,然后浏览模板
- 导航到视频部分
- 选择"Wan2.2 14B I2V"或您喜欢的工作流
- 点击加载以导入完整工作流
或者,从 ComfyUI Examples 下载工作流 JSON 文件并直接拖到 ComfyUI 界面中。
使用 WAN 2.2 制作您的第一个视频
让我们使用图像转视频工作流生成您的第一个视频。这是理解 WAN 2.2 如何工作的最直接的切入点。
图像转视频基本工作流
- 如上所述加载"Wan2.2 I2V"工作流模板
- 找到"Load Image"节点并上传您的源图像
- 找到"WAN2.2 Sampler"节点并调整这些关键设置:
- Steps: 从 30 开始(越高 = 更好的质量,更长的生成时间)
- CFG Scale: 7.5(控制提示遵守强度)
- Seed: -1 表示随机,或设置特定数字以实现可重现性
- 在"Text Prompt"节点中,描述您想要的运动(例如:"缓慢的相机推出,温柔的风吹过头发,黄金时段照明")
- 在"Video Output"节点中设置输出参数(分辨率、FPS、编解码器)
- 点击"Queue Prompt"开始生成
根据您的硬件,您的第一个视频将需要 5-15 分钟。这是完全正常的。
理解生成参数
Steps(采样步骤): 去噪迭代的次数。更多步骤通常会产生更流畅、更连贯的运动,但会线性增加生成时间。从 30 步开始测试,然后增加到 50-80 以获得最终输出。
CFG(无分类器引导)Scale: 控制模型遵循您的提示的紧密程度。较低的值(3-5)允许更有创意的解释。较高的值(7-10)强制更严格的遵守。对于 WAN 2.2,最佳点通常是 7-7.5。
Seed: 确定噪声模式的随机数。使用相同的设置和相同的种子会产生相同的输出,这对于迭代改进至关重要。
分辨率: WAN 2.2 5B 本地处理 720p。14B 模型支持高达 1080p。在高于模型训练分辨率的分辨率下生成通常会产生伪影。
文本转视频工作流
文本转视频需要略有不同的设置,因为您是从头开始生成,没有参考图像。
- 加载"Wan2.2 T2V"工作流模板
- 在"Text Prompt"节点中编写详细提示
- 可选择添加负面提示以排除不需要的元素
- 设置生成参数(建议从 T2V 的 40 步开始)
- 排队提示并等待结果
获得更好视频的提示编写技巧:
- 从相机运动描述开始("缓慢的推拉镜头...")
- 指定照明条件("柔和的晨光,背光...")
- 包括运动细节("轻轻摇摆的树叶,飘动的头发...")
- 提及风格参考("电影感,胶片颗粒,35mm...")
- 具体但不过于限制(6-15 个字效果最好)
首尾帧(FLF2V)工作流
这种高级技术让您可以控制开始和结束帧,WAN 2.2 生成它们之间的平滑过渡。
- 加载"Wan2.2 FLF2V"工作流模板
- 将您的开始图像上传到"First Frame"节点
- 将您的结束图像上传到"Last Frame"节点
- 设置过渡持续时间(在关键帧之间生成的帧数)
- 调整插值强度(过渡的平滑程度)
- 生成插值视频序列
这个工作流擅长创建匹配剪辑、变换序列和仅用文本难以提示的变形效果。
如果这些工作流看起来很复杂,请记住 Apatero.com 提供无需节点配置的专业视频生成。您只需上传图像,描述运动,无需技术设置即可获得结果。
为低 VRAM 系统优化 WAN 2.2
大多数用户没有 24GB VRAM 工作站卡。好消息是,通过正确的优化技术,WAN 2.2 可以在令人惊讶的适度硬件上运行。
FP8 量化解释
全精度(FP16)模型以 16 位精度存储数字。FP8 量化将其减少到 8 位,在最小质量损失的情况下将内存使用量几乎减半。
对于 WAN 2.2,FP8 缩放版本保持原始模型质量的 95% 以上,同时适合 12GB GPU。"scaled"变体包括额外的标准化,比简单量化保留更多细节。
如何使用 FP8 模型:
- 特别下载 FP8 版本(文件名包含"fp8_e4m3fn_scaled")
- ComfyUI 中无需特殊设置,它会自动工作
- 期望作为奖励获得 10-15% 更快的生成速度
- 对于大多数使用场景,质量差异是不可察觉的
用于极低 VRAM 的 GGUF 量化
GGUF(GPT 生成的统一格式)量化进一步推进,使 WAN 2.2 能够在只有 6GB VRAM 的 GPU 上运行。
VRAM vs 质量权衡:
GGUF 级别 | VRAM 使用 | 与原始质量比较 | 最适合 |
---|---|---|---|
Q4_K_M | 6-8GB | 85-90% | 测试和迭代 |
Q5_K_M | 8-10GB | 90-95% | 有限制的生产 |
Q6_K | 10-12GB | 95-98% | 接近原始质量 |
Q8_0 | 12-14GB | 98-99% | GGUF 中的最大质量 |
安装 GGUF 模型: 社区成员 Kijai 维护 WAN 2.2 模型的 GGUF 转换。在 ComfyUI-WanVideoWrapper 项目下的 Hugging Face 上找到它们。
- 下载您选择的 GGUF 量化级别
- 放置在 ComfyUI/models/checkpoints/
- 使用 Kijai 自定义节点包以获得 GGUF 支持
- 加载专用的 GGUF 工作流模板
生成将比 FP8 慢,但您可以在配备适度游戏 GPU 的笔记本电脑上生成可用的视频。
高级内存管理技术
启用 CPU 卸载: ComfyUI 包括智能卸载,可在不活跃处理时将模型层移动到系统 RAM。这会自动发生,但您可以在设置中强制更激进的卸载。
减少批次大小: 如果生成多个变体,请按顺序处理它们而不是批量处理。批处理节省时间但会倍增 VRAM 需求。
在迭代期间降低分辨率: 在实验提示和参数时以 512p 或 640p 生成。仅在最终输出时切换到完整分辨率。运动特性在不同分辨率之间很好地转换。
使用 Blockswap: 对于具有快速 NVMe 存储的系统,blockswap 根据需要从磁盘动态加载模型块。这将生成速度换成几乎无限的模型大小支持。
如果 VRAM 优化仍然看起来太麻烦,请考虑 Apatero.com 自动处理所有基础设施优化。您可以获得最大质量输出,而无需担心技术限制。
高级 WAN 2.2 技术和技巧
一旦您掌握了基本视频生成,这些高级技术将显著提高您的输出质量。
电影风格控制
WAN 2.2 的训练数据包括您可以在提示中引用的详细美学标签。
有效的照明关键词:
- "黄金时段"、"蓝色时段"、"阴天漫射照明"
- "边缘照明"、"伦勃朗照明"、"三点照明设置"
- "体积雾"、"神圣光线"、"镜头光晕"
- "实用灯光"、"有动机的照明"、"高调"、"低调"
构图术语:
- "三分法构图"、"引导线"
- "浅景深"、"散景背景"
- "荷兰角度"、"低角度英雄镜头"、"俯视跟踪镜头"
- "对称框架"、"负空间"
运动控制:
- "缓慢的推拉镜头"、"视差效果"、"手持摇晃"
- "平滑的稳定器运动"、"起重机镜头下降"
- "微妙的呼吸运动"、"轻柔摇摆"
将 WAN 2.2 与 ControlNet 结合
为了最大控制,将 ControlNet 深度或姿势引导集成到您的 WAN 2.2 工作流中。
- 使用 ControlNet 预处理器从源图像生成深度图或姿势骨架
- 将原始图像和控制图都馈送到 WAN 2.2
- 模型将尊重结构引导同时添加逼真的运动
- 这可防止漂移并在帧之间保持主题一致性
这种技术特别适用于您想要特定运动模式的角色动画。
用于更流畅结果的帧插值
WAN 2.2 以 24-30 FPS 生成视频。您可以使用帧插值将平滑度提高到 60 FPS。
后处理工作流:
- 使用 WAN 2.2 生成基本视频
- 通过帧插值节点(RIFE 或 FILM)馈送输出
- 插值器创建额外的中间帧
- 导出最终的 60 FPS 视频
这种两阶段方法在保持 WAN 2.2 生成时间合理的同时产生令人难以置信的流畅结果。
提示加权和注意力
ComfyUI 支持提示加权以强调特定元素。
使用 (关键词:1.3) 等语法来增加注意力,或使用 (关键词:0.7) 来减少它。当某些提示元素被忽略时,这很有帮助。
示例: "(电影相机运动:1.4),女人在森林中行走,(树木中的微妙风:0.8),黄金时段照明"
相机运动和照明被优先考虑,而树木运动变得更加微妙。
用于变体的种子行走
而不是随机种子,尝试种子行走以创建受控变体。
- 使用种子 12345 生成视频
- 使用种子 12346、12347、12348 再次生成
- 附近的种子产生相似但略有不同的结果
- 在不完全随机输出的情况下找到最佳变体
当您 90% 满意但想探索小变化时,这种技术可以节省时间。
排除常见 WAN 2.2 错误
即使安装完美,您也可能会遇到一些问题。以下是真正有效的解决方案。
通道不匹配错误(32 vs 36 通道)
错误消息: "RuntimeError: Given groups=1, weight of size [5120, 36, 1, 2, 2], expected input to have 36 channels, but got 32 channels instead"
原因: 工作流和模型版本之间的 VAE 版本不匹配。
解决方案:
- 从 custom_nodes 中删除"WanImageToVideo (Flow2)"文件夹(如果存在)
- 切换到 WAN 2.1 VAE 而不是 WAN 2.2 VAE
- 注意 WAN 2.2 VAE 仅用于 5B 混合模型
- 进行更改后完全重启 ComfyUI
Sage Attention Triton 冲突
错误消息: 在所有工作流中随机出现通道错误。
原因: Sage Attention 优化与 WAN 2.2 的架构冲突。
解决方案:
- 执行全新的 ComfyUI 安装
- 不要安装 Sage Attention 或 Triton 扩展
- 如果您需要这些优化用于其他工作流,请维护单独的 ComfyUI 安装
不支持 FP8 架构
错误消息: "e4nv not supported in this architecture. The supported fp8 dtypes are ('fp8e4b15', 'fp8e5')"
原因: 精度设置与您的 GPU 架构不兼容。
解决方案:
- 打开 ComfyUI 设置
- 将精度从 fp16-fast 更改为 bf16
- 重启 ComfyUI
- 重新加载您的工作流并再次尝试生成
ComfyUI 版本太旧
错误消息: WAN 2.2 节点未出现或工作流无法加载。
原因: ComfyUI 版本低于 0.3.46。
解决方案:
- 将 ComfyUI 更新到版本 0.3.46 或更高
- 如果使用 ComfyUI Desktop,请检查应用程序更新
- 更新后清除浏览器缓存
- 从官方存储库重新安装工作流模板
生成缓慢或断开连接
症状: 生成需要非常长的时间或 ComfyUI 在过程中断开连接。
解决方案:
- 在生成期间关闭其他 VRAM 密集型应用程序
- 在设置中启用激进的 CPU 卸载
- 将步骤减少到 25-30 进行测试
- 暂时降低输出分辨率
- 检查系统 RAM 使用情况,可能需要增加交换文件
- 验证 GPU 驱动程序是最新的
如果在尝试这些解决方案后仍遇到持续问题,请查看 ComfyUI GitHub Issues 页面以获取最新报告和解决方案。
WAN 2.2 最佳实践和工作流集成
项目组织
保持您的 WAN 2.2 项目有组织以保持迭代速度。
推荐的文件夹结构:
- /projects/[项目名称]/source_images/
- /projects/[项目名称]/reference_videos/
- /projects/[项目名称]/outputs/
- /projects/[项目名称]/prompts.txt(记录成功的提示)
- /projects/[项目名称]/settings.json(工作流配置)
记录有效的内容。当您生成一个很棒的视频时,立即保存确切的提示、种子和参数。您以后会感谢自己。
批处理策略
对于需要数十个视频片段的大型项目,设置批处理工作流。
- 创建一个包含所有提示和参数的 CSV 或 JSON 文件
- 使用 ComfyUI 的 API 模式按顺序处理它们
- 根据提示关键词设置自动文件命名
- 安排夜间处理以获得最大生产力
这种方法适用于生成视频变体,您希望系统地测试多个提示或种子。
质量控制检查点
实施阶段性工作流以尽早发现问题。
阶段 1:粗略预览(5 分钟)
- 512p 分辨率
- 20 步
- 快速迭代提示和构图
阶段 2:质量检查(10 分钟)
- 720p 分辨率
- 30 步
- 验证运动质量和连贯性
阶段 3:最终渲染(20-30 分钟)
- 完整分辨率(720p 或 1080p)
- 50-80 步
- 仅用于批准的概念
这种分层方法通过防止您在有缺陷的提示上运行长时间生成来节省时间。
与其他 ComfyUI 工作流结合
WAN 2.2 与您现有的 ComfyUI 管道无缝集成。
预处理链:
- 使用 Stable Diffusion 或 FLUX 生成基础图像
- 使用 Ultimate SD Upscale 放大
- 使用 FaceDetailer 添加面部细节
- 将精致的图像馈送到 WAN 2.2 以生成视频
后处理增强:
- 使用 WAN 2.2 生成视频
- 提取帧以进行调色调整
- 对每帧应用风格转移或美学滤镜
- 通过帧插值运行以获得 60 FPS
- 在标准视频编辑器中添加音频和效果
这种模块化方法在利用 WAN 2.2 优势的同时为您提供完全的创意控制。
掌握 WAN 2.2 后的下一步
您现在拥有在 ComfyUI 中使用 WAN 2.2 进行专业 AI 视频生成的完整工具包。您了解安装、工作流类型、优化技术和故障排除。
下一个前沿是尝试像 WAN 2.2-S2V 这样的专用模型用于音频驱动视频,或 WAN 2.2-Animate 用于角色动画。这些变体开辟了全新的创意可能性。还要关注 WAN 2.5 即将推出的内容,它承诺 4K 生成和原生 60 FPS 支持。
推荐的后续步骤:
- 使用不同的提示风格生成 10 个测试视频以了解模型行为
- 创建一个个人提示库,记录适用于您的用例的内容
- 尝试 ControlNet 集成以实现精确的运动控制
- 设置批处理工作流以提高生产效率
- 加入 ComfyUI 社区论坛分享结果并向他人学习
其他资源:
- 官方 WAN 2.2 GitHub 存储库用于技术文档
- ComfyUI Examples用于工作流模板
- Hugging Face Model Hub用于所有 WAN 2.2 模型变体
- WAN 2.2 Animate 指南用于以角色为中心的工作流
- WAN 2.5 预览用于下一代功能
- ComfyUI Wiki 上的社区教程用于高级技术
- 选择本地 WAN 2.2 如果: 您处理大量内容,需要完全控制,拥有合适的硬件,并希望零经常性成本
- 选择 Apatero.com 如果: 您需要无需技术设置的即时结果,希望保证正常运行时间,更喜欢按使用付费定价,或缺少专用硬件
WAN 2.2 代表了开源视频生成的尖端技术。MoE 架构、电影训练数据和灵活量化选项的结合使其对业余爱好者和专业人士都可访问。无论您是为社交媒体、电影预可视化还是商业项目创建内容,您现在都拥有完全在自己的硬件上生成专业质量 AI 视频的工具。
AI 视频生成的未来是本地的、开源的,并且在您的完全控制之下。ComfyUI 中的 WAN 2.2 使这一未来在今天成为现实。
精通ComfyUI - 从基础到高级
加入我们完整的ComfyUI基础课程,学习从基础到高级技术的所有内容。一次性付款,终身访问,并获得每个新模型和功能的更新。
相关文章

10个最常见的ComfyUI新手错误及2025年修复方法
避免让新用户感到沮丧的10大ComfyUI新手陷阱。完整的故障排除指南,包含VRAM错误、模型加载问题和工作流问题的解决方案。

使用 Anisora v3.2 实现360度动漫旋转:ComfyUI 完整角色旋转指南2025
掌握使用 ComfyUI 中的 Anisora v3.2 进行360度动漫角色旋转。学习相机轨道工作流程、多视图一致性和专业转身动画技术。

7个应该内置的ComfyUI自定义节点(附获取方法)
2025年每个用户都需要的必备ComfyUI自定义节点。WAS Node Suite、Impact Pack、IPAdapter Plus等革命性节点的完整安装指南。