WAN 2.5 预览:下一代视频 AI 将带来什么
WAN 2.5 功能独家预览,包括 4K 生成、原生 60 FPS 支持、改进的运动连贯性以及 2025 年 ComfyUI 的突破性时间一致性。

你终于掌握了 WAN 2.2 并开始制作令人印象深刻的 720p 和 1080p AI 视频。结果看起来不错,动作连贯,工作流程已经调整好。然后你看到了 WAN 2.5 预览演示,展示了 4K 分辨率、原生 60 FPS 生成和令人惊叹的时间一致性。
阿里云正准备在 2025 年初发布 WAN 2.5,改进幅度很大。这不仅仅是一次增量更新。我们谈论的是从根本上解决时间闪烁、运动模糊伪影和分辨率限制等问题的架构变化,这些问题从一开始就困扰着 AI 视频生成。
- WAN 2.5 相比 WAN 2.2 实现代际飞跃的原因
- 原生 4K 生成能力和硬件要求
- 无需后处理插值的 60 FPS 生成
- 时间一致性和运动连贯性的突破性改进
- 专业视频制作的新控制功能
- 预期的 ComfyUI 集成时间表和兼容性
- 如何为过渡准备工作流程
WAN 2.5 是什么,为什么重要?
WAN 2.5 代表阿里云对当前 AI 视频生成限制的回应。虽然 WAN 2.2 为本地视频生成带来了令人印象深刻的功能,但用户很快发现了围绕分辨率、帧率、时间一致性和精细控制的瓶颈。
根据阿里云研究预览的早期技术文档,WAN 2.5 通过基本的架构改进而不是简单的参数缩放来解决这些问题。
核心架构变化
WAN 2.5 引入了三项重要的架构创新,使其新功能成为可能。
分层时间注意力: WAN 2.5 不是对所有帧采用相同的时间注意力,而是使用分层注意力,优先考虑最近的帧,同时保持全局时间上下文。这大大提高了运动连贯性并减少了闪烁,而不会出现完全时间注意力的计算爆炸。
多分辨率训练管道: 该模型使用新颖的多尺度训练方法,在从 512p 到 4K 的多个分辨率上同时训练。这意味着原生 4K 生成不仅仅是放大的 1080p。该模型本质上理解高分辨率细节模式。
自适应帧率生成: WAN 2.5 不是一次生成所有帧并插值,而是使用自适应时间采样,首先生成关键帧,然后用完全的上下文感知填充中间帧。这实现了原生 60 FPS,而没有后处理插值的典型伪影。
把它想象成从一个有才华的业余摄像师升级到专业摄影师。基本原理相同,但执行质量、技术能力和创意控制都跃升到了另一个层次。
WAN 2.5 vs WAN 2.2:完整比较
在深入研究具体功能之前,你需要准确了解 WAN 2.5 相比当前一代带来了哪些改进。
技术规格比较
功能 | WAN 2.2 | WAN 2.5 | 改进 |
---|---|---|---|
最大分辨率 | 1080p | 4K (3840x2160) | 4倍像素 |
原生 FPS | 24-30 | 60 | 2倍时间分辨率 |
最大时长 | 10秒 | 30秒 | 3倍长度 |
时间一致性 | 良好 | 优秀 | 架构改进 |
运动模糊处理 | 中等 | 原生支持 | 基于物理 |
相机控制 | 基础 | 高级 | 专业功能 |
文本渲染 | 较差 | 大幅改进 | 专门训练 |
模型大小 | 5B, 14B | 7B, 18B, 36B | 更灵活的选项 |
所需 VRAM(基础) | 8GB FP8 | 10GB FP8 | 优化架构 |
你会立即注意到的质量改进
时间闪烁消除: WAN 2.2 偶尔会产生时间闪烁,细节在帧之间出现、消失和重新出现。测试版测试人员报告说,WAN 2.5 通过改进的时间注意力机制基本上消除了这个问题。
运动连贯性: WAN 2.2 中快速移动的物体有时会在帧之间显示变形或不一致。WAN 2.5 的运动预测能力即使在复杂的多对象场景中也能产生流畅、连贯的运动。
细节保留: 头发丝、织物纹理和建筑元素等精细细节在整个剪辑持续时间内保持一致。不再有变化的图案或变形的纹理。
相机运动质量: 相机平移、缩放和复杂的移动产生与专业镜头相匹配的电影效果。视差效果、深度感知和空间关系保持一致。
当然,如果等待 WAN 2.5 感觉太久,Apatero.com 等平台已经提供了最先进的视频生成功能,一旦最新模型可用就能提供。你可以立即访问改进,而无需管理更新或兼容性问题。
WAN 2.2 仍然做得更好的地方(目前)
WAN 2.5 并不完美,早期预览版本显示了一些权衡。
生成速度: 由于计算需求增加,WAN 2.5 对于相同的持续时间和分辨率大约需要 WAN 2.2 的 1.5-2 倍时间。WAN 2.2 上需要 8 分钟的 10 秒 1080p 剪辑在 WAN 2.5 上可能需要 12-15 分钟。
VRAM 下限: 虽然 WAN 2.2 的 5B 模型可以在 8GB VRAM 上运行,但 WAN 2.5 的最小模型即使使用激进的量化也需要最少 10GB。拥有 6-8GB GPU 的用户可能需要坚持使用 WAN 2.2 或升级硬件。
成熟度和稳定性: WAN 2.2 经过了数月的社区测试、优化和工作流程开发。WAN 2.5 需要时间才能达到相同的稳定性和文档级别。
原生 4K 生成:工作原理
WAN 2.5 最令人印象深刻的功能是原生 4K 视频生成。这不是放大或后处理。该模型直接生成 3840x2160 像素的视频。
4K 视频生成的技术挑战
与 1080p 相比,生成 4K 视频呈现出指数级的计算挑战。
计算需求:
- 4K 的像素是 1080p 的 4 倍(830 万 vs 210 万)
- 视频生成还需要跨时间维度进行处理
- 30 FPS 的 10 秒 4K 剪辑 = 24.9 亿像素
- 每个像素需要多个扩散步骤(通常为 30-80)
传统的缩放方法需要 4 倍的 VRAM 和 4 倍的处理时间。WAN 2.5 通过巧妙的架构优化,仅用 1.5-2 倍的资源就实现了原生 4K。
多尺度训练方法
WAN 2.5 的训练方法实现了高效的 4K 生成。
该模型在精心策划的数据集上进行训练,包括:
- 40% 的原生 4K 镜头,用于学习精细细节模式
- 35% 的高质量 1080p 内容,用于运动和构图
- 15% 的 720p 内容,用于多样化的场景理解
- 10% 的混合分辨率,用于尺度不变性
这种多尺度方法教会模型理解细节层次结构。它知道每个分辨率应该有什么级别的细节,防止了困扰放大内容的"过度锐化的 1080p"外观。
4K 生成的硬件要求
在 4K 下运行 WAN 2.5 需要大量硬件,但比你想象的更容易获得。
4K 最低要求(WAN 2.5-18B-FP8):
- 20GB VRAM
- 64GB 系统 RAM
- NVMe SSD(模型加载和缓存)
- CUDA 12.0+ 支持
- 10 秒剪辑预计 25-35 分钟
4K 推荐配置(WAN 2.5-18B-FP8):
- 24GB VRAM(RTX 4090,A5000)
- 64GB+ 系统 RAM
- 具有 200GB 可用空间的快速 NVMe
- 10 秒剪辑预计 15-20 分钟
4K 最佳配置(WAN 2.5-36B-FP16):
- 48GB VRAM(双 GPU 或专业卡)
- 128GB 系统 RAM
- RAID NVMe 设置
- 10 秒剪辑预计 12-18 分钟
预算 4K 选项: 带有 FP8 量化的 18B 模型代表 4K 生成的入口点。虽然 36B 模型产生略好的结果,但 18B 版本以一半的 VRAM 需求提供 95% 的质量。
4K 质量 vs 实用性
早期测试版测试人员报告说,WAN 2.5 的 4K 生成在特定场景中真正闪耀。
4K 擅长的领域:
- 具有精细细节的风景和自然场景
- 具有复杂元素的建筑可视化
- 展示纹理和材料的产品特写
- 专业制作的建立镜头
- 用于大型显示器或剧院演示的内容
1080p 仍然首选的情况:
- 创意开发期间的快速迭代
- 社交媒体内容(平台无论如何都会压缩到 1080p)
- 当生成速度比绝对质量更重要时
- 硬件受限环境
- 草稿版本和预览
对于大多数创作者来说,最佳点将是在 1080p 下开发,然后仅在必要时以 4K 渲染最终版本。这平衡了质量和实际工作流程效率。
原生 60 FPS 生成:游戏规则改变者
WAN 2.5 的原生 60 FPS 生成可能比 4K 分辨率更令人印象深刻。此功能从根本上改变了 AI 视频的外观和感觉。
为什么 60 FPS 对 AI 视频很重要
传统的视频插值到 60 FPS 对于实景镜头效果相当好,但对 AI 生成的内容失败。
后处理插值的问题:
- 在快速移动的物体周围产生重影
- 产生不自然的运动模糊
- 在复杂的多对象场景中失败
- 增加处理时间和质量下降
- 需要单独的工作流程步骤
WAN 2.5 的原生 60 FPS 生成通过以完整的时间上下文和运动理解生成所有帧来消除这些问题。
自适应帧率架构
WAN 2.5 使用分层关键帧方法进行 60 FPS 生成。
生成过程:
- 以 15 FPS 生成具有完整细节和上下文的关键帧
- 预测关键帧之间的运动矢量
- 以运动引导在 30 FPS 生成中间帧
- 用精细的时间细节填充剩余帧到 60 FPS
- 对所有帧应用时间一致性优化
这种方法产生自然的运动模糊、准确的物体轨迹和流畅的相机运动,与高帧率摄像机无法区分。
60 FPS 生成的硬件影响
得益于 WAN 2.5 的自适应架构,将帧率翻倍不会使计算成本翻倍。
60 FPS 资源需求:
- 相同分辨率下约为 30 FPS 的 1.4 倍 VRAM
- 相比 30 FPS 大约 1.6 倍的生成时间
- 质量明显优于 30 FPS + 后插值
- 相同的模型权重,只是不同的采样参数
何时使用 60 FPS:
- 游戏内容和快节奏动作场景
- 体育和运动
- 流畅的相机运动(平移、推拉、跟踪镜头)
- 需要高帧率外观的现代内容美学
- 技术演示和产品视频
何时 30 FPS 足够:
- 电影 24 FPS 美学内容
- 叙事故事和戏剧场景
- 当文件大小重要时(60 FPS = 2 倍数据)
- 与标准视频编辑工作流程的兼容性
许多创作者会发现 30 FPS 对大多数项目来说已经足够,为流畅度真正增强观看体验的内容保留 60 FPS。
请记住,Apatero.com 将在 WAN 2.5 可用时支持 30 FPS 和 60 FPS 生成,让你可以在不管理本地基础设施的情况下尝试不同的帧率。
突破性的时间一致性改进
除了分辨率和帧率之外,WAN 2.5 的时间一致性改进代表了最重要的质量飞跃。
理解时间一致性
时间一致性是指视觉元素在帧之间保持稳定的程度。差的时间一致性会导致:
- 在帧之间略微变形的物体
- 闪烁或移动的纹理
- 出现和消失的细节
- 随时间漂移的颜色值
- 微妙变化的空间关系
人类视觉对时间不一致性极为敏感。即使是微妙的帧间变化也会产生分散注意力、不自然的感觉,立即将内容识别为 AI 生成的。
WAN 2.5 的时间一致性创新
阿里巴巴的研究团队实施了几种新颖的时间一致性方法。
远程时间注意力: WAN 2.5 在整个剪辑持续时间内保持时间注意力,而不仅仅是相邻帧。这防止了微妙变化随时间累积成显著不一致的漂移。
物体永久性建模: 该模型明确学习物体永久性。一旦物体出现在场景中,模型就会跟踪其在帧之间的身份,确保一致的外观、大小和空间关系。
纹理连贯性保留: 对高频纹理模式的专门训练教会模型在所有帧中一致地保持织物编织、建筑细节和表面纹理。
颜色一致性锚定: 该模型为关键对象建立颜色锚点,并在整个剪辑中保持这些值,防止早期模型中常见的颜色漂移。
关于时间一致性的测试版测试人员报告
早期访问用户一致强调时间一致性是 WAN 2.5 最令人印象深刻的改进。
来自测试社区:
- "角色面部在 30 秒剪辑中保持完全稳定"
- "建筑细节不再变形,对房地产内容的巨大改进"
- "衣服上的织物纹理终于在整个剪辑中看起来很真实"
- "背景一致性在另一个层次上,不再有变化的图案"
这些改进使 WAN 2.5 生成的内容更难与真实镜头区分开来,特别是对于没有专门寻找 AI 伪影的观众。
高级相机控制功能
WAN 2.5 引入了专业级相机控制功能,为创作者提供电影级精度。
参数化相机运动
WAN 2.5 不依赖于基于提示的相机描述,而是支持参数化相机控制。
可用的相机参数:
- 焦距: 14mm 广角到 200mm 长焦
- 相机位置: 3D 空间中的 X、Y、Z 坐标
- 相机旋转: 平移、倾斜、滚动角度
- 对焦距离: 景深控制
- 运动速度: 速度和加速度曲线
- 运动模糊: 快门速度模拟
示例参数化设置:
相机 焦距: 35mm
相机 位置: [0, 1.5, 5] (地面高度,向后 5 米)
运动: 推进 速度=0.5m/s 持续时间=10s
对焦: 主体_面部 面部跟踪=启用
运动_模糊: 快门速度=1/60
这种控制级别实现了可重复、精确的相机运动,符合专业电影摄影标准。
虚拟相机路径系统
WAN 2.5 引入了类似于专业 3D 动画工具的相机路径定义。
基于路径的相机控制:
- 定义关键帧位置和方向
- 设置关键帧之间的插值曲线
- 指定时间和速度配置文件
- 沿定义的路径生成视频
- 在不重新生成视频的情况下迭代路径
此工作流程与标准预览和虚拟制作管道匹配,使 WAN 2.5 适用于专业电影制作工作流程。
深度感知相机效果
该模型理解场景深度,实现逼真的相机效果。
基于深度的功能:
- 具有逼真散景的精确景深
- 视差校正的相机运动
- 相机运动期间适当的物体遮挡
- 适合距离的对焦过渡
- 远处元素的大气透视
这些功能创造了将业余镜头与专业电影摄影区分开来的空间真实感。
文本和排版改进
WAN 2.2 最令人沮丧的限制之一是文本渲染不佳。WAN 2.5 在这一领域取得了巨大改进。
文本渲染挑战
AI 视频模型传统上在文本方面遇到困难,因为:
- 文本需要跨帧的像素完美一致性
- 字母形状必须保持精确定义
- 字符之间的空间关系至关重要
- 文本经常以各种深度和角度出现
- 小错误对观众来说立即显而易见
WAN 2.2 经常产生模糊、变形或不可读的文本,限制了其在需要可读标识、标题或屏幕文本的商业和专业应用中的实用性。
WAN 2.5 的文本生成架构
阿里巴巴通过专门的模型组件解决了文本生成问题。
文本特定训练:
- 15% 的训练数据专门关注文本密集场景
- 标识、广告牌、书籍封面、屏幕显示、包装
- 包括拉丁文、中文、日文、阿拉伯文在内的多种语言和字符集
- 各种字体、大小和呈现风格
字形感知处理: 该模型包括字符级理解,将文本视为离散字形而不仅仅是视觉模式。这实现了跨帧的一致字母渲染。
时间文本锚定: 一旦文本出现,模型就会锚定其位置、大小和外观,在剪辑持续时间内保持一致性。
实用文本生成能力
测试版测试显示,WAN 2.5 在许多场景中可靠地生成可读文本。
效果良好的情况:
- 标识和广告牌(大而清晰的文本)
- 书籍封面和产品包装
- 简单的标题和字幕
- 屏幕显示和设备界面
- 街道标志和店面文本
仍然具有挑战性:
- 非常小的文本(低于 12pt 等效)
- 具有细笔画的复杂字体
- 正文文本的大段落
- 极端角度或透视的文本
- 手写文本和草书字体
虽然不完美,但 WAN 2.5 的文本功能打开了以前 AI 视频生成无法实现的商业应用。
预期的 ComfyUI 集成和时间表
WAN 2.5 将以类似于 WAN 2.2 的方式与 ComfyUI 集成,但有一些重要差异。
发布时间表预期
基于阿里巴巴的典型发布模式和测试版测试进度:
第一阶段 - 研究预览(当前):
- 为选定的研究人员和合作伙伴提供有限的测试版访问
- 技术文档和论文发布
- 模型架构细节共享
- 截至 2025 年 10 月的当前状态
第二阶段 - 公开测试版(预计 2025 年末):
- 通过 Hugging Face 更广泛的社区测试版访问
- 初始 ComfyUI 自定义节点支持
- 用于更广泛硬件访问的 GGUF 量化版本
- 社区工作流程开发开始
第三阶段 - 正式发布(预计 2026 年第一季度):
- 所有模型变体的完整公开发布
- 原生 ComfyUI 集成(预计版本 0.4.0+)
- 全面的文档和示例
- 生产就绪的稳定性和优化
ComfyUI 兼容性要求
WAN 2.5 将需要更新的 ComfyUI 基础设施。
预期要求:
- ComfyUI 版本 0.4.0 或更高版本(尚未发布)
- 支持 4K 和 60 FPS 的更新视频输出节点
- 增强的时间处理能力
- 增加的节点连接限制用于复杂工作流程
- 更新的音频同步用于延长持续时间
早期采用者应该期望在 WAN 2.5 正式发布时更新他们的 ComfyUI 安装并可能重建工作流程。
与 WAN 2.2 工作流程的向后兼容性
阿里巴巴工程师表示,WAN 2.5 将保持合理的向后兼容性。
直接转移的内容:
- 基本的文本到视频和图像到视频工作流程
- 提示策略和关键词理解
- 核心采样参数(步骤、CFG、种子)
- 输出格式偏好
需要更新的内容:
- 分辨率和帧率规格
- 相机控制参数(新系统)
- 时间一致性设置(新选项)
- VRAM 管理策略(不同的要求)
预计需要花费几个小时来调整现有工作流程,但基本概念和提示知识可以直接转移。
如何为 WAN 2.5 做准备
你现在可以开始为 WAN 2.5 的最终发布做准备,即使继续使用 WAN 2.2。
硬件升级考虑
评估你当前的硬件是否能充分支持 WAN 2.5。
当前 8-12GB VRAM 用户:
- 可以使用 GGUF 量化运行 WAN 2.5-7B
- 限于 1080p 30 FPS 生成
- 如果预算允许,考虑升级到 16GB
- 推荐 RTX 4060 Ti 16GB 或 RTX 4070
如果你当前正在低 VRAM 上运行 WAN 2.2,类似的优化策略将适用于 WAN 2.5。
当前 16-20GB VRAM 用户:
- WAN 2.5-18B 的稳固位置
- 可以以合理的速度处理 4K
- 可能需要 24GB 用于 60 FPS 4K
- 当前硬件可能足够
当前 24GB+ VRAM 用户:
- 所有 WAN 2.5 功能的出色位置
- 可以探索 36B 模型
- 不需要立即升级
系统 RAM 和存储:
- 如果当前为 32GB,升级到 64GB RAM
- 确保有 300GB+ 的可用 NVMe 存储
- 快速存储显著影响工作流程效率
工作流程文档和准备
记录你当前的 WAN 2.2 工作流程,为过渡做准备。
记录这些元素:
- 成功的提示模板和模式
- 效果良好的参数组合
- 常见问题和解决方案
- 自定义节点配置
- 输出设置和偏好
这份文档通过转移机构知识来加速你的 WAN 2.5 学习曲线。
技能发展重点领域
培养将转移到 WAN 2.5 及更高版本的技能。
电影摄影基础: 理解相机运动、取景、构图和照明有助于你有效利用 WAN 2.5 的高级相机控制。我们的顶级 ComfyUI 文本到视频模型指南涵盖了 AI 视频生成的电影摄影基础。
提示工程: 强大的提示技能可以直接转移。用 WAN 2.2 练习清晰、具体、结构化的提示,为 WAN 2.5 的增强理解做准备。
色彩分级: 在 DaVinci Resolve 或类似工具中学习基本色彩分级。WAN 2.5 改进的时间一致性使后处理更加实用和有效。
运动图形集成: 研究如何将 AI 视频与运动图形、文本叠加和效果集成。WAN 2.5 的改进质量使其更适合专业制作管道。
社区参与
加入 WAN 社区以保持了解 WAN 2.5 的发展。
关键资源:
- 用于官方更新的 WAN GitHub 存储库
- 用于社区讨论的 ComfyUI Discord 服务器
- 专注于 AI 视频生成的 Reddit 社区
- 涵盖 AI 视频工作流程的 YouTube 频道
与社区互动的早期采用者可以首先访问工作流程、故障排除知识和优化技术。
如果在没有基础设施管理的情况下保持领先地位吸引你,请记住 Apatero.com 将在 WAN 2.5 准备好投入生产后立即提供访问,自动处理所有更新和优化。
WAN 2.5 之后会是什么
展望 WAN 2.5 之后,WAN 3.0 可能会带来什么?
更长持续时间生成
当前模型上限为 30 秒。未来版本可能针对 1-2 分钟的生成,实现完整的场景而不仅仅是剪辑。
实时生成
硬件和算法改进最终可能实现近实时视频生成,开启交互式应用程序和实时制作工作流程。
多模态集成
与音频、3D 场景理解、物理模拟和其他模式的更深度集成将创建越来越逼真和可控的生成。
角色一致性
在多个剪辑和项目中保持一致的角色外观仍然具有挑战性。未来的模型可能会包括角色身份保留功能。
场景编辑和操作
除了生成新视频之外,未来的模型可能能够使用 AI 理解场景内容、照明和构图来编辑现有镜头。
轨迹很明确。AI 视频生成在许多场景中正在迅速接近与传统视频制作的平价,并具有无限迭代、完美撤销和自然语言控制等独特优势。
结论:为下一代做准备
WAN 2.5 代表了 AI 视频生成能力的重大飞跃。原生 4K、60 FPS 生成、突破性的时间一致性和高级相机控制使 AI 视频更接近专业制作可行性。
关键要点:
- WAN 2.5 解决了 WAN 2.2 的许多最令人沮丧的限制
- 4K 和 60 FPS 生成需要适度的硬件升级
- 时间一致性改进显著提高输出质量
- 预计 2026 年第一季度 ComfyUI 集成,具有合理的向后兼容性
- 现在通过文档和技能发展开始准备
行动步骤:
- 在可用时继续掌握 WAN 2.2(技能可转移)
- 根据你的用例评估硬件升级需求
- 记录成功的工作流程以便更轻松过渡
- 与社区互动以获得早期信息访问
- 发展电影摄影基础以利用高级功能
- 现在掌握 WAN 2.2 如果: 你想建立可转移到 WAN 2.5 的技能,立即需要制作能力,并且拥有适合当前一代模型的硬件
- 等待 WAN 2.5 如果: 你无论如何都在计划硬件升级,特别需要 4K 或 60 FPS,并且可以等待 3-6 个月的正式发布
- 使用 Apatero.com 如果: 你想在没有基础设施管理的情况下访问最新模型,更喜欢有保证的性能,或者需要可靠的正常运行时间用于客户工作而没有版本兼容性问题
AI 视频生成的未来比大多数人预期的到来得更快。WAN 2.5 证明了我们今天接受的限制明天将不复存在。无论你是内容创作者、电影制作人、营销人员还是开发人员,了解即将发生的事情有助于你战略性地而不是被动地做准备。
视频 AI 的下一代不是最终到来。它很快就会到来,并带来将从根本上改变我们对视频制作的思考方式的能力。WAN 2.5 只是开始。
精通ComfyUI - 从基础到高级
加入我们完整的ComfyUI基础课程,学习从基础到高级技术的所有内容。一次性付款,终身访问,并获得每个新模型和功能的更新。
相关文章

10个最常见的ComfyUI新手错误及2025年修复方法
避免让新用户感到沮丧的10大ComfyUI新手陷阱。完整的故障排除指南,包含VRAM错误、模型加载问题和工作流问题的解决方案。

使用 Anisora v3.2 实现360度动漫旋转:ComfyUI 完整角色旋转指南2025
掌握使用 ComfyUI 中的 Anisora v3.2 进行360度动漫角色旋转。学习相机轨道工作流程、多视图一致性和专业转身动画技术。

7个应该内置的ComfyUI自定义节点(附获取方法)
2025年每个用户都需要的必备ComfyUI自定义节点。WAS Node Suite、Impact Pack、IPAdapter Plus等革命性节点的完整安装指南。