What will I learn from this comfyui tutorial?

通过这份完整指南掌握 ComfyUI 中的 OVI，涵盖安装、同步视频音频生成、唇形同步工作流程以及 2025 年的优化技术。 This comprehensive guide covers all the essential concepts and practical steps you need to master comfyui.

Is this comfyui tutorial suitable for beginners?

This tutorial is designed to be accessible for learners at various skill levels. We provide clear explanations and step-by-step instructions to help you understand comfyui concepts effectively.

How long does it take to complete this comfyui tutorial?

This tutorial has an estimated reading time of 8 minutes. However, we recommend taking additional time to practice the concepts and techniques covered to fully master the material.

Where can I find more comfyui tutorials and resources?

You can find more comfyui tutorials in our ComfyUI category section. We also recommend exploring our related articles and following our blog for the latest updates on comfyui techniques and best practices.

/ ComfyUI / ComfyUI 中的 OVI：使用 Character AI 的新模型同时生成视频和音频

ComfyUI • October 7, 2025 • 8 分钟阅读

ComfyUI 中的 OVI：使用 Character AI 的新模型同时生成视频和音频

通过这份完整指南掌握 ComfyUI 中的 OVI，涵盖安装、同步视频音频生成、唇形同步工作流程以及 2025 年的优化技术。

你终于制作出完美的 AI 生成视频。动作流畅、构图电影化、灯光看起来专业。然后你意识到需要添加匹配的音频、唇形同步对话和音效。需要数小时的手动工作，对吧？

不再如此。Character AI 的 OVI（Omni Video Intelligence，全方位视频智能）模型改变了一切。这项突破性技术可以从单个提示词同时生成同步的视频和音频。你可以在 ComfyUI 中一次生成完美匹配的视觉效果、对话、音效，甚至准确的唇形同步。

本指南将教你什么

是什么让 OVI 在视频生成模型中独树一帜
在 ComfyUI 中分步安装和设置
如何从文本提示词生成同步的视频和音频
用于对话驱动内容的高级唇形同步工作流程
角色声音克隆和自定义技术
针对不同硬件配置的优化策略
实际用例和制作工作流程

什么是 OVI，它为什么重要？

OVI 代表了 AI 视频生成的根本性转变。由 Character AI 在 2025 年初发布，它是第一个将视频和音频视为同一生成过程不可分割组成部分的广泛可用模型。

正在学习ComfyUI？加入其他115名学员

51节课涵盖ComfyUI + AI网红营销。早鸟价即将结束。

传统工作流程强制你先生成视频，然后单独添加音频。这会造成同步麻烦，尤其是在对话中，唇部动作必须与语音完美匹配。OVI 通过在具有深度时间对齐的配对视频音频数据上训练来解决这个问题。

OVI 背后的技术

OVI 使用统一的 transformer 架构，同时处理视觉和音频模态。根据 Character AI 技术博客的研究，该模型采用跨模态注意力机制，在整个生成过程中保持所见和所闻之间的紧密耦合。

把它想象成一个同时看到乐谱和编舞的乐队指挥。每个视觉元素都会影响音频生成，反之亦然，创建自然同步的输出，无需后期处理对齐。

OVI 模型变体

Character AI 发布了针对不同用例优化的多个 OVI 变体。

模型版本	参数量	最大时长	音频质量	所需 VRAM	最适合
OVI-Base	7B	5 秒	24kHz 立体声	12GB (FP16)	测试和原型设计
OVI-Pro	14B	10 秒	48kHz 立体声	20GB (FP16)	专业对话场景
OVI-Extended	14B	30 秒	48kHz 立体声	24GB+ (FP16)	短视频内容创作
OVI-Character	14B	10 秒	48kHz 立体声	20GB (FP16)	一致的角色声音

Pro 模型对大多数创作者来说达到了最佳平衡点。它可以处理具有多个说话者的复杂对话场景，同时在 RTX 4090 等高端消费级 GPU 上运行。

OVI 与传统视频生成的比较

在深入安装之前，你需要了解 OVI 在你的工具包中相比现有解决方案的位置。

OVI 与传统两阶段工作流程

传统方法完全分离视频和音频生成。

传统工作流程的局限性：

使用 Runway、Kling 或 Stable Diffusion Video 生成视频
提取帧并分析嘴部动作
使用 ElevenLabs 或类似的 TTS 生成语音
使用 Wav2Lip 或类似工具手动同步音频到视频
通过多次迭代修复时间不匹配
导出并希望一切保持对齐

OVI 的优势：

单个提示词同时生成视频和音频
完美的唇形同步内置于生成过程中
与视觉环境匹配的一致音频氛围
自然的声音透视（距离、方向、房间音调）
在对话密集内容上大幅节省时间

当然，如果你想要即时结果而无需本地基础设施，Apatero.com 通过简单的界面提供专业的视频音频生成。你可以获得相同的同步输出，而无需管理 ComfyUI 安装或 VRAM 限制。

OVI 与现有音频感知视频模型

在 OVI 之前，有几个模型尝试过音频同步视频，但都有明显的局限性。

具有音频条件的 Stable Video Diffusion：

需要预先存在的音频轨道
对音频内容的控制有限
没有原生语音合成
更适合音乐驱动的内容而非对话

WAN 2.2 S2V（语音转视频）：

从语音输入生成视频
无法控制语音生成本身
需要单独的 TTS 流程
唇形同步比后期处理好，但不是真正的共同生成

在我们的完整指南中了解更多关于 WAN 2.2 的能力。

OVI 的差异化特点：

从零开始生成两种模态
具有情感变化的自然语音合成
环境感知的声音设计（回声、氛围、透视）
跨生成的角色声音一致性
通过联合训练实现卓越的唇形同步准确性

成本效益现实

让我们考察六个月中等使用（每月 50 个视频音频片段）的经济性。

传统独立流程：

视频生成（Runway/Kling）：每月 100-150 美元 = 总计 600-900 美元
音频生成（ElevenLabs Pro）：每月 99 美元 = 总计 594 美元
唇形同步工具（各种）：每月 50 美元 = 总计 300 美元
总计：六个月 1,494-1,794 美元

OVI 本地设置：

RTX 4090（一次性）：1,599 美元
六个月电费：约 60 美元
前六个月总计：约 1,659 美元

Apatero.com：

按生成付费定价，无需设置或维护
即时访问，无需硬件投资
保证的基础设施性能

对于定期制作对话密集内容的创作者来说，OVI 的统一方法可以快速收回成本，同时消除工作流程的复杂性。然而，如果你更喜欢托管服务，像 Apatero.com 这样的平台完全消除了技术障碍。

在 ComfyUI 中安装 OVI

开始之前： OVI 需要 ComfyUI 版本 0.3.50 或更高，并启用音频输出支持。你还需要安装 ComfyUI-Audio 扩展以获得音频预览功能。

系统要求

最低规格：

ComfyUI 版本 0.3.50+
12GB VRAM（用于 FP16 的 OVI-Base）
32GB 系统 RAM
60GB 空闲存储空间用于模型
支持 CUDA 12.0+ 的 NVIDIA GPU
Python 3.10 或更高版本，带音频库

推荐规格：

24GB VRAM 用于 OVI-Pro 或 OVI-Extended
64GB 系统 RAM 以实现更快的处理
NVMe SSD 以减少模型加载时间
RTX 4090 或 A6000 以获得最佳性能

步骤 1：安装 ComfyUI-Audio 扩展

OVI 需要原版 ComfyUI 中没有的音频处理功能。如果你是 ComfyUI 新手，请先查看我们的 ComfyUI 工作流程入门指南。

打开终端并导航到 ComfyUI/custom_nodes/
使用 git clone https://github.com/comfyanonymous/ComfyUI-Audio 克隆音频扩展仓库
导航到 ComfyUI-Audio 目录
使用 pip install -r requirements.txt 安装依赖项
完全重启 ComfyUI

通过检查音频相关节点是否出现在节点浏览器中（右键菜单，搜索"audio"）来验证安装。

步骤 2：下载 OVI 模型文件

OVI 需要将几个组件放置在特定的 ComfyUI 目录中。

文本编码器（所有模型必需）：

从 Hugging Face 下载 google/umt5-xxl
放置在 ComfyUI/models/text_encoders/

音频编解码器（必需）：

从 Character AI 的模型仓库下载 encodec_24khz.safetensors
放置在 ComfyUI/models/audio_codecs/

主要 OVI 模型文件：

对于 OVI-Base（推荐的起点）：

从 Character AI 的 Hugging Face 下载 ovi-base-fp16.safetensors
放置在 ComfyUI/models/checkpoints/

对于 OVI-Pro（最佳质量性能平衡）：

下载 ovi-pro-fp16.safetensors
需要 20GB+ VRAM
放置在 ComfyUI/models/checkpoints/

在 Character AI 的 Hugging Face 仓库找到官方模型。

步骤 3：验证目录结构

你的 ComfyUI 安装现在应该有这些目录和文件：

主要结构：

ComfyUI/models/text_encoders/umt5-xxl/
ComfyUI/models/audio_codecs/encodec_24khz.safetensors
ComfyUI/models/checkpoints/ovi-pro-fp16.safetensors
ComfyUI/custom_nodes/ComfyUI-Audio/

文本编码器文件夹（umt5-xxl）应包含模型文件，音频编解码器文件应直接在 audio_codecs 中，你选择的 OVI 模型应在 checkpoints 中。

步骤 4：加载官方 OVI 工作流程模板

Character AI 提供自动处理节点连接的启动工作流程。

从 Character AI 的 GitHub 示例下载工作流程 JSON 文件
启动 ComfyUI Web 界面
将工作流程 JSON 文件直接拖到浏览器窗口中
ComfyUI 将自动加载所有节点和连接
验证所有节点显示绿色状态（没有缺少的依赖项）

如果节点显示为红色，请仔细检查所有模型文件是否在正确的目录中，并重启 ComfyUI。

你的第一次同步视频音频生成

让我们使用 OVI 的文本转视频音频工作流程创建你的第一个同步片段。这展示了使 OVI 独特的核心能力。

基本文本转视频音频工作流程

加载"OVI Basic T2VA"工作流程模板
找到"Text Prompt"节点并输入你的场景描述
在"Audio Prompt"节点中，描述你想要的声音和对话
找到"OVI Sampler"节点并配置这些设置：
- Steps： 从 40 开始（越高 = 质量越好，生成时间越长）
- CFG Scale： 8.0（控制提示词遵循度）
- Audio CFG： 7.0（音频遵循度的单独控制）
- Seed： -1 表示随机结果
在"Video-Audio Output"节点中设置输出参数（分辨率、FPS、音频格式）
点击"Queue Prompt"开始生成

你的第一个同步片段将需要 8-20 分钟，具体取决于硬件和片段时长。这对于联合视频音频生成来说是正常的。

理解 OVI 生成参数

Steps（去噪迭代）： 更高的步数可以改善视频流畅性和音频清晰度。从 40 开始测试，增加到 60-80 用于制作输出。与纯视频模型不同，OVI 需要稍高的步数，因为它同时优化两种模态。

Video CFG Scale： 控制视觉提示词遵循度。7-9 的范围适用于大多数场景。较低的值（5-6）允许更多创意解释。较高的值（10+）强制更严格的遵循，但可能会减少自然运动。

Audio CFG Scale： 音频生成的单独控制。保持这个值略低于视频 CFG（通常低 0.5-1.0 点）。太高会导致不自然的声音变化和强制的音效。

Synchronization Strength： OVI 特定参数，控制视频和音频耦合的紧密程度。默认 1.0 适用于大多数情况。增加到 1.2-1.5 用于需要精确唇形同步的对话。降低到 0.7-0.9 用于可以接受松散耦合的环境场景。

免费ComfyUI工作流

查找本文技术的免费开源ComfyUI工作流。开源很强大。

100%免费 MIT许可证可用于生产星标并试用

为 OVI 编写有效的提示词

OVI 使用独立但相关的视频和音频提示词，尽管它们可以在高级工作流程中组合。

视频提示词最佳实践：

从角色描述和动作开始（"年轻女性热情地讲话..."）
包括相机运动（"慢慢推进脸部..."）
指定灯光和环境（"明亮的工作室灯光，现代办公室背景..."）
提及情绪状态（"兴奋的表情，生动的手势..."）

音频提示词最佳实践：

描述声音特征（"充满活力的女性声音，清晰的发音..."）
在引号中包含对话（"大家好，欢迎回到频道！"）
指定环境声音（"轻微的房间回声，微妙的背景音乐..."）
提及情感基调（"对'欢迎'强调的热情传递..."）

组合提示词示例：

Video: "Close-up of young woman in her late 20s, speaking directly to camera, bright natural lighting from window, modern home office background, genuine smile, slight head movements while talking"

Audio: "Warm female voice with slight excitement: 'Hey everyone, I've got something amazing to show you today. This is going to change how you think about AI video creation.' Subtle room ambience, professional audio quality"

你的第一次生成结果

生成完成后，你将在 ComfyUI 输出文件夹中看到两个输出。

视频文件（MP4）：

以你指定的分辨率和 FPS 渲染
包含嵌入的音频轨道
准备立即播放
如果需要可以单独提取

音频文件（WAV/FLAC）：

高质量无损音频导出
包含所有对话和音效
用于额外的音频编辑
已同步到视频时间线

使用视频预览节点直接在 ComfyUI 中预览组合结果。检查唇形同步准确性、音频质量和整体连贯性。

如果你想要专业结果而无需技术工作流程，请记住 Apatero.com 通过直观的界面提供同步视频音频生成。不需要节点图或参数调整。

高级 OVI 工作流程和技术

一旦你理解了基本生成，这些高级技术将大幅提高你的输出质量和创意控制。

角色声音一致性

OVI 最强大的功能之一是跨多个片段的角色声音生成和一致性。

创建角色声音配置文件：

加载"OVI Character Voice"工作流程模板
使用详细的声音描述生成你的第一个片段
使用"Extract Voice Embedding"节点捕获声音特征
将声音嵌入保存为预设
为以同一角色为特色的未来生成加载此嵌入

此工作流程确保你的角色在整个系列视频中听起来相同，这对于讲故事项目和系列内容至关重要。

声音配置文件管理提示：

为声音配置文件创建描述性名称（"Sarah-Enthusiastic-30s-Female"）
按项目在有组织的文件夹中存储嵌入
记录用于生成每个声音的原始提示词
每 5-10 次生成测试声音一致性以捕获偏移

多说话者对话场景

OVI 在单次生成中处理多个角色之间的对话。

对话工作流程设置：

加载"OVI Multi-Speaker"工作流程模板
在音频提示词中使用说话者标签："[Speaker A]: Hello there. [Speaker B]: Hi, how are you?"
在角色定义中为每个说话者提供声音描述
将"Speaker Separation"参数设置为 1.0 或更高以获得清晰的区分
生成并验证每个说话者具有不同的音频特征

对话提示词示例：

想跳过复杂性吗？ Apatero 无需技术设置即可立即为您提供专业的AI结果。

零设置相同质量 30秒内开始免费试用Apatero

无需信用卡

Video: "Two people having a conversation at a coffee shop, medium shot showing both faces, warm afternoon lighting, casual friendly atmosphere"

Audio: "[Speaker A - deep male voice]: Have you tried this new AI video tool? [Speaker B - higher female voice]: Not yet, but I've heard amazing things about it. Tell me more!"

模型生成不同的声音、每个说话者适当的面部动作，以及自然的对话时机，包括停顿和重叠。

环境感知声音设计

OVI 自动生成与视觉环境匹配的音频，但你可以通过特定技术增强这一点。

声学环境控制：

在音频提示词中，指定环境特征：

"large cathedral with natural reverb"
"small enclosed car interior, muffled exterior sounds"
"outdoor park, distant city traffic, bird sounds"
"recording studio with dead acoustics"

模型调整回声、混响、背景氛围和音频透视以匹配描述的空间。这创造了沉浸式的真实感，用手动声音设计需要数小时才能实现。

情感和语调控制

通过详细的音频提示词控制声音情感和传递风格。

有效的情感关键词：

声音基调："excited"、"somber"、"anxious"、"confident"、"playful"
传递风格："fast-paced"、"deliberate"、"whispering"、"shouting"
语调："rising intonation"、"questioning tone"、"emphatic delivery"
性格："warm and friendly"、"professional and formal"、"casual and relaxed"

在对话中结合这些与特定的强调标记：

"[Excited, fast-paced]: This is AMAZING! [Pause, more measured]: Let me show you exactly how it works."

图像转视频音频工作流程

从现有图像开始，生成匹配的视频动作和同步音频。

加载"OVI I2VA"（Image-to-Video-Audio，图像转视频音频）工作流程
将源图像上传到"Load Image"节点
在视频提示词中描述你想要的运动
在音频提示词中描述对话或声音
OVI 生成扩展你的图像的视频和匹配的音频

此工作流程擅长为角色肖像添加动画、将照片转换为说话头像视频或为静态插图添加动作和声音。

I2VA 的用例：

带旁白解说的产品演示
说对话的角色肖像
带时代适当声音的历史照片动画
转换为视频介绍的个人资料图片

针对不同硬件配置优化 OVI

OVI 的双模态生成是 VRAM 密集型的。这些优化技术帮助你在更适度的硬件上运行它。

OVI 的 FP8 量化

全精度 OVI 模型需要 20GB+ VRAM。FP8 量化显著减少了这一需求。

可用的 OVI 量化：

量化	VRAM 使用	相对 FP16 的质量	生成速度
FP16（原始）	20GB	100%（基线）	1.0x
FP8-E4M3	12GB	96-98%	1.15x 更快
FP8-E5M2	12GB	94-96%	1.2x 更快
INT8	10GB	90-93%	1.3x 更快

如何使用量化的 OVI 模型：

从 Character AI 的模型仓库下载量化版本
不需要特殊设置，在 ComfyUI 中自动工作
量化中音频质量的下降略小于视频质量
即使在 INT8 时唇形同步准确性仍然很高

扩展片段的内存管理

生成较长的片段需要仔细的内存管理。

创作者计划

创作内容每月赚取$1,250+

加入我们的独家创作者联盟计划。根据病毒视频表现获得报酬。以完全的创作自由按您的风格创作内容。

$100

300K+ views

$300

1M+ views

$500

5M+ views

立即申请 - 开始赚钱

每周支付

无前期费用

完全创作自由

基于块的生成： 不要一次生成 30 秒，而是将其分解为重叠的块：

使用你的提示词生成 0-10 秒
使用第一个片段的结尾作为条件生成 8-18 秒
使用第二个片段的结尾生成 16-26 秒
混合重叠部分以实现平滑过渡

这种技术以生成时间换取大幅降低的 VRAM 需求。

CPU 卸载： 在 ComfyUI 设置中启用激进的 CPU 卸载。OVI 的架构允许将音频生成组件卸载到系统 RAM，同时将视频生成保留在 GPU 上。这将 VRAM 使用量减少 20-30%，速度影响最小。有关更多低 VRAM 策略，请参阅我们的在预算硬件上运行 ComfyUI 指南。

纯音频优化模式

对于需要高质量音频但可以接受较低视频分辨率的项目，使用 OVI 的音频优先模式。

将视频分辨率设置为 512p 或 640p
在 OVI 采样器设置中启用"Audio Priority"
将音频采样率增加到最大值（48kHz）
模型将更多计算分配给音频质量

以低分辨率生成用于测试，然后使用传统的升级工具单独升级视频，同时保留高质量音频。这比以高分辨率生成但音频质量受损产生更好的结果。

如果优化仍然感觉太麻烦，考虑 Apatero.com 自动管理所有基础设施。你可以获得最高质量，而无需担心 VRAM、量化或内存管理。

现实世界的 OVI 用例和制作工作流程

OVI 的同步视频音频生成在多个行业解锁了全新的工作流程。

内容创作和社交媒体

说话头像视频制作： 在没有录制设备的情况下生成整个系列的教育或评论视频。提供脚本，描述角色，OVI 生成带有自然传递的同步视频。

非常适合 YouTube 教育内容、教程系列或社交媒体解释视频。将 OVI 与传统屏幕录制相结合，制作完整的教程。

播客视频版本： 将音频播客转换为 YouTube 和 Spotify 等平台所需的视频格式。将现有播客音频输入 OVI 的音频转视频模式，它会生成匹配的视觉内容，包括唇形同步的说话头像。

游戏开发和动画

角色对话预可视化： 在游戏开发期间测试不同的对话选项，而无需为每次迭代雇用配音演员。生成带有匹配动画的角色语音，然后在最终录制前根据结果优化脚本。

过场动画原型设计： 使用 OVI 生成的对话和动作规划整个过场动画序列。导演可以在承诺昂贵的动作捕捉会话之前审查节奏、时机和情感传递。

在线学习和培训

教学视频创建： 生成一致的讲师角色，以适当的强调和清晰的发音提供课程内容。创建具有统一视觉风格和声音特征的整个课程库。

语言学习内容： 制作跨数十种语言的带有可见唇部动作的发音示例。学生可以同时看到和听到正确的发音，提高学习成果。有关更高级的带有姿势控制的角色动画，探索 WAN 2.2 Animate。

营销和广告

产品演示视频： 快速生成具有不同配音风格、节奏和强调的多个版本的产品解释视频。在投资专业制作之前进行 A/B 测试哪个版本表现最好。

本地化内容： 生成具有多种语言对话的相同视频，每种语言都有适当的唇形同步。这消除了昂贵的配音或仅字幕的解决方案。

排除常见的 OVI 问题

即使安装正确，你也可能遇到特定问题。以下是经过验证的解决方案。

音频视频不同步

症状： 唇部动作与语音时机不匹配，或音效在相应视觉事件之前/之后发生。

解决方案：

将"Synchronization Strength"参数增加到 1.3-1.5
验证你使用的是模型版本的正确 VAE
确保音频提示词与视频提示词时间线匹配
尝试以较短的时长生成（在 5-8 秒时同步改善）
检查 ComfyUI-Audio 扩展是否为最新版本

音频质量差或有伪影

症状： 爆裂声、机器人声音、不自然的语调或音频故障。

解决方案：

将采样步数增加到 60-80（音频需要比视频更多的步数）
验证音频编解码器文件是否正确安装
降低 Audio CFG scale（太高会导致伪影）
检查你的音频提示词是否矛盾
以更高的音频采样率生成（最低 48kHz）

不一致的角色声音

症状： 即使使用相同的描述，角色声音在生成之间也会改变。

解决方案：

使用声音嵌入提取和重用工作流程
使声音描述更详细和具体
设置固定种子以实现可重现的声音特征
如果工作流程中可用，使用"Voice Consistency"模式
考虑从第一次成功生成中提取声音配置文件

CUDA 内存不足错误

症状： 生成中途失败，出现 CUDA 内存错误。

解决方案：

切换到量化模型版本（FP8 或 INT8）
在 ComfyUI 设置中启用 CPU 卸载
关闭其他 VRAM 密集型应用程序
生成较短的片段（将长内容拆分成块）
暂时降低输出分辨率
在开始新生成之前清除 ComfyUI 缓存

缺少音频输出

症状： 视频成功生成但没有音频文件出现。

解决方案：

验证 ComfyUI-Audio 扩展是否正确安装
检查音频输出节点是否在工作流程中连接
确认音频编解码器模型文件在正确的目录中
在 ComfyUI 设置中启用音频预览
检查输出目录的文件权限

对于此处未涵盖的持续问题，请查看 Character AI GitHub Issues 页面以获取最新的错误报告和社区解决方案。

制作质量的 OVI 最佳实践

提示词工程以实现最高质量

分层提示词结构： 将复杂场景分解为分层描述，而不是单个长提示词。

不要这样： "Woman talking excitedly about AI in bright office with computer screens showing code"

使用这样： Video: "Professional woman, late 30s, business casual attire, animated facial expressions and gestures" Environment: "Modern bright office, large windows with natural light, computer screens in background" Camera: "Medium close-up, slight slow zoom, shoulder-level perspective" Audio: "Clear confident female voice with enthusiasm: [Your dialogue here], professional room acoustics, subtle keyboard typing in background"

这种结构化方法为 OVI 的每个生成方面提供了更清晰的目标。

质量控制工作流程

三阶段质量流程：

阶段 1 - 概念验证（5 分钟）：

低分辨率（512p）
30 步
验证提示词解释和基本同步
快速迭代提示词

阶段 2 - 质量审查（12 分钟）：

中等分辨率（720p）
50 步
检查声音质量、唇形同步准确性、动作连贯性
批准进行最终生成

阶段 3 - 最终渲染（20-30 分钟）：

全分辨率（1080p）
70-80 步
高音频采样率（48kHz）
仅用于批准的概念

这种分阶段的方法防止在有缺陷的概念的高质量渲染上浪费时间。

声音配置文件库管理

构建可重用的角色声音库，以在项目之间保持一致性。

组织系统：

/voice_profiles/characters/ - 虚构角色声音
/voice_profiles/narrators/ - 纪录片/解释者声音
/voice_profiles/clients/ - 客户特定的品牌声音
/voice_profiles/languages/ - 特定语言的声音集

记录每个配置文件：

原始生成提示词
示例音频文件
用例说明
使用的生成参数

掌握 OVI 后的下一步

你现在拥有关于 OVI 的安装、工作流程、优化和制作技术的全面知识。你了解如何生成使用传统方法需要数小时或数天的同步视频音频内容。

推荐的后续步骤：

生成 15-20 个测试片段，探索不同的声音风格和情感
构建你的角色声音配置文件库以获得可重用的资产
尝试多说话者对话场景
为更长的内容设置基于块的工作流程
加入 OVI 社区论坛分享结果和技术

额外的学习资源：

Character AI 研究博客用于技术深入探讨
OVI GitHub 仓库用于模型文档
ComfyUI-Audio Wiki 用于音频节点教程
用于 OVI 特定讨论和故障排除的社区 Discord 频道

选择正确的方法

选择本地 OVI 如果： 你定期制作对话密集内容，需要完全的创意控制，拥有合适的硬件（12GB+ VRAM），并且希望在初始投资后零经常性成本
选择 Apatero.com 如果： 你需要即时结果而无需技术设置，想要保证的基础设施性能，更喜欢按使用付费定价而无需硬件投资，或者需要为客户工作提供可靠的正常运行时间

OVI 代表了 AI 视频创作的范式转变。统一的视频音频生成方法消除了困扰传统工作流程的同步麻烦。无论你是制作教育内容、开发游戏资产、创建营销材料还是构建娱乐媒体，OVI 都将专业的同步视频音频生成直接放在你的手中。

内容创作的未来不是在视频或音频工具之间做出选择。而是关于统一生成，将视听内容视为它应该是的集成体验。OVI 使这个未来现在就可以在 ComfyUI 中使用，准备好让你探索和掌握。