价格: $0.15090 2.9605%
市值: $22.92B 0.7601%
成交额 (24h): 1.55B 0%
统治地位: 0.7601%
Price: $0.15090 2.9605%
市值: $22.92B 0.7601%
成交额 (24h): 1.55B 0%
统治地位: 0.7601% 0.7601%
  • 价格: $0.15090 2.9605%
  • 市值: 22.92B 0.7601%
  • 成交额 (24h): 1.55B 0%
  • 统治地位: 0.7601% 0.7601%
  • 价格: $0.15090 2.9605%
首页 > 视频 > 🎯闽南话也能AI 配音! 2B 参数打赢7B! VoxCPM2 三十语言+九种方言全解析用更小模型做出更真的声音

🎯闽南话也能AI 配音! 2B 参数打赢7B! VoxCPM2 三十语言+九种方言全解析用更小模型做出更真的声音

发布: 2026/05/11 04:51 阅读: 0

原文作者:AI 論文白話文

原文来源:https://www.youtube.com/embed/afnxVzN_ZF4

🎤 这个开源语音模型,有点不一样。引起技术社群讨论的不是规模,是架构突破! VoxCPM2 — OpenBMB 团队: 🧠 核心突破:扩散自回归(Diffusion Autoregressive)→ 彻底告别离散Token 🔊 原生48kHz 高保真音质(不需外部升频器) 🌍 30 种全球语言+ 9 种中文方言(含闽南话!) 🎭 语音设计:纯文字描述→无中生有造出新声音🎯 双轨克隆:可控克隆(灵活)+ 极致克隆(保真) 📊 Seed-TTS Benchmark:2B 参数打赢7B 的Qwen2.5-Omni ⚡ RTF 0.13(Nano-vLLM 加速)→ 比人类语速快7 倍💾 最低8GB VRAM 可跑🆓 Apache 2.0 完全开源可商用💻 GitHub:https://github.com/OpenBMB/VoxCPM 🤗 HuggingFace:https://huggingface.co/openbmb/VoxCPM2 📄 官方文件:https://voxcpm.readthedocs.io/en/latest/models/voxcpm2.html 【第一章:核心架构突破】 0:00 - VoxCPM2 (OpenBMB):20亿参数、训练逾200万小时,Apache 2.0 完全开源可商用0:18 - 扩散自回归架构:彻底告别离散Token,以连续语音表征直接生成48kHz 原生高保真音质,免外部升频器【第二章:30语言+ 9方言】 0:55 - 原生支援30 种全球语言,零样本直出(不需语言标签) 1:31 - 深度优化9 种中文方言,涵盖开源界罕见原生支援的「闽南话」 【第三章:语音设计(纯文字造声音)】 1:56 - 纯文字描述(如性别/情感/语速)即可无中生有创造全新声音,完全不需参考音讯2:19 - 具备强大上下文感知能力,一段文字描述就是专属调音台【第四章:双轨语音克隆】 2:53 - 可控克隆(16kHz音讯+文本):灵活改变情感与语速,适合虚拟主播3:22 - 极致克隆(音讯+逐字稿):基于音讯延续,100%保真每一次呼吸停顿,适合语音修复【第五章:Tokenizer Free 的自然感】 3:53 - 告别传统Token 强制切分所造成的声学细节流失4:18 - 直接在连续潜在空间运作,波形平滑自然,完美保留人类微妙情感起伏【第六章:AudioVAE V2 原生升频】 4:46 - 非对称编解码设计,于模型内部直接完成16kHz 至48kHz 超解析度5:12 - 舍弃外部Upsampler,减少企业部署的维护成本与故障点【第七章:端到端五阶段推论】 5:22 - 输入→ 理解(MiniCPM-4) → 生成(扩散自回归) → 渲染(AudioVAE V2) → 输出(0.13 RTF),打造完整声学作业系统【第八章:三代飞跃演进】 5:56 - 参数从0.5B 升级至2B,全面扩展至30 语言与全功能支援6:42 - LM Token Rate 稳定降至6.25Hz,确保极致效能【第九章:硬核Benchmark 数据】 6:50 - Seed-TTS:2B 模型(WER 1.84/SIM 75.3) 打赢7B 顶尖开源模型7:29 - 30 语言ASR (内部测试):全球平均错误率仅1.68% 8:13 - InstructTTSEval:三大情感指令指标霸榜,证明其具备深刻的语意理解力【第十章:极速推论与部署】 8:46 - 速度表现:PyTorch 标准0.30 RTF;Nano-vLLM 加速达惊人的0.13 RTF 9:07 - 支援vLLM-Omni 高吞吐部署,提供OpenAI 相容API 完美对接【第十一章:微调与开源生态】 9:20 - 仅需5-10 分钟音讯,即可进行SFT (深度) 或LoRA (轻量) 微调,打造专属声音10:04 - 涵盖伺服器/边缘/ComfyUI 生态,最低8GB VRAM 即可运行10:43 - 2026 必测开源TTS 选项,强烈建议前往官方Demo 验证个人场景━━━━━━━━━━━━━━━━━━━━━━ 📊 核心数据(严格依据SRT 内容) ━━━━━━━━━━━━━━━━━━━━━━ • 开发者:OpenBMB 团队• 授权:Apache 2.0(完全开源、可商用) • 架构:扩散自回归(Diffusion Autoregressive)→ Tokenizer Free • 骨干网路:MiniCPM-4 • 参数:2B(20 亿) • 训练数据:超过200 万小时多语种语音• 原生采样率:​​48kHz(Studio Quality,不需外部升频器) • 语言:30 种全球语言• 方言:9 种中文方言(含闽南话) • VRAM 需求:最低约8GB • LM Token Rate:6.25Hz 推论速度: 标准PyTorch:RTF 0.30 Nano-vLLM 加速:RTF 0.13(比人类快约7 倍) 四大功能: 1. 语音设计(Voice Design):纯文字描述→无中生有造声音2. 可控克隆(Controllable):参考音讯+ 文本→可改情感/语速3. 极致克隆(Ultimate):参考音讯+ 逐字稿→完美保真续写4. 零样本多语言(Zero Shot):不需语言标签自动辨识核心模组: LocEnc → TSLM → RALM → LocDiT → AudioVAE V2(16→48kHz) Benchmark(SRT 中提及的数据): Seed-TTS:WER 1.84 / SIM 75.3(2B 打赢7B Qwen2.5-Omni) 30 语言ASR:全球平均错误率1.68% 英语0.42% / 中文0.92% / 阿拉伯语1.23% / 印尼语1.36% InstructTTSEval:APS 84.2 / DSD 83.2 / RP 71.4(三项全最高) ⚠️ 30 语言ASR 为内部测试,非第三方独立评测部署整合: • Nano-vLLM / vLLM-Omni(高吞吐伺服器) • ONNX 跨平台/ Apple Neural Engine • ComfyUI 节点• OpenAI 相容/v1/audio/speech API • LoRA 微调(轻量多音色切换) 三代演进: VoxCPM-0.5B(初代):0.5B / 中英/ 16kHz / 12.5Hz VoxCPM-1.5(稳定):0.8B / 中英/ 44.1kHz / 6.25Hz VoxCPM2(最新):2B / 30 语言+9 方言/ 48kHz / 6.25Hz ━━━━━━━━━━━━━━━━━━━━━━ 🎯 高价值应用领域━━━━━━━━━━━━━━━━━━━━━━ ✅ 虚拟主播:可控克隆+多情绪即时切换✅ 动态有声书:情感控制+多角色✅ 历史语音修复:极致克隆忠实还原✅ 演讲续写:无缝接续特定风格✅ 全球化产品:30 语言零样本直出✅ 台湾市场:闽南话原生支援(开源唯一) ✅ 企业专属声音:5-10 分钟数据→LoRA 微调→上线⚠️ 需GPU(最低~8GB VRAM) ⚠️ 语音设计结果每次可能略有不同⚠️ 30 语言ASR 为内部测试数据━━━━━━━━━━━━━━━━━━━━━━ 🎬 Demo 体验方式(仅依据SRT 提及) ━━━━━━━━━━━━━━━━━━━━━━ 影片结尾建议:「去跑一下官方的Demo 页面,用你自己的使用场景试试看」 🔗 GitHub:https://github.com/OpenBMB/VoxCPM 🤗 HuggingFace:https://huggingface.co/openbmb/VoxCPM2 本地部署: pip install voxcpm Demo 脚本建议(严格对应SRT 内容): 1. 语音设计:输入「深沉男声,悲伤,语速缓慢」+ 文本→观察无中生有效果2. 可控克隆:提供16kHz 参考音讯→改变情感和语速→对比原声3. 极致克隆:参考音讯+ 逐字稿→验证每一次呼吸与停顿的忠实度4. 零样本多语言:不加语言标签→直接输入中/英/日/法文本→观察自动辨识5. 闽南话测试:输入闽南话文本→验证方言品质免费素材(参考音讯): • 自己录5-10 秒清晰语音即可• Common Voice https://commonvoice.mozilla.org/(多语言语音资料集) • LibriSpeech https://www.openslr.org/12/(英文语音) #VoxCPM2 #OpenBMB #语音合成#TTS #扩散自回归#DiffusionAutoregressive #TokenizerFree #48kHz #语音设计#VoiceDesign #声音克隆#30语言#闽南话#中文方言#MiniCPM4 #AudioVAE #LoRA #开源TTS #Apache2 #VoiceCloning #ZeroShot #语音AI ═══════════════════════════════════ ⚠️ 免责声明═══════════════════════════════════ 本影片为教育性质的开源专案解读与技术评论,内容基于OpenBMB 官方GitHub Repository、HuggingFace 模型卡及技术文件整理而成, 非官方原始文件之直接翻译。 所有程式码、模型权重、基准测试数据及引用内容之版权归OpenBMB 团队及开源社群所有。 部分基准测试为内部数据,非第三方独立评测。 声音克隆功能请遵守当地法律法规,不得用于诈骗或冒充他人。 技术实作具备时效性,如有任何疑问, 请务必参阅官方Repository 以获取最新资讯。 🔗 https://github.com/OpenBMB/VoxCPM

近期新闻

更多>>

精选专题

  • 狗狗币鲸鱼活动
    狗狗币鲸鱼活动
    通过我们的综合分析,了解狗狗币鲸鱼活动的最新见解。了解趋势、模式以及这些鲸鱼对狗狗币市场的影响。随时了解我们的专家分析,并在您的加密货币之旅中保持领先。
  • 狗狗币挖矿
    狗狗币挖矿
    狗狗币挖矿是向狗狗币区块链添加新交易块的过程。矿工因其工作而获得新的狗狗币奖励。本主题提供与狗狗币挖矿相关的文章,包括如何挖矿狗狗币、最好的挖矿硬件和软件以及狗狗币挖矿的盈利能力。
  • SpaceX 星舰发射
    SpaceX 星舰发射
    本主题提供与 SpaceX 星舰发射相关的文章,包括发射日期、任务详细信息和发射状态。通过此信息丰富且全面的资源,了解最新的 SpaceX 星际飞船发射情况。
  • 模因之王:狗狗币
    模因之王:狗狗币
    本主题提供与最流行的模因相关的文章,包括“模因之王:狗狗币”。 Memecoin 已成为加密货币领域的主导者。这些数字资产之所以受欢迎有多种原因。他们推动了区块链最具创新性的方面。