リリース: 2026/05/11 04:51 読む: 0
原作者:AI 論文白話文
オリジナルソース:https://www.youtube.com/embed/afnxVzN_ZF4
🎤 このオープンソースの音声モデルは少し異なります。技術コミュニティで議論を呼び起こしているのは、規模ではなく、アーキテクチャ上のブレークスルーです。 VoxCPM2 — OpenBMB チーム: 🧠 コアのブレークスルー: 拡散自己回帰 → 離散トークンに完全に別れを告げる 🔊 ネイティブ 48kHz の高忠実度音質 (外部アップコンバーターは不要) 🌍 30 の世界言語 + 9 つの中国語方言 (福建語を含む!) 🎭 音声デザイン: 純粋なテキストの説明 → 何もないところから新しいサウンドを作成 🎯 デュアルトラッククローン作成: 制御可能なクローン作成 (柔軟性) + 究極のクローン作成 (忠実度) 📊 Seed-TTS ベンチマーク: 2B パラメータが 7B を上回る Qwen2.5-Omni ⚡ RTF 0.13 (Nano-vLLM アクセラレーション) → 人間の音声より 7 倍高速 💾 実行には最低 8GB VRAM 🆓 Apache 2.0 完全にオープンソースで商用利用可能💻 GitHub: https://github.com/OpenBMB/VoxCPM 🤗 HuggingFace: https://huggingface.co/openbmb/VoxCPM2 📄 公式ドキュメント: https://voxcpm.readthedocs.io/en/latest/models/voxcpm2.html [第 1 章: コア アーキテクチャのブレークスルー] 0:00 - VoxCPM2 (OpenBMB): 20 億パラメータ、200 万時間以上のトレーニング、Apache 2.0 は完全にオープンソースで商用化可能 0:18 - 拡散自己回帰アーキテクチャ: 離散トークンに完全に別れを告げ、連続音声表現を使用して、外部アップコンバータを必要とせずに 48kHz ネイティブの高忠実度音質を直接生成 [第 2 章: 30 言語 + 9 方言] 0:55 - のネイティブ サポート30 のグローバル言語、ゼロサンプル直接出力 (言語タグは必要ありません) 1:31 - オープンソース業界でネイティブにサポートされることはほとんどない「閩南語」をカバーする、9 つの中国語方言の徹底した最適化 [第 3 章: 音声デザイン (サウンドを作成するための純粋なテキスト)] 1:56 - オーディオを参照せずに、純粋なテキストの説明 (性別/感情/話す速度など) で、何もないところから新しい音声を作成できます 2:19 - 強力なコンテキストあり認識、テキスト説明は専用ミキサーです [第 4 章: デュアルトラック音声クローン作成] 2:53 - 制御可能なクローン作成 (16kHz オーディオ + テキスト): 感情とスピーチの速度を柔軟に変更でき、仮想アンカーに適しています 3:22 - 究極のクローン作成 (オーディオ + 逐語的): 音声の継続に基づいており、すべての呼吸休止の 100% 忠実度、音声修復に適しています [第 5 章: Tokenizer Free の自然な感覚] 3:53 - 従来のトークンの強制セグメンテーションによって引き起こされる音響ディテールの損失に別れを告げます 4:18 - 連続的なポテンシャル空間で直接動作するため、波形は滑らかで自然で、人間の感情の微妙な浮き沈みを完全に保持します [第 6 章: AudioVAE V2 ネイティブ アップスケーリング] 4:46 - 非対称コーデック設計、モデル内で 16kHz から 48kHz の超解像度を直接完成させます 5:12 - 外部音の放棄アップサンプラー、エンタープライズ展開のメンテナンス コストと障害ポイントを削減 [第 7 章: エンドツーエンドの 5 段階推論] 5:22 - 入力 → 理解 (MiniCPM-4) → 生成 (拡散自己回帰) → レンダリング (AudioVAE V2) → 出力 (0.13 RTF) で完全な音響オペレーティング システムを作成 [第 8 章: 3 世代のリープフロッグ進化] 5:56 - パラメータがアップグレード0.5B から 2B、30 言語に完全に拡張され、フル機能のサポート 6:42 - 究極のパフォーマンスを保証するために、LM トークン レートが 6.25Hz に安定して低下 [第 9 章: ハードコア ベンチマーク データ] 6:50 - Seed-TTS: 2B モデル (WER 1.84/SIM 75.3) が 7B のトップ オープン ソース モデルを上回る 7:29 - 30 言語 ASR (内部テスト): 世界的な平均エラー率はわずか 1.68% 8:13 - InstructTTSEval: 3 つの主要な感情コマンド指標がリストの大半を占め、意味論的な深い理解が証明されています [第 10 章: 非常に高速な推論と展開] 8:46 - 速度パフォーマンス: PyTorch 標準 0.30 RTF。 Nano-vLLM は驚異的な 0.13 RTF まで加速します 9:07 - vLLM-Omni 高スループット展開をサポートし、完全なドッキングのための OpenAI 互換 API を提供します [第 11 章: 微調整とオープンソース エコシステム] 9:20 - SFT (ディープ) または LoRA (ライト) の実行に使用できるオーディオは 5 ~ 10 分のみです 独自のサウンドを作成するための微調整 10:04 - カバーサーバー/エッジ/ComfyUI エコシステム、最低 8GB VRAM で実行可能 10:43 - 2026 年にオープンソース TTS オプションをテストする必要があり、公式デモに行くことを強く推奨 個人シナリオを検証━━━━━━━━━━━━━━━━━━━━━━ 📊 コアデータ (厳密に SRT コンテンツに基づく) ━━━━━━━━━━━━━━━━━━━━━━ • 開発者: OpenBMB チーム • ライセンス: Apache 2.0 (完全オープンソース、商用利用可能) • アーキテクチャ: 拡散自己回帰 → トークナイザーフリー • バックボーン ネットワーク: MiniCPM-4 • パラメータ: 2B (20 億) • トレーニング データ: 200 万時間以上の多言語音声 • ネイティブ サンプリング レート: 48kHz (スタジオ品質、外部アップコンバータは必要ありません) • 言語: 30 の世界言語 • 方言: 9 つの中国の方言 (福建語を含む) • VRAM 要件: 最小 ~8GB • LM トークン レート: 6.25Hz 推論速度: 標準 PyTorch: RTF 0.30 Nano-vLLM アクセラレーション: RTF 0.13 (人間より約 7 倍高速) 4 つの主な機能: 1. 音声デザイン (音声デザイン): 純粋なテキスト説明 → 無から音を作成 2. 制御可能なクローン (制御可能): 参照オーディオ + テキスト → 感情/スピーチ速度を変更可能 3. アルティメット クローン (究極): 参照オーディオ + 逐語的なドラフト → 完璧な忠実度の継続 4. ゼロサンプル多言語 (ゼロショット): 言語タグのないコア モジュールの自動識別: LocEnc → TSLM → RALM → LocDiT → AudioVAE V2 (16→48kHz)ベンチマーク (SRT に記載されているデータ): Seed-TTS: WER 1.84 / SIM 75.3 (2B が 7B を獲得 Qwen2.5-Omni) 30 言語 ASR: 世界平均エラー率 1.68% 英語 0.42% / 中国語 0.92% / アラビア語 1.23% / インドネシア語 1.36% InstructTTSEval: APS 84.2 / DSD 83.2 / RP 71.4 (3 つすべての中で最高) ⚠️ 30 言語 ASR は内部テストであり、サードパーティ以外の独立した評価展開の統合: • Nano-vLLM / vLLM-Omni (高スループット サーバー) • ONNX クロスプラットフォーム/Apple Neural Engine • ComfyUI ノード • OpenAI 互換/v1/オーディオ/音声 API • LoRA 微調整 (軽量マルチティンバー スイッチング) 3 世代VoxCPM-0.5B (初代): 0.5B / 中国語および英語 / 16kHz / 12.5Hz VoxCPM-1.5 (安定版): 0.8B / 中国語-英語 / 44.1kHz / 6.25Hz VoxCPM2 (最新): 2B / 30 言語 + 9 方言 / 48kHz / 6.25Hz ━━━━━━━━━━━━━━━━━━━━━━ 🎯 高価値の応用分野━━━━━━━━━━━━━━━━━━━━━━ ✅ 仮想アンカー: 制御可能なクローン作成 + 複数の感情の瞬時切り替え ✅ ダイナミックなオーディオブック: 感情制御 + 複数の役割 ✅ 過去の音声復元: 究極のクローン作成の忠実な復元 ✅ 音声の継続:特定のスタイルのシームレスな継続 ✅ グローバル製品: 30 言語、ゼロサンプル ✅ 台湾市場: 福建語ネイティブサポート (オープンソースのみ) ✅ エンタープライズ専用音声: 5 ~ 10 分のデータ → LoRA 微調整 → オンライン ⚠️ GPU が必要 (最小 ~8GB VRAM) ⚠️ 音声設計の結果は毎回若干異なる場合があります ⚠️ 30 言語の ASR 内部テスト用データ━━━━━━━━━━━━━━━━━━━━━━ 🎬 デモ体験方法(SRT に基づいてのみ記載) ━━━━━━━━━━━━━━━━━━━━━━ ビデオの最後にある提案: 「公式デモページを実行して、独自の使用シナリオで試してみてください」 🔗 GitHub: https://github.com/OpenBMB/VoxCPM 🤗 HuggingFace: https://huggingface.co/openbmb/VoxCPM2 ローカル展開: pip install voxcpm デモ スクリプトの提案 (SRT コンテンツに厳密に対応): 1. 音声デザイン: 「深い男性の声、悲しい、ゆっくりとした話し方」 + テキストを入力 → 何もないところから効果を観察 2. 制御可能なクローン作成: 16kHz の基準オーディオを提供 → 感情と話す速度を変更 → 元のサウンドを比較 3. 究極のクローン作成:参考音声 + 逐語スクリプト → すべての呼吸とポーズの忠実度を検証 4. ゼロサンプル多言語: 言語タグなし → 中国語/英語/日本語/フランス語テキストを直接入力 → 自動認識を観察 5. 福建語テスト: 福建語テキストを入力 → 方言品質を検証 フリー素材 (参考音声): • 5 ~ 10 秒のクリアな音声を自分で録音するだけ • Common Voice https://commonvoice.mozilla.org/ (多言語音声データセット) • LibriSpeech https://www.openslr.org/12/ (英語音声) #VoxCPM2 #OpenBMB #音声合成 #TTS #拡散自動回帰 #TokenizerFree #48kHz #音声デザイン #VoiceDesign #音声クローン #30言語 #閩南方言 #中国語方言 #MiniCPM4 #AudioVAE #LoRA #オープンソースTTS #Apache2 #ボイスクローン #ゼロショット #VoiceAI ═══════════════════════════════════⚠️ 免責事項═==============================================================================================================================================================================================================によるレビュー。コンテンツは、OpenBMB 公式 GitHub リポジトリ、HuggingFace モデル カード、および技術文書に基づいています。これは非公式のオリジナル文書の直接翻訳です。すべてのコード、モデルの重み、ベンチマーク データ、および引用されたコンテンツの著作権は、OpenBMB チームとオープン ソース コミュニティに属します。一部のベンチマーク テストは内部データであり、独立した第三者による評価ではありません。音声クローン機能を使用する場合は、現地の法律および規制に従ってください。また、他人を欺いたり、なりすましたりする目的で使用することはできません。技術的な実装は時間に左右されます。ご不明な点がございましたら、必ず公式リポジトリで最新情報をご確認ください。 🔗 https://github.com/OpenBMB/VoxCPM
Electro Cubos
2026-05-11 14:50
Zala2626
2026-05-11 14:38
Thohir - block
2026-05-11 14:38
剧能充电站
2026-05-11 14:38
C-Minidrama
2026-05-11 14:38
Sweety Theater
2026-05-11 14:16
RushMiniDrama
2026-05-11 14:16
破晓动漫社 Dawn Anime Club
2026-05-11 14:16
AI 論文白話文
2026-05-11 13:55
通貨を選択してください
US Dollar
USD
Chinese Yuan
CNY
Japanese Yen
JPY
South Korean Won
KRW
New Taiwan Dollar
TWD
Canadian Dollar
CAD
Euro
EUR
Pound Sterling
GBP
Danish Krone
DKK
Hong Kong Dollar
HKD
Australian Dollar
AUD
Brazilian Real
BRL
Swiss Franc
CHF
Chilean Peso
CLP
Czech Koruna KČ
CZK
Singapore Dollar
SGD
Indian Rupee
INR
Saudi Riyal
SAR
Vietnamese Dong
VND
Thai Baht
THB
通貨を選択してください
US Dollar
USD-$
Chinese Yuan
CNY-¥
Japanese Yen
JPY-¥
South Korean Won
KRW -₩
New Taiwan Dollar
TWD-NT$
Canadian Dollar
CAD-$
Euro
EUR - €
Pound Sterling
GBP-£
Danish Krone
DKK-KR
Hong Kong Dollar
HKD- $
Australian Dollar
AUD-$
Brazilian Real
BRL -R$
Swiss Franc
CHF -FR
Chilean Peso
CLP-$
Czech Koruna KČ
CZK -KČ
Singapore Dollar
SGD-S$
Indian Rupee
INR -₹
Saudi Riyal
SAR -SAR
Vietnamese Dong
VND-₫
Thai Baht
THB -฿