リリース: 2026/06/01 17:46 読む: 0
原作者:Sudheendra S G
オリジナルソース:https://www.youtube.com/embed/kwFQq5WqWOQ
00:00 概要: AI オーディオ パイプラインの自動化 01:03 2 つのスクリプトによる自動化: セットアップ ファイル + プロダクション ランナー 02:07 セッション ファイルのダウンロード 03:05 オーディオ パイプライン フォルダー構造の説明 04:30 既存の WSL インストールの確認 06:05 WSL2 への Ubuntu のインストール 07:05 D ドライブへの Ubuntu のエクスポート 08:05 Ubuntu のインポートカスタムの場所に戻る 09:25 カスタム WSL ショートカットの作成 10:55 Ubuntu パッケージの更新 11:35 ワンタイム WSL2 セットアップ スクリプトの実行 13:25 セットアップ後に見つからない Conda の修正 14:43 ハグ顔モデル アクセスのセットアップ 16:30 WSL2 でのハグ顔の認証 17:35 実稼働 Python スクリプトの概要 18:35 実行完全なプロダクション パイプライン 19:40 入力ビデオと言語パラメータの設定 20:25 参照オーディオと参照テキストの追加 21:40 ワンコマンド パイプラインの実行 22:20 文字起こし、翻訳、TTS の実行 23:10 最終的なビデオ、オーディオ、字幕、出力ファイル 25:05 結論と次のステップ: Indic Parler TTS Github リポジトリhttps://github.com/ssathvick/indicftts.git 無料のリソースとコース資料については、以下の patreon ページをご覧ください https://www.patreon.com/posts/151488430 このビデオでは、WSL2 内の完全なローカル AI 音声翻訳とダビング パイプラインを自動化します。これまでに、WSL2 のセットアップ、Conda と Mamba のインストール、PyTorch GPU のセットアップ、音声抽出、Faster-Whisper と Indic Conformer を使用した文字起こし、IndicTrans2 を使用した翻訳、IndicF5 と XTTS を使用したテキスト読み上げというパイプラインを段階的に完了しました。しかし、これらすべてのフェーズを毎回手動で実行することは、実稼働環境では現実的ではありません。そこでこのセッションでは、2 つのメイン スクリプトを使用してワークフロー全体を自動化システムに変換します。最初のスクリプトは、ワンタイム WSL2 マシン セットアップ ファイルです。 Conda、Mamba、FFmpeg、PyTorch、TorchCodec、Hugging Face サポート、およびインドおよび国際言語処理に必要なすべての環境をインストールします。 2 番目のスクリプトはプロダクション ランナーです。入力ビデオ、ソース言語、ターゲット言語、参照音声、およびいくつかのパラメータを使用するだけで、音声抽出、文字起こし、翻訳、TTS 生成、音声処理、字幕生成、最終的な翻訳済みビデオのエクスポートといった完全なワークフローが自動的に実行されます。このパイプラインは、IndicTrans2 と IndicF5 を使用したインド言語のワークフローと、NLLB と XTTS-v2 を使用した国際言語のワークフローをサポートします。取り上げられるトピック: ✅ ワンタイム WSL2 セットアップの自動化 ✅ Conda および Mamba 環境の作成 ✅ Faster-Whisper 文字起こし ✅ インド言語 ASR の Indic Conformer ✅ IndicTrans2 翻訳ワークフロー ✅ インド言語用の IndicF5 TTS ✅ 国際 TTS 用の XTTS-v2 ✅ TorchCodec および FFmpeg の修正 ✅ ハグ顔認証のセットアップ✅ ワンコマンド制作パイプライン ✅ 最終的な吹き替えビデオのエクスポート これは、クリエイター、教育者、開発者、AI 映画製作者、およびクラウド サービスに完全に依存せずにローカル AI 吹き替えまたは翻訳ワークフローを構築する人にとって役立ちます。コマンド、スクリプト、セットアップ ファイルは、独自のローカル AI 制作パイプラインに適合させることができます。 #LocalAI #AIDubbing #WSL2 #IndicTrans2 #IndicF5 #XTTS #FasterWhisper #AITranslation #VideoDubbing #OpenSourceAI #AIWorkflow #MachineLearning #TextToSpeech #SpeechToText #FFmpeg
Mario Lastimosa
2026-06-02 03:06
Sudheendra S G
2026-06-02 03:06
Gary Yap
2026-06-02 03:03
趣说漫世界
2026-06-02 02:55
XRP AL DIA
2026-06-02 02:55
Trade with Renato Ulianov
2026-06-02 02:36
重阳-BTC行情分析
2026-06-02 02:15
千帆过社区
2026-06-02 02:05
赛博剧场
2026-06-02 01:56
通貨を選択してください
US Dollar
USD
Chinese Yuan
CNY
Japanese Yen
JPY
South Korean Won
KRW
New Taiwan Dollar
TWD
Canadian Dollar
CAD
Euro
EUR
Pound Sterling
GBP
Danish Krone
DKK
Hong Kong Dollar
HKD
Australian Dollar
AUD
Brazilian Real
BRL
Swiss Franc
CHF
Chilean Peso
CLP
Czech Koruna KČ
CZK
Singapore Dollar
SGD
Indian Rupee
INR
Saudi Riyal
SAR
Vietnamese Dong
VND
Thai Baht
THB
通貨を選択してください
US Dollar
USD-$
Chinese Yuan
CNY-¥
Japanese Yen
JPY-¥
South Korean Won
KRW -₩
New Taiwan Dollar
TWD-NT$
Canadian Dollar
CAD-$
Euro
EUR - €
Pound Sterling
GBP-£
Danish Krone
DKK-KR
Hong Kong Dollar
HKD- $
Australian Dollar
AUD-$
Brazilian Real
BRL -R$
Swiss Franc
CHF -FR
Chilean Peso
CLP-$
Czech Koruna KČ
CZK -KČ
Singapore Dollar
SGD-S$
Indian Rupee
INR -₹
Saudi Riyal
SAR -SAR
Vietnamese Dong
VND-₫
Thai Baht
THB -฿