動画の音声からBGMだけを取り除いて、人の声だけを抽出したい。あるいはその逆で、BGMだけを残したい。動画制作や翻訳作業をしていると、必ずぶつかるこの課題。
主要ツール比較
Demucs(Meta) — 無料・オープンソース。現時点で最高精度。Python環境が必要。
LALAL.AI — 無料枠あり(10分)。ブラウザで完結。UIがわかりやすい。
UVR(Ultimate Vocal Remover) — 無料・オープンソース。GUIアプリで使いやすい。
Spleeter(Deezer) — 無料・オープンソース。処理速度が速い。
実測比較結果(10分トーク動画)
| ツール | ボーカル精度 | 処理時間 | BGM残留 |
|---|---|---|---|
| Demucs | 非常に高い | 3分 | ほぼなし |
| LALAL.AI | 高い | 1分 | わずか |
| UVR | 高い | 4分 | わずか |
| Spleeter | やや荒い | 30秒 | やや残る |
精度を上げるコツ
1. 元の音質が良いほど精度は高い — WAVやFLACなどの無圧縮フォーマットを使いましょう。
2. 2段階分離を試す — 1回の分離結果をもう一度通すことで残留BGMをさらに減らせます。
3. ノイズゲートで仕上げる — Audacity(無料)のノイズゲートで無音部分のノイズをカットするだけでも印象が変わります。
Dubifyのような動画翻訳サービスでは、BGM分離が翻訳パイプラインに組み込まれているため、手動で分離作業を行う必要がありません。