動画のBGMと音声を分離する方法｜無料ツールとAI技術を比較解説

動画の音声からBGMだけを取り除いて、人の声だけを抽出したい。あるいはその逆で、BGMだけを残したい。動画制作や翻訳作業をしていると、必ずぶつかるこの課題。

主要ツール比較

Demucs（Meta） — 無料・オープンソース。現時点で最高精度。Python環境が必要。

LALAL.AI — 無料枠あり（10分）。ブラウザで完結。UIがわかりやすい。

UVR（Ultimate Vocal Remover） — 無料・オープンソース。GUIアプリで使いやすい。

Spleeter（Deezer） — 無料・オープンソース。処理速度が速い。

ツール	ボーカル精度	処理時間	BGM残留
Demucs	非常に高い	3分	ほぼなし
LALAL.AI	高い	1分	わずか
UVR	高い	4分	わずか
Spleeter	やや荒い	30秒	やや残る

1. 元の音質が良いほど精度は高い — WAVやFLACなどの無圧縮フォーマットを使いましょう。

2. 2段階分離を試す — 1回の分離結果をもう一度通すことで残留BGMをさらに減らせます。

3. ノイズゲートで仕上げる — Audacity（無料）のノイズゲートで無音部分のノイズをカットするだけでも印象が変わります。

Dubifyのような動画翻訳サービスでは、BGM分離が翻訳パイプラインに組み込まれているため、手動で分離作業を行う必要がありません。