BGM分離音声分離動画編集AI音声処理

動画のBGMと音声を分離する方法|無料ツールとAI技術を比較解説

動画の音声からBGMだけを取り除いて、人の声だけを抽出したい。あるいはその逆で、BGMだけを残したい。動画制作や翻訳作業をしていると、必ずぶつかるこの課題。

主要ツール比較

Demucs(Meta) — 無料・オープンソース。現時点で最高精度。Python環境が必要。

LALAL.AI — 無料枠あり(10分)。ブラウザで完結。UIがわかりやすい。

UVR(Ultimate Vocal Remover) — 無料・オープンソース。GUIアプリで使いやすい。

Spleeter(Deezer) — 無料・オープンソース。処理速度が速い。

実測比較結果(10分トーク動画)

ツールボーカル精度処理時間BGM残留
Demucs非常に高い3分ほぼなし
LALAL.AI高い1分わずか
UVR高い4分わずか
Spleeterやや荒い30秒やや残る

精度を上げるコツ

1. 元の音質が良いほど精度は高い — WAVやFLACなどの無圧縮フォーマットを使いましょう。

2. 2段階分離を試す — 1回の分離結果をもう一度通すことで残留BGMをさらに減らせます。

3. ノイズゲートで仕上げる — Audacity(無料)のノイズゲートで無音部分のノイズをカットするだけでも印象が変わります。

Dubifyのような動画翻訳サービスでは、BGM分離が翻訳パイプラインに組み込まれているため、手動で分離作業を行う必要がありません。

動画の吹替・翻訳・字幕生成を試してみませんか?

Dubifyを試す →