ASR
音声認識を、二重で走らせる。
WhisperX と OpenAI Whisper-1 を並列で実行し、両者の食い違いを Claude が精査して合意点だけを採用する。片方の聞き間違いを、もう片方が捕まえる。
日本語動画のために設計された、完成品レベルの吹替・字幕を AI だけで。
BGMやSEを損なわず、話者の声・テンションを保ったまま、ネイティブが自然に視聴できる仕上がりへ。
Use cases
機能ではなく、やりたいことを選んでください。必要な工程だけ、1本ずつ使えます。
全フロー ¥1,000 / 言語 から·プラン加入で実質 ¥396〜
左が元動画、右がDubifyで実際に吹き替えた成果物です。タブで言語を切り替えられます。
Before(日本語 · 原音)
After(Dubify · スペイン語)
Pipeline
1つの工程だけ良くても、自然な吹替は出ません。 連動して初めて、仕上がりに迷わせない品質になる。 このうち 5 つが、Dubify の独自工程です。
原音から声成分だけを抽出し、原音BGMは劣化なしで丸ごと保持。後段で新しい吹替音声と原音BGMをクリーンに合成できる前提づくりです。
高精度な音声認識でテキスト化します。
音声認識直後のテキストには誤認識・固有名詞・数字の誤りが残ります。Dubifyは文脈解析でこれらを訂正し、読み上げ元の文章を正確に保ちます。ここで直しておかないと、以降の翻訳・吹替の精度がすべて落ちます。
元音声の長さに収まる訳文を生成。同じ意味でも言語によって長さが大きく違うため、尺ごとに語彙・構文を選び直して訳す必要があります。早口や途中切れを根本から防ぐ独自エンジン。
元音声の抑揚・感情を解析してTTSのトーンに反映。話す場面で喋り、黙る場面では黙る。字幕のタイムスタンプに沿って同期再生されるため、口元と音声がずれません。
保持していた原音BGMと新しい吹替音声をクリーンに合成。リエンコード時の音質劣化を最小化して、最終動画として書き出します。
途中の中間ファイル(声トラック・BGM・字幕・翻訳・音声)はすべて個別にダウンロードできます。 編集ソフトに持ち込んで仕上げる、用途を絞って使う、どちらも可能です。
YouTubeのオートダビングは精度がまだ追いついていません。 文字起こしの誤りがそのまま翻訳・吹替に流れ込むため、読み上げ元の文章自体が意味不明に。 海外の視聴者は内容を理解できず数秒で離脱します。 しかもクリエイター側では確認も修正もできません。
Craft
出力の品質を決めるのは、ユーザーが直接見ない処理です。 ここに、私たちがどこに時間を使ったかを書きます。
ASR
WhisperX と OpenAI Whisper-1 を並列で実行し、両者の食い違いを Claude が精査して合意点だけを採用する。片方の聞き間違いを、もう片方が捕まえる。
語彙
動画タイトル・ジャンル・固有名詞の用語集から initial_prompt を構築し、認識前にバイアスをかける。「タラバガニ」を「タラバガリ」と聞き間違えない。
翻訳
翻訳は 3 つの異なるペルソナで独立に走らせ、Claude が segment 毎に最良候補を選ぶ。1人の翻訳者では出ない選択肢を、合議でしか出ない訳に変える。
意味照合
翻訳結果を逆向きに翻訳し、原文との意味ドリフトを照合する。意訳と誤訳の境界線で、誤訳側に倒れたものだけを差し戻す。
音響
ITU-R BS.1770 準拠のラウドネス正規化と、声の登場に同期する sidechain ducking。BGM が声を埋める/声が抜けた瞬間に静かになる、を出さない。
タイムコード
字幕タイムコードを映像のフレーム周期に正確スナップ。SRT は ms ベースだが、出力 ms はすべて整数フレーム位置に対応する。Premiere に持ち込んでも、編集を繰り返してもドリフトしない。
どれも、利用者には見えない処理です。それでも、 仕上がりに迷わせない ためには必要だと考えて、入れました。
Pricing
1クレジット = 1言語1本の処理。動画の長さや機能による追加料金はありません。 自チャンネルの字幕も、別チャンネルへの多言語展開も、これ1つで。
全プラン
お試し
¥0
30秒プレビュー
まず品質確認
Starter
¥3,980/月
3クレジット
1言語¥1,326
Pro
¥12,800/月
10クレジット
1言語¥1,280
Business
¥49,800/月
50クレジット
1言語¥996
追加クレジットは ¥1,800 / 1言語 で都度購入可。 プランを使い切っても止まりません。