動画の文字起こし(トランスクリプション)は、字幕作成、翻訳、議事録作成など、さまざまな用途の起点となる重要な工程です。
テスト条件
- テストA: スタジオ録音のプレゼン(10分、BGMなし、明瞭な話し方)
- テストB: オンライン会議録音(10分、複数話者、エコーあり)
- テストC: 街頭インタビュー(10分、環境ノイズ大)
精度比較
| サービス | テストA | テストB | テストC | 平均 |
|---|---|---|---|---|
| Whisper large-v3 | 96.2% | 89.1% | 82.4% | 89.2% |
| Google Cloud V2 | 95.8% | 90.3% | 84.1% | 90.1% |
| Azure Speech | 95.1% | 89.5% | 83.2% | 89.3% |
| Amazon Transcribe | 94.5% | 88.7% | 81.9% | 88.4% |
| notta | 93.8% | 87.9% | 80.5% | 87.4% |
| YouTube自動字幕 | 88.3% | 82.1% | 74.6% | 81.7% |
用途別おすすめ
字幕制作・翻訳 — Whisper large-v3 or Google Cloud V2。Dubifyのような翻訳プラットフォームでは高精度な文字起こしエンジンが内蔵されています。
会議の議事録 — Google Cloud V2 or notta(リアルタイム対応)。
大量処理 — Whisperのローカル実行が最安。GPUマシンがあれば10分の動画を1〜2分で処理。
精度を上げる実践アドバイス
前処理が8割 — BGM分離、ノイズリダクション、音量正規化の3つで平均3〜5ポイント改善。
複数サービスの結果を突合 — 両方が一致している部分は高確率で正しく、不一致部分だけ人間が確認すれば効率的。