愛媛大学院 / 理工学研究科・電子情報工学専攻
Youtubeで生成される英語字幕の和訳精度改善
YouTube の自動文字起こし機能は便利ですが、生成された英語テキストを YouTube や Chrome ブラウザの翻訳機能で日本語に翻訳すると、単語単位で翻訳された不自然な訳文になってしまうことがあります。これは、翻訳機能が文全体の意味を理解できていないことが原因です。 この問題を解決するために、本システムは、BERT を用いた言語モデルを活用し、以下の手順で、より自然で理解しやすい日本語字幕を生成します。 1. 句読点の予測と挿入: 自動文字起こしされたテキストに、BERT モデルを用いて文末のピリオドやクエスチョンマークなどを予測し、適切に挿入します。 2. 文単位の分割: 挿入された句読点に基づいてテキストを文単位に分割します。 3. 高精度な翻訳: 分割された各文を Google Cloud Translation APIを用いて日本語に翻訳します。 これにより、単語単位の翻訳では不可能であった、文脈を考慮した自然で理解しやすい日本語字幕を生成することが可能になります。