日本語音声認識におけるテストタイムコンピュート:Whisper出力のLLM補正による誤り低減の予備検証
今日は、日本語の会話音声認識(ASR)を「テストタイムコンピュート」で改善できるかを試した内容についての報告です。テストタイムコンピュート(的なアイデア)を活用しての精度向上は、コードネーム: オポッサムとして検証していたものです背景OpenAIのWhisperは高精度なASRモデルですが、日本語の雑談や固有名詞、表記ゆれなどでは、ちょこちょこと誤りが残ります。学習データを追加して再学習(ファインチューニング)するのはコストもリスクも高いので、もっと手軽に精度を上げたい──そこで使ったのが Test-Time Compute(TTC) という発想です。TTCとは、モデルを再学習せずに「推...