日本でITエンジニアとして働くために、自分でAI workflowを作った話

最近、IT系Podcastや面接録音を使った、日本語学習workflowを個人で試しています。

最初は、
実際のPodcastの内容をそのままN2レベルに簡略化して、
学習用コンテンツを作ろうとしていました。

ただ、Geminiで生成してみると、
表現がかなり原文に近くなってしまい、
「これでは元コンテンツの代替になってしまう」と感じました。

そのため、
現在はまず内容の「主張」や「考え方」を抽出して、
そこから別の学習素材として再構成する形に変更しています。

また、
学習用にする中でも、

などを細かく調整しているため、
思った以上に試行錯誤が多くありました。

音声生成についても、
最初はElevenLabsを試しましたが、
日本語の読み精度に違和感があり、
現在はGoogle TTSを使っています。

さらに、
字幕付き動画を作る際には、
音声と字幕のタイミング合わせにも苦労しました。

最初は文の長さから時間を推測していましたが、
精度がかなり低かったため、
最終的にはWhisperで再度文字起こしを行い、
そこからタイムラインを修正する構成に変えました。

動画生成では、
FFmpegとLibassを使って、

などを重ねています。

特に最初は、
毛ガラスエフェクトを毎フレーム処理していたため、
10分動画の生成に25分ほどかかっていました。

その後、
エフェクトをPNG化するなど構成を見直し、
現在は2分程度まで短縮できました。

最近は、
「AIを使うこと」よりも、
その前後のworkflow設計や、
どうすれば学習しやすくなるかを考える時間のほうが長いと感じています。

日本でITエンジニアとして働くために、自分でAI workflowを作った話

YU CAO