新年、あけましておめでとうございます。今年もよろしくお願いします。
インターンで広報を担当しております、林です。
ダイナミックプラス社でのインターンも5か月目に入りました。早いものです。そのなかで「社員インタビュー」をさせていただく機会がありました。
ここで一つ問題があります。
文字起こしって、めんどくさい
です。自分はインタビュー時の録音を聞きながら文字起こしをしていましたが、これがなかなか時間がかかります。30分のインタビューに対して記事作成は90分ほどかかります。内容を考えながら作れたら作成も楽しいものですが、一度伺った内容の確認である文字起こしはその作業も単調になりがち...
そんな中、弊社データサイエンティストの萩元さんがAmazon Transcribeについて教えてくださいました。
Amazon Transcribeとは?
Amazonが提供する機械学習を使って自動文字起こしをするサービスです。昨年の11月から日本語対応したことから少し話題になっていました。特徴などは下記の記事が分かりやすいです。
しかも最初の12か月は、毎月60分の音声データは無料で文字起こしが可能とのこと。これは試すしかない。
ということで。
実際に社員インタビュー記事で試してみた
使い方は簡単3STEPです。ざっくりご説明します。
①Amazon S3に音声データを入れる
下記の記事が参考になります。録音したデータをアップロードします。この時にファイルが存在する場所をメモっておきましょう。
②ジョブの作成
Job settings
Name:プロジェクト名を記入しましょう
Language:言語を選択しましょう。今回は日本語を選択しました。
Job queue:よくわからなかったのでスルー。ジョブキューに関しては以下の記事で説明されています。
Input data
①でS3に入れた音声データファイルの場所を記入します。
Output data
出力するデータの保存先を決めます。Amazon Transcribeが管理するS3バケットか、ユーザー自身のS3バケット化を選択できるそうです。よくわからなかったのでdefaultのままにしました。
上記を埋めNextを選択すると次の画面に移ります。
Audio settings
Audio identification:有効にするとChannel identificationとSpeaker identification が選択でき、前者ではチャネルを識別し、後者では音声内で会話している人数を設定することでTranscribeは話者の変更を認識します。今回はSpeaker identificationを選択し、1対1のインタビューであったのでMaximum number of speakersを2人に設定しました。
Alterantive results:認識結果の複数候補を取得できるそうです。詳しくは以下の記事が参考になります。
Content removal
Vocabualry filtering:特定の用語を自動的に隠したり、削除したりできます。インタビュー記事ですと「えっと」とか「あっ」などの言葉をあらかじめ設定すると便利ですね。
Customization
Custom vocabulary:正しい文字起こしがされにくい分野特有の用語などを設定できます。
とりあえず自分は話者の人数設定だけをしました。ここまで埋めたらあとは実行するだけです!
③待機&結果
お昼を食べに行ったら結果が出ました。
およそ30分ほどのデータでしたが、文字起こしにかかった時間は...
Started:2019/12/2 12:04:41
Ended:2019/12/2 12:10:48
→約6分で完了!!
文字起こしの精度
一番気になるのは文字起こしの精度です。今回はシステムエンジニアの川島さんにインタビューを行いました。
実際に話された内容はこちら
一つは日々の推奨価格を算出していくという我が社の一番の部分と、それともう一つその推奨価格を出すために過去の販売実績というものを集めて、で、これをシステムに取り込んで分析できる状態にするという大きく二つの業務があります
Amazon Transcribeの結果がこちら
一つ は 日々 ひび 水上 価格 を 算出 し て いく と いう 話者 の えーっと 一番 飛ぶ と それと もう 一つ えーっと その 推奨 価格 を、 出す ため に は 過去 の 販売 実績 という もの を 集め て で これ を システム に 取り込ん で 分析 できる 状態 に する という 大きく 二つ の 業務 が あり ます
大体合っています!すごい!
使用感と最後に
ということで今回はAmazon Transcribeを利用してインタビュー記事を書いてみました。
使用感としては思った以上に正確に文字起こしがされていた印象です。
自分は設定をほぼデフォルトのまま行いましたが、より設定を細かくすると精度が高くなるかと思います。
あとは正確に文字を起こす必要がある場面か、または音声を要約するだけで済む場面なのかを考えて使い分けるといいかと思います!
実際にAmazon Transcribeを利用して書いた記事はこちらです!システムエンジニアとしてバリバリご活躍されながら、休日にはバスケをするという若々しさあふれる川島さんの魅力が詰まった記事になっています!
ダイナミックプラス社は現在採用強化中です!幅広いポジションをwantedlyやHPで募集しております!また、弊社に興味を持っていただけたましたら、是非meetupにご参加ください!
Meet up #23 2021.11.26(金) 18:00~
こちら、全職種向けのmeetupになります!入退室自由、選考とは無関係、カメラオフで参加できるのでリラックスして参加可能です。どしどしご応募お待ちしております!
公式HP(導入企業やサービスの概要について掲載されています)
川島さんが所属しているシステム部の募集はこちら!
その他の社員インタビューはこちらから!