GMOリサーチ&AI株式会社

https://gmo-research.ai

東京都

【ChatGPT活用】音声からテキストへの変換ツールの開発とその実装方法について

Mana Nakamura

Business (Finance, HR etc.)

on 2023-07-07

みなさんこんにちは、システム部のヒュウです。
私はベトナム人で、GMOリサーチに入社してから約半年が経過しました。

今回は、今注目の高いChatGPTに関する記事です。

私は今回、自分の音声を文法や提案の改善が加えられたテキストに書き起こすことができるウェブベースのツールを作ることを目的とした開発を行ってみました。
この開発では、新しいアプリケーションの開発におけるChatGPTの有効性をテストし、最短のリードタイムでデモを作成することを目的に行いました。

結果的にChatGPTの利用により、音声録音、音声からテキストへの変換、テキスト解析、そしてReact.jsを使った結果の表示など、いくつかの機能を実装し、それらのデモをわずか1日で実装することができました。

この記事では、これらの機能の実装方法、使用したツールや技術、ChatGPTで達成された精度、プロジェクトの革新的な側面について詳しく説明します。この記事が、ChatGPTの潜在的な有効性を証明し、開発者がAIを使った新しいソリューションを模索するきっかけとなればいいなと思っています。

1.基本設計
2.音声録音について
3.音声認識
4.axiosのインストール方法やコマンド
5.テキスト解析と改善
6.ChatGPTを活用したコード生成
　6-1.【ChatGPTコード生成】ChatGPTへの質問例
　6-2.【ChatGPTコード生成】ChatGPTからの回答
　6-3.【ChatGPTコード生成】ChatGPTへの質問例②
　6-4.【ChatGPTコード生成】ChatGPTからの回答例②
7.結果および結論
　7-1.最終結果
　7-2.ChatGPTを活用した開発における結論

1.基本設計

私のアイデアはかなりシンプルで簡単なので、以下のようにアイディアを分割し、実行可能なパートにすることができました。

```mermaid
graph TD;
A(音声録音)-->B(Google Speech-to-text 音声認識);
B-->C(OpenAI APIで文法/語彙を改善);
C-->D(Webページに結果表示);
```

2.音声録音について

ユーザーのデバイスからオーディオ入力をキャプチャするために、現代のブラウザで利用可能な WebAPI を使用しました。今回、MediaRecorder クラス(最新のブラウザで音声を取得するツール)の助けを借りて、オーディオを録音し保存しました。
※数年前は音声を取得したい場合、カスタマイズが必要でしたが、今は簡単に実装出来るようになりました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

続きはこちらのテックブログからご覧ください。

日本語版【https://gmor-sys.com/2023/07/07/speech-to-text-conversion-tool-jp/】

英語版【https://gmor-sys.com/2023/07/07/speech-to-text-conversion-tool-eng/】