大規模言語モデル（LLM）をシステムに組み込む際に注意したい課題

ChatGPTに代表される大規模言語モデル（LLM）が多数登場しています。API公開されているので、システムに組み込んで利用したいと考える方も多いでしょう。しかし、LLMをシステムに組み込む際には、いくつかの課題があります。

この記事ではそうした課題を整理し、LLMをシステムに組み込む際に注意したい点をまとめます。

ハルシネーション

ハルシネーションは幻覚的な応答や誤情報の生成を意味します。LLM自体は文脈を理解している訳ではなく、前後の流れから次の単語を予測しているだけです。そのため、LLMは文脈に沿わない応答を生成することがあります。

また、多くの場合において「分からない」という応答はしません。何らかの、それっぽい回答を生成します。その中には間違った情報が含まれることもあり、サービス利用者に対して誤情報を提供する可能性があります。

参考：「正答率62.5％→94.1%」に改善も...三豊市 “チャットGPT” を使ったゴミ出し案内実証実験の結果、導入を断念【香川】 | TBS NEWS DIG

データプライバシーとセキュリティ

LLMは、大量のデータを学習しています。そのデータには、個人情報や機密情報が含まれている可能性があります。そのため、LLMを利用する際には、データプライバシーとセキュリティに注意する必要があります。

ChatGPTなどがベースにしているデータはオンライン上のパブリックなものとされていますが、チューニングなどで追加学習する場合には注意が必要です。社内データを学習させる際には、データが外部や権限を越えて出力されないよう、注意して扱う必要があるでしょう。

データの所有権

画像生成AIで度々話題に上がるのが著作権です。学習データに個人の所有物が含まれている場合、生成されたデータを利用することで著作権違反につながる可能性があります。

また、プログラミングコードにおいてもライセンスの問題があります。学習データにオープンソースのコードが含まれている場合、生成されたコードを利用することでライセンス違反につながる可能性があります。GPLなどのライセンスを含むデータを学習させる場合には、注意が必要です。

参考： AIが生成した文章やイラストの著作権はどうなる？著作権侵害にあたるか、弁護士が解説！ | Authense法律事務所

インテグレーションの複雑さ

ChatGPTなどではAPIを公開していますが、それをシステムに組み込む際には、いくつかの課題があります。たとえばシステム連携ではJSON出力が一般的ですが、適切にJSON出力させる際にはプロンプトでの指示が的確である必要があります。ChatGPTであればFunction callingによって、JSON出力を強制できます。

また、望んだ結果が必ず返ってくるとは限らなかったり、レスポンスに時間がかかる、途中までしか返ってこないと言った場合もあります。そうしたさまざまなケースを想定して、システムを設計する必要があります。

参考： Function calling - OpenAI API

レイテンシとパフォーマンス

LLMは総じて処理に時間がかかります。特に過去のメッセージを参照するようにつなげていくと、徐々に送受信されるデータ量が増えていきます。ユーザーへの返答が遅くなると、UXとしてストレスが溜まるでしょう。

そのため、LLMをシステムに組み込む場合には、ユーザーストレスを勘案したUXを考える必要があります。

チューニング

LLMをシステムに組み込む場合、多くは独自データによる追加学習を行うでしょう。そのデータは適切に構造化され、認識されなければなりません。

もちろん、学習データ量が多くなれば料金も高くなります。そのバランスも考えなければなりません。

コスト

そして一番大きな問題はコストです。LLMを自力で構築するのは膨大な費用がかかりますが、APIを利用する場合にも、大量のデータを学習させると、大きなコストがかかります。ユーザーに自由に使わせてしまうと、コストがかさんでしまうでしょう。

レスポンスをキャッシュする仕組みであったり、ユーザーあたりの利用回数を制限する仕組みを検討する必要があります。

プロンプトインジェクションの問題

プロンプトインジェクションは、LLMに対して、特殊なプロンプトを与えることで、意図しない応答を生成させる攻撃です。LLMはプロンプトに対して、その後の単語を予測するだけです。そのため、プロンプトによっては、開発者の意図しない応答を生成させることができます。

現在ではさまざまな対策が行われていますが、ライセンスキーを生成するものや犯罪に関わるもの、人種差別的なものなど、悪意のあるプロンプトを与えることで、意図しない応答を生成させることができます。

参考： AIチャットボットを狙う「プロンプトインジェクション攻撃」英当局が警告 | Forbes JAPAN 公式サイト（フォーブスジャパン）

まとめ

LLMをシステムに組み込む際に懸念すべき課題をまとめました。LLMは便利である一方、ユーザーに対して脆弱な面も多数存在します。

しかしこの分野は日進月歩で進化しており、課題も順々に解決されています。そうした最新動向をチェックし、システム内での利用を検討してみてはいかがでしょうか。

気に入ったら記事をシェアしてください。

株式会社Hexabase's job postings

大規模言語モデル（LLM）をシステムに組み込む際に注意したい課題

Izumi Nakagi

株式会社Hexabase /

サービスプログラミングテックブログ ChatGPT 大規模言語モデル

株式会社Hexabase

なにをやっているのか私たち株式会社Hexabaseは、法人向けバックエンドサービスの開発会社です。最新クラウド技術を結集した『Hexabase』を開発。クライアントごとにモダンUI／フロントエンド開発を行い、SaaS形式で提供しています。 ■日本発＆高品質の『Hexabase』■ Hexabaseは企業システムの開発に利用できるエンタープライズBaaS（Backend as a Service）です。Webアプリケーション開発に活用できる高品質なバックエンド機能をクラウドサービスとして提供します。 ▍スケーラブルなマルチテナントバックエンドサービス IaaS／PaaS機能だけでなく、システムサービスそのもののバックエンドに欠かせない基礎機能（ログイン・ユーザー管理・アクセス制御・データベース管理・APIゲートウェイ・拡張コードの実装など）も提供します。 ▍より速く構築し、フロントエンド開発に集中するノーコードの『Hexabase』を利用することで、開発期間と開発コストを抑えながら、使い勝手の要となるフロントエンド開発に注力できるようになります。 ■実績■ Hexabaseはエンタープライズ向けの開発を得意としており、規模・レンジ・ジャンルを問わずさまざまな企業様に導入いただいています。新規事業の立ち上げを目指す企業様が扱うケースがほとんどで、地方の中小企業様にも導入した実績もあります。 ■ローンチからグロースへ■ これまでは特定の数社様に絞った草の根活動を続けてまいりました。今後はプロダクトを伸ばしていくフェーズに入ります。サービスをより多くの方に、利便性高く使っていただくために、フロントエンドエンジニアを中心にスモールプロダクトを数多くつくっていく考えです。Webサービスのインフラとして、Hexabaseが広く認知される世の中を目指していきます。

Like Izumi Nakagi's Story

Let Izumi Nakagi's company know you're interested in their content

株式会社Hexabase

大規模言語モデル（LLM）をシステムに組み込む際に注意したい課題

ハルシネーション

データプライバシーとセキュリティ

データの所有権

インテグレーションの複雑さ

レイテンシとパフォーマンス

チューニング

コスト

プロンプトインジェクションの問題

まとめ

株式会社Hexabase

サービス

Weekly ranking