生成AIで実現する、次世代のWEB防災訓練システム
こんにちは。株式会社WiseVine SREエンジニアの高見道人です。
SRE(Site Reliability Engineering)の世界において、インシデント対応は非常に重要な業務のひとつです。サービスの不具合やセキュリティ攻撃など、予期せぬトラブルが発生した際に、冷静に対応できるよう、私たちはインシデント対応のフローやノウハウの整理を行っています。実際のインシデントでは、私自身がコマンダーとして陣頭指揮を執ることもあります。
しかし、真に強い組織とは、限られた専門家だけでなく、すべてのエンジニアが一定のインシデント対応スキルを持っている状態です。そこで今回は、生成AIを活用し、短時間かつ効果的に実施できるWEB防災訓練システムを構築してみた事例をご紹介します。
WEB防災訓練の重要性
WEBサービスを提供する私たちにとって、システムの安定稼働と迅速な障害復旧は企業の生命線です。
しかし、実際のインシデントは予測不能で、対応には冷静な判断と豊富な経験が求められます。だからこそ、事前に模擬的な訓練=防災訓練を行うことが非常に重要です。
インシデントを仮想的に体験し、対応の手順や判断を振り返ることで、本番時に経験が浅くても落ち着いて行動できる力が養われます。さらに、組織全体でインシデント対応フローの不備に気づくこともでき、より強靭な体制づくりに繋がります。
防災訓練のジレンマ
とはいえ、防災訓練には課題もあります。生産性や売上に直接つながるものではない一方で、多くの人の時間と労力が必要です。
また、ただ説明するだけでは、受講するだけで当事者意識が沸かないという問題もどうしてもつきまとってしまいます。
そこで私は、「生成AIを先生役にして、一人ひとりが実際にインシデントを簡単に追体験できないか?」と考え、実際に社内向けに試験的な防災訓練システムを構築してみました。
システム構成(アーキテクチャ)
本システムの中核には、AWS Bedrockを利用した社内専用のAIチャット環境を使用しています。もともと弊社ではAIチャットを導入済みで、それをベースにカスタマイズしました。
システムは、AWS公式の以下のサンプルアプリケーションをベースにしています。
https://github.com/aws-samples/generative-ai-use-cases-jp
加えて、GoogleのSSOを設定し、社内限定で利用できるようにしています。導入方法は多くの記事が出ているため詳細は割愛しますが、興味がある方は「generative-ai-use-case-jp 導入」などで検索してみてください。
実施したこと
構築した訓練は非常にシンプルで、AIのシステムプロンプトに以下のような指示を入力しただけです。
あなたはWEBセキュリティの専門家です。
私はSaaS運用会社のインシデント時に対応する「コマンダー」です。
今回の訓練では、リリースした機能が原因で、画面がホワイトアウトし、顧客からクレームが来たという想定です。
原因は「バックエンドAPIの仕様変更により、フロントエンドが正しく動作しなくなった」ことですが、私たちチームはそのことをまだ把握していません。
私が適切にインシデント対応を行えるかを評価してください。
「開始」の合図の後、インシデント発生直後に行うべきことを、10問前後の質問で確認してください。
最後に、私の対応が良かったか、改善点があればフィードバックをお願いします。
※必ず「ログの保管場所、確認方法は把握していますか?」という質問を含めてください。
あなたはWEBセキュリティの専門家です。
私はSaaS運用会社のインシデント時に対応する「コマンダー」です。
今回の訓練では、リリースした機能が原因で、画面がホワイトアウトし、顧客からクレームが来たという想定です。
原因は「バックエンドAPIの仕様変更により、フロントエンドが正しく動作しなくなった」ことですが、私たちチームはそのことをまだ把握していません。
私が適切にインシデント対応を行えるかを評価してください。
「開始」の合図の後、インシデント発生直後に行うべきことを、10問前後の質問で確認してください。
最後に、私の対応が良かったか、改善点があればフィードバックをお願いします。
※必ず「ログの保管場所、確認方法は把握していますか?」という質問を含めてください。
訓練の工夫ポイント
- 実際に起こり得るインシデントシナリオを設定
- 質問に答える形式にして、考えながら追体験できる
- フィードバックをAIから即時取得できる
- 特定のテーマ(今回はログ確認)を必ず盛り込む
実際の訓練の様子
以下は実際に行った訓練のサンプル画面です。
AIからの質問に答えていくと、以下のようにフィードバックが返ってきます。
完璧ではない部分もありますが、自分の判断を振り返るきっかけになったり、社内のインシデント対応ドキュメントを見返すきっかけとしては十分に活用できるものでした。
社内エンジニアにも体験してもらった
実際に社内のエンジニアにも試してもらいました。その結果も幾つか掲載してみます。
人によってフィードバックの内容が異なるのも興味深く、それぞれが自分の対応を考えながらチャットボットと対話していた様子が伺えました。
SRE組織としての気づき
この訓練を通して、組織としても学びが得られました。
例えば、「一時的な対処策の認識が曖昧」という共通の課題が浮かび上がりました。
これは「緊急時の対処方法を知らない」「メンテナンスウィンドウの出す基準や手順を把握していない」といった問題にも繋がります。
そのため、一時対応用のドキュメント整備や、対応フローの見直しが実際の改善ポイントとして明らかになりました。
まとめ
生成AIや大規模言語モデルの登場により、これまで時間やコストがかかっていた訓練や教育が、短時間かつ低コストで実現できる時代になりました。
今回ご紹介したWEB防災訓練システムは、その一例です。生成AIの特性を活かし、個々に最適なフィードバックを提供することで、より効果的な学習が可能になります。また、訓練結果から組織全体の課題を抽出し、改善に繋げられる点も大きな魅力です。
今後は、社内ドキュメントのAI学習(RAG化)や、より複雑なシナリオの導入、実際のインシデントを基にしたケーススタディ型の訓練開発にも挑戦していきたいと考えています。
最後に
技術の進歩によって、私たちの働き方・学び方は大きく変わろうとしています。
生成AIはあくまでツールですが、うまく活用することで、より効率的で創造的な組織運営が可能になります。
AIと人間が協調しながら、「未来の世代に豊かな世界を残す」という目標に向かって、私たちSREも引き続き取り組んでまいります。