- Web Engineer
- Product Manager
- SRE
- Other occupations (3)
- Development
- Business
はじめまして!TOKIUMでQAチームのリーダーをしている西田です。
私は1人目のQAエンジニアとしてTOKIUMにジョインしてQAチームを立ち上げ、これまで多くの機能をテストしてきました。現在はチームも拡大し、PdMや開発者の協力もあって、より効率的なソフトウェアテスト体制が構築できてきたと感じています。
そんな私とQAチームが、かつてない大きな挑戦に直面しています。 今日はその挑戦についてお話しさせていただきます。
ChatGPT発表以降、AI技術の目覚ましい発展により、ソフトウェア開発の世界はかつてない変革期を迎えています。中でもAIエージェントは、「人間の業務をAIで代替する」という発想の転換をもたらし、私たちの働き方を根本から変えようとしています。このエキサイティングな変化の一方で、品質保証のあり方が問われています。
先日プレスリリースを公開した通り、TOKIUMは経理AIエージェントを開発し、新たな価値を世の中に届けることにチャレンジします。
TOKIUM、業務の自動運転を支援する「経理AIエージェント」の提供を発表
テスト対象として「経理AIエージェント」が加わることに対して、そのチャレンジへの意欲が湧くと同時に思いました。
「それで、どうやってテストしようか・・・?」
AIエージェント開発における品質保証の現状
従来のソフトウェアテストは、仕様に基づいて期待される「正しい」出力があらかじめ明確に定義できる、決定論的な動作を前提としていました。しかし、学習ベースのAIシステム、特にAIエージェントにおいては、入力と出力の関係が非線形かつ確率的であり、仕様書に落とし込めない振る舞いが多く観測されます。
これにより、AIテストでは「正しい結果をどう定めるか」「出力の揺らぎにどう対応するか」「人間の判断と乖離をどう解消するか」といった、これまでの品質保証の常識を覆す「テストオラクル問題」に直面しています。
従来のソフトウェアテスト・システムテストにおけるテスト手法(同値クラス分割や境界値分析等)は、明確な仕様に基づく動作を検証することは得意ですが、期待値が定まらない対象を検証することはまさに未知の領域です。
このように、従来のソフトウェア品質保証手法だけでは、AIエージェントの信頼性を担保し切れないフェーズにあります。
TOKIUMでは、この未知の領域に対応するためにチームで議論を交わし、開発プロセスの中にAIエージェントの品質を評価する仕組みであるEvalを組み込む・Evalツールの活用するなど、プロダクト開発と品質保証の新しい形を追求しています。
QAの進化と未来の役割
AIエージェントのテストとは?
AIエージェントに求められる品質保証は、単なる「精度の確認」に留まりません。AIエージェントには状況適応性、説明可能性、倫理的妥当性といった多面的な品質特性が存在します。QAエンジニアはこのような特性において、AIエージェントの挙動に関する「適切さ」「妥当さ」の判断を下す、言い換えれば主観的品質の客観化・定量化が求められます。
ユーザーに対して有益な提案ができたか?(ほぼ)満足な代行処理ができたか?といった、人や場合によって判断基準の異なるものに対してどのようなテストを設定するかがQAエンジニアという職種に与えられた大きな課題です。
こういった曖昧な対象を評価するには「正しさ」の定義を固定するのではなく、出力同士の相対的な妥当性や挙動の一貫性に着目した手法が有効だと考えられています。
例えば、
メタモルフィックテスト:関連性のある複数の入力に対する出力間の関係性を検証
Nバージョンプログラムテスト:複数のAIモデルの出力を比較
評価メトリクスの活用:タスク達成度、ツール(API)呼び出しの適切さ、プロセス効率、安全性、バイアスなど様々な指標を用いて定性的な判断を補完し、テスト結果を定量化
このような手法が知られています(※いずれ詳細な記事を執筆できればと思います)。
ただし、どのテスト手法が有効か、どんな評価メトリクスなら品質を正しく評価できるかという疑問に対する絶対的な回答はまだ存在していません。
お客様に価値を届けるために試行錯誤しながら、日々品質保証を行っています。
AI時代のQAにおける課題
AI時代におけるQAエンジニアの役割は、開発プロセスの初期段階からプロダクトの価値発見や品質設計に深く関わる、シフトレフトの実践へと進化しています。
各種生成AIツールの普及により、プロダクトの仕様検討段階でのイメージ共有や、動作可能なプロトタイプの作成が非常にスピーディになりました。これにより、今までは文面や口頭で共有されていた上流工程時点での情報がより解像度高く理解できるようになり、結果としてQAが関与できる範囲が拡大されています。
つまり、上流工程エンジニアやPdM(プロダクトマネージャー)といった他職種と早くから協力し、AIの特性を踏まえた新しいテスト戦略を構築・実行していくことが求められます。
TOKIUMにおけるEvalの実践方法
基本方針と価値観
TOKIUMは、プロダクト開発において、スピードだけでなく品質も大事にしています。私たちの根幹にあるのは、お客様の「時を生む」という価値観です。単に業務を効率化するだけでなく、お客様が本質的な業務や創造的な活動に時間を使えるように、「業務を丸ごと任せられる」体験(お客様が安心して業務を委託できるUX)を実現することを目指しています。
この体験の実現には、極めて高い品質が不可欠です。AI技術の不確実性からお客様が不安を感じることがないよう、品質面からお客様に安心と信頼をお届けしたいと考えています。
具体的な施策と技術的アプローチ
上でも記載した通り、EvalとはAIエージェントの品質を評価するプロセス全体のことです。
私たちは以下のような取り組みを通じて、Evalの実践に努めています。
既存のテスト手法が有効な範囲の切り分け
・AIエージェント特有のテストが必要な範囲と、既存のテストが流用できる範囲を見極める
独自評価基準の策定
・AIエージェントの品質を評価するための独自の評価基準を設定
・社内への浸透によりプロダクト品質の共通理解を醸成
開発体制の進化
・単なる実装フェーズだけでなく、「プロダクトの真の価値を発見するフェーズ」からQAもチーム全体で深く関与
・アジリティを重視した体制への移行を推進
新しいテスト手法の導入
・メタモルフィックテスト、探索的テスト、シナリオテストなど、AIエージェントの特性に対応可能なテスト手法の探索・検討・実践
TOKIUMに最適化されたアプローチの確立
・適切なテスト手法の選定
・自社プロダクトを評価するための評価メトリクス決定
これらを手探りしながら実践し、継続的に改善しています。
今後のQAメンバーへの期待と役割
AIエージェント開発における品質保証は、従来の経験だけでは通用しない、新しいアプローチと深い技術的理解を要求される、まさに挑戦の領域です。有効なテスト方法の確立、評価基準の策定では多くのトライ&エラーが予想されます。
このような方と一緒に働きたいです
- 技術への好奇心:変化の激しいこの分野で、新しい技術にアンテナを張り、現状の仕組みを改善し続けたい方
- 顧客志向:お客様の業務を深く理解し、「お客様の困りごとを解決したい」という強い気持ちをお持ちの方
- 挑戦意欲:「新しいことに挑戦したい」という好奇心をお持ちの方
- 失敗を恐れない姿勢:AIエージェント開発の現場は「正解がない」状態のため、「早くトライして失敗すること」が価値になります
担っていただく役割
- 未知領域への挑戦:AIエージェントのテスト・評価手法の確立に積極的に取り組む
- 職種横断の協力:エンジニアやPdM、PMMといった他職種のメンバーと積極的に協力し、職種の垣根を越えて品質を高める
- 業務プロセス改善:多くのトライ&エラーが生まれる中で都度、課題を整理し、次のトライに繋げる
TOKIUMはAIエージェントという新しい武器を使って、一緒に「未来につながる時を生む」プロダクトを作ってくれる仲間を募集しています。共に成長できる環境を一緒に作っていきましょう。