研究プロジェクトのお話 その3
Photo by Natalie Kinnear on Unsplash
第3回
「誰が使っても同じ成果が出るように」
クオリティ担保のために、私が裏方で引き受けたこと
こんにちは、加納です。前回は、細分化したプロセスごとに「初級から天才級」まで4段階のプロンプトを作成し、AIの特性をコントロールする面白さについてお話ししました。
こうしてアイデアのベースは出揃いましたが、ここからが本当の「クオリティ担保」の戦いでした。今回は、評価フェーズの裏側と、誰が使っても同じ高品質な結果が出るようにするための、泥臭い「標準化」のプロセスについてお話しします。
■ 人力と「採点用Gem」による、厳格な評価フェーズ
非エンジニア3名で構成された私たちのプロンプト担当グループ。ベースとなる膨大なプロンプト(計プロセス数15×4パターン)の作成をまずは私が一通り形にした後、全員で手分けして人力での評価を行いました。
さらに私は、より客観的なデータを集めるため、独自に用意した「採点用のGem(カスタムAI)」も並行して走らせ、人力とAIの両面から厳格にプロンプトを採点していきました。
「なぜこのプロセスでは、天才級ではなく中級のプロンプトを採用したのか」 といった理由をすべてロジカルに資料へとまとめ、実務に最もフィットするプロンプトを徹底的に絞り込んでいったのです。
■ 属人性を排除するための「ブラッシュアップ」という壁
採用するプロンプトが決まった後、最大の難関が待ち受けていました。出力内容の「再現性」を高めるためのブラッシュアップ作業です。
生成AIは、ほんの少しの言葉のニュアンスの違いで出力がブレてしまいます。チームで使うツールにするためには、誰が使っても同じ高品質な結果が得られるよう、なるべくかっちりとしたフォーマットで出力されるルールを整備しなければなりませんでした。
ここで、大きな課題に直面します。 「このブラッシュアップ作業を複数人で分担すると、担当者によってプロンプトの癖やクオリティにバラつきが出てしまうのではないか」
成果物の「標準化」と「クオリティ担保」を最優先に考えた結果、私は一つの決断をしました。 「全てのプロセスの最終ブラッシュアップを、私が一手に引き受けてやり切る」
内容がブレては困るからこそ分担が難しく、最終的には私が一人で抱え込んで力技で整備することになりました。職人気質になって徹底的にこだわり抜いた結果、プロンプトのクオリティは満足いくものに仕上がりました。
■ 仕上げたプロンプトの裏側で、動き出した試練
こうして、現場で使える高品質のプロンプト集が完成しました。難しいソースコードは書けなくても、仕組みを整えれば技術は組織の強力な武器になる。その手応えを感じられたことは、私にとって大きな自信になりました。
しかし、この「自分が抱え込んで力技でやり切る」という選択、そしてもう一方のエンジニアチーム側でも起きていた「一部のメンバーへのタスク集中」という現実が、プロジェクト終盤、チーム全体を揺るがす大きな課題へと繋がっていきます。
バックグラウンドも本業の忙しさもバラバラな8人の大人たちが、ここからどうやって本当の「一つのチーム」になっていったのか。
次回は、私がサブリーダーとして模索した、チームビルディングの裏側をお話しします。