株式会社サイバーエージェント / Tech Lead / AI エンジニア
執筆「LLMの「内部表現」を可視化する:Gemma Scope 2を用いたアニメ・漫画領域での安全性メカニズム検証」
Googleの最新モデル解釈可能性ツールGemma Scope 2(2025年12月19日公開)をいち早く活用し、LLMが特定の文脈で回答を拒否する「過剰拒否(Over-refusal)」のメカニズムを内部表現のレベルから解明した技術レポートです。アニメ・漫画領域におけるAIの公平性と安全性の向上を目的とした検証を行いました。 【内部表現の探索と特定】 Sparse Auto Encoder(SAE)を用いて、Gemma 3の特定のレイヤーから安全性や特定のカテゴリ(アニメ・漫画等)に関わる特徴量を抽出しました。 【介入実験による因果関係の検証】 特徴量の活性化値を意図的に操作するSteeringという手法を用い、特定のカテゴリ認識が活性化するだけで、モデルの安全判定の閾値(決定境界)が物理的にシフトする現象を確認しています。 【多角的な文脈分析】 単語単体の判定だけでなく、Prefix(接頭辞)による周辺概念の連鎖反応や、一般名詞と固有名詞の反応差を定量的に比較しました。 【解釈の精度向上】 AIによる自動ラベル付け(Auto-Interp)の誤判定リスクを考慮し、生の活性化サンプルを直接確認することで、より実態に即した分析を試みています。 【執筆の背景】 「AIがなぜその回答を選んだのか」というブラックボックスな問いに対し、最新の解釈可能性(Interpretability)の手法を用いて、一歩踏み込んだ説明を試みるプロセスを大切にしています。技術的な興味関心はもちろん、クリエイティブ領域において、より公平で適切なAIガードレールをどう設計すべきかという実務的な視点からまとめました。