「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル（LLM）の能力差を解明

GMOインターネットグループのGMOメディア株式会社（代表取締役社長：森輝幸以下、GMOメディア）は、このたび「大規模言語モデルの日本語実践的評価：JGLUEとIT パスポート試験を用いた比較分析」をテーマとした研究を実施しました。大規模言語モデル（LLM）が持つ推論能力（正確な解答を導き出す力）や問題解決能力の特徴を分析することで、LLMごとのIT分野における能力差を解明しました。

本研究論文は「2024年人工知能学会全国大会」（主催：一般社団法人人工知能学会）へ提出しています。また、詳細とその結果はコエテコAI教育研究所のページへ公開しています。

「大規模言語モデルの日本語実践的評価：JGLUEとIT パスポート試験を用いた比較分析」

https://college.coeteco.jp/ai-education-research-itpassport-results

【本研究のポイント】

・現在公開されている大規模言語モデル（LLM）のIT分野における推論・問題解決能力を、ITパスポート試験を解答させた。

・結果から、IT分野の問題に対して一定程度論理的な解答を導き出すことが期待できることが判明した。

・最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で正答率は72.3%だった。

・LLMに補助的にITパスポート試験に関するヒント（プロンプト）を入力することで、ほとんどのLLMでヒントを与えない場合よりも出力（解答）の精度を上げることができた。

【研究概要】

■背景と目的

現在、各方面でChatGPTをはじめとする大規模言語モデル（LLM）の評価が行われており、医療や法律といった特定の専門分野での有用性に関する評価も進められています。今回、IT分野においてLLMがどの程度の能力を持っているかを解明することを目的に研究を実施しました。

■研究内容

本研究では、ITに関する基本的な知識や応用能力を証明する国家試験である「ITパスポート試験」において、LLMが正解を導き出す力がどのくらいあるのかを指標としました。以下のLLMに「IT パスポート試験」の過去問を解答させることで、IT 分野の問題に対してどの程度正しい解答を導き出すことができるかを評価しました。

<研究対象のLLM>シリーズ名（モデル名/開発元）

GPT-３.５（gpt-3.5-turbo-1106 / OpenAI)
GPT-4（gpt-4-11-6-preview / OpenAI)
Japanese StableLM Alpha（Japanese Stable LM Instruct Alpha 7B v2 / Stability AI)
Swallow（Swallow-7B-instruct-hf / 東京工業大学情報理工学院・国立研究開発法人産業技術総合研究所の研究チーム)
Nekomata（nekomata-7b-instruction / rinna)
ELYZA-japanese-Llama-2-7b （ELYZA-japanese-Llama-2-7b-instruct / ELYZA)

■研究方法

①：汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

入力される情報が特定分野へ特化していることが、LLMの解答の精度にどのように影響を与えるかを検証するため、LLMが一般常識をどの程度解答できるかを評価する「JGLUE試験」（※1）と「ITパスポート試験」の2つの試験に解答させ、正答率を検証しました。また、それぞれの結果を比較して分析を行いました。

（※1）JGLUE試験：日本語LLMの精度を評価する基本的な試験のひとつ。一般常識の質問に対する解答のスコアを基にLLMの精度を評価する。（詳細：https://techblog.yahoo.co.jp/entry/2022122030379907/）

②：プロンプトへのヒント挿入によるLLM推論能力（正確な解答を導き出す力）の向上評価

LLMが解答を導き出す力をさらに検証するため、解答を導くために役立つヒントをプロンプトに追加し、ヒントが提供された場合に各LLMが問題の正答率をどの程度向上するかを評価しました。

ヒントを含まないプロンプトで問題に解答させた①と、ヒントを含むプロンプトで問題に解答させた②の正答率を比較し、ヒントの有無がLLMの性能にどのような影響を及ぼすかの分析を行いました。

■研究結果

①：汎用的な日本語問題と、専門的な日本語問題を使用した各LLMの性能比較

「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」は、約70%の精度で正しい解答を導き出すことができました。一方で、JGLUE 試験のような一般常識問題では高い正答率を出すことができる「Japanese Stable LM Instruct Alpha 7B v2」「nekomata-7b-instruction」は、IT 分野は苦手とする傾向が見られました。

②：プロンプトへのヒント挿入によるLLM推論能力（正確な解答を導き出す力）の向上評価

IT 分野が苦手なLLM であっても、解答を補助するヒントを与えることで、ほとんどのLLMで解答の精度が向上することがわかりました。

■結論

IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM（「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」）と、活用に注意しなければならないLLMがあることが分かりました。

【調査結果の活用方法と展望】

専門分野に特化するチューニングを施していない汎用的なLLMでも、一定の精度でIT分野の正確な解答を期待できるため、ITパスポート試験の学習においても、誤りがある可能性を踏まえた上で、「分からない単語や概念について質問する」「練習問題を作成する」などの活用方法は、一定程度有効であると言えます。

本研究において、各LLMに得意分野や不得意分野があることが判明したことは、価値があると考えています。今後も、こうした研究方法により他の資格試験を用いたLLMの評価分析を行っていく予定です。そして、それらの結果をもとに、資格試験をはじめとした学習にLLMを活用した授業の提案や対策講座の開発を促進してまいります。

GMOメディアは、今後もAIに関する研究を推進し、その結果を各事業へ生かす取り組みを積極的に行ってまいります。

【「コエテコAI教育研究所」について】

GMOメディアでは、2023年7月に、AIの活用によって提供するサービスをさらに進化させるためにAIチームを発足させました。AIチームは、AIを教育に適用させる研究を通じて、日本の教育産業に貢献することを目的に、プログラミング教育プラットフォームの「コエテコ byGMO」の知見を活かした研究を行う「コエテコAI教育研究所」を立ち上げました。本研究は「コエテコAI教育研究所」によるものです。

■論文執筆者

・羽中田将（GMOメディア株式会社サービス開発部シニアエンジニア）

現サービス開発部AIチーム。2018年入社。2020年まで、技術推進室でレコメンドやデータ分析基盤の作成。その後、サービス開発部インフラチームのDBA(Database Administrator)で、MySQLの運用を担当し、2023年よりAIチーム発足に伴い、社内データ活用やAIの推進を行う。

【GMOメディア株式会社について】（URL：https://www.gmo.media/）

GMOメディアは、創業以来インターネット上で自社開発・自社運営のサービス群であるメディア事業を中心に展開しています。現在はプログラミング教育ポータル「コエテコ」と美容医療の情報に特化した「キレイパス」の2事業を投資育成し、それぞれプログラミング教室や医療機関のDXを支援するサービスも展開しています。

さらに、ソリューション事業としてメディア運営で培ったノウハウを基にポイントサイトの構築を支援する「GMOリピータス」とアフィリエイトASP「AffiTown」など提携パートナーの収益化のサポートも行っています。