最近人気のRAGを理解する ― ベクトル解析とは

RAGとは？

RAG（Retrieval-Augmented Generation）は、検索（Retrieval）と生成（Generation）を組み合わせた仕組みです。従来の生成AIは「学習済みモデルの中の知識」に依存していましたが、RAGは外部のデータベースに保存された情報を検索し、それを参照して回答を生成します。

特に最近は、ベクトル検索（Vector Search）を使ったRAGが主流です。

文章や文書を「ベクトル（数値の並び）」に変換し、意味的に近い情報を高速に検索できるようにします。

ベクトル化とは？

では、その「ベクトルに変換する」とは具体的にどういうことでしょうか？

コンピュータは文字そのものを理解できないため、テキストを数値に変換する必要があります。

たとえば「Python」という単語を [0.12, -0.85, 0.33, …] のような数百次元の数値の並びに変換する。この処理を**ベクトル化（embedding）**と呼びます。

ベクトル化のポイントは、

意味が近い単語や文 → 似たベクトルになる
意味が遠い単語や文 → 遠いベクトルになる

たとえば「犬」と「猫」は近いベクトルに、「犬」と「自動車」は遠いベクトルになります。

この性質を利用して「ユーザーの質問と似ている文章」を探し出せるのです。

なぜRAGが利用されるのか？

最新情報を扱える
学習時点の知識に縛られず、外部データを取り込める。
ドメイン特化が容易
法律、医療、社内マニュアルなどの専門知識を追加可能。
検索＋生成の組み合わせで精度向上
「回答の根拠」を検索で取りに行けるため、幻覚（hallucination）を減らせる。

つまり、RAGは生成AIを“調べながら答えるAI”にする方法です。そのため、参照データの精度次第では簡単に欲しい情報を得ることができるため、人気となっています。

技術的な課題

ただし、RAGを実装すればすぐに高品質な回答が出るわけではありません。（そんな上手い話はない笑）

代表的な課題には以下があります。

ベクトル化の精度
文書の分割方法や埋め込みモデル次第で検索結果が変わる。
コンテキストの取り込み限界
大規模モデルに入力できるトークン数は限られており、検索結果のすべてを渡せない。
検索精度のトレードオフ
「網羅的に拾いたい」 vs 「本当に関連するものだけに絞りたい」のバランス。
更新コスト
外部データを定期的にベクトル化・インデックス更新する必要がある。

RAGを実装するときは、上記課題を意識して状況にあったパラメーターを設定するのがよいでしょう。

問題提起 ― 「実装できるけど仕組みがわからない」

最近、弊社マイクロベースのインターンに参加する学生の中には、教材やサンプルコードを見ながらRAGを「とりあえず動かした」経験はある方が増えてきました。

しかし、その多くが

なぜベクトル検索を使うのか？
どの段階で検索と生成が結合しているのか？
検索の質と生成の質はどう影響し合うのか？

といった原理的な理解にまで到達していないのが現状です。

「動かすだけ」ではなく、「なぜRAGが必要で、どんな制約があるのか」を理解することが、今後の実践的なAI開発には欠かせません。

マイクロベース株式会社's job postings

Invitation from マイクロベース株式会社

If this story triggered your interest, have a chat with the team?

最近人気のRAGを理解する ― ベクトル解析とは

Kei Kawashima

マイクロベース株式会社 / Director/manager

Python データベース生成AI RAG ベクトル解析

3 Likes

マイクロベース株式会社

■ 事業概要マイクロベース（MiraiE.ai）は、「将来の世代に負の遺産を残さない」という理念のもと、人口減少・高齢化が進む日本で、“問題が起きてから対処する”のではなく、“起きる前に手を打てる”社会構造へ変えることに挑んでいます。そこで私たちは、生成AIとGIS（地理情報システム）を核に、地域の未来を「勘と経験」から「データと再現性」へ変える、将来予測AI 「MiraiE.ai（ミラーエ）」を開発・提供しています。 MiraiE.aiは、自治体・インフラ事業者・不動産/金融・建設コンサル等のパートナーとともに、地域が直面する課題に対して、予測→シミュレーション→施策設計→運用までを一気通貫で支える“意思決定のインフラ”を目指しています。会社紹介ムービー：　https://www.youtube.com/watch?v=r5VzsOqUPHQ&t=1s 企業理念： https://www.wantedly.com/companies/company_2609139/post_articles/1013487 ■ 提供価値（MiraiE.aiでできること） MiraiE.aiは、地域に散在するデータを扱える形に整え、将来を予測し、政策・投資判断に落とし込むためのプロダクト/技術群です。東京都や愛知県豊田市をはじめとする官公庁にご導入いただいています。 1) MiraiE Forecast: 将来予測・ジオシミュレーション・空き家・空室の将来発生予測／再入居（流通）予測（住戸・建物単位）　https://www.youtube.com/watch?v=0dy3915GAzo ・ミクロな人口動態（転入・転出・死亡等）の将来推計と空間分布の推定・不動産需給・価格・入居のシミュレーション（立地・周辺環境・施設アクセス等を加味）・道路・水道・下水道・電力等の更新優先順位付け／ダウンサイジング・再配置の検討支援 2) MiraiE Foundry: データ構造化・データセット構築・行政データ・台帳・帳票等を扱うためのデータ構造化（マルチモーダルAI含む）・予測モデル構築に必要な学習データセット整備の自動化（品質・再現性・運用性を重視） Amazon Bedrock × LLM で行政データを変革！ - Project LINKS におけるデータ構造化ソリューションの最前線（国土交通省様ご講演） https://www.youtube.com/watch?v=xsvzNKu4DWA 詳細はEntrance Bookもご覧ください。 https://microbase.notion.site/microbase-Entrance-Book-e32662e76d7b421a8af3333b17db1d4c

Like Kei Kawashima's Story

Let Kei Kawashima's company know you're interested in their content

マイクロベース株式会社

最近人気のRAGを理解する ― ベクトル解析とは

RAGとは？

ベクトル化とは？

なぜRAGが利用されるのか？

技術的な課題

問題提起 ― 「実装できるけど仕組みがわからない」

マイクロベース株式会社

生成AI

Weekly ranking