生成AIモデルを比較検証してみた〜VLMの精度を測る〜①丸囲み編

Kei Kawashima, Hiroaki Sengoku and 1 others

Director/manager, 代表取締役

Kei Kawashima

マイクロベース株式会社 / Director/manager

Hiroaki Sengoku

マイクロベース株式会社 / 代表取締役

Yuya Minamide

on 2025-08-29

Photo by Nahrizul Kadri on Unsplash

こんにちは、AI開発チームです。

最近は生成AIやマルチモーダルモデル（VLM: Vision-Language Model）が話題ですが、「どのモデルがどのタスクに強いのか？」は意外と分かりづらいですよね。

そこで私たちは、オープンデータではじめるデータ構造化〜生成AIでオープンデータを整理する〜でもあげた非構造データを対象に、文章抜き出しや丸囲み認識といった具体的な課題を設定し、複数の最新モデルを比較検証してみました。今回は、その一次結果を少しご紹介します。

どんなタスクを試したのか

今回の検証では、大きく2つのタスクに注目しました。

文章抜き出し
- スキャンされた文書から正しくテキストを抜き出せるか
- 実際の業務で最も多いユースケース
丸囲み認識
- 手書きや印刷物にある「○で囲まれた記号」を認識できるか
- 入力フォームや選択式の書類でよく出てくるケース

試したモデルたち

丸囲みが大量にあるデータを対象に検証したのは海外の有名VLM、クラウドベンダーが提供するOCR + LLMの組み合わせ、新興系の大規模モデルなど。いわば「世界のトップランナー」を一気に集めて比べてみた、というイメージです。

なお、今回は正答率を指標に、モデルの出力結果を定量的に評価しました。

一次結果のハイライト

1. OCR × LLM の組み合わせが強い

文章抜き出しタスクにおいては、高性能なOCRとLLMを組み合わせた構成が最も精度が高いという結果に。

OCR単体でもかなり強力なのですが、そこにLLMの補完が入ることでさらに精度が上がる傾向が見えました。

2. VLMはまだ苦戦する領域も

一方で、画像を直接理解するVLMは期待ほどのスコアが出ず、特に丸囲み認識では全体的に精度が低め。

「丸囲み」は人間にとっては簡単ですが、モデルにとってはまだ難しいタスクであることが浮き彫りになりました。

3. モデルごとの性格がはっきり

テキスト処理に強いモデル
コスト・速度のバランスが良いモデル
特定領域で尖った性能を出すモデル

など、実際に比べてみると「どのモデルが万能」というよりは、ユースケースによってベストな選択肢が異なることが分かりました。

考察と次のステップ

今回の評価はあくまで一次結果です。

今後は以下のような追加検証を予定しています。

文字列類似度を考慮したスコア再算出
多少の表記揺れや誤差を吸収して、より実運用に近い評価へ。
前処理（クレンジング）後の再評価
入力データの品質を整えることで、モデルのポテンシャルを引き出せるか検証。
処理速度・コストも含めた総合評価
精度だけでなく、ユーザーが日常的に使える水準かどうかを重視。

まとめ

OCRとLLMの組み合わせは文章処理に非常に強い
VLMは進化中だが、図形系の認識には課題が残る
モデル選定は「用途次第」であり、1つに決め打ちするのではなく柔軟な組み合わせが重要

AIの進化は日進月歩ですが、「実際に試し、数値で比べる」ことでしか見えないリアルな差があります。私たちは今後も継続して検証を行い、現場で使えるAIの形を探り続けていきます。

最後にちょっとだけPR

ここまで読んで「面白そう」と思ってくださった方へ。

私たちは生成AIの最前線で、まだ答えのない課題に挑戦しています。エンジニア・データサイエンティスト・PdMなど、仲間と一緒に未来を形づくる人を歓迎しています。

興味があれば、ぜひお気軽にお話聞きにきてください！

Invitation from マイクロベース株式会社

If this story triggered your interest, have a chat with the team?

マイクロベース株式会社's job postings

生成AIモデルを比較検証してみた〜VLMの精度を測る〜①丸囲み編

Kei Kawashima

マイクロベース株式会社 / Director/manager

エンジニアココロオドル瞬間データサイエンティスト生成AI データ構造化

1 Likes

■事業概要わたしたちは、「将来世代への負の遺産を減らし、安心して住み続けることができる社会の実現」ことを理念に、将来予測AI「MiraiE.ai（ミラーエ）」の開発•提供に取り組んでいます。 GIS（地理情報システム）を用いたジオシミュレーションをコアとし、自治体や事業会社のパートナーとしてデータサイエンティスト集団としてデータを活用した都市計画策定支援や不動産マーケティングの研究開発・ソフト提供をおこなっています。これまで官公庁の空き家対策やインフラ企業のインフラ老朽化対策などに提供してきました。会社紹介ムービー：　https://www.youtube.com/watch?v=r5VzsOqUPHQ&t=1s 企業理念： https://www.wantedly.com/companies/company_2609139/post_articles/1013487 ■社会課題とビジョン空き家の急増に代表されるように、急激な人口変化や事後的な住居管理習慣等により、住宅供給におけるミスマッチや機会損失が生じています。見通しの立てづらい住宅需給を予測・最適化し、どの世代も安定して住宅供給を受けられるまちのAIインフラとなることを目指します。私達はGIS（地理情報システム）× AI開発に強みを持つ専門家集団です。データサイエンス、もっといえば、GISにできることはデータから、地域のポテンシャルを見せることです。たとえば、救急搬送は一回の出動に平均5万円かかると言われています。医療圏から離れてしまうと、居住者にとっても医療従事者にとっても多くの課題が伴います。しかし、病院近くの空き家を優先的に後期高齢者が利用できるようになり、みまもり施設や高齢者向け施設が集中できれば、将来的な救急車の搬送コストを下げ、社会からの隔絶を防ぐことも可能になります。データサイエンスはこうした地域のかかえる需要と供給の、可能性の可視化・最適化を行い、ビジョン策定や既存の計画の一層のブレイクダウンをする大きな助けとなります。わたしたちは都市の未来をつくるための技術を開発し、提供しています。 ■提供ソリューション上記ビジョンを実現するための具体的なソリューションとして、下記ソリューションの研究開発・実証をおこなっています。・将来空室予測・将来入居予測・将来マイクロ人口予測・不動産価格・入居シミュレータの開発・社会インフラの最適配置・ダウンサイジングシミュレーション・機械学習データセットの構築に向けたマルチモーダルAIソリューションの開発・生成AIを利用した機械学習データセットの構築「Miraie.ai」を活用した空室予測モデル https://www.youtube.com/watch?v=0dy3915GAzo Amazon Bedrock × LLM で行政データを変革！ - Project LINKS におけるデータ構造化ソリューションの最前線（国土交通省様ご講演） https://www.youtube.com/watch?v=xsvzNKu4DWA

Like Kei Kawashima's Story

Let Kei Kawashima's company know you're interested in their content

マイクロベース株式会社

生成AIモデルを比較検証してみた 〜VLMの精度を測る〜①丸囲み編

どんなタスクを試したのか

試したモデルたち

一次結果のハイライト

1. OCR × LLM の組み合わせが強い

2. VLMはまだ苦戦する領域も

3. モデルごとの性格がはっきり

考察と次のステップ

まとめ

最後にちょっとだけPR

マイクロベース株式会社

ココロオドル瞬間

Weekly ranking

生成AIモデルを比較検証してみた〜VLMの精度を測る〜①丸囲み編