- Engineering
- DX推進事業マネージャー
- CTO、CTO候補
- Other occupations (4)
- Development
- Business
- Other
生成AIモデルを比較検証してみた 〜VLMの精度を測る〜①丸囲み編
Photo by Nahrizul Kadri on Unsplash
こんにちは、AI開発チームです。
最近は生成AIやマルチモーダルモデル(VLM: Vision-Language Model)が話題ですが、「どのモデルがどのタスクに強いのか?」は意外と分かりづらいですよね。
そこで私たちは、オープンデータではじめるデータ構造化 〜生成AIでオープンデータを整理する〜でもあげた非構造データを対象に、文章抜き出しや丸囲み認識といった具体的な課題を設定し、複数の最新モデルを比較検証してみました。今回は、その一次結果を少しご紹介します。
どんなタスクを試したのか
今回の検証では、大きく2つのタスクに注目しました。
- 文章抜き出し
- スキャンされた文書から正しくテキストを抜き出せるか
- 実際の業務で最も多いユースケース
- 丸囲み認識
- 手書きや印刷物にある「○で囲まれた記号」を認識できるか
- 入力フォームや選択式の書類でよく出てくるケース
試したモデルたち
丸囲みが大量にあるデータを対象に検証したのは海外の有名VLM、クラウドベンダーが提供するOCR + LLMの組み合わせ、新興系の大規模モデルなど。いわば「世界のトップランナー」を一気に集めて比べてみた、というイメージです。
なお、今回は正答率を指標に、モデルの出力結果を定量的に評価しました。
一次結果のハイライト
1. OCR × LLM の組み合わせが強い
文章抜き出しタスクにおいては、高性能なOCRとLLMを組み合わせた構成が最も精度が高いという結果に。
OCR単体でもかなり強力なのですが、そこにLLMの補完が入ることでさらに精度が上がる傾向が見えました。
2. VLMはまだ苦戦する領域も
一方で、画像を直接理解するVLMは期待ほどのスコアが出ず、特に丸囲み認識では全体的に精度が低め。
「丸囲み」は人間にとっては簡単ですが、モデルにとってはまだ難しいタスクであることが浮き彫りになりました。
3. モデルごとの性格がはっきり
- テキスト処理に強いモデル
- コスト・速度のバランスが良いモデル
- 特定領域で尖った性能を出すモデル
など、実際に比べてみると「どのモデルが万能」というよりは、ユースケースによってベストな選択肢が異なることが分かりました。
考察と次のステップ
今回の評価はあくまで一次結果です。
今後は以下のような追加検証を予定しています。
- 文字列類似度を考慮したスコア再算出
多少の表記揺れや誤差を吸収して、より実運用に近い評価へ。 - 前処理(クレンジング)後の再評価
入力データの品質を整えることで、モデルのポテンシャルを引き出せるか検証。 - 処理速度・コストも含めた総合評価
精度だけでなく、ユーザーが日常的に使える水準かどうかを重視。
まとめ
- OCRとLLMの組み合わせは文章処理に非常に強い
- VLMは進化中だが、図形系の認識には課題が残る
- モデル選定は「用途次第」であり、1つに決め打ちするのではなく柔軟な組み合わせが重要
AIの進化は日進月歩ですが、「実際に試し、数値で比べる」ことでしか見えないリアルな差があります。私たちは今後も継続して検証を行い、現場で使えるAIの形を探り続けていきます。
最後にちょっとだけPR
ここまで読んで「面白そう」と思ってくださった方へ。
私たちは生成AIの最前線で、まだ答えのない課題に挑戦しています。エンジニア・データサイエンティスト・PdMなど、仲間と一緒に未来を形づくる人を歓迎しています。
興味があれば、ぜひお気軽にお話聞きにきてください!