NLPeanuts Inc. / AIエンジニア
大規模言語モデルを用いたマイソクPDFからの情報抽出の改善
人工知能学会で口頭発表を行いました。 --- [1Q3-OS-35-02] 大規模言語モデルを用いたマイソクPDFからの情報抽出の改善 〇樋口 樂飛1、叶内 晨2,3、齊藤 佑太郎3、松本 健太郎3、岩成 達哉3 (1. 香川大学、2. NLPeanuts合同会社、3. 株式会社estie) キーワード:情報抽出、データ構造化、大規模言語モデル 本研究では、不動産業界で物件情報の流通に使用されるPDFデータからの情報抽出の精度向上を目指す。先行研究では、OCRを用いてテキスト情報を抽出した後、大規模言語モデル(LLM)を用いる2ステップの手法により、高精度に物件情報を抽出可能なことが示されている。本研究では、PDFを直接入力可能な商用マルチモーダルLLMを用いた情報抽出を検証する。実験では、OCRを用いる手法、PDFを画像に変換してLLMに入力する手法、PDFを直接商用LLMに入力する手法の精度を比較し、その出力結果を分析する。