製造業支援サービス自社開発企業 / AIエンジニア
文書画像認識モデルを用いた決算書情報抽出AIのチューニング
◼︎前提・課題 社内DX化の一環として、決算書(BSとPL)からの情報抽出の自動化を目的とするプロジェクトが発足し参画。 決算書の画像内にある文字を抽出しjsonデータ化するために、OCRフリーの文書画像認識モデルである「Donut」が選択されたが、参画当時のF1スコアは68.6%であった。 このDonutモデルをチューニングし、実運用へ向けてF1スコアを向上させる。 ◼︎業務内容 Donutモデルに対して以下のチューニング施策を提案および実装を行うことで、F1スコアを92.0%まで向上させた。 - モデルが未学習の漢字のうち決算書中に頻出の漢字を強化学習した。 - 隣接するテキストが誤って統合され誤認識となる問題を解決するために、 - モデルが生成するクロスアテンションヒートマップに基づく各テキストに対応するバウンディングボックス座標を定義。各バウンディングボックス間のIoU(重なり度合い)から、ルールベースで誤って統合されたテキストを分割した。 - エンコーダの構成とパラメータを調整し、モデルが画像内の小さなテキストや細かい文章特徴により注目できるようにした。 - 文字の小さい複雑なテキストの認識精度向上のために、 - 入力画像データセットの解像度を2倍に引き上げた。それに伴う入力の設定値変更や節GPUメモリを行うためのコード改修を実施した。 - 文書画像のノイズ除去、2値化、グレースケール化などの前処理を施した。 - trainフェーズのみに、データ拡張を行い一般化能力を向上させた。 - ハイパーパラメータの最適化を行った。