東京都

LLMを用いて非構造データをデータ構造化してみた

Kei Kawashima, Hiroaki Sengoku and 1 others

Director/manager, 代表取締役

Kei Kawashima

マイクロベース株式会社 / Director/manager

Hiroaki Sengoku

マイクロベース株式会社 / 代表取締役

Yuya Minamide

on 2025-08-25

Photo by Aerps.com on Unsplash

オープンデータではじめるデータ構造化〜生成AIでオープンデータを整理する〜

こんにちは、AI開発チームです。

今回は「データ構造化」という取り組みについて、オープンデータを題材に紹介します。

「データ構造化」とは、ばらばらに記載された文章やPDF、報告書などの非構造化データを、コンピュータが扱いやすい形（CSVやデータベース）に変換することを指します。AIを活用することで、この作業を効率的かつ高精度に行えるようになってきました。マイクロベースにおいて、MiraiE Structifyというサービスにおいて、証明書や契約書といったドキュメントを機械学習に読込可能なデータセットに変換するサービスを開発しちえます。

船舶事故報告書を題材に

今回取り上げるのは、国土交通省が公開している「船舶事故報告書」。

この報告書には、事故の発生日時や場所、関係する船舶名、原因、再発防止策などが文章形式で記載されています。

https://jtsb.mlit.go.jp/jtsb/ship/index.php

こうした報告書をそのまま読むのは人間にとっては容易ですが、統計的に分析したり、GIS（地図システム）に載せたりするには「構造化」されていることが必要です。

そこで、以下のようなポイントを意識してデータ化を行いました。

発生場所：海上事故は住所が存在しないため、報告書に記載された緯度経度を直接抽出
関係船舶：衝突や玉突き事故では複数の船舶が関与するため、最大6船舶まで記録できるスキーマを準備
日付：和暦で書かれているケースも多いため、西暦に変換して保存
自由記述：事故の概要、原因、再発防止策などは要約してテキスト化

生成AIによる構造化

以前はルールベースや正規表現で手作業に近い処理をしていましたが、現在は生成AI（LLM）を使ったアプローチを取り入れています。

例えば、報告書のPDFをAIに読み込ませて以下のように指示します：

「この報告書から、発生日時、発生場所、関係船舶、事故種類、原因、再発防止策を抽出し、JSON形式で出力してください。」

すると、AIが文章を解析して、事前に指定したスキーマに沿った形でデータを返してくれます。

シンプルな報告書なら小型モデル（例：Haiku）でも対応可能で、大規模モデルを使えばより複雑な文章も正確に抽出できます。

出力結果イメージ

構造化の結果は以下のようなCSVにまとまります。

このようにデータ化することで、事故の傾向分析や、地図上での可視化、再発防止策の比較検討などが容易になります。

考察

実際にやってみて感じたのは次の2点です。

モデルごとの得意不得意がある
短文の抽出は軽量モデルで十分ですが、長文の「事故の概要」や「原因」抽出では大規模モデルが安定。
スキーマ設計が肝
どの項目を抽出するかをあらかじめ定義しておかないと、AIが返す結果もバラつきが大きくなるため、事前設計が重要です。

まとめ

データ構造化は、非構造データを機械可読な形式に変換するプロセス
船舶事故報告書のような公開データを題材にすることで、社会的にも意義のある活用が可能
生成AIを使うと、従来より効率的に精度の高いデータ化が実現できる

最後に

私たちは「データ構造化 × 生成AI」をキーワードに、公共データや業務文書を整理・活用する技術を磨いています。

もしこの記事を読んで「こういう取り組みに関わってみたい」と思った方がいれば、お気軽にお話聞きにきてください！

Invitation from マイクロベース株式会社

If this story triggered your interest, have a chat with the team?

マイクロベース株式会社's job postings

LLMを用いて非構造データをデータ構造化してみた

Kei Kawashima

マイクロベース株式会社 / Director/manager

分析チームココロオドル瞬間 LLM 生成AI

2 Likes

マイクロベース株式会社

■事業概要 GIS（地理情報システム）を用いたジオシミュレーションをコアとし、自治体や事業会社のパートナーとしてデータサイエンティスト集団としてデータを活用した都市計画策定支援や不動産マーケティングの研究開発・ソフト提供をおこなっています。現在、最も注力していることは「MiraiE.ai（ミラーエ）」の開発です。わたしたちは住宅版Google Analyticsを実現すべく、空室予測AI・入居シミュレータ開発に取り組んでいます。これまで官公庁の空き家対策やインフラ企業のインフラ老朽化対策などに提供してきました。会社紹介ムービー：　https://www.youtube.com/watch?v=r5VzsOqUPHQ&t=1s ■社会課題とビジョン空き家の急増に代表されるように、急激な人口変化や事後的な住居管理習慣等により、住宅供給におけるミスマッチや機会損失が生じています。見通しの立てづらい住宅需給を予測・最適化し、どの世代も安定して住宅供給を受けられるまちのAIインフラとなることを目指します。私達はGIS（地理情報システム）× AI開発に強みを持つ専門家集団です。データサイエンス、もっといえば、GISにできることはデータから、地域のポテンシャルを見せることです。たとえば、救急搬送は一回の出動に平均5万円かかると言われています。医療圏から離れてしまうと、居住者にとっても医療従事者にとっても多くの課題が伴います。しかし、病院近くの空き家を優先的に後期高齢者が利用できるようになり、みまもり施設や高齢者向け施設が集中できれば、将来的な救急車の搬送コストを下げ、社会からの隔絶を防ぐことも可能になります。データサイエンスはこうした地域のかかえる需要と供給の、可能性の可視化・最適化を行い、ビジョン策定や既存の計画の一層のブレイクダウンをする大きな助けとなります。わたしたちは都市の未来をつくるための技術を開発し、提供しています。 ■提供ソリューション上記ビジョンを実現するための具体的なソリューションとして、下記ソリューションの研究開発・実証をおこなっています。・将来空室予測・将来入居予測・将来マイクロ人口予測・不動産価格・入居シミュレータの開発・社会インフラの最適配置・ダウンサイジングシミュレーション・機械学習データセットの構築に向けたマルチモーダルAIソリューションの開発・生成AIを利用した機械学習データセットの構築「Miraie.ai」を活用した空室予測モデル https://www.youtube.com/watch?v=0dy3915GAzo Amazon Bedrock × LLM で行政データを変革！ - Project LINKS におけるデータ構造化ソリューションの最前線（国土交通省様ご講演） https://www.youtube.com/watch?v=xsvzNKu4DWA

Like Kei Kawashima's Story

Let Kei Kawashima's company know you're interested in their content

LLMを用いて非構造データをデータ構造化してみた

オープンデータではじめるデータ構造化 〜生成AIでオープンデータを整理する〜

船舶事故報告書を題材に

生成AIによる構造化

出力結果イメージ

考察

まとめ

最後に

マイクロベース株式会社

ココロオドル瞬間

Weekly ranking

オープンデータではじめるデータ構造化〜生成AIでオープンデータを整理する〜