株式会社GEOTRA(ジオトラ)
KDDIのGPS位置情報と機械学習技術を掛け合わせ、生活者ひとりひとりの行動分析が可能な全く新しい人流データをご提供します。
https://www.geotra.jp
みなさん、こんにちは!GEOTRA経営企画部マネージャーの小島です。
今回は、GEOTRAが提供するGEOTRA Activity Data(GPS位置情報とモデリング技術を活用した、生活者ひとりひとりの導線がわかる高粒度な人流データ)のコアとなる、「合成データ」についてご紹介します。
合成データとは、現実世界のデータを元に作成される人工的なデータであり、パーソナルデータの新たな活用手法として、近年、大変注目をされています。英語では、Synthetic Data、別名Artificially Generated Dataとも言います。
業界最大規模のITアドバイザリー企業である、米国Gartnerは、「2024年までに、データ分析や機械学習の開発で利用されるデータのうち、60%が合成データになる」と予測しています。また、ソフトウェア開発の最新情報、トレンド等を紹介するInfo Qは、ソフトウェア開発(機械学習、データエンジニアリング等)のテクノロジートレンドにて、注目すべき技術群であるInnovatorsの中に、合成データを掲載しています。
なぜ、合成データがここまで注目されているのでしょうか。
昨今、内閣府は、政策の企画をエピソードに頼るのではなく、明確な目的のもと、データなどのエビデンスから現状を把握したうえで進めようというEBPM(Evidence Based Policy Making)を推進しています。
EBPMを進めるにあたって、プライバシー保護の観点から、現実世界で得た生のパーソナルデータをそのまま利活用することは難しく、特定の個人を識別出来ないように生のパーソナルデータを一定程度秘匿化、非特定化処理する必要があります。非特定化処理されたパーソナルデータは統計処理や秘匿化処理を施されていることから、データ粒度が荒く、分析パターンが限られるという課題がありました
このように、パーソナルデータの活用にはプライバシー保護とデータ粒度の両立という大変難しい課題がありました。
そこで注目されているのが、合成データというプライバシー保護技術です。
合成データは、コンピューターのアルゴリズムによって生成され、現実世界での統計的な特徴量を維持した限りなく実際のデータに近い人工的なデータであるため、プライバシーの課題をクリアし、高精度かつ生データに近いフォーマットを利活用することができます。
合成データの活用事例も近年増加しており、特にセンシティブなデータを扱う医療分野等での活用が進んでいます。
前段でご説明した通り、これまでの人流ビッグデータはデータ粒度とプライバシーのトレードオフという課題を抱えており、分析の自由度に限りがありました。そこで、GEOTRAは秘匿化・非特定化された、KDDI株式会社が保有するauのGPS位置情報ビッグデータや地図・交通データ・公的データ・POI (Point of Interest:地図上の特定の地点) データなどの情報と合成データ生成技術等を掛け合わせ、より自由度の高い分析や将来予測に活用可能な人流データを生成・ご提供しています。
GEOTRA Activity Data(=合成データ)によって、年代・性別・勤務地・居住地など様々な属性を持った生活者ひとりひとりの移動履歴・導線を表現・再現することができ、様々な切り口から都市人流の傾向を捉え、可視化できます。さらに、都市人流の未来予測、例えば渋滞予測や施設の混雑予測・災害時の想定人流などをシミュレーションすることも可能です。
本記事では、合成データについてご紹介させて頂きました。他の会社記事は、こちらのリンクからご覧ください!
今回の記事に登場したEBPM(Evidence Based Policy Making)について興味がある方は、こちらの記事で詳しく解説しておりますので、あわせてご覧ください。
また、Wantedly上でユースケース紹介がシリーズ化されておりますので、興味を持たれた方は是非こちらのリンクからご覧ください。
最後までお読みくださりありがとうございました。
GEOTRAは、現在一緒に働く仲間を募集しております。興味をお持ちの方は、Wantedly上の募集ページやストーリー、各種サイトをご確認ください!