【TECH BLOG】BigQueryで時を遡って過去のテーブルを再構成する

はじめに

こんにちは、データシステム部データ基盤ブロックSREの纐纈です。

本記事では、過去に遡ってBigQueryのデータを参照する方法（以下、タイムトラベルと呼びます）をご紹介します。また、この機能はBigQueryが提供している、変更または削除されたデータにアクセスするタイムトラベルとは異なることをご了承ください。

開発背景

この機能は過去データを日次スナップショットより細かい粒度で見たい、また障害対応時に障害発生前などピンポイントで時間指定して参照したいという要望を受け、開発することになりました。

さらに、BigQueryからこの機能を作るのに役立ちそうなテーブル関数という機能がリリースされたのもきっかけとなりました。

BigQuery release notes | Google Cloud

Case-insensitive collation support for BigQuery is now available for Preview. Collation determines how strings are sorted and compared in collation-supported operations. If case-insensitive collation is used, case is ignored in comparison and sorting oper

https://cloud.google.com/bigquery/docs/release-notes#September_28_2021

テーブル関数とは、事前にパラメータを使って定義したクエリをエイリアスのようにテーブルとして保存して、そのテーブルに対して関数を実行するかのようにクエリを書ける機能です。例えば、以下のようにテーブル関数を定義するとします。

CREATE TABLE FUNCTIONS `some_dataset.foo_records_by_name`(name_param STRING) AS
SELECT * FROM `some_dataset.foo` WHERE name = name_param

その上で、このようなクエリを実行するとします。

SELECT * FROM `foo_records_by_name`('bar')

すると、事前に定義したテーブル関数がパラメータを代入して、結果としてこちらのクエリが実行されます。

SELECT * FROM `some_dataset.foo` WHERE name = 'bar'

短いクエリだと受けられる恩恵が少ないですが、長いクエリに対しては重宝される機能かと思います。

タイムトラベルの機能

SELECT * FROM `<table ID>`('2021-01-01')

テーブル関数を使用して上のようにクエリを打つと、指定した日時の状態のデータを参照できます。

実際に実行されているクエリは、こちらです。クエリ内のpast_timeはTIMESTAMP型で、テーブル関数から渡されるパラメータです。

WITH
  snapshot_validation AS (
  SELECT
    '<base_table>' AS table_id,
    MAX(creation_time) AS snapshot_validation_time,
  FROM
    `<snapshot_dataset>.INFORMATION_SCHEMA.TABLES`
  WHERE
    REGEXP_CONTAINS( table_name, CONCAT('<base_table>','_',FORMAT_TIMESTAMP("%Y%m%d", TIMESTAMP_SUB(past_time, INTERVAL 1 DAY), "Asia/Tokyo") ))),
  streaming_data_validation AS (
  SELECT
    table_id,
    min_bigquery_insert_time AS streaming_validation_time
  FROM
    `<changetracking validation table ID>`
  WHERE
    dataset_id = '<changetracking_dataset>'
    AND table_id = '<changetracking_table>'),
  validation AS (
  SELECT
    a.table_id,
    snapshot_validation_time,
    streaming_validation_time
  FROM
    snapshot_validation AS a
  INNER JOIN
    streaming_data_validation AS b
  ON
    a.table_id = b.table_id),
  nearest_snapshot AS (
  SELECT
    *,
    CONCAT(${join(",", primary_key)}) AS primary_key
  FROM
    `<snapshot_dataset>.<base_table>_*` AS snapshot_table
  WHERE
    _TABLE_SUFFIX IN (FORMAT_TIMESTAMP("%Y%m%d", TIMESTAMP_SUB(past_time, INTERVAL 1 DAY), "Asia/Tokyo"))),
  changetracking_for_two_days_until_specified_time AS (
    SELECT * FROM (
      SELECT
        *,
        id AS primary_key
      FROM
        `changetracking_dataset.changetracking_table`
      WHERE
        bigquery_insert_time BETWEEN TIMESTAMP_SUB(past_time, INTERVAL 2 DAY) AND past_time
    ) AS changetracking
  ),
  changetracking_latest_version_key_group AS (
  SELECT
    primary_key,
    MAX(CAST(changetrack_ver AS int64)) AS changetrack_ver,
    MAX(changetrack_start_time) AS changetrack_start_time
  FROM
    changetracking_for_two_days_until_specified_time
  GROUP BY
    primary_key ),
  changetracking_latest_version AS (
  SELECT
    a.*
  FROM
    changetracking_for_two_days_until_specified_time AS a
  INNER JOIN
    changetracking_latest_version_key_group AS b
  ON
    a.primary_key = b.primary_key
    AND a.changetrack_ver = b.changetrack_ver ),
  changetracking_without_duplication AS (
  SELECT
    *
  FROM (
    SELECT
      *,
      ROW_NUMBER() OVER (PARTITION BY primary_key ORDER BY primary_key) AS row_number
    FROM
      changetracking_latest_version)
  WHERE
    row_number = 1 ),
  nearest_snapshot_except_what_changetracking_included AS (
  SELECT
    *
  FROM
    nearest_snapshot
  WHERE
    primary_key NOT IN (
    SELECT
      primary_key
    FROM
      streaming_diff ) )
  SELECT
    ... -- columns in the base table (cannot use *) to align with changetracking
  FROM
    nearest_snapshot_except_what_changetracking_included
  UNION ALL
  SELECT
    ... -- columns in the base table (cannot use *) since changetracking_without_duplication has more columns
  FROM
    changetracking_without_duplication
  WHERE
    changetrack_type != 'D'
  AND
  IF
    (snapshot_validation_time IS NOT NULL,
      TRUE,
      ERROR( CONCAT("Cannot time-travel since snapshot data does not exist for the specified time." ) ))
    AND
  IF
    (past_time > streaming_validation_time,
      TRUE,
      ERROR( CONCAT("Cannot time-travel since recording changetracking had not started at the time. check nearest daily snapshot directly. Specify time after: ", streaming_validation_time)))

このクエリの中では、パタメータに渡された日時をもとに以下の内容を実行しています。

指定された日のテーブルコピーがあるかチェック
差分データがあるかチェック
日次で取っているテーブルのコピーからデータを取得する
テーブルコピーに記録されている最終時刻と指定した時間までの差分データを変更履歴ログから摘出する
組み合わせて指定された時刻のテーブルの状態を再現する

そして、そのテーブルに対して元々のSELECT文のクエリを実行するという仕組みになっています。

使われているテーブルについて、簡単に説明します。

base_table：元となるテーブルで、このテーブルの過去データを見ることがタイムトラベル機能の目的です。
daily_snapshot：base_tableの日次テーブルコピー。データ基盤を構築するために、日次バッチによってBigQueryにテーブルデータを転送しており、その際にその日時点でのテーブルのコピーを取っています。データ転送用の日次バッチは日本時間0時に動かしていますが、必ずしも0時時点のデータとは限りません。テーブル定義はbase_tableと全く同じです。
change_tracking：base_tableの変更追跡ログ。これはSQL ServerのChange trackingという機能によって保存されているテーブルです。データベース上のテーブルに対してinsert, update, deleteの変更が入る度に、変更に関する情報が記録されています。

changetrackingのテーブルは、base_tableのカラムと変更追跡のカラム、また転送バッチが実行された時刻のカラムによって定義されています。この機能に使われている追加のカラムのみ、説明します。

続きはこちら

Invitation from 株式会社ZOZO

If this story triggered your interest, have a chat with the team?

【TECH BLOG】BigQueryで時を遡って過去のテーブルを再構成する

株式会社 ZOZO

株式会社ZOZO / Other

株式会社ZOZO

ZOZOは、ファッションEC「ZOZOTOWN」を中心とする様々なファッションサービスを展開しています。 ■「ZOZOTOWN」 https://zozo.jp/ ファッションEC。 1,600以上のショップ、9,000以上のブランドを取り扱う。常時107万点以上の商品数と毎日平均2,700点以上の新着商品を掲載。（2025年9月末時点） ■「WEAR by ZOZO」 https://wear.jp/ 日本最大級のファッションコーディネートアプリ。ダウンロード数は1,900万件を突破。幅広いジャンルのユーザーによる1,400万件以上の投稿から、AIによる診断をもとに、あなたに「似合う」コーディネートや最新トレンドが探せて、さらにノウハウ動画やメイク投稿、フルメイクAR機能で、メイクを含む豊富なファッション情報が手に入る。（2025年9月末時点） ■「ZOZOUSED」 https://zozo.jp/zozoused/ ブランド古着のファッションゾーン。平均約7,000のブランドを取り扱い、毎日1万点以上の新着アイテムを掲載。（2024年度末時点）カジュアルブランドからハイブランドまで幅広いアイテムを中古ならではのお得な価格で販売。 ■「Fulfillment by ZOZO」 https://fbz.zozo.com/ ZOZOTOWN出店企業の自社ECのフルフィルメント支援サービス。自社EC運営のための撮影・採寸・梱包・配送などの各種フルフィルメント業務を、ZOZOの物流拠点「ZOZOBASE」が受託。設備投資・人件費・在庫保管料などの負担なしで、自社ECの運営が可能。各販売チャネル（自社EC・店舗・ZOZOTOWN）の在庫連携が可能なため、商品欠品による販売機会の損失を最小化。 ■「ZOZOSUIT」 https://corp.zozo.com/measurement-technology/ 3D計測用ボディースーツ「ZOZOSUIT」は、スーツ全体に施されたドットマーカーをスマートフォンのカメラで360度撮影することで、身体の精緻な3Dモデル生成が可能。 ■ZOZOMAT https://zozo.jp/zozomat/ 足の3D計測用マット「ZOZOMAT」は、マット全体に施されたドットマーカーをスマートフォンのカメラで360度撮影することで、自宅にいながら簡単に高精度な足の3D計測が可能な計測ツール。マットに片足ずつのせ、それぞれの足をスマートフォンで撮影することで、足長・足幅・足囲などの複数箇所の計測が可能。 ■ZOZOGLASS https://zozo.jp/zozoglass/ フェイスカラー計測ツール「ZOZOGLASS」は、ECにおけるコスメ購入時の課題であった「色選び」に関する不安や悩みを解消する計測ツール。スマートフォンのカメラで撮影したグラス本体の丸いマーカーによってカラーチップの位置と配置を識別し、正面に施されたカラーチップの色をもとに肌の色を検出、カラーチップ本来の登録カラーとの補正によって肌の色を計測することが可能。 ■ZOZOFIT https://zozofit.com/ 3Dボディースキャンサービス「ZOZOFIT」は、ジムや自宅にいながら手軽で高精度な3Dボディースキャンおよび計測データのトラッキングを可能にするサービス。 3D計測用ボディースーツ「ZOZOSUIT」の技術を活用した初のサービスとして、米国にて展開。

Like 株式会社 ZOZO's Story

Let 株式会社 ZOZO's company know you're interested in their content

株式会社ZOZO

【TECH BLOG】BigQueryで時を遡って過去のテーブルを再構成する

はじめに

開発背景

タイムトラベルの機能

株式会社ZOZO

ZOZO

Weekly ranking