- カスタマーサクセス
- 経理
- Web Engineer
- Other occupations (5)
- Development
- Business
- Other
こんにちは! ハコジムでインターンをしている山本と申します。
私は広島大学大学院で数学を勉強していて、ビジネスに関わる統計分析を行うことで、実用的な統計スキルを身につけたデータサイエンティストを目指しています。
10月からハコジムにジョインし、データ分析の業務を担っています。
今回は私が業務として行ったハコジムの商圏分析について、どのような分析を行い、そして何がわかったのかを紹介させていただきます。分析には複数のデータと目的のデータとの因果関係を調べるための、重回帰分析という手法を用いました。重回帰分析とは、目的変数に対する説明変数の影響度を調べる分析です。
分析方法概要・目的
今回の分析では2019年8月から2020年7月までの新規体験者数や入会者数などの集計データを用いました。新型コロナウイルスによる非常事態宣言の影響や、新店舗開店直後の急激な顧客増加などの影響を考慮してデータを選び、今回の分析では2019年8~12月、2020年3~7月のそれぞれ5か月間を対象として分析をしました。
新規体験者数、入会者数、退会者数などは業績に強く影響する数値であり、本分析はこれらに影響を与える店舗周辺の条件を明らかにすることを目的としています。この新規体験者数などの、詳しく調べたいデータを目的変数といいます。今回はこの目的変数それぞれに関連する情報(説明変数)として、店舗から徒歩15分圏内における、25~44歳人口(ターゲット人口)、それ以外の年代の人口、従業者数、店舗最寄り駅の乗降客数の4つのデータを選びました。説明変数を多くとりすぎることは分析結果を意味のないものにしてしまうため、説明変数の選び方は重要です。今回の分析では説明変数を一つ余計に入れると分析がうまくいかないような状況だったので、この4つの説明変数は良いモデル選択だったと思います。
分析手法
分析には先ほど述べたように重回帰分析を用いました。より具体的には、Rという、統計分析向けに開発されたプログラミング言語を用い、そこに組み込まれたアルゴリズムによって、4つに絞った説明変数からさらに適切に説明変数を選びなおすことによって分析しました。
上の画像はコロナ前の新規入会者数(trial1)を調べるために、4つの説明変数すべてを用いて重回帰分析を行った結果です。"NA" と書かれてあるところは分析結果の大事なところで、ここの数値がわからなければ分析の意味はありません("NA"とは"Not Available"の略で、使えないということです)。
そこで用いた説明変数を選ぶアルゴリズムというのが、赤池情報量基準(AIC)という説明変数選択の基準に基づいて作られた AIC Step というものです。
上の画像が AIC Step を用いて説明変数を選んだ結果です。4つあった説明変数から選ばれたのは従業者数と25~44歳以外の人口の2つのみです。右下の方に書かれてある"Adjusted R-squared" というのは目的変数と説明変数の選び方がどれくらい良いモデルであるかを示す指標です。0.5から0.9ぐらいだとよく当てはまったモデルだと判断します。逆に0.9より大きいと目的変数に対する説明変数が多い可能性があります。明らかに説明変数の数が多い場合には、先ほどの画像のように"NA"がたくさん表示される、意味のない結果を起こします。画像の上から7行目の"Pr (>|t|)"は、結果の信頼度を示していて、0.05よりは小さいのが理想的で、p-値といいます。この画像の結果ではそれほど信頼度の高い結果が得られたとは言えませんが、従業者数(worker)については比較的p-値が小さく、影響を与えている可能性がほんの少しあります。この結果からわかることは、もし従業者数が新規体験者数に影響を与えているとすると、店舗周辺地域の従業者数が1万人増えるごとに5か月間の新規体験者数の増加が大体8人ぐらい見込める、ということです。他の目的変数に対しても重回帰分析を行いましたが、説明変数の数の調整が難しく、分析には工夫が必要でした。簡単のために目的変数を X、説明変数を A, B, C とします。今回の分析ではA,B,Cの3つを使うとNAが出てしまうような状況があったので、説明変数の取り方を (A,B), (B,C), (C,A) にして分析しました。形式的に分析をできましたが、実際にはサンプル数を増やしてNAが出ない範囲で十分な分析ができることが理想です。
分析結果と今後の課題
コロナ後の分析では、2020年になってからの新店舗のためサンプル数が多く、重回帰分析に十分なデータがありました。そのため、コロナ後の分析結果はうまく出たので、この結果を説明します。例えば新規体験者数にも新規入会者数にも周辺地域のターゲット人口が影響を与えているが、新規入会者数についてはさらに地域の従業者数や最寄り駅の駅乗降客数が影響を与えていることがわかりました。体験だけでなく入会までしてもらえるといいので、このことからターゲット人口が多くて、さらに従業者数も行き交う人の数も多いような、若年層でにぎやかなところがいいのでは?などの予測を立てることができます。
一方で、今回の分析で選んだ説明変数では退会者についてはうまく説明できておらず、やはり退会には個人的な理由も大きく関わると思われるため、原因となりそうなものを探り、さらに分析をする必要があるというのが今後の課題です。
最後に
いかがだったでしょうか。さらにいろいろな角度から分析できる可能性があり、より良い説明モデルを見つけてもっと決定的な要素を探したいと思えるような分析でした。
自分の分析の結果を新店舗出店のために使っていただけるの大変責任感があり、やりがいのある仕事をさせていただけていると感じています。良い分析をして、業績の向上に貢献していることを感じたいと思うので、いろいろ学んで分析能力を高めていきます!