1
/
5

研究について

現在修士1年として,『データ分析における目的の有無が分析過程に与える影響』というテーマで研究を行なっています.内容に関してざっくり紹介いたします.


1. 背景・目的

ビッグデータを企業の意思決定の材料として活用するため,ビジネス現場でのデータ分析や,データサイエンティスト育成への期待が高まっています.データ分析とは抱えている問題を解決するための手段の一つであり,分析の目的を明確にしなければ大量のデータから本当に必要な知見を得ることはできないのではないかと考えています.

本研究ではデータ分析における目的設定を重視し,その目的が分析者の思考や着眼点にどのような影響を及ぼすのかを調査するとともに,目的設定の重要性を明らかにするための実験を行いました. ただし,本研究においては目的の有無が分析者の「思考や着眼点」に与える影響の調査を目的としているため,データの選択,加工,統計処理等は行わせず,あらかじめ実験者が用意したグラフを読み取る行為を「分析」としました.その中でも読み取った内容の解釈(思考)や着目するグラフ(着眼点)に違いが現れるのではないか,という仮定の元で実験を行いました.

2. 方法

2.1. 参加者

情報科学もしくは経営工学を専攻とする大学4年生12名が2人1組ごとに実験に参加. 計6組の参加者を,目的なし群(3組),目的あり群(3組)に分けた.

2.2. 実験材料

Kaggle社のWebページに掲載されている「Store Item Demand Forecasting
Challenge」
という商品売上のデータを用いた.同データを加工し,仮想的な実験用データとした.実験用データは「月」「日」「曜日」「店舗」「アイテム」「年齢」の6項目で構成され,それぞれに対して「売上(個数)」が示される.また資料として,1つの項目に対する売上を示すグラフ(単純集計)を6個,2つの項目を掛け合わせたものに対する売上を示すグラフ(クロス集計)を15個Excel上で作成した.

以下の画像のようにグラフ選択シートを作成し,それぞれのボタンを押せばそのグラフが記載されているシートにジャンプ出来る仕様とした.


以下,グラフ例

例1 店舗に対する売上のグラフ(単純集計)


例2 店舗と年齢に対する売上のグラフ(クロス集計)

2.3. 手続き

実験は「データの観察・話し合い(25分間)」・「記述(制限時間なし)」の二段階で構成される.目的あり群,目的なし群の共通目的として,実験用データから読み取れる「現状」と,それに対する「改善案」を提出することを求めた.この際,目的あり群のみに「既存商品・既存店舗についての弱みを知りたい」という分析の目的を伝えた.またグラフ閲覧・操作の過程を記録するために,スクリーンキャプチャソフトで録画した.さらに,参加者2人による協調活動の過程を記録するために,ビデオカメラ(SONY株式会社・HDR-CX120)で参加者の様子を録画し,iPhoneXSで参加者の発話音声を録音した.

3. 結果

3.1. グラフ閲覧の様子に関する分析

3.1.1. 単純集計とクロス集計の閲覧率

各群が課題中に閲覧したグラフが単純集計であったのか,それともクロス集計であったのかについて,割合を以下に示す

本実験では分析資料として単純集計グラフを6個,クロス集計を15個作成した為,おおよそ単純集計30%,クロス集計70%の割合であった.図2から目的なし群は70%以下,目的あり群は70%以上クロス集計を閲覧した結果となった.

3.1.2. グラフごとの閲覧数(平均)

また,目的なし群,目的あり群別にグラフ21個ごとの閲覧数を以下に示す.縦軸が閲覧数の平均値,横軸がグラフの番号を示す.青色の棒グラフは目的なし群,オレンジ色は目的あり群を示し,グラフ番号の1〜6番が単純集計のグラフ,7〜21番がクロス集計のグラフである.



目的なし群はクロス集計よりも単純集計のグラフを,目的あり群は単純集計よりもクロス集計のグラフを閲覧していることがこちらからも分かる.

目的なし群と目的あり群との間で,閲覧数の差が特に大きいグラフは9(店舗×月),10(アイテム×月),13(店舗×日),16(店舗×曜日),20番(店舗×年齢)のグラフである.全てのグラフがクロス集計であり,「アイテム」もしくは「店舗」の項目が含まれるグラフである.

3.2. 発話内容に関する分析

3.2.1 発話内容の分類

録音した発話を書き起こし,その発話内容を「計画」,「グラフから読み取れる内容」,「独自の解釈」の3つのグループに分類した.「計画」は,次に閲覧するグラフを決める様な発話,「グラフから読み取れる内容」は,グラフが示すデータに関する発話で,人による解釈の違いが現れない発話,「独自の解釈」はグラフが示すデータに関する解釈や,原因推測,また「月」「日」「曜日」「店舗」「アイテム」「年齢」以外のグラフに示されていないデータを用いた解釈や原因推測の発話,と定義した.またその発話例を以下の表に示す.


各組の発話における3つの分類の割合を表したグラフを以下に示す.表と同様に「計画」:オレンジ,「グラフから読み取れる内容」:緑,「独自の解釈」:青の3色で表されている.またA,Bは各群2人の参加者を指す.

まず「グラフから読み取れる内容(緑)」と「独自の解釈(青)」について,目的あり群は「グラフから読み取れる内容」が,目的なし群は「独自の解釈」が割合を多く占める結果となった.

次に「計画(オレンジ)」について,目的あり群はA,Bの2人から発せられているのに対し,目的なし群においてはどちらか一方に偏っている様子が読み取れた.

3.2.2 独自の解釈を分類

「独自の解釈」に分類された発話は参加者それぞれの考えが反映されている発話である.この発話内容をさらに細分化することで,参加者ごとの意図や分析の指針が読み取りやすくなるのではないかと考え「グラフに対する評価」,「対策考案」,「原因推測」,「その他」の4つのグループに分類した.「グラフに対する評価」は,あるグラフを閲覧した後に,そのグラフに対して観察する価値があるかないかの判断する様な発話,「対策考案」は,売上げの低い店舗や商品について,なぜ低いのかを検討する前に,「売上を上げるにはどうしたら良いのか?」という観点で改善策を考えている発話,「原因推測」は,売上が低いデータもしくは高いデータに対して,その原因を考察している発話,「その他」は,上記3のグループに当てはまらない発話,と定義した.またその発話例を以下の表に示す.



4つの分類の割合を表したグラフを以下に示す.表と同様に「グラフに対する評価」:ピンク,「対策考案」:紫,「原因推測」:青,「その他」:白の4色で表されている.A,Bは各群2人の参加者を指す.

「その他(白)」に分類された発話を除いて目的あり群では「グラフに対する評価(ピンク)」と「原因推測(青)」が,目的なし群では「対策考案(紫)」の発話の割合が増えるという結果となった.

4. 考察

まず,単純集計とクロス集計の閲覧率について,目的あり群の方が目的なし群よりクロス集計のグラフを多く閲覧していることがわかる.目的あり群は「既存商品・既存店舗についての弱みを知りたい」という分析の目的を与えられていた為に「アイテム」と「店舗」の項目に着目しやすい.その結果,「アイテム」と「店舗」を他の項目と照らし合わせる為に,クロス集計のグラフをより多く閲覧したのではないかと考えられる.

次に,参加者同士の発話内容について,「グラフから読み取れる内容」の発話が多かった目的あり群は,分析目的であった「商品と店舗の弱み」を把握するために,グラフに示される現状を整理しようする傾向にあったのではないかと考える.他方,「現状と改善案の提出」という指示しかされていない目的なし群は,閲覧したデータに対して,自身の経験等から売上の低い原因を予測し改善案を考えようした結果,グラフに示されているデータ以外の要素を加えた解釈や原因推測に関する発話が増えたのではないかと考える.「計画」に関する発話については,目的あり群は目的を与えられていたために,共通する指針に対する2人(A,B)の意見が出やすかったのではないかと考える.しかし目的なし群はA,Bそれぞれの指針が統一されておらず,2人の内のどちらかの考えにもう片方の参加者が合わせたために,「計画」発話が偏ってしまったのではないかと考える.

また「独自の解釈」の分類について,両群とも「現状と改善案」の提出を共通の目的としていたが,目的あり群は「弱みを知りたい」という分析目的を与えられたことによって,現状を把握することを主目的として,データの観察や考察を行ったのではないかと考える.その結果「グラフに対する評価」や「原因推測」に関する発話が増えたのではないかと考える.他方,目的なし群は改善案を出すことを主目的とし,売上の低い店舗や商品,年代をどう上げるのかのみを考えた.その為,現状を整理する様な観察を行うことやデータに対する評価基準が無かったのではなかと考えられる.結果,目的あり群の様な発話傾向は現れず「対策考案」に分類される様な発話が増加したのではないかと考える.

5. まとめ

本研究の目的は目的設定の有無がデータ分析の過程や結果の洞察に及ぼす影響を調査することであった.実施した実験においては目的設定に焦点を当て,「目的あり群/目的なし群」に分けた参加者にデータ分析を行ってもらった.結果,両群の間に目的の有無が及ぼしたと考えられる差として,グラフの閲覧の仕方やグラフ閲覧中の発話に違いが現れた.

本研究の実験では,「既存商品・既存店舗についての弱みを知りたい」という分析目的を設定したが,この目的は「分析の観点」程度であった可能性がある.本研究の目的や意義の検証には分析で解決したい問題の定義や,問題解決のための分析目的をより詳細に設定する必要があり,今後の課題とする.

しかし,「分析の観点」程度でも参加者の思考や着眼点の特徴に違いが現れた.目的を与えられなかった目的なし群は,目の前にデータがあったとしてもそれに対する評価基準を持っていなかった.煩雑なデータを扱うほどに評価基準は必要であり,それを決めるタスクは非常に重くなる.

今後,実験環境を整理し,参加者を増やして再度実験を行えば,両群間の違いや「目的設定」の重要性をより明らかにできる可能性がある.

6. 今後の展開

・参加者がデータ分析を行うための環境設定(問題定義・目的設定)の検討

・本研究ではグラフの読み取りレベルをデータ分析としたが,データの選択,加工,統計処理を含んだ実験の実施

・機械学習やディープラーニング等の手法を用いたデータ分析についての研究

etc...やりたいことたくさんです.


7. 現在

・発話の分析を継続(分類の定義を明確化)

・機械学習,ディープラーニング手法の勉強
 一般社団法人 日本ディープラーニング協会の参考図書
 AI_STANDARD

・基本情報技術者試験対策

・TOEIC対策