- WEBディレクター
- エンジニア/オープンポジション
- 採用コンサルタント
- Other occupations (28)
- Development
- Business
- Other
おはようございます。夜の人も、おはようございます。
なんやかんや二ヶ月くらいディップにひたひたしております、冨田ともうします。
ディップでは、統計分析のようなものをしつつ、ディップの社内業務をイイ感じにする、
所謂データアナリティクス~なんてことを統計処理のお勉強をしながらしていたりします。
まあ自己紹介もそこそこに、わたしここで言いたいことがあるんですね。
ディップのブログ、内容薄すぎませんか。
30秒スクロールで読めるほど単純明快、さくっと通勤通学の間どころか
「電車が到着して扉が開いて閉まる」程の時間で読めてしまうのもいいですけれど、今回は複雑怪奇、少なくとも1駅くらいは持つような文章を書きたい。そう思ったわけです。
というわけで読むのに1駅持つブログ、何を書こうか。
データアナリティクスについて書けや、とお思いでしょうがなにせまだ見習い。
下手なことを書いてマジモンの統計プロ、統計警察に\ピピーッ!/されてはたまったものではありません。
という事で
わたしが勤務中コッソリちょこちょこやっていたデータ分析入門っぽい趣味について書こうかな。
実はですね、最近気になることがあってやろうとしているデータ分析があるんですね。それは
「今朝見た夢」のツイート分析
なんですね。多くの人がTwitterで今朝見た夢を投稿するときに、
「~する夢をみた」「......っていう夢をみた」と「夢をみた」とつけて投稿するんですよね。
気になるアナタは「夢をみた」でキーワード検索してください。マジだから。それを利用してツイート検索結果をwebからテキストデータとして引っ張ってきて、みんなの夢をのぞいちゃおう、って話です。
なんだか嫌な趣味みたいに見えるかもしれませんが、
使い方を変えればこれめちゃくちゃイイことことなんですよ!使い方を変えれば。
例えば「AINOW」の検索結果を分析すればTwitterの皆さんがAINOWにどんな評価をしているか、何を期待しているかが分かってしまったり、キーワード次第でプロダクトの開発ヒントやマーケティングにも使えてしまうんですね!!スゴイ!!メディアを持っている方は是非やってみて欲しい。
しかしここで気になるのはどうやってツイート検索結果を引っ張ってきて、どうやって分析する(=覗く)のかって話ですよね。順を追って話します。
①ツイート検索結果をスクレイピングする(=引っ張ってくる)
なんと今のご時世、webに書いてあることをテキストデータとしてコンピュータが勝手に持ってきてくれるんですよね。このことを「スクレイピング」っていうんだとか。
本当はプログラミングでそれを指示できるのですがわたしは見習いなので、見習いなのでwebツールを使っちゃいます。
それがコレ
Import.io
これを使うとURLを入れるだけで取ってこれそうなデータを勝手にエージから探して勝手に持ってきてくれて、簡単にスクレイピングできちゃうんですね。もちろん一度に取ってくるツイート数に限りがあるなど、自由度は低いですが入門者にはそれがかえって丁度イイ。
引っ張ってくるとこんな感じで出力できます。
➁ツイートを形態素解析する(=覗く・分析する)
持ってきたツイートのテキストデータを分析しちゃいます。今回するのは形態素解析。形態素解析っていうのは簡単に言うとテキストを単語ことにスパスパ区切ってみること。これでどんな単語がよくつぶやかれているか、今朝の夢は怖い夢の人が多かったといったことが分かっちゃうんですね。
これも実はプログラミングでできるのですが、見習いなのでツールを使います。さすが見習い。やることがすべて他力本願です。
今回使おうと思っているのはこれ
khcorder
これでスパスパ切っちゃいます。
試しに夢についてのツイートを言葉ごとに区切って、「どんな言葉が多く出てきていて、どの言葉とどの言葉が一緒に使われていたのか」を図にプロットしてみるとこんな感じになります。
近ければ近いほど関連性が高く使われていることを示しています。なんだかできる奴みたいになれることもおススメポイントのひとつです。
こわい夢があったり、楽しい夢があったりすることが分かります。
黄色い部分を見てみると、バスタや焼きそばの夢をみる時は精神的に追い詰められたり、疲れたりするんでしょうか(笑)
こんな感じで、皆さんの夢を覗こうとコツコツとツイートデータを集めています。しっかりデータを集めて活用法がみつかったら、今度はそれもお伝えできたらな、なんて考えています。
以上、お仕事中にこっそりやっている趣味でした。次回があればまた。