- 経営企画
- 26新卒(コンサルタント職)
- 26新卒(開発職)
- Other occupations (7)
- Development
- Business
- Other
【見える化エンジン】【テキストマイニング研究室:第1回】 テキストマイニングの基礎技術 “形態素解析” とは?
当社の事業の柱であり10年連続シェアNo.1の 見える化エンジン!
その見える化エンジンがnoteで配信している記事をwantedlyでもご紹介したいと思います😊
まずは【テキストマイニング研究所:第1回】からどうぞ~。
【テキストマイニング研究室】では、見える化エンジンのコア技術であるテキストマイニングに関連した技術について詳しく解説していきます。
言語処理ってなに?
若者が使う言葉によって、時代が変わるとともに使われる言葉は変化をしていきますが、そんな言葉を解析処理はどう処理していくのか…?
などなど、読み終わった後には「テキストマイニングってこういう使い方ができるのか!」と新たな技術への知見ができるでしょう。
最新技術を学びたい人はぜひ最後までお読みください。
第1回のテーマ…"形態素解析"
テキストマイニングの基盤技術は、コンピュータで言葉を解析する技術である“自然言語処理“です。
見える化エンジンは、その中の “形態素解析” と “構文解析” の両方を用いています。
第1回目は、この “形態素解析” についてご紹介します。
第2回では、"構文解析"について解説いたします。
“形態素解析” とは?
形態素解析とは文を単語に分けることです。
日本語は英語と違って、単語の区切りなしに書くので、形態素解析処理のことを「単語分かち書き」とも言います。
処理としては、文の先頭から辞書の見出しを当てていき、あり得る組み合わせの中から最も確からしい単語の並びを選択するということになります。
(図1)『日本語は英語と違って、単語の区切りなしに書きます。』を例文とした単語の組み合わせ
同じ文字種が長く続くと、切り方の可能性が増えて処理が難しくなります。
例えば、「ここではきものをぬいでください」という文では、『はきもの(履物)』を脱ぐのか『きもの』を脱ぐかは、前後の文脈や状況なしには決定できません。
また、「営業部長谷川一郎」と書かれた場合も「部長さん」なのか「長谷川さん」なのかは、文法的には決められません。
(図2)『ここではきものをぬいでください』の形態素解析は?
こういった日本語特有の課題はありますが、今や形態素解析は、テキストマイニング、機械翻訳など、あらゆる言語処理の基本となる技術となっています。
この技術によって、膨大なつぶやきの中から、その日の話題(トピック)のランキングを即座に「見える化」できるようになりました。
(図3)ワードクラウド
次回は、テキスト・マイニングの2番目の基礎技術である “構文解析” を紹介します。
担当:プラスアルファ・コンサルティング 高井・小山・住谷
.