当社の事業の柱であり10年連続シェアNo.1の 見える化エンジン!
その見える化エンジンがnoteで配信している記事をwantedlyでもご紹介したいと思います😊
今回は【テキストマイニング研究所:第3回】をどうぞ~。
【テキストマイニング研究室】では、見える化エンジンのコア技術であるテキストマイニングに関連した技術について詳しく解説していきます。
第2回では、テキストマイニングの基礎技術、"構文解析"について解説しました。
▼第2回 構文解析に関する記事はこちら
https://note.com/mierukaengine/n/ncc6f04bd230e
今回は、同じくテキストマイニングの基礎技術である “品詞” についてご紹介します。
最新技術を学びたい人はぜひ最後までお読みください。
第3回のテーマ…"品詞"
いまさらですが、今回は当たり前のように使っている“品詞”について。
単語は、『文法』に則って並べられることで文になります。
文法的に同じようなふるまいをする単語のグループが“品詞”です。
前回の記事【第2回:構文解析とは?】で、なにげなく「自立語と付属語から文節ができる」と書きました。
構文解析では、単語から文節、文節から文へと、ボトムアップに積み上げていくので、この二つの区分はとても便利です。
そこで、私たちはこんなふうに品詞をわけています。
自立語: (=ひとつの単語だけで文節や文になれる)
-名詞:「水」
-動詞:「行く」
-形容詞:「悪い」
-副詞:「早く」
-連体詞:「どんな」
-感動詞:「あらっ」
-接続詞:「しかし」
これらに対して、
-助詞=「は、が、を、と、…」や、
-助動詞=「た、です、ます、…」
などは付属語です。単独では文節にも文にもなれません。
※ 「ね!」「でしょ!」という文があるって?
これは自立語が省略された言い方なので例外としましょう。
見える化エンジンを支える言語解析処理エンジンの辞書には約37万語が登録されていますが、品詞の内訳はこんなふうになっています。(付属語は数が少ないのでひとまとめにしてあります)
名詞
上の図を見ると、いかに【名詞】が多いかわかりますね。
しかも、その内の約6割は固有名詞(地名、人名、商品名、組織名など)です。
固有名詞はどんどん増えるので、その都度辞書に登録するのも大変です。
また、古い地名だからとか、今はない会社名や商品名だからといって、文章に出てこないとは言えないので、うかつに削除するわけにもいきません。
辞書登録なしで固有名詞を判別することは、今でも言語処理の大きな課題です。
サ変名詞
【サ変名詞】は、別名『スル動詞』ともいいます。「解析-する」というようにして動詞になる名詞のことです。
ただし、サ変名詞でなくても、名詞ならば「する」をつけても文法的に間違いとは言えません。「お茶する」「ネクタイする」「歩きスマホする」などの言い方はこれからも増えるでしょうが、規則的に扱えるので問題はありません。
とはいえ、テキストマイニングにおいて【サ変名詞】を名詞と動詞のどちらと見なすかは、けっこう深い問題です。
第2回でご紹介したように、名詞は主に話題として、動詞はそれに関する意見としてとらえるためです。
見える化エンジンでは、《名詞として扱う》、《動詞として扱う》、《文脈に合わせる》の3つの設定が可能です。そのメリットは、いずれご紹介するとして…
形容名詞
【形容名詞】は、「きれいーな」「だんだんーと」「堂々―たる」という形で性質や状態を表す名詞のグループです。
これも最近は、「問題-な-日本語」「東大-な-人」のように、一般名詞、固有名詞を形容名詞のように使うことが流行っています。
新鮮に聞こえなくなったら廃れるかもしれませんが。
見える化エンジンでは、【形容名詞】も【サ変名詞】と同様に、名詞/形容詞/文脈準拠の3つの解釈が可能になっています。
動詞
名詞の次に多いのは【動詞】です。
「走る」「歩く」といった、いわゆる『和語動詞』のことです。
数としては2万語強、6%程度で、あまり増減がありません。
例えば「ググる」「コピる」といった新語も追加されています。これを聞いて「エガワる」「カタギる」という動詞を思い出す方はかなり熟年ですね。
形容詞
次は【形容詞】。
「美しい」「赤い」などの、日本語本来の形容詞です。
外国人向けの日本語教育分野では、わかりやすく『イ形容詞』と呼ばれています。(【形容名詞】は『ナ形容詞』です。)
語数としては4千語にも満たなくて、増減もほとんどない品詞と言えますが、近年「キモい」「キショい」というような新語があるのはご存じのとおりです。
まとめ
主な品詞を簡単にご紹介しました。
こうしてみると、名詞類は増えますが、活用する単語や、言い回し(=文法)に関わる付属語類は、数も変化も少ないと言えます。
すなわち、モノの名前は時代とともに大きく変化しても、文法そのものはあまり変化しない、と言ってもいいのではないでしょうか。
今回の解説は以上です。
今後もこうしたテキストマイニングの技術について解説していきますので、ご興味のある方はフォローをお願いいたします!
担当:プラスアルファ・コンサルティング 高井・小山・住谷
👇【テキストマイニング研究所】の過去の記事はこちらです~
.