奈良先端科学技術大学院大学 / 情報科学専攻 自然言語処理学研究室
Co-teachingを用いた疑似データからのノイズ除去
既知の語句の出現文脈を用いて疑似データを作成し、その疑似データに基づくキーワード抽出を行う課題に取り組んだ。 Co-teachingと呼ばれるノイズ除去の手法を用いた。 まず文脈情報と語句内部の情報の二つに分けたキーワード検出器で互いに教え合うことでノイズを除去しようとした。しかし、文脈情報に基づくキーワード検出器の精度の低さがネックとなりうまく行かなかった。 次に生物科学ドメインと科学ドメインのそれぞれで学習された二つの事前学習モデルに基づきノイズ除去を試みた。このとき、精度の改善はみられたものの先行研究に匹敵するものとはならなかった。