ニュースデータのソース元予測
ニュースサイトの出版元の推定をし、attention weightを使用して、推定に大きく影響した単語を可視化しました。取り扱ったデータは研究室で毎日さまざまなニュースデータを取得しておりデータベース上に蓄積されています。その中でYahoo全体のニュースデータとYahooの世界情勢ニュースデータ2つのを使用しました。データ量は各ニュースデータ6000件程度です。また書かれている言語は英語です。ニュースデータの前処理は記号などを除きました。利用した手法はBERTです。BERTを使用するにあたり、huggingfaceのbert-based-uncasedを事前学習モデルとして使用しました。成果は検証データで85%程度の精度を得ることができました。また、attention-weighの可視化の方法は、12個のMuti-headの重みの平均をとり可視化しました。