signateコンペ
sigante社のコンペ「SIGNATE Student Cup 2020: データサイエンティストの職種判別にチャレンジ!!」です。概要は、英語圏の求人情報に含まれるテキストデータ(職務内容に関する記述)をもとに、4つの職業を推定するコンペです。データの内容は英語で書かれたテキストデータです。 データ量は3000件程度テキストデータです。データ量を増やす為に、データをドイツ語に翻訳し、その翻訳したデータを再度英語にする再翻訳を行いました。 使用したモデルは、BERT、RoBERTa、 TF-idf、K-meansの出力を勾配ブースティングでスタッキングを行いました。成果は、450人中49位で上位15%以内に入ることができました。