去る3月10日~14日、言語処理学会第31回年次大会(NLP2025)が長崎市にて開催されました。みらい翻訳からは、研究開発を担当するResearchチームより3名が現地へ赴きました。本年は、1件のポスター発表、スポンサーブースの出展と、スポンサー賞(みらい翻訳賞)の選出をいたしました。
ポスター発表をしました!
「日付入りLLM文書翻訳評価用データセット」というタイトルで研究発表を行いました。
LLMの評価ベンチマークには機械翻訳タスクが含まれることがありますが、モデルの事前学習に評価用データの一部が含まれている可能性があるため、評価として適切ではありません。また、翻訳サービスを提供する当社は、単文ではなく文書での翻訳精度をみることがより実用的な評価であると考えています。この度、この2点をクリアするデータセットを公開しました。最新のデータを使ってデータセットを更新し続けるというものです。本データセットを使用し、リークの影響により不当にスコアが高くなる事象を確認しました。
下図が発表に用いたポスターです。発表を聞いてくださった皆様、ありがとうございました。
スポンサーブースの出展をしました!
本年、みらい翻訳はプラチナスポンサーでした。当社製品のご紹介と、当社エンジニアリング部(翻訳モデル・エンジンの開発とその他の研究開発をする部署)での働き方や求人情報のご紹介をしておりました。数十名の方々が立ち寄ってくださいました。とりわけ、当社の製品をお使いになっているお客様から使用感についてご意見を賜ることができ、ありがたく思いました。
「みらい翻訳賞」を授賞しました!
選考プロセスについて
この度初めて「みらい翻訳賞」を授与することになりました。LLM時代になり、自然言語処理分野において数々の新しい研究テーマが生まれる中で、機械翻訳の研究が維持されてほしいという当社の想いによるものです。その背景には、機械翻訳サービスへの需要は全く衰えておらず、解くべき課題がむしろ増えていると日々感じていることがあります。
みらい翻訳賞の選考にあたり、学生時代からずっと自然言語処理を専門にしているマネージャーとリサーチャー3名で選考委員会を組織し、選考に当たりました。まず機械翻訳に関する論文約40件を3名で手分けして読み、7件に絞りました。その後、3名で7件の論文を読み、また発表資料を確認し、場合によっては会場やSlackで質問をし、次の通り決定に至りました。
タイトル:訳出の同時性に特化した評価データを用いた同時音声翻訳モデルの評価と分析
著者(敬称略):蒔苗茉那、坂井優介、上垣外英剛、渡辺太郎(所属:奈良先端科学技術大学院大学)
詳細については公式のアナウンスをご覧になってください。
副賞について
副賞は、「弊社メンバー居住地銘菓セット」です。北海道、山形、宮城、愛知、滋賀、京都、大阪、福岡、沖縄の銘菓の詰め合わせです。
副賞を何にするかについては、大いに議論がありました。要件として、(1)他社と重複しないこと、(2)みらい翻訳らしさが出ることが挙げられました。(1)については、昨年度のNLP2024において、副賞の重複が目立ったことが念頭にあり設定されました。
社内Slackにて広く募集をかけたところ、多数のアイデアが集まりました。その中から2つに絞り、決選投票を行いました。1つには、みらい翻訳のビジョンである「言語の壁を超え、新しい生活と仕事の様式をもたらす共通語の機能を機械翻訳として2028年までに作る。」に鑑み、言語の壁を壊すためのチタン製高級ハンマーが挙げられました。もう1つには、みらい翻訳のリモートを中心とした働き方故に少なくないメンバーが様々な地域に住んでいるということを反映し、メンバー居住地銘菓セットが挙げられました。最終投票の結果、後者に決定いたしました。下図は投票結果です。
決定後ただちに、各地に住んでいるメンバーにご当地の銘菓について尋ねました。その推薦に基づき、賞味期限を考慮したうえで、次の通り銘菓を選定いたしました。
北海道は、「白い恋人」が筆頭に挙がりましたが、あまりに有名であるため、敢えて「夕張メロンピュアゼリー」にいたしました。そのほか「わかさいも」や「ノースマン」が挙がりましたが、賞味期限の都合で見送りました。
山形県は、「乃し梅」にいたしました。「おしどりミルクケーキ」「オランダせんべい」「樹氷ロマン」「でん六豆」も候補で、賞味期限についても問題なく、大変迷いましたが、他の道府県の銘菓とのバランスを重視し、「乃し梅」を選びました。
宮城県といえば「萩の月」ですが、賞味期限の都合で見送らざるを得ませんでした。ずんだ餅、ゆべし、「支倉焼」「喜久福」についても同様です。「霜ばしら」と「晒よし飴」が推薦されましたが、いずれも大人気で入手が困難でした。すべての条件をクリアし、かつ仙台ならではのお菓子である「仙臺まころん」に決めました。
愛知県は、坂角総本舖の「ゆかり」です。「ぴよりん」との声も上がりましたが、さすがに配送に耐えられないと判断いたしました。「手風琴のしらべ」も当然候補でしたが、賞味期限の都合で採用できませんでした。
滋賀県は、たねや・クラブハリエのお菓子が推薦されました。クラブハリエは、「バームクーヘン」を筆頭に、「リーフパイ」、「ドライバーム」など、どれをとってもおいしく、特に最近発売された「バームショコラ・ド・ヴォヤージュ」には強く惹かれましたが、いずれも賞味期限が短く採用できませんでした。悩みに悩んだ結果、たねやの「本生羊羹 春味」にいたしました。
京都府は、「鶴屋吉信 柚餅(ゆうもち)」「亀末廣 京のよすが」「亀屋良永 御池煎餅」「御倉屋 旅奴」「マールブランシュ 北山本店シェフクッキー」「祇園辻利 つじりの里・ぎおんの里」とたくさん挙げられましたが、賞味期限の観点から、「つじりの里・ぎおんの里」にいたしました。
大阪府は、「大阪 花ラング」にいたしました。そのほか、「みるく饅頭 月化粧」が2秒に1個売れているらしいとして、「大阪 もちまろ菓」が大阪で絶大な影響力をもつ某コンビがCMをしているとして推薦されました。ユニバーサル・スタジオ・ジャパンのお土産もある意味で大阪土産だという意見もありましたが、経費でユニバに行くのは難しいと判断いたしました。「粟玄 和洋」を推す声もありましたが手に入りませんでした。
福岡県といえば「博多通りもん」です。個人的にはお土産の中で一番好きなのですが、定番中の定番であったため、敢えて「プレミアムめんべい」を選びました。このほか、「あまおうキャラメリゼバウム」の推薦もありましたが、他地域のお菓子とのバランスを考えてめんべいにいたしました。
沖縄県の銘菓の選定は大変迷いました。というのも、第29回年次大会が沖縄開催であり、自然言語処理業界では沖縄の銘菓が食べつくされている可能性があったためです。居住者より推薦があったのは、「ちんすこう」「くんぺん」「紅芋タルト」「雪塩さんど」です。賞味期限の都合で「紅芋タルト」は選べませんでした。「ちんすこう」は様々なお店が出しており、決めかねたため見送りました。「くんぺん」と「雪塩さんど」で迷ったのですが、県庁の前にお店があって買いやすい「雪塩さんど」に決めました。
以上まとめると、以下の9つの銘菓が選定されました:
- 夕張メロンピュアゼリー
- 乃し梅
- 仙臺まころん
- ゆかり
- 本生羊羹 春味
- つじりの里・ぎおんの里
- 大阪花ラング
- プレミアムめんべい
- 雪塩さんど
記事冒頭の写真はこれらをまとめて撮影したものです。
おわりに
みらい翻訳は機械翻訳の会社ではありますが、機械翻訳の研究だけに注目しているわけではありません。機械翻訳サービスとしてお客様の期待に応えるためには、広い視野を持った研究開発が必要です。その点においても、年次大会に参加することは言語処理技術のトレンドを幅広く追うのに役立っています。
また、これだけ大規模になりながらもスムーズに年次大会を運営されている皆様方に感謝申し上げたいと思います。
最後になりますが、みらい翻訳では、翻訳モデルの性能向上に取り組むエンジニアや、LLM等を使った諸機能の研究開発を行うリサーチャーを募集しております。機械翻訳のご経験がある方もない方も、ご興味がございましたら、カジュアル面談をお気軽にお申し込みになってください。