来歴
はじめまして、MNTSQにJoinしましたyad(@UsrNameu1)です。先月10月よりMNTSQ株式会社でアルゴリズムエンジニアとして契約書を対象とした自然言語処理に従事しています。
MNTSQは四社目になります。ざっくりした来歴でいうと、新卒で入社した会社で主にアニメコンテンツ周りのiPhoneアプリ開発をしていて、二社目にクラスメソッド株式会社に入社しました。
現在ではわりとメジャーになっていると思いますが、iPhoneアプリの開発で使われているSwiftの黎明期にとある媒体に記事を投稿させてもらったり、皆さんがよく知っているコーヒー店のアプリのAPIの方をScalaで開発させていただくなど貴重な経験をつむことができました。関係者の方々には今でも大変感謝しています。
大学受験、大学等で学んだ数理系の知識を仕事で活かしたいという動機から分析を行なう会社であるDATUM STUDIO株式会社に入社し、自然言語処理、深層学習系の論文検証等多くの数理系の知識が活かせる案件に携わることができました。分析をする経験を積むという意味ではいい会社だったと思います。
入社の経緯
受託系の分析企業でキャリアを積んでおられる方ならわかるかもしれないのですが、分析会社で経験を積んで古株になるにつれて、次第にどうしてもマネジメントのロールを求められるようになってきます。これはもう避けては通れないというか、むしろ昨今のAIブームで人材流入がすすむ分析業界において案件をマネジメントをする人の不足は構造的におこりやすくなっていると思っています。
前職でも入社後わりと時間が経っていたのもあって、マネジメントというロールを求められました。自分としては確かにマネジメントをするというのも経験的には積んでみたいというのもありましたが、泥臭いデータを前に手を動かすということはまだまだ必要だと感じていました。そういったさなか、個人で公開していたプロフィールページ経由でダイレクトに取締役を務める生谷からアポイントがあって、とりあえず話を聞いてみようということになりました。
話をもらった時にはMNTSQが設立後半年も経たないベンチャーであり、かつ会社の存在をWeb上で全く認知できない状態だったというのも相まって、カジュアルミーティングでは根掘り葉掘り、今後事業として立ち行くかだとか、当座のキャッシュはあるのかとかかなり込み入った話まで聞いた覚えがあります。
実務も兼ねた選考が進むさなか、会社の飲み会に誘われて足を運びました。そこで代表の板谷と初めて対面したのですが、まず第一印象が、陽キャ。
「大学のイケイケサークルの代表とかにいそうだな」と思いながら、「陰キャ成分8割な自分とはなかなかあわないだろうな」とも考えもしました。しかし、これは入社時に従業員10人~70人規模の会社を渡り歩いてきた私ならではの持論ですが、会社の経営層が技術畑ガチガチであるよりは外と積極的なコミュニケーションを取るタイプである方が、会社としてはうまく立ち行く場合が多いです。
選考の際には入社動機を当然聞かれることになります。私は転職に際して、もともと数社受けたり話を聞いたりしていてそこまで業種で強いこだわりを持っていたわけではなかったです。強いて挙げるなら、案件にアサインされる時間や単価がKPIにはならないような業態や、分析タスクとしての成果が顧客に対する価値となることがほぼ間違いでないであろう分野になります。そういった切り口でいうと、法務デュー・ディリジェンス業務という、企業買収に不可欠な分野に携われることは魅力的に思えました。企業買収に際しては、大きな人員とコストが動くケースが多く、エンジニア&分析者として人生の一時期を投資するにふさわしいデータのドメインだと思いました。
最終面談まで進み、役員面談で安野と話していて、ラスベガスのポーカー大会で100万損したという話をネタとして話していたのも特に印象に残っています。企業の代表として、多少の損得を気にしない """"意気込み"""" を感じました。もちろん節制も大事ですが。。。
役員四人との面談を経て、めでたく承認をもらい、入社に至りました。
入社してからの業務
選考でもWeb上で公開されている契約書データを用いるのですが、入社してからはデータとして実際の応用に近いデータを触ることになります。OCRでスキャンされた直後のテキストデータも必ずしも実際の契約書のそれとは一致していません。それらをどのように補正するかや、そのような解釈のブレに対して影響を受けにくい判別モデルをどのように作成するかに頭を使うことになります。
契約書テキストデータそのものはSNSなどの扱う会話データとは異なり、日本語として意味をなしている場合がほとんどで、かつその構造にはある一定のパターンがあるため、文章構造を踏まえたモデルを作成しやすいです。名詞を中心とした単語で作成した特徴量しか用いれないような分析タスクで終わるわけではなく、文章の動詞や条件を表すような名詞に着目しながら前処理を行なうケースもあります。
予測モデルや固有表現抽出ロジックを作成するときに用いるアノテーションデータは、パラリーガルの同僚が作成したものを用います。当初用意されたアノテーションデータが実運用に乗るまでに、そのまま修正をうけないことは稀です。まずアノテーションの定義からヒアリングを実施し、定義にそぐわないようなデータには修正をかけるようにしていきます。
さらに、アノテーションの定義が機械学習のロジック的に拾いにくい場合は、予測システムとして実現可能、かつ法務デューディリジェンス業務のサポートとして付加価値が低くならない方向に定義の見直しが図られます。実現可能なシステムこそ最終的には顧客に価値を生むという信念のもと、モデル開発とシステムの改善が進められていきます。
これらを含む機械学習実務プロセスは弊社森山のエントリにも詳しいです。ぜひご覧ください。
入社してから業務をしていて強く印象に残っていることとして、システム機能の開発に着手するかどうかの投資判断を板谷がSlack上でドライにやり取りしていたことがあります。システムとして優先的に着手すべき機能かどうかを、システムが対象とするであろう市場の大きさに応じて決定する。スタートアップの教科書にかかれていそうなことではありますが、実際の現場での判断として行われているのを見るのが稀だったので、極めて新鮮というか、サービス開発企業で体験できる醍醐味を早くも味わえました。
これから
企業買収の件数は、景気動向に応じて大きな波はあるものの、大きな流れとしては増加傾向にあります。
当然これに伴って、法務デューデリジェンス業務の量も増えていくことになり、ITや機械学習を活用した業務改善は進んでいくものと思われます。
ここ1, 2年で聞くことの多くなったリーガルテックという領域は、契約書という特殊なドメイン領域での自然言語処理という点で面白いです。しかしそれだけにとどまらず、既存の法務を、近年進展の著しいクラウドサービス、CI/CD、コンテナ技術等を活用して刷新していく点でも非常に面白いフェーズだと思います。
このような局面にあって、法務デューデリジェンスを軸に据えながら既存の法務の問題点を解消していけるのがMNTSQで働く魅力だと思っています。
この文章を読んで興味を持ってくださった方、エントリをお待ちしております!