「ベスト・プラクティス」の居場所 | MNTSQ, Ltd.
こんにちは。MNTSQ(モンテスキュー)というリーガルテック企業のFounder / CEOをしている板谷です。 MNTSQは最近までステルスで活動していましたが、本日、長島・大野・常松法律事務所とPKSHA Technologyとの資本業務提携を発表させていただきました。 ...
https://www.wantedly.com/companies/mntsq/post_articles/191383
こんにちは、MNTSQでアルゴリズムエンジニアをしております森山 直人(もりやま なおと)です。
このエントリでは、機械学習に携わった経験がある方向けにリーガルテック領域に関心を持っていただけるよう、リーガルにもテックにも全く経験がなかった私個人の経歴と入社の経緯を書かせていただきます。
私は現在では機械学習の業務に携わっていますが、実は学生時代にはITや数学に全く関心がなく、常に最小限の努力で日々をやり過ごすことに注力していました。
特に数学領域では高校時代から感覚を持つことができず、公式に値を代入していく単純作業と如何に多くの例題を暗記できるかという作業を退屈だと感じていました。一方、文系領域はさらに関心がなかったので、進路は消去法にて理系の大学を選びました。
大学に入ってもその意識が変わることはなく、授業はほとんど頭に入らず、試験はほぼ過去問頼りにギリギリで卒業することができました。
大学卒業後はインターネットマーケティング領域で3社を渡り歩き、MNTSQは4社目です。
私がインターネットマーケティングに感じている魅力は以下2点です。
1.については、私が大学を卒業した2010年代初頭はスマートフォンがPCを上回るかどうかの時代で、業界が急成長していました。そこでバリューを発揮するには常に最新の技術状況(何が出来て、何が出来ないか)とそれを使ったマーケティング手法の実例をキャッチアップすることが必要です。新しい物好きな自分にはとても肌に合いました。
2.については、業務としてはチームプレーな領域も多々あるなか、個人プレーな領域も多く用意されています。2つの領域を行き来することで自分を客観的に見ることができて、自身の成長の方向性に迷うことは少ないと感じました。
そんな中、いつの間にかAI・機械学習・ディープラーニングブーム(以降まとめて機械学習と記載します)が到来しました。
当時仕事に少し余裕があり、趣味レベルで新しいことにチャレンジしたいタイミングだったのため、何となくこのブームに飛び込みました。
私が機械学習に関心を持ち始めたのは2016年頃で、手始めに業界の主要技術を把握することを目標としてました。機械学習に詳しい数名の専門家に話を伺い、紹介された書籍を読み解くことを最初のマイルストーンに設定しました。
自己紹介でも書いたように数学への苦手意識が強かったのですが、書籍を読み解きつつ数学の復習をしていくと、学生時代では理解が曖昧だった線形代数周辺の計算をニューラルネットワークの処理に当てはめて考えていくことで、随分と数学についてイメージが持てるようになりました。
また、当時の業務に自然言語処理を適用できる可能性を感じ、自然言語処理を中心に学習していきました。
そこから論文を読んだり実装したり、データ分析のコンベションサイトであるKaggleにチャレンジしました。Kaggleでは個人で銅メダルと銀メダルを取得でき、現在は金メダルを目指して取り組んでいます。
機械学習領域は変化が激しく、先端情報を追うことが困難との声をよく聞きますが、インターネットマーケティング時代で培った情報収集の習慣により楽しんで継続しています。
最初設定したゴールはいつの間にか通り過ぎていまいたが、当時はそれに気づかず気ままに進んでいきました。
独学で勉強を進める最大の障害は孤独だと思います。難解な部分を自力で解決する苦悩や間違った理解で進んでいないかへの恐怖を拭うため、勉強会を自分で開催したり、専門家が集まる勉強会で発表することに積極的にチャレンジしました。
振り返れば、この行動が今の自分をかたちづくるうえで最も価値があった部分だと感じています。これが勉強仲間の形成やモチベーションの維持に寄与しました。
機械学習の知識が一定蓄積したタイミングで、当時勤めていた会社のデータ分析チームに異動しました。そこでは機械学習を用いたレコメンドエンジンなど様々な実証実験に携わりました。
それまで個人的には充実した日々を過ごしていましたが、突然当社ファウンダーの安野より連絡をもらいました。当時MNTSQはステルス開発のタイミングでネット検索してもHPはなく、唯一登記情報として自宅から近い位置に会社があることだけ分かりました。
(正直のところ、私が最初にMNTSQの方々にお会いすると決めた動機は、会社が近いというのが一番の理由でした)
リーガルテックに関してもなにをしているのかよくわからず、刑事裁判における有罪無罪のクラス分類をイメージしていました。
実際にお会いして以下のエントリで書かれていた会社のビジョンや戦略を聞き、機械学習スタートアップとして技術以上に戦略が緻密に練られていたことが決め手となり、MNTSQに強く関心を持ちました。
まずは業務委託として部分的に携わるようになり、7月に正式に入社しました。
入社後主業務としてMNTSQサービスの各種機能の精度向上と契約書の構造解析に取り組んでいます。リーガルテック領域における自然言語処理のイメージが伝わるよう、前処理とモデリングの観点から一部紹介いたします。
MNTSQの強力な機能として画像スキャンされた契約書を解析(OCR)することが出来ます。「強力な機能」たらしめる要因は不安定なOCR結果を補完して高精度な出力を得るところにあります。
「OCRの精度が99%」という場合、一見して高い精度にみえるものの、これは実はA4サイズであれば約2.5行に1文字間違える頻度であり、重要な語を間違えた場合には致命的な影響を及ぼします。
例えばM&A領域の文脈では「事業譲渡」と「事業の譲渡」では法律的に意味が若干異なります。この場合「の」一字が意味を左右しますが、私の経験上「8」、「6」、「O」、「θ」へのOCRの誤認識がありました。
他にも、契約書の構造を理解するために重要な「第1条」といった語が「笫1条」と認識されてしまったりします。「第」と「笫」は一見では分かりにくいです。
こういった誤認識を回避するための前処理は専門知識と泥臭いエンジニアリングを必要とします。他にも多くのマニアックな処理を必要としますので、関心ある方は直接お話します。
また、法務領域特有の特徴語や構造に興味があればぜひ弊社今泉のエントリをご覧ください。
リーガルテックにおいて特定のタスクを処理する機械学習モデル(例えば契約書のリスク判定)を実装する場合であっても、多くの機械学習に共通する作業があります。実務の場合はそれぞれにドメイン知識を組み込むことが重要です。ドメイン知識にフォーカスした場合各作業に以下の情報を組み込めます。
学習データと検証データを適切に分割することが非常に重要であることは、機械学習に携わる人であれば多くが体感していると思います。
ところが、法務領域のデータについては、専門家の間でも解釈が分かれる場合があり、非専門家の私には格段に難しいです。その中で適切なデータ分割を行うためには、専門家の意見は非常に重要です。
MNTSQでは、代表の板谷を始めとした弁護士・パラリーガルで構成されるリーガルチームが私のいる機械学習チームのすぐ近くにおり、都度質問できる環境となっているため、大変ありがたいと感じています。
エラー分析においては、機械学習の観点から誤判定の分布や学習曲線などの統計情報に基づいて判断することが多いと思います。それと並行してリーガルチームに実際に予測データを見てもらうことで、より直感的なフィードバックを頂けるようになり、解釈を助けてくれます。
以上私の経歴とMNTSQにおける自然言語処理について簡単に紹介いたしました。やるべきこと以上にやりたいことが積み重なっている状態ですので、自然言語処理の業務に関心がある方はぜひご応募お願いします。