次に重要になるのは推論時の工夫かな

僕がフォローしているRob Mayが面白い記事を書いていたので紹介します。

まぁ、元々はNvidiaのJensen Huangがカンファレンスで強調していたことなので、ものすごく新しいコンセプトではないのですが、Inferece time compute が大事になるという話をしていました。

Inferece time computeは、日本語に訳すとどうなるのはいまいちピンときません（推論時追加計算？推論時アルゴリズム拡張？）が、要は後処理に色々なアルゴリズムや場合によっては別ディープラーニングモデルをかましたりしつつ性能をあげるというアイデアです。

それを第三のスケーリング則という名前で紹介していたのですが、ちょっとおさらいで第一と第二のスケーリング則を記述しておきます。

厳密な定義走りませんが、まぁこんな感じだと思っています。

1. 事前学習（pre-training?）

2. 事後学習（fine-tuning?）

3. インファレンス時コンピュート（推論時の後処理？）

事前学習も事後学習も要はディープラーニングモデルの学習の話なので、一応スケーリング則があると信じて開発されてきたものです。

ここに、出来上がってモデル（のウェイト？）自体は変更せず、その推論時の使い方を工夫することで推論時に計算リソースを割り当てることで、より高い性能を引き出せるというのがアイデアです。

「推論時に計算リソースを多く割り当てることでより高い性能を引き出す」のがInference time computeと考えると、プロンプトにより長文のコンテキストを与えることや、beam search とかが入ってくるのかなと思います。同じモデルを繰り返し使うテクニックも含まれるかな。

※ プロンプトエンジニアリングは第二に入っていたのですが、僕的には第３に含まれるのでは。

この推論時の工夫（より多くの計算リソースを割り当てるとそれに応じて結果の精度が高くなる）は、いわゆるスケーリング則のように「データ量、モデルのサイズ、計算リソース」の３つを増やせが良いみたいにシンプルに機能はしないと思うのですが、そこを頑張ることで性能が目に見えるレベルで上げられる、というはその通りだと思います。

それに、これはそこまで”スケール”しなかったとしてもやりがいのある話です。

ファウンデーションモデルをスクラッチから学習させるのは、スタートアップ、というか大企業でもなかなかできることではないことになってしまっています。
※ DeepSeekはChatGPTの２０分の１のコストでできているじゃないかとい声も聞こえてきそうですが、２０分の１でも十分い高額です。

ファインチューニングは、ありですが、こちらはこちらで、スタートアップレベルではそこそこお金がかかり、その割にChatGPTやClaudeのAPIに勝てるのかといわれるとクエスチョンマークがつかざるを得ない状況にあります。

それに対して、推論時の工夫は、極論１エンジニアの工夫や発見でブレイクスルーを見出せる可能性のあるレイヤーなので、嬉しいですね。

僕もさまざまな分野でチャレンジしてみたいですし、AIのスタートアップにとっては大きなチャンスかなと思います。

Rob Mayのブログ:
https://investinginai.substack.com/p/the-next-phase-of-ai-innovation-inference