注目のストーリー
All posts
日本語音声認識におけるテストタイムコンピュート:Whisper出力のLLM補正による誤り低減の予備検証
今日は、日本語の会話音声認識(ASR)を「テストタイムコンピュート」で改善できるかを試した内容についての報告です。テストタイムコンピュート(的なアイデア)を活用しての精度向上は、コードネーム: オポッサムとして検証していたものです背景OpenAIのWhisperは高精度なASRモデルですが、日本語の雑談や固有名詞、表記ゆれなどでは、ちょこちょこと誤りが残ります。学習データを追加して再学習(ファインチューニング)するのはコストもリスクも高いので、もっと手軽に精度を上げたい──そこで使ったのが Test-Time Compute(TTC) という発想です。TTCとは、モデルを再学習せずに「推...
NotebookLMのRaiza Martinの話を聞いて
NotebookLMを作ったRaiza Martinの話が面白かったので共有します。端的に言うと企画段階では社内で全然ポジティブな反応が得られなくて挫けそうにもなったけど、自分を信じて開発を進めてきた。プロダクトを作る上で大事なことは「明確さ」だと思うっていう話なんだけど、とても共感できる内容でした。まずみんなに散々ダメ出しをされたけどやりきれたっていうのがストーリーとして面白い。Raiza がやり切れるために必要だったのか「Clarity」だと言っていて、はじめピンとこなかったけど、やりたいことが明確なじゃいと周囲からの批判に耐えられないよねっていう意味で納得しました。「I actua...
次に重要になるのは推論時の工夫かな
僕がフォローしているRob Mayが面白い記事を書いていたので紹介します。まぁ、元々はNvidiaのJensen Huangがカンファレンスで強調していたことなので、ものすごく新しいコンセプトではないのですが、Inferece time compute が大事になるという話をしていました。Inferece time computeは、日本語に訳すとどうなるのはいまいちピンときません(推論時追加計算?推論時アルゴリズム拡張?)が、要は後処理に色々なアルゴリズムや場合によっては別ディープラーニングモデルをかましたりしつつ性能をあげるというアイデアです。それを第三のスケーリング則という名前で紹...
Velocity is the moat?
a16zのThe State of Consumer Tech in the Age of AIと見て思うこと。ちょっと前から言われていたのかもしれないけれど、a16zのPodcastで、「Velocity is the moat 」というキーフレーズがあり、ちょっと面白いと思ったので、記述しておきます。参入障壁の変遷(ざっくり振り返り)1. PC〜Web1.0(1990年代)- Moat:技術的独自性・特許- 高額な R&D とクローズド情報で守れたが、OSS/API で再現コストが激減。2. Web2.0(2000年代)- Moat:ネットワーク効果(ソーシャルグラフ・二面市場)- ...
リーンスタートアップもAIで変わってくる?
Y CombinatorのYoutubeを見て面白いなと思ったことがあったのでシェアしておきたいと思います。動画自体の話題は多岐にわたっているのですが、僕が面白いと思ったのはリーンスタートアップのあり方、スタートアップのベストプラクティスが変わってくるかもという話です。具体的には以下もような話です。従来のリーンスタートアップでは、「まず50人にインタビューをして、顧客ニーズをしっかり確認してからプロダクトを作る」方法が推奨されていましたが、今だったら「とりあえず高速にプロダトを作り、その過程でインサイトを深めていく」スタイルの方が良いのでは、という内容です。なぜこの変化が起きたかというと...
募集の経緯
募集の経緯チーム向け議事録自動生成アプリ「いきなり議事録」を本格リリースして早1年、優秀なメンバーの加入、理解をいただけた企業様の支援もあり、売上は堅調に推移しています。しかしながら、フロントエンド、バックエンド、ディープラーニングモデルの学習、クラウドの設定と負荷分散、それにセキュリティ等、多岐にわたる課題がある中、「いきなり議事録」をナレッジベースとしても活用できるようにする、AIエージェントの開発、音声認識AIの精度を圧倒的なものにする、シリコンバレーも含めてまだ見ぬ新しいコンセプトのプロダクトを打ち出す、などのやりたいことに多すぎてどうにもならなくなってしまいました。要は忙しすぎ...