こんにちは、エンジニアの上本です。
9月25日のChatGPTの激アツアップデートですが、前回の記事では簡単に使ってみた感想のみの紹介でした。
今回は遅ればせながら、そもそもの概要や事例を紹介したいと思います。
マルチモーダル対応
これまでのChatGPTは「Plugin」や「Advanced Data Analysis」を利用しない場合は、テキストのみの入力から結果を出していました。いわゆるシングルモーダルAIでした。
今回(2023年9月25日)のアップデートでマルチモーダル対応の「GPT-4V(ision)」が搭載され、画像の入力と音声の出力が行えるようになりました。
テキストと画像といった異なる種類のデータから情報を与えることでAIがより深く指示を理解することができたり、言葉でAIとやり取りすることが可能になります。
使うための準備
現在GPT-4Vは有料プランのユーザにのみ提供されています。
また、有料プランであっても利用できない場合があります。9月25日から2週間にかけて提供を行っていくとされているので気長に待ちましょう。
WEB版
WEB版では画像の入力がサポートされています。特に設定の必要はなく、GPT-4のチャットを開いた際に下図のアイコンが表示されていれば利用可能です。
スマホアプリ版
スマホアプリ版では、画像の入力に加え、音声での会話機能がサポートされています。 機能提供されている方は、次の設定で有効化が可能です。
- 「・・・」をタップ
- 「Setting」をタップ
- 「New Features」をタップ
- 「Voice conversations」をONにする
以上の設定で、右上にヘッドホンのアイコンが追加されれば利用可能です。
私の環境には、まだ提供されていませんでした。
利用できるようになりましたらレポートします。
画像の入力で出来ること、便利な使い方
冒頭で触れましたが、画像の入力によりAIへの指示表現が豊かになり、指示内容を深く理解させることが可能になりました。
画像の説明させることはもちろんのこと、画像をもとにwebサイトやアプリのコードを生成させるといった使い方も可能です。
X (Twitter)に投稿されていたGPT-4Vを利用した便利そうな使い方を紹介します。
画像から電卓アプリのコードを作成する
スマホの電卓アプリのスクリーンショットと「コードを書いて」の指示だけで、HTML+JavaScriptのサンプルコードを生成してもらっていました。
スタイル(CSS)も生成するよう指示を加えると、より完成度の高いコードを生成してくれそうです。と思ったらSaaSのダッシュボードのレイアウトまで作成されている方もいました。
流石にここまでの複雑なレイアウトは完全再現できていないようですが、先程の電卓アプリのレベルであれば余裕そうですね。
創作活動のアドバイス
続いては水絵画のアドバイスを受ける例です。
以前までのChatGPTでもメールの添削などアドバイスを得る使い方をしていた方も多いのではないでしょうか。
画像を入力として利用できるため、絵画や写真もアドバイスが可能になりました。
グラフや図表から仮説を立てる
グラフの画像とそれに対する指示を行うことで、見事に内容を読み取り、仮説・要約まで回答を得ています。
マーケット分析など幅広く応用が聞きそうですね。
まとめ
アップデートの関係で画像入力のみの紹介になりましたが、それでも可能性がとてつもなく広がったのではないでしょうか。
今後は自分でも色々使ってみて、より実践的な使い方を紹介できればと思います。
最後になりますが、「毒キノコの画像を食用可能である」と自信満々に答えることもあるそうなので、あくまでもAIアシスタントとして、情報の精査をしつつ上手に活用していきましょう。