ChatGPTのマルチモーダル機能GPT-4Vとは?画像/音声入力法も紹介
ChatGPTのマルチモーダル機能「GPT-4V」とは、文章、画像、音声など様々なタイプの情報を入力・出力できる最新機能のことです。
これにより、ChatGPTに画像を読み取らせて、その内容を描写させたり、音声で会話をすることが可能となりました。
本記事では、ChatGPTのマルチモーダル機能「GPT-4V」を使って画像や音声を入力する方法を、活用事例とともにわかりやすくご紹介します。
またAI総研では、AI活用を検討する上で押さえておきたい、AI・ChatGPTの最新活用事例50選の狙いや取り組みをまとめたレポートを無料で配布しています。ご興味のある方は、以下リンクからダウンロードしてご活用ください。
⇒AI・ChatGPT活用事例50選の資料ダウンロードはこちら(無料)
目次
ChatGPTのマルチモーダル機能「GPT-4V」とは?
GPT-4Vとは、OpenAIが2023年9月に発表した、ChatGPTで画像認識や音声入力が可能となる最新のマルチモーダルAIモデルです。マルチモーダルとは、文章、画像、音声など複数の手段でインプットし、それに基づいてより高度なタスクを実行することができる機能のことを指します。
GPT-4は、テキストだけしかインプットできなかったのに対し、GPT-4Vは画像を読み取ってその内容を描写したり、ユーザーと音声で会話することができます。
インテリアの写真を読み取らせて改善案を提案させたり、視覚障がい者をサポートするなど、様々な場面で役に立つ便利な機能です。
※これさえ読めば、ChatGPTの機能・できること・活用方法まで全てわかる、最新情報をまとめた資料をダウンロード頂けます。
⇒【5分でわかる】ChatGPT活用ガイドブックの資料ダウンロードはこちら(無料)
GPT-4Vで画像を入力する方法
ChatGPTのGPT-4Vで画像を入力できるようにするためには、GPT-4が搭載されているGPT Plusというプラン(月額20ドル/約3,000円)に加入する必要があります。
その後、Defaultの設定をONにするだけで、すぐに画像の入力が可能となります。
上の画面のクリップのようなマークがGPT-4Vが機能している印です。ここをクリックすると、画像をアップロードし、ChatGPTに入力することができます。
例えば、GPT-4Vに犬の写真を読み込ませ、「この写真には何が写っていますか?」と尋ねると、「芝生の上を走る柴犬が写っています。」などと写真の内容を丁寧に説明する回答が返ってきます。
GPT-4Vで音声を入力する方法
GPT-4Vで音声を入力する方法は、スマホアプリとPC/Webブラウザとで異なります。それぞれについてわかりやすく紹介していきます。
スマホアプリで音声入力する方法
スマホアプリで音声入力をする方法は、ChatGPTのテキストボックスにあるマイクのマークをクリックして、質問を声に出すだけです。
上の画像は、「生成AIについてわかりやすく説明してください」という質問を声に出して入力した結果です。回答を音声で読み上げるとともに、文章でも出力されました。
PC/Webブラウザで音声入力する方法
PC/Webブラウザでは、原則として音声入力をすることはできません。しかし、Voice Control for ChatGPTというchromeの拡張機能を利用することで、音声入力ができるようになります。
chromeのウェブストアにアクセスし、Voice Control for ChatGPTと検索して、拡張機能を追加します。
WebブラウザからChatGPTにアクセスすると、右下にマイクのマークが表示されます。あとはこのマークをクリックして、質問を声に出すだけです。
ChatGPTの画像認識機能の3つの活用方法
ChatGPTの画像認識機能を活用する方法として以下の3つが挙げられます。
- ①画像の描写・解説
- ②画像からコード生成
- ③改善案のアドバイス
それぞれについてわかりやすく紹介していきます。
※200事例の分析に基づく、企業のAI/ChatGPT活用方法の9つの定石と最新事例をまとめた資料をダウンロード頂けます。
⇒AI/ChatGPTの活用アイデア集の資料ダウンロードはこちら(無料)
①画像の描写・解説
ChatGPTに画像を読み込ませると、その画像の描写説明をさせたり、画像の内容を解説させることができます。
例えば、上の画像は、OpenAIのCEOサム・アルトマン氏が動画生成AIのSoraを発表している写真をChatGPTに読み込ませ、描写させたものです。写真に写っている出来事を正確に描写しているだけでなく、「OpenAI」や「Sora」といった文字までしっかりと読み取っています。
また、道具の使い方や機器の操作方法がわからないときに、その写真をChatGPTに読み込ませて使い方を尋ねれば、ChatGPTが使い方を説明してくれるなど、業務や日々の生活においても非常に役に立ちます。
②画像からコード生成
ChatGPTに自分が作成したいプログラムのイメージを画像で表現したものを読み込ませることで、ChatGPTがそのプログラムに対応するコードを生成してくれます。
例えば、上の画像のように、Wordファイルのアイコンを作成するためのプログラミングコードを書くように依頼すると、それに沿ったコードを生成してくれます。
※ChatGPTなどのAIツールを活用する際に、コピペで使える定番のプロンプト21選や、上手に書くコツをまとめた資料をダウンロード頂けます。
⇒ChatGPT/AIツールの定番プロンプト21選の資料ダウンロードはこちら(無料)
③改善案のアドバイス
ChatGPTに画像を読み込ませたうえで、「改善案を提案して」と尋ねると、画像の内容について改善案を提案してくれます。
インテリアの画像を読み込ませてよりよい内装にするための改善案を求めたり、Webサイトの画像を読み込ませてサイトの改善案を求めるなど、より良いサービスをつくり上げるためのアシストを受けることができます。
ChatGPTの音声認識機能の3つの活用方法
ChatGPTの音声認識・会話機能の活用方法として、以下の3つが挙げられます。
- ①両手を使う作業中の活用
- ②言語学習への活用
- ③視覚障がい者支援への活用
それぞれについてわかりやすく紹介していきます。
※国内外の最新AI/ChatGPT活用事例50選をまとめた資料をダウンロード頂けます。
⇒AI/ChatGPT活用事例50選の資料ダウンロードはこちら(無料)
①両手を使う作業中の活用
ChatGPTの音声認識・会話機能を利用すれば、両手を使わずにChatGPTに対して質問したり、タスクを指示することができます。
例えば、料理をしながらChatGPTにレシピを聞いたり、製造現場等で作業をしながらChatGPTに指示することができるようになります。
②言語学習への活用
ChatGPTと英語で会話することで、英会話の練習をすることができます。人間の講師がいなくても、いつでも実践的な会話練習ができるため、語学学習の効果が高まります。
また、ChatGPTに英語で質問し、適切な回答が返ってくるかを確かめることで、自分の発音が正確に伝わるかをチェックすることも可能となります。
③視覚障がい者支援への活用
ChatGPTの音声会話機能は、視覚障がい者に対するサポートに活用できると期待されています。
画像認識機能と組み合わせれば、目の前の光景をChatGPTが読み取り、それを音声によって描写することで、目が見えない人が周りの状況を把握することを支援することができます。
AI・ChatGPT活用の個別無料相談会実施中
AI総研では、AI・ChatGPT活用の個別無料相談会を実施しています。
各社様のご要望に合わせ、最新の市場動向や具体的な活用アイデアなどを、個別のオンライン個別のオンラインMTGにて、無料でご紹介させていただきます。
以下のようなお悩みをお持ちのご担当者様は、この機会にぜひお申込みください。
- 興味はあるが、そもそも活用するかどうか迷っている
- 自社に合った活用方法へのアドバイスが欲しい
- 自社の企画の参考になる活用事例を知りたい
- どのように活用を進めていけば良いか分からず困っている