ChatGPTのマルチモーダル機能GPT-4Vとは？画像/音声入力法も紹介

更新日：2025年6月14日　｜　

ChatGPTのマルチモーダル機能「GPT-4V」とは、文章、画像、音声など様々なタイプの情報を入力・出力できる最新機能のことです。

これにより、ChatGPTに画像を読み取らせて、その内容を描写させたり、音声で会話をすることが可能となりました。

本記事では、ChatGPTのマルチモーダル機能「GPT-4V」を使って画像や音声を入力する方法を、活用事例とともにわかりやすくご紹介します。

また、今なら助成金活用で最大75%OFFと大変お得にご利用いただける、AI総研のAI・ChatGPT活用研修サービスがご好評をいただいています。ご興味のある方は以下のリンクから、助成金の活用方法やサービス内容が分かる資料をダウンロードいただけます。

⇒AI・ChatGPT活用研修サービスの紹介資料ダウンロードはこちら(無料)

ChatGPTのマルチモーダル機能「GPT-4V」とは？
GPT-4Vで画像を入力する方法
GPT-4Vで音声を入力する方法
- スマホアプリで音声入力する方法
- PC/Webブラウザで音声入力する方法
ChatGPTの画像認識機能の３つの活用方法
ChatGPTの音声認識機能の３つの活用方法

ChatGPTのマルチモーダル機能「GPT-4V」とは？

GPT-4Vとは、OpenAIが2023年9月に発表した、ChatGPTで画像認識や音声入力が可能となる最新のマルチモーダルAIモデルです。マルチモーダルとは、文章、画像、音声など複数の手段でインプットし、それに基づいてより高度なタスクを実行することができる機能のことを指します。

GPT-4は、テキストだけしかインプットできなかったのに対し、GPT-4Vは画像を読み取ってその内容を描写したり、ユーザーと音声で会話することができます。

インテリアの写真を読み取らせて改善案を提案させたり、視覚障がい者をサポートするなど、様々な場面で役に立つ便利な機能です。

※これさえ読めば、ChatGPTの機能・できること・活用方法まで全てわかる、最新情報をまとめた資料をダウンロード頂けます。
⇒【5分でわかる】ChatGPT活用ガイドブックの資料ダウンロードはこちら(無料)

GPT-4Vで画像を入力する方法

ChatGPTのGPT-4Vで画像を入力できるようにするためには、GPT-4が搭載されているGPT Plusというプラン（月額20ドル/約3,000円）に加入する必要があります。

その後、Defaultの設定をONにするだけで、すぐに画像の入力が可能となります。

上の画面のクリップのようなマークがGPT-4Vが機能している印です。ここをクリックすると、画像をアップロードし、ChatGPTに入力することができます。

例えば、GPT-4Vに犬の写真を読み込ませ、「この写真には何が写っていますか？」と尋ねると、「芝生の上を走る柴犬が写っています。」などと写真の内容を丁寧に説明する回答が返ってきます。

GPT-4Vで音声を入力する方法

GPT-4Vで音声を入力する方法は、スマホアプリとPC/Webブラウザとで異なります。それぞれについてわかりやすく紹介していきます。

スマホアプリで音声入力する方法

スマホアプリで音声入力をする方法は、ChatGPTのテキストボックスにあるマイクのマークをクリックして、質問を声に出すだけです。

上の画像は、「生成AIについてわかりやすく説明してください」という質問を声に出して入力した結果です。回答を音声で読み上げるとともに、文章でも出力されました。

PC/Webブラウザで音声入力する方法

PC/Webブラウザでは、原則として音声入力をすることはできません。しかし、Voice Control for ChatGPTというchromeの拡張機能を利用することで、音声入力ができるようになります。

chromeのウェブストアにアクセスし、Voice Control for ChatGPTと検索して、拡張機能を追加します。

WebブラウザからChatGPTにアクセスすると、右下にマイクのマークが表示されます。あとはこのマークをクリックして、質問を声に出すだけです。

ChatGPTの画像認識機能の３つの活用方法

ChatGPTの画像認識機能を活用する方法として以下の3つが挙げられます。

①画像の描写・解説
②画像からコード生成
③改善案のアドバイス

それぞれについてわかりやすく紹介していきます。

※200事例の分析に基づく、企業のAI/ChatGPT活用方法の9つの定石と最新事例をまとめた資料をダウンロード頂けます。
⇒AI/ChatGPTの活用アイデア集の資料ダウンロードはこちら(無料)

①画像の描写・解説

ChatGPTに画像を読み込ませると、その画像の描写説明をさせたり、画像の内容を解説させることができます。

例えば、上の画像は、OpenAIのCEOサム・アルトマン氏が動画生成AIのSoraを発表している写真をChatGPTに読み込ませ、描写させたものです。写真に写っている出来事を正確に描写しているだけでなく、「OpenAI」や「Sora」といった文字までしっかりと読み取っています。

また、道具の使い方や機器の操作方法がわからないときに、その写真をChatGPTに読み込ませて使い方を尋ねれば、ChatGPTが使い方を説明してくれるなど、業務や日々の生活においても非常に役に立ちます。

②画像からコード生成

ChatGPTに自分が作成したいプログラムのイメージを画像で表現したものを読み込ませることで、ChatGPTがそのプログラムに対応するコードを生成してくれます。

例えば、上の画像のように、Wordファイルのアイコンを作成するためのプログラミングコードを書くように依頼すると、それに沿ったコードを生成してくれます。

※ChatGPTなどのAIツールを活用する際に、コピペで使える定番のプロンプト21選や、上手に書くコツをまとめた資料をダウンロード頂けます。
⇒ChatGPT/AIツールの定番プロンプト21選の資料ダウンロードはこちら(無料)

③改善案のアドバイス

ChatGPTに画像を読み込ませたうえで、「改善案を提案して」と尋ねると、画像の内容について改善案を提案してくれます。

インテリアの画像を読み込ませてよりよい内装にするための改善案を求めたり、Webサイトの画像を読み込ませてサイトの改善案を求めるなど、より良いサービスをつくり上げるためのアシストを受けることができます。

ChatGPTの音声認識機能の３つの活用方法

ChatGPTの音声認識・会話機能の活用方法として、以下の3つが挙げられます。

①両手を使う作業中の活用
②言語学習への活用
③視覚障がい者支援への活用

それぞれについてわかりやすく紹介していきます。

※国内外の最新AI/ChatGPT活用事例50選をまとめた資料をダウンロード頂けます。
⇒AI/ChatGPT活用事例50選の資料ダウンロードはこちら(無料)

①両手を使う作業中の活用

ChatGPTの音声認識・会話機能を利用すれば、両手を使わずにChatGPTに対して質問したり、タスクを指示することができます。

例えば、料理をしながらChatGPTにレシピを聞いたり、製造現場等で作業をしながらChatGPTに指示することができるようになります。

②言語学習への活用

ChatGPTと英語で会話することで、英会話の練習をすることができます。人間の講師がいなくても、いつでも実践的な会話練習ができるため、語学学習の効果が高まります。

また、ChatGPTに英語で質問し、適切な回答が返ってくるかを確かめることで、自分の発音が正確に伝わるかをチェックすることも可能となります。

③視覚障がい者支援への活用

ChatGPTの音声会話機能は、視覚障がい者に対するサポートに活用できると期待されています。

画像認識機能と組み合わせれば、目の前の光景をChatGPTが読み取り、それを音声によって描写することで、目が見えない人が周りの状況を把握することを支援することができます。

【助成金で最大75%OFF】AI活用研修の無料体験会実施中

AI総研では、AI活用研修サービスの無料体験会を、毎月10社限定で実施しています。

各社様の現状やお悩みに合わせ、AI・ChatGPT活用のアイデアやテクニックなどを、個別のオンラインMTGにて無料でご紹介させていただきます。また、助成金活用やAI研修の選び方などについての各種相談も無料で承ります。

以下のようなご担当者様は、この機会にぜひご参加ください。

AI研修の実施に興味がある
助成金の活用方法や注意点を詳しく知りたい
業務効率化に向けたChatGPTなどのAI活用を推進したい

⇒AI・ChatGPT活用研修サービス無料体験会の詳細はこちら