いろいろ ChatGPT API アプローチ
ここでは https://platform.openai.com/docs/overview を見つつ、いろいろな API のアプローチをを紹介していきます。
画像認識 Vision
画像認識 Vision https://platform.openai.com/docs/guides/vision の紹介。
実際の事例です。
- OpenAI ChatGPT API の画像認識 Vision に Node-RED で画像を読み込んでやりとりするメモ – 1ft-seabass.jp.MEMO
- 20241113_AIミーティング - Speaker Deck
- AIミーティング 2024/11/13「OpenAI 画像認識で手書き指示でIoT カーが動かせた話」の登壇資料です。
- https://speakerdeck.com/1ftseabass/ai-meeting-20241113
自然言語で返されると扱いづらいですが Function calling で JSON で受けられると一気に使い勝手が向上します。
画像生成 Image generation
- Image generation - OpenAI API
音声生成 Audio generation
- Audio generation - OpenAI API
構造化テキスト Structured Outputs
より厳正な Function calling の指定ができるようになりました。
https://platform.openai.com/docs/guides/structured-outputs#supported-schemas
ここがわかりやすいです。
なんだかんだ Text generation のところの Quick Start が分かりやすい
https://platform.openai.com/docs/guides/text-generation
より深く知りたければ API Reference
https://platform.openai.com/docs/api-reference/introduction
より詳細に API の扱い方が分かります。
GPT-4o mini と GPT-4o の違いの話
- GPT-4o mini:費用効率の高いインテリジェンスの推進 | OpenAI
OpenAIは、インテリジェンスを可能な限り広く利用できるようにすることを約束します。本日、当社で最も費用効率の高い小型モデルであるGPT-4o miniを発表します。GPT-4o miniによってインテリジェンスをより手頃な料金設定にすることで、AIで構築されるアプリケーションの範囲が大きく広がっていくものと期待しています。GPT-4o miniはMMLUで82%のスコアを記録し、現在LMSYSリーダーボード(新しいウィンドウで開く)ではチャットの選好においてGPT-41を上回っています。料金は、100万入力トークンあたり15セント、100万出力トークンあたり60セントで、これまでのフロンティアモデルよりも桁違いに手頃であり、GPT-3.5 Turboよりも60%以上安価です。
- 「GPT-4o mini」と「GPT-4o」のどちらを選ぶ?:ChatGPT使いこなし術(1/2 ページ) - ITmedia Mobile
まとめ
GPT-4o miniの利用が適しているのは、回答の精度にこだわらず、出力スピードが速いとうれしい用途だ。一方で、多少の待ち時間は気にしないので、生成される内容の精度にこだわるという場合には、GPT-4oを選択しよう。また、例えば、有料プランユーザーであり、イラストを生成したり、ファイルをアップロードしてのデータ解析などを行いたかったりする場合にも、必然的にGPT-4oを選択することになるだろう。