モデル
モダリティ
Text、Multimodal、Image、Video、Audio、Embedding、Rerank — 各モダリティフィルタの意味を解説します。
ToRouter はカタログ内の各モデルに モダリティ をタグ付けしています。/models ページのフィルタを使うと、機能の種類ごとに一覧を絞り込めます。
8 つのモダリティ
Prop
Type
モダリティとエンドポイント
モダリティは モデルが何をするか を表します。呼び出すエンドポイントは どのプロトコルを使うか を表します。
- Text + Multimodal →
POST /v1/chat/completions、POST /v1/responses、POST /v1/messages、POST /v1beta/models/<id>:generateContent - Image →
POST /v1/images/generations、POST /v1/images/edits - Embedding →
POST /v1/embeddings - Audio →
POST /v1/audio/transcriptions、POST /v1/audio/speech - Rerank → ベンダー固有、通常は
POST /v1/rerank
フィルタはあくまで UI 上の利便機能で、実際の機能はアップストリームモデル次第です。必要なエンドポイントがサポートされているかは必ずモデル詳細ページで確認してください。
マルチモーダルの実例
マルチモーダルモデルは、標準的な OpenAI / Anthropic / Gemini 形式でテキストと並べて画像コンテンツブロックを受け付けます。
client.chat.completions.create(
model="gpt-5",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}},
],
}],
)