模型
模态说明
文本、多模态、图像、视频、音频、嵌入、Rerank —— 每个模态筛选项分别是什么。
ToRouter 为每个清单模型打了一个模态标签。/models 上的筛选器一次缩到一种能力。
八种模态
Prop
Type
模态 vs 端点
模态描述模型能做什么。端点描述用哪个协议调它:
- 文本 + 多模态 →
POST /v1/chat/completions、POST /v1/responses、POST /v1/messages、POST /v1beta/models/<id>:generateContent - 图像 →
POST /v1/images/generations、POST /v1/images/edits - 嵌入 →
POST /v1/embeddings - 音频 →
POST /v1/audio/transcriptions、POST /v1/audio/speech - Rerank → 厂商各异,通常
POST /v1/rerank
筛选器只是 UI 便利项 —— 真实能力由上游模型本身决定。下单前请到模型详情页确认所需端点已被支持。
多模态实操
多模态模型在 OpenAI / Anthropic / Gemini 三种协议里都支持在 message 中混入图像 block:
client.chat.completions.create(
model="gpt-5",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "这张图里是什么?"},
{"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}},
],
}],
)