模态说明

文本、多模态、图像、视频、音频、嵌入、Rerank —— 每个模态筛选项分别是什么。

ToRouter 为每个清单模型打了一个模态标签。/models 上的筛选器一次缩到一种能力。

八种模态

Prop

Type

模态 vs 端点

模态描述模型能做什么。端点描述用哪个协议调它：

文本 + 多模态 → POST /v1/chat/completions、POST /v1/responses、POST /v1/messages、POST /v1beta/models/<id>:generateContent
图像 → POST /v1/images/generations、POST /v1/images/edits
嵌入 → POST /v1/embeddings
音频 → POST /v1/audio/transcriptions、POST /v1/audio/speech
Rerank → 厂商各异，通常 POST /v1/rerank

筛选器只是 UI 便利项 —— 真实能力由上游模型本身决定。下单前请到模型详情页确认所需端点已被支持。

多模态实操

多模态模型在 OpenAI / Anthropic / Gemini 三种协议里都支持在 message 中混入图像 block：

multimodal.py

client.chat.completions.create(
    model="gpt-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "这张图里是什么？"},
            {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}},
        ],
    }],
)

下一步

浏览模型清单

按你需要的模态筛选。

端点表

OpenAI / Anthropic / Gemini 各自的 base URL。

SDK 示例

文本与多模态的可运行代码。