モダリティ

Text、Multimodal、Image、Video、Audio、Embedding、Rerank — 各モダリティフィルタの意味を解説します。

ToRouter はカタログ内の各モデルに モダリティ をタグ付けしています。/models ページのフィルタを使うと、機能の種類ごとに一覧を絞り込めます。

8 つのモダリティ

Prop

Type

モダリティとエンドポイント

モダリティは モデルが何をするか を表します。呼び出すエンドポイントは どのプロトコルを使うか を表します。

Text + Multimodal → POST /v1/chat/completions、POST /v1/responses、POST /v1/messages、POST /v1beta/models/<id>:generateContent
Image → POST /v1/images/generations、POST /v1/images/edits
Embedding → POST /v1/embeddings
Audio → POST /v1/audio/transcriptions、POST /v1/audio/speech
Rerank → ベンダー固有、通常は POST /v1/rerank

フィルタはあくまで UI 上の利便機能で、実際の機能はアップストリームモデル次第です。必要なエンドポイントがサポートされているかは必ずモデル詳細ページで確認してください。

マルチモーダルの実例

マルチモーダルモデルは、標準的な OpenAI / Anthropic / Gemini 形式でテキストと並べて画像コンテンツブロックを受け付けます。

multimodal.py

client.chat.completions.create(
    model="gpt-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What's in this image?"},
            {"type": "image_url", "image_url": {"url": "https://example.com/cat.jpg"}},
        ],
    }],
)

次のステップ

カタログを閲覧

必要なモダリティで絞り込み。

エンドポイント

OpenAI / Anthropic / Gemini ごとの base URL。

SDK サンプル

Text とマルチモーダル呼び出しの実コード。