Feb 17, 2026

智能模型路由：用 model=auto 让系统自动选最优模型

不同任务适合不同模型：简单问答用便宜模型就够了，复杂推理才需要旗舰模型。但每次手动选模型太麻烦。

ofox.ai 的智能模型路由可以帮你自动选择——设置 model: "auto"，系统根据任务复杂度和你的偏好自动匹配最优模型。

Auto 模式

最简单的用法：

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "解释量子计算"}]
)

# 查看实际使用了哪个模型
print(response.model)  # 例如 "openai/gpt-4o"

系统会根据请求复杂度和模型可用状态自动选择。

指定候选模型池

如果你想限定自动选择的范围：

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "帮我优化这段代码"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-2.5-flash"
            ],
            "preference": "quality"
        }
    }
)

路由偏好

偏好	说明
`balanced`	综合考虑质量、速度和成本（默认）
`quality`	质量优先，选能力最强的
`speed`	速度优先，选响应最快的
`cost`	成本优先，选最便宜的

使用场景

成本优化：简单查询自动走便宜模型

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "今天星期几？"}],
    extra_body={"model_routing_config": {"preference": "cost"}}
)

高可用：指定多个备选确保服务不中断

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "分析市场趋势"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-2.5-pro"
            ],
            "preference": "balanced"
        }
    }
)

智能模型路由让你不再纠结选哪个模型。系统实时监控各模型的延迟、可用性和负载，在候选池中做出最优选择。

智能模型路由：用 model=auto 让系统自动选最优模型

Auto 模式

指定候选模型池

路由偏好

使用场景

相关阅读