智能模型路由:用 model=auto 让系统自动选最优模型

不同任务适合不同模型:简单问答用便宜模型就够了,复杂推理才需要旗舰模型。但每次手动选模型太麻烦。

ofox.ai 的智能模型路由可以帮你自动选择——设置 model: "auto",系统根据任务复杂度和你的偏好自动匹配最优模型。

Auto 模式

最简单的用法:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-api-key"
)

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "解释量子计算"}]
)

# 查看实际使用了哪个模型
print(response.model)  # 例如 "openai/gpt-4o"

系统会根据请求复杂度和模型可用状态自动选择。

指定候选模型池

如果你想限定自动选择的范围:

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "帮我优化这段代码"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-2.5-flash"
            ],
            "preference": "quality"
        }
    }
)

路由偏好

偏好说明
balanced综合考虑质量、速度和成本(默认)
quality质量优先,选能力最强的
speed速度优先,选响应最快的
cost成本优先,选最便宜的

使用场景

成本优化:简单查询自动走便宜模型

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "今天星期几?"}],
    extra_body={"model_routing_config": {"preference": "cost"}}
)

高可用:指定多个备选确保服务不中断

response = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "分析市场趋势"}],
    extra_body={
        "model_routing_config": {
            "models": [
                "openai/gpt-4o",
                "anthropic/claude-sonnet-4.5",
                "google/gemini-2.5-pro"
            ],
            "preference": "balanced"
        }
    }
)

智能模型路由让你不再纠结选哪个模型。系统实时监控各模型的延迟、可用性和负载,在候选池中做出最优选择。


相关阅读