智能模型路由:用 model=auto 让系统自动选最优模型
不同任务适合不同模型:简单问答用便宜模型就够了,复杂推理才需要旗舰模型。但每次手动选模型太麻烦。
ofox.ai 的智能模型路由可以帮你自动选择——设置 model: "auto",系统根据任务复杂度和你的偏好自动匹配最优模型。
Auto 模式
最简单的用法:
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="your-api-key"
)
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "解释量子计算"}]
)
# 查看实际使用了哪个模型
print(response.model) # 例如 "openai/gpt-4o"
系统会根据请求复杂度和模型可用状态自动选择。
指定候选模型池
如果你想限定自动选择的范围:
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "帮我优化这段代码"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-2.5-flash"
],
"preference": "quality"
}
}
)
路由偏好
| 偏好 | 说明 |
|---|---|
balanced | 综合考虑质量、速度和成本(默认) |
quality | 质量优先,选能力最强的 |
speed | 速度优先,选响应最快的 |
cost | 成本优先,选最便宜的 |
使用场景
成本优化:简单查询自动走便宜模型
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "今天星期几?"}],
extra_body={"model_routing_config": {"preference": "cost"}}
)
高可用:指定多个备选确保服务不中断
response = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "分析市场趋势"}],
extra_body={
"model_routing_config": {
"models": [
"openai/gpt-4o",
"anthropic/claude-sonnet-4.5",
"google/gemini-2.5-pro"
],
"preference": "balanced"
}
}
)
智能模型路由让你不再纠结选哪个模型。系统实时监控各模型的延迟、可用性和负载,在候选池中做出最优选择。