AI API 供应商路由:按成本、延迟、优先级智能分发

同一个模型背后可能有多个供应商节点。比如 GPT-4o 可以走 OpenAI 直连、也可以走 Azure OpenAI。不同节点的延迟、成本和稳定性各不相同。

ofox.ai 的供应商路由功能,让你可以按需选择最优路径。

四种路由策略

策略说明适用场景
priority按优先级顺序(默认)稳定性优先
cost成本最低优先批量处理、成本敏感
latency延迟最低优先实时对话、用户交互
balanced负载均衡高并发场景

代码示例

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-api-key"
)

# 成本优先 — 适合批量任务
response = client.chat.completions.create(
    model="openai/gpt-4o",
    messages=[{"role": "user", "content": "你好"}],
    extra_body={
        "provider": {
            "routing": "cost"
        }
    }
)

TypeScript

const response = await client.chat.completions.create({
    model: 'openai/gpt-4o',
    messages: [{ role: 'user', content: '你好' }],
    provider: {
        routing: 'latency'  // 延迟优先
    }
})

策略选择建议

  • 实时对话(聊天机器人、客服):用 latency,最小化用户等待
  • 批量处理(数据标注、文本生成):用 cost,降低运营成本
  • 生产环境默认:用 priority,保证稳定性
  • 高并发(上千 QPS):用 balanced,避免单节点过载

路由策略可以和故障回退(fallback)组合使用,实现更高的可用性。


相关阅读