花真钱买假模型:一篇论文揭露 AI API 中转站的系统性欺诈

花真钱买假模型:一篇论文揭露 AI API 中转站的系统性欺诈

2026 年 3 月,来自 CISPA 亥姆霍兹信息安全中心的研究团队发表了一篇重磅论文:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

这是首次对 AI API 中转站(论文称之为「Shadow API」)进行系统性审计。结论触目惊心:你付了 GPT-5 的钱,拿到的可能是 GLM-4-9B 的输出。

Shadow API 的生产、交易、使用和审计流程漫画 论文插图:Shadow API 工厂把廉价模型套上 OpenAI 的壳卖给用户

问题有多严重?

研究团队从学术文献中找到了 17 家 被广泛使用的 Shadow API 服务。这些服务不是小打小闹——最大的一家累计被 187 篇学术论文 引用,在 GitHub 上有 58,639 颗星

更惊人的是,这些论文中有 62%(116 篇)发表在 ACL、CVPR、ICLR 等顶会。也就是说,大量顶级学术成果的实验数据,可能建立在虚假的模型输出之上。

使用 Shadow API 的论文按会议分布 论文中被引用的 Shadow API 服务覆盖了几乎所有主流 AI 会议

谁在用 Shadow API?

地理分布数据很说明问题:82.12% 的使用者来自中国大陆

Shadow API 使用者的地理分布 使用 Shadow API 的论文作者,超过八成来自 API 访问受限的地区

原因很简单——OpenAI、Anthropic、Google 的 API 在中国大陆无法直接访问。开发者和研究者需要通过中转站来调用这些模型。这本身不是问题,问题在于你选的中转站是否诚实。

17 家中转站,15 家连营业执照都没有

论文对这 17 家服务做了合规性审查:

  • 15 家(88.2%) 没有透明的身份信息或可验证的来源
  • 只有 1 家 持有有效的企业 ICP 备案
  • 15 家由个人运营,没有注册公司
  • 2 家在研究期间已停止运营
  • 提供者频繁更换上游模型源,不通知用户

17 家 Shadow API 的引用量和 GitHub Star 数 17 家被审计的 Shadow API 服务(匿名化为 A-Q),按引用量和 GitHub Star 排序

论文附录的 Table 7 展示了全部 17 家中转站的合规信息——绝大多数在法律实体、工商注册、ICP 备案等关键维度上全部缺失:

17 家 Shadow API 的合规性审查结果 Table 7:17 家中转站的合规性全景——几乎清一色的个人运营、无企业注册、无 ICP 备案

数据一目了然:除了 H 和 N 两家,其余 15 家在「Legal Entity」「Reg. ID」「ICP」「Biz. Registry」四列全部是横杠。支付方式以支付宝/微信个人收款为主,甚至有接受 USDT 加密货币的。

更值得注意的是,17 家中有 11 家基于开源的 OneAPI/NewAPI 系统 搭建。这些开源工具本身用于 API 密钥管理和请求路由——但也让「偷换模型」变得极其简单。

最核心的发现:你付的钱和拿到的模型不一样

研究团队用 LLMmap 指纹识别技术检测了 24 个 API 端点,结果:

  • 45.83% 的端点未通过指纹验证(模型身份与声称不符)
  • 12.50% 出现显著的余弦距离偏差
  • GPT 和 DeepSeek 系列是重灾区

最离谱的案例:某中转站(Shadow API A)声称提供 GPT-5,但指纹识别结果显示实际返回的是 GLM-4-9B-Chat——一个参数量小得多的开源模型。DeepSeek-Reasoner 也被偷换成了普通的 DeepSeek-Chat。

下面这张表是论文的核心证据——用颜色标注了每个端点的模型身份匹配情况:

模型指纹验证结果 Table 2:红色 = 模型身份不匹配(偷换了模型),黄色 = 余弦距离异常偏高,绿色 = 与官方一致

可以清楚地看到,Shadow API A 和 H 的 GPT 系列几乎全部标红——你调的是 GPT-5,它给你的是 GLM-4-9B 或 Qwen2.5-7B。

性能差距有多大?

论文在四个基准测试上对比了官方 API 和 Shadow API 的表现:

数学推理(AIME 2025)和科学问答(GPQA)

AIME 2025 和 GPQA 性能对比 Shadow API A(红色)在高难度推理任务上的表现远低于官方 API(灰色)

GPQA Diamond 性能对比 PhD 级别科学问答中,Shadow API 的准确率同样大幅下降

Shadow API A 在 AIME 2025 数学推理任务上的准确率比官方 API 低了 40 个百分点

医疗和法律(高风险场景)

MedQA 医疗基准测试 医疗场景中 Shadow API 的表现崩塌

医疗场景的数据最可怕:Gemini-2.5-Flash 在 MedQA(美国医师执照考试题)上的准确率从官方的 83.82% 暴跌到约 37%,差距达 47.21%

论文举了一个具体的错误案例:一道 HIV 检测方法的选择题,官方 API 正确选择了「HIV-1/HIV-2 抗体分化免疫测定法」,而 Shadow API 错误地选择了「病毒基因型测定」。

如果你的医疗 AI 应用底层用了这样的中转站,后果不堪设想。

安全性也不可控

JailbreakBench 安全评估 Shadow API 的安全行为不可预测——有的过度宽松,有的过度严格

Shadow API 的安全过滤行为与官方 API 不一致:有害内容评分要么低估约 0.23,要么几乎翻倍。这意味着你无法依赖中转站的安全策略来保护你的应用。

经济损失:花了 15 美元,只拿到 6 美元的东西

论文分析了 1,273 次 GPT-5 查询的经济数据:

  • 用户支付了 $14.84 的官方费率
  • 但实际获得的 token 价值仅 $5.70–$7.77
  • 每批查询的中转站利润:$7.07–$9.14
  • Shadow API 每美元产生的错误率是官方的 2–4 倍

论文总结了三种欺诈模式:

模式手法典型表现
信息差溢价收官方价格的 7 倍,用廉价模型替换API A
折扣替换按官方价格收费,但偷换成更便宜的模型看似价格合理,实则偷梁换柱
转售加价小幅加价,同时在后端降级模型最难察觉

对开发者意味着什么?

这篇论文给出了明确的建议——选择 API 中转服务时,至少要验证四件事:

  1. 指纹验证:用 LLMmap 等工具检测模型身份
  2. 统计测试:用 500+ 样本做模型等价性测试
  3. 基准验证:在已知基准上验证准确率
  4. 资质核查:检查运营主体的企业注册和 ICP 备案

论文还建议研究者在论文中预先记录 API 端点 URL、声称的模型版本、访问日期和定价,以便审计。

Ofox:透明的官方 API 代理,不是黑箱中转站

这篇论文揭露的问题,正是 Ofox 从第一天就在解决的。

Ofox 和论文中的 Shadow API 有本质区别

Shadow API(论文审计对象)Ofox
模型来源未知,可能偷换成廉价模型直连 OpenAI / Anthropic / Google 官方 API
请求处理黑箱转发,可能篡改请求和响应透明代理,原样转发,不修改任何内容
协议兼容通常只支持 OpenAI 格式同时兼容 OpenAI、Anthropic、Gemini 三套原生 SDK
企业资质88% 无企业注册,个人支付宝收款正规注册企业,合规运营
运营稳定性论文研究期间就有 2 家停服持续稳定运营,阿里云/火山云双节点加速
价格透明可能收 7 倍溢价价格公开透明,与官方定价同步

你调 GPT-5,拿到的就是 GPT-5。你调 Claude Opus,拿到的就是 Claude Opus。没有偷换,没有降级,没有黑箱。

Ofox 的做法很简单:做一个透明的代理层,帮中国开发者解决网络访问问题,同时保持与官方 API 100% 一致的输出。你用 OpenAI 的 SDK、Anthropic 的 SDK、还是 Google 的 SDK,都可以直接接入,只需要改一个 base_url

如果你正在用某个来路不明的 API 中转站,建议用论文推荐的方法验证一下你拿到的模型是不是真的。或者,直接换到一个你不需要验证的服务:

ofox.ai — 一个 API Key,100+ 模型,官方原版,透明可靠。


论文信息

  • 标题:Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
  • 作者:Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang
  • 机构:CISPA Helmholtz Center for Information Security
  • 链接:arxiv.org/abs/2603.01919

本文图片均引自原论文,版权归论文作者所有。