跳转至

腾讯开源算法大赛学术成果和千万级别数据集,推动广告推荐技术发展

公众号: 机器之心 发布日期: 今天 抓取日期: 2026-04-14 URL: https://www.jiqizhixin.com/articles/2f3934a6-d9e4-4179-b333-8cb5bcba3c4c


Title: 警惕!大模型成本倒挂:你正在为模型的多余「思考」买单 | 机器之心

URL Source: https://www.jiqizhixin.com/articles/2f3934a6-d9e4-4179-b333-8cb5bcba3c4c

Markdown Content:

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单 | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单

0%

Image 17: icon展开列表

火山引擎:Seedance 2.0 API 服务全面开放

今天

火山引擎

Image 18: img

目标更重要?国内公司超越Generalist,进化到动作中心世界模型

今天

极佳世界

Image 19: img

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单

今天

token

Image 20: img

腾讯开源算法大赛学术成果和千万级别数据集,推动广告推荐技术发展

今天

腾讯广告算法大赛

Image 21: img

ICLR 2026 | BioMD:从结构快照到连续轨迹,蛋白-配体全原子动力学生成模型

今天

AI for Science

Image 22: img

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

今天

Being-H0.7

Image 23: img

在一台1970年代的PDP-11上训练Transformer需要多久?答案是5.5分钟

今天

Transformer

Image 24: img

二元成功率已经过时!PRM-as-a-Judge才是你需要的具身操作评测框架

今天

具身操作评测框架

Image 25: img

养虾「不可能三角」:好用、好玩、安全,复旦这个「00后」团队做到了!

04月13日

XSafeClaw

Image 26: img

上海交大DENG Lab提出「LatentUM」:Unified Model的真正「战场」在视觉推理与世界模型

04月13日

DENG Lab

Image 27: img

荣耀发布自研龙虾AI智能体YOYO Claw技术 开创“养虾本”新品类

04月13日

YOYO Claw

Image 28: img

13 个榜单 SOTA!明略科技正式开源GUI-VLA 模型Mano-P 1.0

04月13日

Mano-P 1.0

Image 29: img

全球第一,13个SOTA!我们找到了龙虾界掌管GUI的神

04月13日

Mano-P 1.0

Image 30: img

国内首个!加入六维力的全感知数采,让VLA模型进化出力触觉

04月13日

原生全感知力触数采系统

Image 31: img

迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品

04月13日

Latent Space

Image 32: img

大卫贝克团队从头设计小分子结合蛋白质家族:开启按需定制生物传感器的新纪元

04月13日

AI for Science

Image 33: img

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

04月13日

LRT(Latent Reasoning Tuning)

Image 34: img

三方协同创新,北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力

04月13日

人形机器人

Image 35: img

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

04月13日

MME-Survey

Image 36: img

大佬深度解析:Coding Agent的底层运行逻辑是什么?

04月13日

Coding Agent

Image 37: img

Image 38: avatar

机器之心 原创

刚刚

警惕!大模型成本倒挂:你正在为模型的多余「思考」买单

Image 39: 图片 在选择使用大模型 (LLM) 时,除了模型性能强弱,价格也是一个重要指标。人们通常会用大模型的 API 定价更贵或更便宜,来比较模型的价格高低。但事实上,定价低的模型真的比定价高的模型使用起来更便宜吗?

如今,一项来自斯坦福、加州伯克利大学、卡内基梅隆大学和微软研究院的研究,揭示了 AI 模型中的价格倒挂现象:低定价的 AI 模型,反而有可能产生更高的实际开销!

Image 40: 图片 * 论文标题:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More

  • 论文地址:https://arxiv.org/abs/2603.23971

图 1 给出了主流模型的定价和它们在实际任务上的开销。

Image 41: 图片 图 1: 左图展示了模型定价和实际花销的关系,右图给主流模型定价和实际价格各自排序。揭示了价格倒挂现象:低定价的模型反而产生了更高的实际开销。

GPT-5.2 的 API 定价是 Gemini 3 Flash 的 4.5 倍,但其实际成本仅为 Gemini 3 Flash 的 81%。类似地,Claude Opus 4.6 的 API 定价是 Google Gemini 3.1 Pro 的两倍,但其实际成本却低了 35%。

这到底是怎么回事?今天,我们就一起探讨这项研究。

AI 模型开销的审计框架

为了精准刻画 AI 模型的实际开销,研究聚焦于 8 个广泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任务则囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 个主流数据集。

前沿模型通常采用按量付费的定价机制,即用户为发送的每个查询分别付费。

这种定价机制对于给定模型通常涉及两个组成部分:每单位输入 token 的价格,以及每单位输出 token 的价格。对于给定查询,成本是两个价格按提示 token 数和输出 token 数加权的总和。(为了便于理解, 下文中的讨论都使用平均加权。 对更多不同加权情况感兴趣的话,可以在互动网站上尝试:https://price-reversal.streamlit.app/)

AI 模型的成本倒挂现象

Image 42: 图片 图 2: 实际成本排名在不同任务之间存在显著差异。

测试发现:定价排名与实际成本排名的巨大反差,且这样的价格逆转是普遍存在的。根据固定标价 API 定价进行的标准评估是具有误导性的。

例如,Gemini 3 Flash 的标价(\(3.5)仅为 GPT-5.2 价格(\)15.75)的 22%,但其在 MMLUPro 上的实际成本实际上是后者的六倍(见图2)!

根据 API 标价,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂贵的。其实际成本几乎是 Gemini 3.1 Pro 的两倍。

为量化价格逆转的普遍程度,研究人员检查了所有 8 个模型组成的 28 个模型对,在 9 项任务上的表现,共产生 252 次成对成本比较,其中 21.8%(55 次)比较表现出价格逆转

这意味着,仅基于标价的成本判断中,大约每五次就有一次是错误的。同时模型的相对成本排序高度依赖于任务。一个在某个数据集上便宜的的模型可能在另一个数据集上成为最昂贵的之一。

为什么会出现倒挂现象?

我们先来介绍一个有趣的现象:一个富人和穷人同时购买靴子。富人花费了 100 元购买了一双好靴子,而穷人为了省钱,只能支付 15 元购买了坏靴子。好靴子可以使用 10 年,而坏靴子只能使用 1 年。结果,穷人不得不每年购买一双坏靴子。一个悖论就此出现了:穷人为了省钱购买了便宜的靴子,但却花费了更多的钱。这就是社会经济学中著名的靴子理论(Boots Theory):看上去价格便宜的商品,有可能带来更高的总成本。

研究发现有些 AI 模型也出现了类似的 “靴子现象”, 问题的关键是推理 token

Image 43: 图片 图 3: 图中展示了模型真实价格的具体拆分:输入、推理、输出。不同模型在相同任务上消耗的推理token 数量差异巨大。

首先,推理 token 是模型开销的主要来源。如图 3 所示,在模型的开销里,输入的 prompt 和输出的最终结果通常只消耗总成本的 10% 不到,而大部分的开销都来自于推理 token。这一分解揭示了思考 token 几乎在所有模型中都是主导的成本组成部分。其次,不同模型的推理 token 的数量差距极大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的将近 10 倍。

Image 44: 图片 图 4: 在同一道 AIME 题目上,GPT-5.2 使用 562 个思考 token,而 Gemini 3 Flash 使用超过 11,000 个,导致实际成本高出 2.5 倍。

图 4 给出了一个具体的例子。给定同一道 AIME 2025 题目,GPT-5.2 和 Gemini 3 Flash 得出的最终答案一样,最终的思路也大致相同。然而,得到这一思路和答案的过程却大相径庭:GPT-5.2 仅仅使用约五百个 token 就完成了思考,而 Gemini Flash 却需要超过一万个 token。这揭示了开销逆转的本质来源于思考 token 数量的巨大差距。

Image 45: 图片 图 5: 从实际成本计算中去除思考 token 成本。(a) 标价排名与实际成本排名之间的相关性在所有任务中均显著提高。(b) 成对排名逆转数平均减少 70%。

事实上,去掉思考 token 可以使得实际开销和模型定价保持高度一致。如图 5 所示,去除思考 token 成本显著恢复了所有 9 项任务的排名一致性,并且使得排名逆转的数量减少了 70%。这进一步验证了思考 token 才是成本倒挂的隐藏杀手

我们可以直接预测任务成本吗?

Image 46: 图片 图 6: 实际开销的不可预测性。对每一个 AIME 数据集上的任务跑 5 次所产生的推理 token 数量。对于固定的任务和固定的模型,多次实验所产生的 token 数,也有着巨大的差异。这意味着推理 token 数量本身就是不可预测的。

既然定价不能准确反映实际开销,我们是否可以直接预测实际开销呢?

实践表明:实际开销其实是一个高度不可预测的量!

如图 5 所示,研究人员在数学竞赛数据集上多次运行同一个模型,发现它们的推理 token 的数量差距巨大。例如,对第 6 个任务,GPT-5.2 的推理 token 数最大可达五万,最低只需 2 万,达到了 2.5 倍的差距。这就意味着,推理 token 数本身带有巨大的随机性,因此,推理 token 数具有高度的不确定性和不可预测性,从而让实际开销的预测变得极为困难。

结论

这一研究发现了 AI 模型领域的靴子现象:定价更低的模型反而可能带来更高的实际开销。同时,它又指出了实际开销的不确定性和不可预测性。这表明,要选取物美价廉的 AI 模型,并不是看看价目表就够了。

作者们还开源了使用的数据,提供了一个可互动的网站,为后续研究提供了基础。

  • 数据:https://github.com/lchen001/pricing-reversal

  • 网站:https://price-reversal.streamlit.app/

作者介绍

本文由来自斯坦福大学、加州伯克利大学、卡内基梅隆大学、和微软研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大学博士,微软研究院资深研究员。

  • Chi Zhang,卡耐基梅隆大学博士。

  • Yeye He,微软研究院首席研究员。

  • Ion Stoica,加州伯克利大学教授,美国工程院院士,Databricks 创始人兼主席。

  • Matei Zaharia,加州伯克利大学教授,Databricks 创始人兼首席技术官。

  • James Zou,斯坦福大学教授。