跳转至

AI算力经济学

2026 Q1: 全球 AI 算力从补贴扩张期正式进入盈利验证期。免费时代结束,按量付费成为常态。

核心判断

算力价格是全球 AI 产业的温度计。当所有云厂商集体涨价时,意味着: 1. AI 从"可选工具"变成"刚需生产资料",用户对价格敏感度 < 对能力的渴求 2. 物理瓶颈(GPU/HBM 短缺)已传导到商业层,无法再靠补贴消化 3. 行业分化加速 — 全栈玩家受益,套壳应用被清洗

2026 Q1 全球算力调价总览

国内厂商

厂商 时间 调整 影响
百度智能云 4/18 生效 AI 算力 +5-30%,文心 API +12-25%,取消永久免费 低阶模型 QPS 限流 + 超额计费
阿里云 4/18 生效 AI 算力/存储全线涨价,最高 34% DataWorks 免费额度大幅缩减
腾讯云 5/9 生效 AI 算力/TKE/EMR 统一 +5% 2025 年才首次全年盈利,成本压力大
字节火山引擎 Q1 已调整 豆包 LLM Token 单价上调,文生视频 15 秒 ~15 元 仅保留新用户 500 万 Token/30 天
智谱 AI 4/8 再调 GLM 系列 API +10%,Coding Plan 月付翻倍 今年第三次涨价,但调用量反增 400%

海外厂商

厂商 时间 调整
AWS 1/22 EC2 ML 容量块 +15%(打破 20 年降价惯例)
Azure 2/15 GPT-4o/4 Turbo 涨价,取消 GPT-4o 免费额度
Google Cloud 5/1 AI 计算实例调价,下架 Gemini 低价套餐
OpenAI Q1 GPT-4o/4 Turbo 涨价,ChatGPT Plus $20 → $30/月

涨价的三层底层逻辑

1. 供给侧:Nvidia 定价权 + HBM 短缺

  • Nvidia 占全球 AI 芯片 85% 份额,净利润率 56%
  • Blackwell GPU 交付排到 2027 年,单卡采购成本同比 +30%+
  • HBM3E 现货价较 2025 年底 +20%+,全球产能缺口 50-60%
  • CUDA 隐性成本:每颗 H20 芯片搭配 $12,000 授权费,隐性成本 >30%

2. 需求侧:Token 消耗指数级增长

  • 中国日均 Token 调用量:2024 年初 1000 亿 → 2026 Q1 140 万亿1400x
  • 字节豆包日均 Token 消耗 120 万亿,多模态占比 >40%(成本是文本 10x)
  • Agent 时代:单任务 Token 消耗是传统对话的 50-100x,单活跃 Agent 月耗 Token 可达普通用户千倍
  • 百度千帆企业用户 Token 消耗 Q1 环比 +280%

3. 商业逻辑:从烧钱换规模 → 盈利优先

  • 过去两年靠免费 API 占领市场,AI 业务持续亏损靠其他业务补贴
  • 2026 年风向转变:资本投入趋于理性,AI 业务必须盈利
  • 定价权从用户端回归厂商端

行业分化效应

受益方(护城河加深)

  • 全栈云厂商(阿里/腾讯/字节):规模效应 + 资源优先分配给付费大客户
  • 自研模型公司(智谱):涨价后调用量反增 400%,证明高质量 Token 供不应求
  • 头部企业客户(金融/政企):资源优先保障

受损方(被清洗)

  • 套壳应用:无技术壁垒,纯 API 二次开发,成本优势消失
  • 中小 AI 服务商:无自研模型 + 无算力储备,成本增加无法传导
  • 个人开发者:零成本试错窗口关闭

开发者应对策略

  • 模型压缩、量化、上下文窗口优化
  • RAG 检索增强减少 Token 消耗
  • 混合调用不同版本模型(低阶 + 高阶组合)
  • 从"无脑调用"转向"精打细算"

concepts/ai-energy-mineral-bottleneck 的传导关系

GPU/HBM 物理瓶颈(供给侧)
Nvidia 定价权 + 产能短缺
云厂商采购成本上涨 → 无法继续补贴
集体涨价(2026 Q1)
AI 产业分化:全栈玩家受益 / 套壳应用被清洗
长期:算力价格反映真实物理成本 → 能源/矿产瓶颈

投资含义

直接受益

  • entities/NVDA:定价权持续强化,Blackwell 供不应求到 2027
  • MU/SK Hynix:HBM3E 产能缺口 50-60%,涨价周期延续
  • 头部云厂商(阿里 9988/HK,腾讯 0700/HK):AI 业务盈利拐点

二阶效应

  • 中小 AI 公司洗牌:无模型无算力的纯应用层将被淘汰
  • 垂直场景公司:有核心技术(模型优化/成本管控)的中小厂商反而可能跑出来
  • Token 经济:高质量 Token 成为稀缺资源,定价权回归供给侧

关键跟踪指标

  1. 各家云厂商 API 调用量 vs 营收增速(验证涨价是否导致需求萎缩)
  2. Nvidia Blackwell 交付周期变化
  3. HBM3E 产能缺口收窄节奏
  4. 智谱等模型公司盈利拐点

相关

更新 2026-04-21: MaaS — 从边缘到中心的结构性转变

来源: sources/latepost-volcengine-maaS-202603 (晚点LatePost 独家)

Token 消耗里程碑

  • 全球仅 3 家超 100 万亿 tokens/日: OpenAI, Google, 字节跳动
  • 中国日均: 2024 初 1000 亿 → 2026 Q1 100 万亿+ (2 年 1000x)
  • 字节豆包个人用户 Token 1 个月增长 16 倍

AI 云战争

厂商 策略 目标
火山引擎 MaaS 销售考核第一, 先模型→拉动 IaaS/PaaS 2026 MaaS 收入 >100 亿元 (已上调)
阿里云 百炼战役 → Token Hub 事业群 (吴泳铭带队) 拿下中国 AI 云增量的 80%
AWS MaaS 将与 EC2 平起平坐 MaaS ≈ EC2 收入 (AWS 30%+ 占比)
MiniMax 首个全模态统一 Token Plan 从 Coding Plan 升级为 Token Plan

市场空间重估

  • 2024 中国 MaaS 仅 7.1 亿元 (vs 公有云 3000 亿+)
  • MaaS 收入占比可能达到云厂商总收入 30%+
  • 阿里云刘伟光: "下一年增量的 10% 都会大于上一年的全量"

Agent = Token 放大器

  • Claude Code: GitHub 4% commits, 年底可能 20%+
  • OpenClaw: Agent 从 Coding → 大众场景
  • 智谱涨价 30%+ 后调用量反增 400% — 高质量 Token 供不应求

Alpha

  1. MaaS 是从 7 亿到千亿级的结构性机会 — 不是 incremental, 是 exponential
  2. 火山引擎是最被低估的 AI 云玩家 — 起步最晚但 MaaS 最激进
  3. 黄仁勋 GTC 定调: Token = 数字世界最值钱的大宗商品
  4. 涨价周期 + Agent 放大 = 双重驱动: 供给侧 (GPU/HBM) 涨价, 需求侧 (Agent) 暴增

更新 2026-04-21: 算力重心从训练→推理的结构性迁移

来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)

训练/推理比例倒挂

时期 训练 推理
过去 80% 20%
现在 ~50% ~50%
2027 预测 20% 80%
  • 黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
  • 训练是一次性投入, 推理是持续性庞大现金流 (Agent 铺设)

多架构共存时代

  • 不再单一依附 GPU: CPU (Vera) + LPU (Groq) + NPU (高通) 各有所长
  • Agent 时代: 持续调用工具/运行代码/多智能体协同 → CPU 依赖加深
  • 某些新型模型架构在 CPU 上效率反而高于 GPU
  • 高通收购端侧小模型公司 → NPU 对边缘 AI 部署至关重要

企业级 AI 算力需求爆发

  • Fortune 1000 CTO AI 预算大幅增加 — 某 CTO $120 亿 预算
  • 垂直 AI 偏好小语言模型: 本地部署/低延迟/低成本/隐私保护
  • 金融/保险/医疗 AI 整合只需 3-4 个月
  • 不到 10 人团队一年内收入从零到 2000 万美元

Alpha

  1. 推理芯片价值重估: Groq (LPU), Vera (CPU), NPU — 不再是 GPU 一家独大
  2. 企业 AI 预算爆发: 从技术探索 → 大规模部署, 垂直小模型需求激增
  3. 算力架构多样化: 训练 (GPU 主导) vs 推理 (多架构) → 投资逻辑分化

更新 2026-04-24: 曦望 — 国内首家百亿估值纯推理GPU独角兽

来源: sources/qbitai-xiwang-inference-gpu-202604 (量子位专访)

核心数据

  • 7轮40亿融资,最新10亿(2026赛道最大单笔),估值超百亿
  • 分拆独立仅1年多,团队400+人,研发占比>80%
  • 每一代芯片一次性流片成功并点亮

"三位一体"核心团队

角色 人物 背景
董事长 徐冰 商汤联合创始人
联席CEO 王勇 前AMD、昆仑芯核心架构师,20+年半导体经验
联席CEO 王湛 前百度资深副总裁,百度创始团队成员

核心判断: 算力需求结构反转

"2026年AI推理计算需求将达到训练算力需求的4-5倍。"

驱动力: Agent时代Token消耗暴增,单次对话→多轮循环思考,Token消耗达过去几十倍甚至上百倍

启望S3推理GPU

规格 参数
设计哲学 All in推理,裁剪训练模块,单位面积算力效率提升5倍+
AI Core利用率 GEMM ~99%,Flash Attention ~98%
显存 LPDDR6(国内首个),最大~600GB(国内最大)
互联 PCIe Gen6(国内首个),带宽翻倍
CUDA兼容 99%+

成本目标: 百万Token压至一分钱,单位Token成本降90%。

技术路线

  • 通用GPU架构保证适配性,底层自研保证自主可控
  • 全栈自研(硬件AI Core+软件),自主开发仿真验证工具
  • 中国GPU公司里最大的ESOP池

Alpha

  1. 推理专用芯片赛道验证: 曦望All in推理 vs 天数智芯训推分离 vs 其他训推一体
  2. 国产GPU分化: 不同技术路线的竞争格局正在形成
  3. 成本目标若实现: 将大幅激活Agent普及,推理算力从"贵族"变"普惠"
  4. 互联网大厂策略: 主攻最难服务客户,压力下打磨产品