AI算力经济学¶

2026 Q1: 全球 AI 算力从补贴扩张期正式进入盈利验证期。免费时代结束，按量付费成为常态。

核心判断¶

算力价格是全球 AI 产业的温度计。当所有云厂商集体涨价时，意味着： 1. AI 从"可选工具"变成"刚需生产资料"，用户对价格敏感度 < 对能力的渴求 2. 物理瓶颈（GPU/HBM 短缺）已传导到商业层，无法再靠补贴消化 3. 行业分化加速 — 全栈玩家受益，套壳应用被清洗

2026 Q1 全球算力调价总览¶

国内厂商¶

厂商	时间	调整	影响
百度智能云	4/18 生效	AI 算力 +5-30%，文心 API +12-25%，取消永久免费	低阶模型 QPS 限流 + 超额计费
阿里云	4/18 生效	AI 算力/存储全线涨价，最高 34%	DataWorks 免费额度大幅缩减
腾讯云	5/9 生效	AI 算力/TKE/EMR 统一 +5%	2025 年才首次全年盈利，成本压力大
字节火山引擎	Q1 已调整	豆包 LLM Token 单价上调，文生视频 15 秒 ~15 元	仅保留新用户 500 万 Token/30 天
智谱 AI	4/8 再调	GLM 系列 API +10%，Coding Plan 月付翻倍	今年第三次涨价，但调用量反增 400%

海外厂商¶

厂商	时间	调整
AWS	1/22	EC2 ML 容量块 +15%（打破 20 年降价惯例）
Azure	2/15	GPT-4o/4 Turbo 涨价，取消 GPT-4o 免费额度
Google Cloud	5/1	AI 计算实例调价，下架 Gemini 低价套餐
OpenAI	Q1	GPT-4o/4 Turbo 涨价，ChatGPT Plus $20 → $30/月

涨价的三层底层逻辑¶

1. 供给侧：Nvidia 定价权 + HBM 短缺¶

Nvidia 占全球 AI 芯片 85% 份额，净利润率 56%
Blackwell GPU 交付排到 2027 年，单卡采购成本同比 +30%+
HBM3E 现货价较 2025 年底 +20%+，全球产能缺口 50-60%
CUDA 隐性成本：每颗 H20 芯片搭配 $12,000 授权费，隐性成本 >30%

2. 需求侧：Token 消耗指数级增长¶

中国日均 Token 调用量：2024 年初 1000 亿 → 2026 Q1 140 万亿（1400x）
字节豆包日均 Token 消耗 120 万亿，多模态占比 >40%（成本是文本 10x）
Agent 时代：单任务 Token 消耗是传统对话的 50-100x，单活跃 Agent 月耗 Token 可达普通用户千倍
百度千帆企业用户 Token 消耗 Q1 环比 +280%

3. 商业逻辑：从烧钱换规模 → 盈利优先¶

过去两年靠免费 API 占领市场，AI 业务持续亏损靠其他业务补贴
2026 年风向转变：资本投入趋于理性，AI 业务必须盈利
定价权从用户端回归厂商端

行业分化效应¶

受益方（护城河加深）¶

全栈云厂商（阿里/腾讯/字节）：规模效应 + 资源优先分配给付费大客户
自研模型公司（智谱）：涨价后调用量反增 400%，证明高质量 Token 供不应求
头部企业客户（金融/政企）：资源优先保障

受损方（被清洗）¶

套壳应用：无技术壁垒，纯 API 二次开发，成本优势消失
中小 AI 服务商：无自研模型 + 无算力储备，成本增加无法传导
个人开发者：零成本试错窗口关闭

开发者应对策略¶

模型压缩、量化、上下文窗口优化
RAG 检索增强减少 Token 消耗
混合调用不同版本模型（低阶 + 高阶组合）
从"无脑调用"转向"精打细算"

与 concepts/ai-energy-mineral-bottleneck 的传导关系¶

GPU/HBM 物理瓶颈（供给侧）
  ↓
Nvidia 定价权 + 产能短缺
  ↓
云厂商采购成本上涨 → 无法继续补贴
  ↓
集体涨价（2026 Q1）
  ↓
AI 产业分化：全栈玩家受益 / 套壳应用被清洗
  ↓
长期：算力价格反映真实物理成本 → 能源/矿产瓶颈

投资含义¶

直接受益¶

entities/NVDA：定价权持续强化，Blackwell 供不应求到 2027
MU/SK Hynix：HBM3E 产能缺口 50-60%，涨价周期延续
头部云厂商（阿里 9988/HK，腾讯 0700/HK）：AI 业务盈利拐点

二阶效应¶

中小 AI 公司洗牌：无模型无算力的纯应用层将被淘汰
垂直场景公司：有核心技术（模型优化/成本管控）的中小厂商反而可能跑出来
Token 经济：高质量 Token 成为稀缺资源，定价权回归供给侧

关键跟踪指标¶

各家云厂商 API 调用量 vs 营收增速（验证涨价是否导致需求萎缩）
Nvidia Blackwell 交付周期变化
HBM3E 产能缺口收窄节奏
智谱等模型公司盈利拐点

更新 2026-04-21: MaaS — 从边缘到中心的结构性转变¶

来源: sources/latepost-volcengine-maaS-202603 (晚点LatePost 独家)

Token 消耗里程碑¶

全球仅 3 家超 100 万亿 tokens/日: OpenAI, Google, 字节跳动
中国日均: 2024 初 1000 亿 → 2026 Q1 100 万亿+ (2 年 1000x)
字节豆包个人用户 Token 1 个月增长 16 倍

AI 云战争¶

厂商	策略	目标
火山引擎	MaaS 销售考核第一, 先模型→拉动 IaaS/PaaS	2026 MaaS 收入 >100 亿元 (已上调)
阿里云	百炼战役 → Token Hub 事业群 (吴泳铭带队)	拿下中国 AI 云增量的 80%
AWS	MaaS 将与 EC2 平起平坐	MaaS ≈ EC2 收入 (AWS 30%+ 占比)
MiniMax	首个全模态统一 Token Plan	从 Coding Plan 升级为 Token Plan

市场空间重估¶

2024 中国 MaaS 仅 7.1 亿元 (vs 公有云 3000 亿+)
MaaS 收入占比可能达到云厂商总收入 30%+
阿里云刘伟光: "下一年增量的 10% 都会大于上一年的全量"

Agent = Token 放大器¶

Claude Code: GitHub 4% commits, 年底可能 20%+
OpenClaw: Agent 从 Coding → 大众场景
智谱涨价 30%+ 后调用量反增 400% — 高质量 Token 供不应求

Alpha¶

MaaS 是从 7 亿到千亿级的结构性机会 — 不是 incremental, 是 exponential
火山引擎是最被低估的 AI 云玩家 — 起步最晚但 MaaS 最激进
黄仁勋 GTC 定调: Token = 数字世界最值钱的大宗商品
涨价周期 + Agent 放大 = 双重驱动: 供给侧 (GPU/HBM) 涨价, 需求侧 (Agent) 暴增

更新 2026-04-21: 算力重心从训练→推理的结构性迁移¶

来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)

训练/推理比例倒挂¶

时期	训练	推理
过去	80%	20%
现在	~50%	~50%
2027 预测	20%	80%

黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
训练是一次性投入, 推理是持续性庞大现金流 (Agent 铺设)

多架构共存时代¶

不再单一依附 GPU: CPU (Vera) + LPU (Groq) + NPU (高通) 各有所长
Agent 时代: 持续调用工具/运行代码/多智能体协同 → CPU 依赖加深
某些新型模型架构在 CPU 上效率反而高于 GPU
高通收购端侧小模型公司 → NPU 对边缘 AI 部署至关重要

企业级 AI 算力需求爆发¶

Fortune 1000 CTO AI 预算大幅增加 — 某 CTO $120 亿 预算
垂直 AI 偏好小语言模型: 本地部署/低延迟/低成本/隐私保护
金融/保险/医疗 AI 整合只需 3-4 个月
不到 10 人团队一年内收入从零到 2000 万美元

Alpha¶

推理芯片价值重估: Groq (LPU), Vera (CPU), NPU — 不再是 GPU 一家独大
企业 AI 预算爆发: 从技术探索 → 大规模部署, 垂直小模型需求激增
算力架构多样化: 训练 (GPU 主导) vs 推理 (多架构) → 投资逻辑分化

更新 2026-04-24: 曦望 — 国内首家百亿估值纯推理GPU独角兽¶

来源: sources/qbitai-xiwang-inference-gpu-202604 (量子位专访)

核心数据¶

7轮40亿融资，最新10亿(2026赛道最大单笔)，估值超百亿
分拆独立仅1年多，团队400+人，研发占比>80%
每一代芯片一次性流片成功并点亮

"三位一体"核心团队¶

角色	人物	背景
董事长	徐冰	商汤联合创始人
联席CEO	王勇	前AMD、昆仑芯核心架构师，20+年半导体经验
联席CEO	王湛	前百度资深副总裁，百度创始团队成员

核心判断: 算力需求结构反转¶

"2026年AI推理计算需求将达到训练算力需求的4-5倍。"

驱动力: Agent时代Token消耗暴增，单次对话→多轮循环思考，Token消耗达过去几十倍甚至上百倍。

启望S3推理GPU¶

规格	参数
设计哲学	All in推理，裁剪训练模块，单位面积算力效率提升5倍+
AI Core利用率	GEMM ~99%，Flash Attention ~98%
显存	LPDDR6(国内首个)，最大~600GB(国内最大)
互联	PCIe Gen6(国内首个)，带宽翻倍
CUDA兼容	99%+

成本目标: 百万Token压至一分钱，单位Token成本降90%。

技术路线¶

通用GPU架构保证适配性，底层自研保证自主可控
全栈自研(硬件AI Core+软件)，自主开发仿真验证工具
中国GPU公司里最大的ESOP池

Alpha¶

推理专用芯片赛道验证: 曦望All in推理 vs 天数智芯训推分离 vs 其他训推一体
国产GPU分化: 不同技术路线的竞争格局正在形成
成本目标若实现: 将大幅激活Agent普及，推理算力从"贵族"变"普惠"
互联网大厂策略: 主攻最难服务客户，压力下打磨产品

AI算力经济学¶

核心判断¶

2026 Q1 全球算力调价总览¶

国内厂商¶

海外厂商¶

涨价的三层底层逻辑¶

1. 供给侧：Nvidia 定价权 + HBM 短缺¶

2. 需求侧：Token 消耗指数级增长¶

3. 商业逻辑：从烧钱换规模 → 盈利优先¶

行业分化效应¶

受益方（护城河加深）¶

受损方（被清洗）¶

开发者应对策略¶

与 concepts/ai-energy-mineral-bottleneck 的传导关系¶

投资含义¶

直接受益¶

二阶效应¶

关键跟踪指标¶

相关¶

更新 2026-04-21: MaaS — 从边缘到中心的结构性转变¶

Token 消耗里程碑¶

AI 云战争¶

市场空间重估¶

Agent = Token 放大器¶

Alpha¶

更新 2026-04-21: 算力重心从训练→推理的结构性迁移¶

训练/推理比例倒挂¶

多架构共存时代¶

企业级 AI 算力需求爆发¶

Alpha¶

更新 2026-04-24: 曦望 — 国内首家百亿估值纯推理GPU独角兽¶

核心数据¶

"三位一体"核心团队¶

核心判断: 算力需求结构反转¶

启望S3推理GPU¶

技术路线¶

Alpha¶