AI算力经济学¶
2026 Q1: 全球 AI 算力从补贴扩张期正式进入盈利验证期。免费时代结束,按量付费成为常态。
核心判断¶
算力价格是全球 AI 产业的温度计。当所有云厂商集体涨价时,意味着: 1. AI 从"可选工具"变成"刚需生产资料",用户对价格敏感度 < 对能力的渴求 2. 物理瓶颈(GPU/HBM 短缺)已传导到商业层,无法再靠补贴消化 3. 行业分化加速 — 全栈玩家受益,套壳应用被清洗
2026 Q1 全球算力调价总览¶
国内厂商¶
| 厂商 | 时间 | 调整 | 影响 |
|---|---|---|---|
| 百度智能云 | 4/18 生效 | AI 算力 +5-30%,文心 API +12-25%,取消永久免费 | 低阶模型 QPS 限流 + 超额计费 |
| 阿里云 | 4/18 生效 | AI 算力/存储全线涨价,最高 34% | DataWorks 免费额度大幅缩减 |
| 腾讯云 | 5/9 生效 | AI 算力/TKE/EMR 统一 +5% | 2025 年才首次全年盈利,成本压力大 |
| 字节火山引擎 | Q1 已调整 | 豆包 LLM Token 单价上调,文生视频 15 秒 ~15 元 | 仅保留新用户 500 万 Token/30 天 |
| 智谱 AI | 4/8 再调 | GLM 系列 API +10%,Coding Plan 月付翻倍 | 今年第三次涨价,但调用量反增 400% |
海外厂商¶
| 厂商 | 时间 | 调整 |
|---|---|---|
| AWS | 1/22 | EC2 ML 容量块 +15%(打破 20 年降价惯例) |
| Azure | 2/15 | GPT-4o/4 Turbo 涨价,取消 GPT-4o 免费额度 |
| Google Cloud | 5/1 | AI 计算实例调价,下架 Gemini 低价套餐 |
| OpenAI | Q1 | GPT-4o/4 Turbo 涨价,ChatGPT Plus $20 → $30/月 |
涨价的三层底层逻辑¶
1. 供给侧:Nvidia 定价权 + HBM 短缺¶
- Nvidia 占全球 AI 芯片 85% 份额,净利润率 56%
- Blackwell GPU 交付排到 2027 年,单卡采购成本同比 +30%+
- HBM3E 现货价较 2025 年底 +20%+,全球产能缺口 50-60%
- CUDA 隐性成本:每颗 H20 芯片搭配 $12,000 授权费,隐性成本 >30%
2. 需求侧:Token 消耗指数级增长¶
- 中国日均 Token 调用量:2024 年初 1000 亿 → 2026 Q1 140 万亿(1400x)
- 字节豆包日均 Token 消耗 120 万亿,多模态占比 >40%(成本是文本 10x)
- Agent 时代:单任务 Token 消耗是传统对话的 50-100x,单活跃 Agent 月耗 Token 可达普通用户千倍
- 百度千帆企业用户 Token 消耗 Q1 环比 +280%
3. 商业逻辑:从烧钱换规模 → 盈利优先¶
- 过去两年靠免费 API 占领市场,AI 业务持续亏损靠其他业务补贴
- 2026 年风向转变:资本投入趋于理性,AI 业务必须盈利
- 定价权从用户端回归厂商端
行业分化效应¶
受益方(护城河加深)¶
- 全栈云厂商(阿里/腾讯/字节):规模效应 + 资源优先分配给付费大客户
- 自研模型公司(智谱):涨价后调用量反增 400%,证明高质量 Token 供不应求
- 头部企业客户(金融/政企):资源优先保障
受损方(被清洗)¶
- 套壳应用:无技术壁垒,纯 API 二次开发,成本优势消失
- 中小 AI 服务商:无自研模型 + 无算力储备,成本增加无法传导
- 个人开发者:零成本试错窗口关闭
开发者应对策略¶
- 模型压缩、量化、上下文窗口优化
- RAG 检索增强减少 Token 消耗
- 混合调用不同版本模型(低阶 + 高阶组合)
- 从"无脑调用"转向"精打细算"
与 concepts/ai-energy-mineral-bottleneck 的传导关系¶
GPU/HBM 物理瓶颈(供给侧)
↓
Nvidia 定价权 + 产能短缺
↓
云厂商采购成本上涨 → 无法继续补贴
↓
集体涨价(2026 Q1)
↓
AI 产业分化:全栈玩家受益 / 套壳应用被清洗
↓
长期:算力价格反映真实物理成本 → 能源/矿产瓶颈
投资含义¶
直接受益¶
- entities/NVDA:定价权持续强化,Blackwell 供不应求到 2027
- MU/SK Hynix:HBM3E 产能缺口 50-60%,涨价周期延续
- 头部云厂商(阿里 9988/HK,腾讯 0700/HK):AI 业务盈利拐点
二阶效应¶
- 中小 AI 公司洗牌:无模型无算力的纯应用层将被淘汰
- 垂直场景公司:有核心技术(模型优化/成本管控)的中小厂商反而可能跑出来
- Token 经济:高质量 Token 成为稀缺资源,定价权回归供给侧
关键跟踪指标¶
- 各家云厂商 API 调用量 vs 营收增速(验证涨价是否导致需求萎缩)
- Nvidia Blackwell 交付周期变化
- HBM3E 产能缺口收窄节奏
- 智谱等模型公司盈利拐点
相关¶
- concepts/ai-silicon-shortage(GPU/HBM 短缺是本轮涨价的供给侧根源)
- concepts/ai-industry-panorama(算力涨价在产业链中的位置)
更新 2026-04-21: MaaS — 从边缘到中心的结构性转变¶
来源: sources/latepost-volcengine-maaS-202603 (晚点LatePost 独家)
Token 消耗里程碑¶
- 全球仅 3 家超 100 万亿 tokens/日: OpenAI, Google, 字节跳动
- 中国日均: 2024 初 1000 亿 → 2026 Q1 100 万亿+ (2 年 1000x)
- 字节豆包个人用户 Token 1 个月增长 16 倍
AI 云战争¶
| 厂商 | 策略 | 目标 |
|---|---|---|
| 火山引擎 | MaaS 销售考核第一, 先模型→拉动 IaaS/PaaS | 2026 MaaS 收入 >100 亿元 (已上调) |
| 阿里云 | 百炼战役 → Token Hub 事业群 (吴泳铭带队) | 拿下中国 AI 云增量的 80% |
| AWS | MaaS 将与 EC2 平起平坐 | MaaS ≈ EC2 收入 (AWS 30%+ 占比) |
| MiniMax | 首个全模态统一 Token Plan | 从 Coding Plan 升级为 Token Plan |
市场空间重估¶
- 2024 中国 MaaS 仅 7.1 亿元 (vs 公有云 3000 亿+)
- MaaS 收入占比可能达到云厂商总收入 30%+
- 阿里云刘伟光: "下一年增量的 10% 都会大于上一年的全量"
Agent = Token 放大器¶
- Claude Code: GitHub 4% commits, 年底可能 20%+
- OpenClaw: Agent 从 Coding → 大众场景
- 智谱涨价 30%+ 后调用量反增 400% — 高质量 Token 供不应求
Alpha¶
- MaaS 是从 7 亿到千亿级的结构性机会 — 不是 incremental, 是 exponential
- 火山引擎是最被低估的 AI 云玩家 — 起步最晚但 MaaS 最激进
- 黄仁勋 GTC 定调: Token = 数字世界最值钱的大宗商品
- 涨价周期 + Agent 放大 = 双重驱动: 供给侧 (GPU/HBM) 涨价, 需求侧 (Agent) 暴增
更新 2026-04-21: 算力重心从训练→推理的结构性迁移¶
来源: sources/latepost-terafab-gtc-202604 (晚点播客, Fusion Fund 张璐)
训练/推理比例倒挂¶
| 时期 | 训练 | 推理 |
|---|---|---|
| 过去 | 80% | 20% |
| 现在 | ~50% | ~50% |
| 2027 预测 | 20% | 80% |
- 黄仁勋预测 2027 数据中心收入可能超过 1 万亿美元
- 训练是一次性投入, 推理是持续性庞大现金流 (Agent 铺设)
多架构共存时代¶
- 不再单一依附 GPU: CPU (Vera) + LPU (Groq) + NPU (高通) 各有所长
- Agent 时代: 持续调用工具/运行代码/多智能体协同 → CPU 依赖加深
- 某些新型模型架构在 CPU 上效率反而高于 GPU
- 高通收购端侧小模型公司 → NPU 对边缘 AI 部署至关重要
企业级 AI 算力需求爆发¶
- Fortune 1000 CTO AI 预算大幅增加 — 某 CTO $120 亿 预算
- 垂直 AI 偏好小语言模型: 本地部署/低延迟/低成本/隐私保护
- 金融/保险/医疗 AI 整合只需 3-4 个月
- 不到 10 人团队一年内收入从零到 2000 万美元
Alpha¶
- 推理芯片价值重估: Groq (LPU), Vera (CPU), NPU — 不再是 GPU 一家独大
- 企业 AI 预算爆发: 从技术探索 → 大规模部署, 垂直小模型需求激增
- 算力架构多样化: 训练 (GPU 主导) vs 推理 (多架构) → 投资逻辑分化
更新 2026-04-24: 曦望 — 国内首家百亿估值纯推理GPU独角兽¶
来源: sources/qbitai-xiwang-inference-gpu-202604 (量子位专访)
核心数据¶
- 7轮40亿融资,最新10亿(2026赛道最大单笔),估值超百亿
- 分拆独立仅1年多,团队400+人,研发占比>80%
- 每一代芯片一次性流片成功并点亮
"三位一体"核心团队¶
| 角色 | 人物 | 背景 |
|---|---|---|
| 董事长 | 徐冰 | 商汤联合创始人 |
| 联席CEO | 王勇 | 前AMD、昆仑芯核心架构师,20+年半导体经验 |
| 联席CEO | 王湛 | 前百度资深副总裁,百度创始团队成员 |
核心判断: 算力需求结构反转¶
"2026年AI推理计算需求将达到训练算力需求的4-5倍。"
驱动力: Agent时代Token消耗暴增,单次对话→多轮循环思考,Token消耗达过去几十倍甚至上百倍。
启望S3推理GPU¶
| 规格 | 参数 |
|---|---|
| 设计哲学 | All in推理,裁剪训练模块,单位面积算力效率提升5倍+ |
| AI Core利用率 | GEMM ~99%,Flash Attention ~98% |
| 显存 | LPDDR6(国内首个),最大~600GB(国内最大) |
| 互联 | PCIe Gen6(国内首个),带宽翻倍 |
| CUDA兼容 | 99%+ |
成本目标: 百万Token压至一分钱,单位Token成本降90%。
技术路线¶
- 通用GPU架构保证适配性,底层自研保证自主可控
- 全栈自研(硬件AI Core+软件),自主开发仿真验证工具
- 中国GPU公司里最大的ESOP池
Alpha¶
- 推理专用芯片赛道验证: 曦望All in推理 vs 天数智芯训推分离 vs 其他训推一体
- 国产GPU分化: 不同技术路线的竞争格局正在形成
- 成本目标若实现: 将大幅激活Agent普及,推理算力从"贵族"变"普惠"
- 互联网大厂策略: 主攻最难服务客户,压力下打磨产品