曦望 — 国内首家百亿估值纯推理GPU独角兽¶

来源: 量子位专访曦望联席CEO王湛 | 2026-04-23

核心数据¶

指标	数据
成立时间	分拆独立仅1年多
融资轮数	7轮，累计40亿元
最新融资	10亿元 (2026年赛道最大单笔)
估值	超百亿，国内首家纯推理GPU独角兽
团队规模	400余人，研发占比>80%
流片记录	每一代芯片一次性流片成功并点亮

"三位一体"核心团队¶

角色	人物	背景	职责
董事长	徐冰	商汤联合创始人	战略方向与融资
联席CEO	王勇	前AMD、昆仑芯核心架构师，20+年半导体经验	芯片研发
联席CEO	王湛	前百度资深副总裁，百度创始团队成员	商业化、运营、市场

团队特征: - 核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤 - 平均行业经验>15年 - ESOP池: 王湛称"所有中国GPU公司里最大的员工持股计划"

核心论点: 算力需求结构反转¶

训练 vs 推理¶

"2026年，AI推理计算的需求量将达到训练算力需求的4-5倍。" — 王湛

反转驱动力: Agent时代Token消耗暴增 - 单次对话 → 多轮循环思考 - Token消耗达到过去的几十倍甚至上百倍 - 案例: 国外用户跟龙虾说"Hi"烧掉80美元Token

核心判断:

"谁掌握最低的推理成本，谁就是赢家。" "推理，才是真正的AI工业化。"

产品: 启望S3推理GPU¶

设计哲学¶

All in推理: 放弃训练能力，专为大模型推理原生深度定制
裁剪训练态模块 → 晶体管/功耗预算集中投向推理
单位面积有效算力效率提升5倍+

核心规格¶

规格	参数
AI Core利用率	GEMM ~99%，Flash Attention ~98%
精度支持	FP16→FP4全链路低精度
显存	LPDDR6(国内首个)，最大~600GB(国内最大)
互联	PCIe Gen6(国内首个)，带宽翻倍
CUDA兼容	99%+

成本目标¶

"把百万Token成本压至一分钱" "单位Token成本降90%"

架构创新¶

计算层深度定制
AI Core专为推理而生
核心算子利用率拔高到99%/98%
低精度运算吞吐量翻数倍
系统层大胆创新
LPDDR6: 国内首个，解决KV Cache暴增痛点
PCIe Gen6: 国内首个，系统通信带宽翻倍
长上下文记忆瓶颈突破
全栈自研
硬件AI Core 100%自研
软件全栈100%自研
自主开发全套仿真验证工具

技术路线选择¶

通用GPU vs ASIC¶

维度	曦望选择	理由
架构	通用GPU	对各种客户需求、不同Agent的极强适配性
生态	兼容CUDA	客户零迁移成本
自主	底层自研	通过自己写底层代码实现，非依赖

"自主可控与兼容CUDA并不矛盾，这是路线选择的问题。"

行业判断¶

AI是泡沫还是工业革命？¶

王湛亲历2000年互联网泡沫： - 2000年中国网民仅几百万，PC网民破亿用了十年 - ChatGPT成为人类历史上最快破亿应用 - AI基础价值上升速度"远超人类过往任何一次产业革命"

"如果工业革命花了百年，信息革命花了二三十年，那么AI智能革命可能把社会的巨变压缩到短短几年。" "它或许上个月还是很大的泡沫，下个月就变成小泡沫了。"

算力市场展望¶

"供不应求" — 限制增长的根本不是市场需求，而是生产工具

光模块造不过来
内存被抢光涨了十倍
服务器都在抢

需求弹性:

"Seedance 2.0生成视频如果能从排队4小时缩短到1分钟，使用量会增加多少倍？"

商业化策略¶

主攻方向: 互联网大厂

"必须去找最难服务、标准最高的客户。只有在最大压力下被打磨出来的产品，才能真正立住根基。"

Alpha含义¶

推理算力结构性机会: 2026年推理需求达训练4-5倍，专用推理芯片赛道验证
国产GPU分化: 曦望All in推理 vs 天数智芯训推分离 vs 其他训推一体
技术路线验证: LPDDR6+PCIe Gen6+全栈自研能否实现成本目标
团队竞争力: "三位一体"架构+最大ESOP池+一次性流片记录
非直接标的: 曦望未上市，关注国产推理芯片赛道对NVDA的长期竞争影响