跳转至

曦望 — 国内首家百亿估值纯推理GPU独角兽

来源: 量子位专访曦望联席CEO王湛 | 2026-04-23


核心数据

指标 数据
成立时间 分拆独立仅1年多
融资轮数 7轮,累计40亿元
最新融资 10亿元 (2026年赛道最大单笔)
估值 超百亿,国内首家纯推理GPU独角兽
团队规模 400余人,研发占比>80%
流片记录 每一代芯片一次性流片成功并点亮

"三位一体"核心团队

角色 人物 背景 职责
董事长 徐冰 商汤联合创始人 战略方向与融资
联席CEO 王勇 前AMD、昆仑芯核心架构师,20+年半导体经验 芯片研发
联席CEO 王湛 前百度资深副总裁,百度创始团队成员 商业化、运营、市场

团队特征: - 核心技术骨干来自英伟达、AMD、华为海思、阿里、商汤 - 平均行业经验>15年 - ESOP池: 王湛称"所有中国GPU公司里最大的员工持股计划"


核心论点: 算力需求结构反转

训练 vs 推理

"2026年,AI推理计算的需求量将达到训练算力需求的4-5倍。" — 王湛

反转驱动力: Agent时代Token消耗暴增 - 单次对话 → 多轮循环思考 - Token消耗达到过去的几十倍甚至上百倍 - 案例: 国外用户跟龙虾说"Hi"烧掉80美元Token

核心判断:

"谁掌握最低的推理成本,谁就是赢家。" "推理,才是真正的AI工业化。"


产品: 启望S3推理GPU

设计哲学

  • All in推理: 放弃训练能力,专为大模型推理原生深度定制
  • 裁剪训练态模块 → 晶体管/功耗预算集中投向推理
  • 单位面积有效算力效率提升5倍+

核心规格

规格 参数
AI Core利用率 GEMM ~99%,Flash Attention ~98%
精度支持 FP16→FP4全链路低精度
显存 LPDDR6(国内首个),最大~600GB(国内最大)
互联 PCIe Gen6(国内首个),带宽翻倍
CUDA兼容 99%+

成本目标

"把百万Token成本压至一分钱" "单位Token成本降90%"

架构创新

  1. 计算层深度定制
  2. AI Core专为推理而生
  3. 核心算子利用率拔高到99%/98%
  4. 低精度运算吞吐量翻数倍

  5. 系统层大胆创新

  6. LPDDR6: 国内首个,解决KV Cache暴增痛点
  7. PCIe Gen6: 国内首个,系统通信带宽翻倍
  8. 长上下文记忆瓶颈突破

  9. 全栈自研

  10. 硬件AI Core 100%自研
  11. 软件全栈100%自研
  12. 自主开发全套仿真验证工具

技术路线选择

通用GPU vs ASIC

维度 曦望选择 理由
架构 通用GPU 对各种客户需求、不同Agent的极强适配性
生态 兼容CUDA 客户零迁移成本
自主 底层自研 通过自己写底层代码实现,非依赖

"自主可控与兼容CUDA并不矛盾,这是路线选择的问题。"


行业判断

AI是泡沫还是工业革命?

王湛亲历2000年互联网泡沫: - 2000年中国网民仅几百万,PC网民破亿用了十年 - ChatGPT成为人类历史上最快破亿应用 - AI基础价值上升速度"远超人类过往任何一次产业革命"

"如果工业革命花了百年,信息革命花了二三十年,那么AI智能革命可能把社会的巨变压缩到短短几年。" "它或许上个月还是很大的泡沫,下个月就变成小泡沫了。"

算力市场展望

"供不应求" — 限制增长的根本不是市场需求,而是生产工具

  • 光模块造不过来
  • 内存被抢光涨了十倍
  • 服务器都在抢

需求弹性:

"Seedance 2.0生成视频如果能从排队4小时缩短到1分钟,使用量会增加多少倍?"


商业化策略

主攻方向: 互联网大厂

"必须去找最难服务、标准最高的客户。只有在最大压力下被打磨出来的产品,才能真正立住根基。"


Alpha含义

  1. 推理算力结构性机会: 2026年推理需求达训练4-5倍,专用推理芯片赛道验证
  2. 国产GPU分化: 曦望All in推理 vs 天数智芯训推分离 vs 其他训推一体
  3. 技术路线验证: LPDDR6+PCIe Gen6+全栈自研能否实现成本目标
  4. 团队竞争力: "三位一体"架构+最大ESOP池+一次性流片记录
  5. 非直接标的: 曦望未上市,关注国产推理芯片赛道对NVDA的长期竞争影响

相关页面