跳转至

AI 大模型发布周期与产业链传导

更新 2026-04-24: GPT Image 2 — 13人团队4个月重构底层架构

来源: sources/qbitai-gpt-image2-team-202604 (量子位)

核心突破

  • 团队规模: 仅13人,4个月从GPT Image 1.5到2.0
  • 技术路线: 拒绝透露扩散/自回归,仅称"通用模型"或"图像领域的GPT"
  • 架构推测: 陈博远代表作Diffusion Forcing(NeurIPS 2024) — 融合逐token扩散+因果预测

关键人物: 陈博远 (Boyuan Chen)

  • MIT博士(导师Vincent Sitzmann),2025年6月加入OpenAI
  • 高中不懂Python → 8年后OpenAI Research Lead
  • SpatialVLM: 被Gemini 2.0采用的指令微调技术
  • 同时参与Sora视频生成团队

团队特征

  • 华人占比高: 陈博远、Jianfeng Wang、Yuguang Yang、Weixin Liang等核心成员
  • 跨界背景: 量化分析师、纳米机器人、语音搜索 → 图像生成
  • 年轻: 多位2025年博士刚毕业即成为核心

技术亮点

能力 突破
文字渲染 多语言精准(中文/韩文/孟加拉语)
世界知识 钟表时间精准控制,复杂空间布局执行
信息图表 75页论文→7张幻灯片自动生成

Alpha含义

  1. 架构创新>算力堆砌: 小团队快速突破验证算法创新空间
  2. Diffusion Forcing范式: 扩散+自回归融合可能扩散到视频/3D
  3. 多模态统一: GPT Image 2与Sora、GPT-4o统一架构方向

2026 春节密集发布

厂商 模型 关键升级
Anthropic Claude Sonnet 4.6 编程+智能体+100万token
Google Gemini 3.1 Pro 推理 2x,ARC-AGI-2 77.1%
字节 Seedance 2.0 + Seed 2.0 Pro 对标 GPT-5.2
阿里 Qwen3.5 MoE 3970亿参,激活仅170亿
xAI Grok 4.2 4 Agent 并行推理

最新动态 (2026-04-14 ~ 04-19)

火山引擎 Seedance 2.0 API 全面开放 (04-14)

  • 支持文字/图片/音频/视频四模态输入,业界最全面的多模态内容参考和编辑能力
  • 春晚《贺花神》《驭风歌》舞台效果使用;漫短剧制作效率提升10倍
  • 具身智能:数十家头部企业用于生成物理合规的具身交互数据
  • 自动驾驶:生成极限工况(暴雨/大雾/降雪/光线反射)训练数据
  • 字节系AI视频能力企业级开放,加速 AIGC 工业化

极佳世界:动作中心世界模型 (04-14)

  • 国内公司超越 Generalist,进化到动作中心世界模型
  • 范式转变:从"描述世界"到"驱动动作",目标导向 > 通用建模
  • 与世界模型赛道 阿里HappyOyster/智象/谷歌Genie3 形成差异化路线

阿里世界模型 HappyOyster「快乐生蚝」(04-18)

  • 谷歌向左(Genie3游戏仿真)、李飞飞往右(物理世界建模),阿里杀出第三条路
  • 详见之前已记录的 ATH/HappyOyster 世界模型更新

明略科技 Mano-P 1.0:GUI-VLA 13个SOTA (04-13)

  • 开源GUI-VLA模型,13个榜单SOTA
  • 龙虾界掌管GUI的神 → GUI自动化/Agent操作新标杆

具身数据采集突破 (04-13)

  • 国内首个六维力全感知数采系统:VLA模型进化出力触觉
  • 具身数据云商城:全球首个、百亿级、全模态、高自由度 (04-18)
  • 判断:数据层正成为具身智能最核心的竞争壁垒

清华 StreamingVLA (04-18)

  • 告别"想完再做"卡顿,VLA边想边行动,提速2.4倍
  • 流式推理架构 → 降低VLA延迟,具身实时控制的关键突破

蚂蚁 CodeFuse NES:无指令代码编辑 (04-18)

  • 不写Prompt,连按Tab完成重构
  • 代码Agent从"对话式"进化到"协作编辑式",对标Cursor/GitHub Copilot

π0.7 (04-17)

  • 涌现出组合泛化、跨本体迁移能力
  • VLA模型从单一机器人→跨本体通用操作

谷歌 Transformer+RNN 合体 (04-17)

  • 打破显存门槛,解锁超长上下文
  • 混合架构可能成为突破KV Cache瓶颈的第三条路线(vs Flash Attention/滑动窗口)

DeepSeek Mega MoE + FP4 Indexer (04-17)

  • 悄悄更新:Mega MoE 架构 + FP4 Indexer
  • FP4 精度 → 推理成本进一步下降

DeepSeek 融资 (04-18)

  • 梁文锋首次开口:估值680亿,融资20亿
  • 相对克制估值 → 可能在蓄力下一代模型发布
  • 详见 entities/DEEPSEEK

深势玻尔·跃迁实验室 (04-17)

  • AI全方位接管,全链路打通干湿闭环
  • AI for Science:从计算到实验的全自动化

DeepSeek 融资 — 梁文锋首次公开

  • 估值: 仅 680 亿人民币,融资 20 亿
  • 意义: DeepSeek 选择低调估值,可能为了保持战略灵活性和避免过高预期压力
  • 对比: 相比其他 AI 公司动辄千亿估值,DeepSeek 走务实路线

π0.7 — 涌现组合泛化 + 跨本体迁移

  • 发布: 04/17, 具身 VLA 领域重要更新
  • 能力: 组合泛化、跨本体迁移 — 意味着 VLA 模型可以在不同机器人之间迁移
  • 影响: 降低具身智能部署成本,单一模型可服务多品牌机器人

清华 StreamingVLA — VLA 提速 2.4 倍

  • 核心突破: 告别"想完再做"卡顿,让 VLA 边想边行动
  • 意义: 实时性是具身智能落地关键瓶颈,Streaming 架构解决推理延迟

蚂蚁 CodeFuse NES — 无指令代码编辑框架

  • 能力: 不写 Prompt,连按 Tab 完成重构
  • 方向: AI Coding Agent 从"对话式"进化到"无缝编辑式"

DeepSeek 技术更新 — Mega MoE + FP4 Indexer

  • DeepSeek 悄悄更新技术栈,Mega MoE 架构 + FP4 精度索引器

最新动态 (2026-04-14 ~ 04-19)

字节 Seedance 2.0 API 全面开放 (04-14)

  • 火山引擎正式上线 Seedance 2.0 系列 API,支持文字/图片/音频/视频四模态输入
  • 影视:2026春晚《贺花神》《驭风歌》使用;漫短剧:巨日禄效率提升近10倍
  • 具身智能:数十家头部企业用于生成具身交互数据(机器人作业、室内行走等场景)
  • 自动驾驶:头部企业用于生成极限工况环境数据(暴雨、大雾、降雪等)

极佳世界:动作中心世界模型 (04-14)

  • 超越 Generalist 范式,进化到"动作中心"世界模型
  • 目标导向建模,而非通用世界建模

明略科技开源 GUI-VLA Mano-P 1.0 (04-13)

国内首个六维力全感知数采 (04-13)

  • 原生全感知力触数采系统,VLA模型进化出力触觉
  • 力觉数据是具身智能的关键瓶颈

NUS/复旦/清华联合:Latent Space 综述 (04-13)

  • 最新最全的大模型Latent Space综述
  • 潜空间正在成为理解模型内部表征的关键窗口

蚂蚁 CodeFuse NES 无指令代码编辑 (04-18)

  • 不写Prompt,连按Tab完成重构
  • 代码编辑从对话式进化到无指令式

深势玻尔·跃迁实验室 (04-17)

  • AI全方位接管,全链路打通干湿闭环
  • AI for Science 重要进展

谷歌 Transformer+RNN 合体 (04-17)

  • 谷歌打下显存门槛,解锁超长上下文
  • Transformer与RNN混合架构可能突破KV Cache瓶颈

π0.7 来了!(04-17)

智平方 × 西子联合 GOVLA (04-17)

  • 从高端制造到多元公共服务,具身智能全场景闭环

DeepSeek Mega MoE + FP4 Indexer (04-17)

清华 StreamingVLA (04-18)

  • 告别「想完再做」卡顿,VLA边想边行动,提速2.4倍
  • VLA推理效率重大突破

具身数据云商城 (04-18)

  • 全球首个、百亿级、全模态、高自由度
  • 具身数据云商城上线,数据是最大金矿

即将到来的发布 (2026 H2+)

  • Claude Mythos (Anthropic) — 下一代旗舰
  • DeepSeek V4 — 中国 MoE 进一步突破
  • GPT-6 (OpenAI) — 预计 2026 下半年

更新 2026-04-17: 世界模型赛道升温 — 智象未来 + 阿里 HappyOyster

智象未来 (HiDream.ai) — 超5亿元融资,押注"原生全模态世界模型"

  • 融资: 超5亿元新一轮,东方富海/安徽省产投/峰华资本等领投,合肥产投/安徽省AI母基金等老股东加注
  • 技术路线: "原生全模态世界模型" — 不是简单叠加图像/视频/语音/文本,而是统一架构对真实物理世界进行建模(全模态表达 + 因果推演 + 物理世界构建)
  • 已有成绩:
  • HiDream-I1 图像生成模型: Artificial Analysis 榜首,中国自研首个登顶
  • HiDream-E1.1 图像编辑: Artificial Analysis 第一梯队,超 Flux.1 Kontext
  • vivago.ai: 全球首个开放使用的视频生成 DiT 架构模型
  • 开源模型下载超 200 万次,被誉为"图片模型领域的 DeepSeek"
  • 商业化: 1+1+3 模式 — 1个大模型底座 + 1个Token Hub + 3大场景(商业营销/影视创作/社媒创作);Q1 2026 营收已超过 2025 全年
  • 生态合作:
  • 具身智能: 与诺亦腾机器人合作,"真实数据 + 生成式视频数据" 融合新范式 → 解决具身智能数据瓶颈
  • 生命科学: 联合百图生科 (BioMap),聚焦虚拟细胞等微观世界模型
  • Alpha: 世界模型从具身智能→生命科学→物理AI的横向扩展趋势,智象是"世界模型"赛道的新兴纯正标的

阿里 ATH — HappyOyster 世界模型

  • 阿里发布世界模型 HappyOyster,与谷歌 Genie3 竞争
  • 与智象路线不同,ATH 更偏基础设施侧(阿里云 + Meoo 开发工具打通)
  • 详见 concepts/ai-compute-economics

趋势判断

世界模型正从 "具身智能专用" → "通用物理世界建模" 演进: - 智象: 全模态统一建模 (视觉+视频+语音+文本+物理因果) - 阿里: 基础设施侧 (HappyOyster + 阿里云) - 谷歌: Genie3 (游戏/仿真侧) - concepts/embodied-ai-supply-chain 的关系: 世界模型是具身智能的 "大脑" 基础设施,智象+诺亦腾的 "生成式视频数据" 路线是对灵初/星动纪元 "人类真实数据" 路线的互补

每次大模型发布的产业链传导

新模型发布
  → 推理需求暴增(用户涌入 + API 调用量飙升)
    → GPU 租赁价格上涨(H100 租金半年涨 40%)
      → GPU 采购加速(NVIDIA 订单积压)
        → TSMC N3 产能更紧张
          → HBM 需求加速(更大模型=更多内存)
            → DRAM/NAND 涨价传导
              → SSD 价格跟涨(数据中心存储需求)
                → 电力需求增加

GPU/内存/SSD 价格走势判断

GPU

  • H100 租赁: 过去半年涨 40%,SemiAnalysis H100 Rental Price Index 持续上行
  • 新卡 (Blackwell) 供不应求
  • 判断: 持续涨价至 2027+

HBM / DRAM

  • HBM 消耗晶圆 3-4x 标准 DRAM → 挤压常规 DRAM 产能
  • 美光 CCO: "DRAM 涨价由 HBM 需求激增推动"
  • 韩国厂商涨价 30%,客户签 2-3 年长约囤货
  • 全球手机出货可能跌至 5-6 亿部(被 AI 挤压产能)
  • 判断: DRAM 持续涨价,2026 全年供不应求

SSD / NAND

  • NAND 同样被 AI 数据中心需求拉动
  • 训练数据集 + checkpoint 存储 + 推理缓存 → 企业级 SSD 需求爆发
  • 判断: 企业级 SSD 涨价趋势明确

提前布局逻辑

大模型发布是可预测的催化剂: - 发布前 1-2 月: 产业链预期升温(GPU/内存概念) - 发布后 1 周: 用户端爆发(API 收入预期上修) - 发布后 1-3 月: 基础设施瓶颈暴露(涨价传导)

更新 2026-04-19: Claude Design 发布 — AI 颠覆设计行业

来源: raw/wechat/机器之心/20260419_谷歌向左、李飞飞往右,阿里世界模型「快乐生蚝」杀出第三条路.md

核心事件

  • 2026-04-18: Anthropic 发布 Claude Design,由 Claude Opus 4.7 驱动
  • 市场反应: Figma、Adobe 等设计软件公司股价重挫
  • 定位: Claude Pro/Max/Team/Enterprise 用户的 AI 设计协作工具

关键能力

  • 自然语言→高保真交互原型/设计稿/幻灯片/营销物料
  • 支持导入代码库、图片、PPTX、网页元素
  • 团队设计系统自动应用,保持一致性
  • 与 Claude Code 联动:设计→代码一键移交
  • 导出格式:Canva/PDF/PPTX/HTML

行业含义

  1. Claude 从对话 AI → 垂直生产力工具:不只是聊天,而是直接产出专业级设计
  2. 设计行业门槛被打破:非专业设计师也能产出高质量设计
  3. Figma/Adobe 护城河受挑战:AI 原生设计工具 vs 传统 SaaS 的范式之争
  4. 订阅模式冲击:单用户 Claude 可替代多个设计师席位

详见 concepts/ai-design-disruption


更新 2026-04-14: 谷歌开源 Gemma 4 — 端侧 AI Agent 关键里程碑

来源: raw/wechat/InfoQ/20260414_谷歌重磅开源Gemma_4!手机离线跑_Agent、还降内存,Qwen_被拉进正面对决_-_InfoQ.md

发布概况 - 时间: 2026-04-03 凌晨(北京时间 04-14 报道) - 许可: Apache 2.0 商业许可,可自由修改和部署 - 规格: 4 种版本 — E2B(有效 2B)、E4B(有效 4B)、26B MoE、31B Dense - 核心定位: 端侧 AI Agent 工作流,复杂推理能力,低功耗设备离线运行

技术突破 - 端侧优化: E2B/E4B 采用 PLE(每层嵌入)技术,推理时仅激活 20 亿/40 亿参数,显著降低内存和电量消耗 - 设备适配: 已与 Pixel、高通、联发科合作,可在手机、树莓派、NVIDIA Jetson Nano 离线运行,延迟接近零 - MoE 架构: 26B 模型推理时仅激活 38 亿参数,兼顾速度与知识储备 - 多模态增强: 全系支持文本+图像(可变分辨率),E2B/E4B 原生支持视频+音频输入 - 上下文窗口: 端侧 128K,大模型最高 256K - 原生 Agent 能力: 内置函数调用、结构化 JSON 输出、系统指令支持,覆盖 140+ 语言

性能表现 - 排名: 31B 在 Arena AI 文本榜(2026-02-01)开源模型第 3 位,26B MoE 第 6 位 - 对标: 社区测试显示 Qwen3.5-27B 略优于 Gemma 4 31B,中美端侧 AI 进入正面对决阶段 - 越级发挥: 谷歌声称在部分基准测试中优于参数大 20 倍的模型

硬件需求(官方估算,仅静态权重,不含 KV Cache) - E2B/E4B: 消费级设备可运行 - 26B MoE: 需加载全部 260 亿参数到内存(尽管推理仅激活 40 亿) - 31B Dense: 针对消费级 GPU 优化 - 支持硬件: NVIDIA(Jetson Nano 到 Blackwell GPU)、AMD GPU(ROCm)、Google Cloud TPU

产业链影响 1. 端侧推理芯片需求激增: 高通、联发科深度合作验证,移动 SoC AI 算力成为核心竞争力 2. 具身机器人加速本地化: 离线 Agent 能力降低对云端依赖,利好边缘计算方案 3. 开源生态分化: Apache 2.0 vs 其他限制性许可,商业友好度成为企业选型关键 4. 中美 AI 竞争维度扩展: 从大模型能力竞争扩展到端侧部署效率、多模态支持、商业许可等全方位对抗

投资含义 - 短期: 端侧 AI 芯片厂商(高通、联发科、NVIDIA Jetson 系列)受益明确 - 中期: 验证 AI Agent 从云端向边缘迁移趋势,利好低功耗高算力芯片赛道 - 长期: 开源模型商业化路径清晰(Apache 2.0),可能冲击闭源模型 API 业务,关注垂直场景落地速度

更新 2026-04-14: Claude Mythos 循环架构猜想 — 字节 Seed 技术疑云

来源: raw/wechat/量子位/20260414_Claude强到不敢发的Mythos,被质疑用了字节Seed技术_–_量子位.md

核心事件

  • Anthropic "强到不敢公开发布"的 Mythos 模型被质疑采用循环语言模型(LoopLM)架构
  • 技术概念来自字节 Seed 团队与多所高校合作论文,Yoshua Bengio 参与
  • 关键证据: Mythos 在图搜索测试 GraphWalks BFS 中 80% vs GPT5.4 的 21.4%,接近 4 倍差距

LoopLM 架构特点

  1. 潜空间迭代: 不输出长文思考,在模型内部潜空间反复计算,不额外消耗 token
  2. 自适应深度: 简单题少循环,难题多循环,自动调节推理步数
  3. 预训练范式变化: 学习"如何在潜空间思考",而非仅"预测下一个 token"
  4. 知识操作 vs 知识存储: 不增加知识库容量(仍是每参数 2bits),但多跳推理/图搜索能力随循环步数指数级增长

实验数据验证

  • 字节 Ouro 系列: 1.4B 循环模型对标 4B 传统模型,2.8B 相当于 8B-12B
  • Mythos 异常特征:
  • Token 用量是 Opus 4.6 的 ⅕,但速度更慢(计算发生在潜空间)
  • 网络安全 CyberGym 测试 83.1% vs Opus 66.6%(+17pp),找到上千零日漏洞
  • 图遍历任务异常尖峰,而非通用任务均匀提升

Alpha 含义

  • 架构创新 > Scaling Law: "Scaling Law 改善一切相对均匀,架构创新在匹配其归纳偏置的任务上创造异常尖峰"
  • 中国 AI 技术输出: 字节 Seed 团队论文被 Anthropic 疑似采用,显示中国基础研究影响力
  • 推理成本结构变化: 价格贵 5 倍但 token 用量少,反映潜空间计算成本 vs token 生成成本的新 trade-off
  • 关注方向: 循环架构在图算法/代码漏洞/多跳推理等特定领域的垂直突破,而非通用能力提升

投资映射: 架构创新窗口期关注字节/Anthropic 等前沿团队动向,警惕 Scaling Law 线性外推假设失效