跳转至

GPT Image 2团队揭秘 — 13人4个月重构底层架构

来源: 量子位 | 2026-04-23 核心信息: GPT Image 2研究负责人陈博远揭秘底层架构已彻底重构


核心突破

GPT Image 2全网刷屏,效果大幅提升的关键:底层架构已彻底重构

  • 时间线: 从2025年12月底的GPT Image 1.5算起,仅用4个月实现重大突破
  • 团队规模: 核心团队仅13人
  • 技术路线: 拒绝透露是否采用扩散模型或自回归,仅描述为"通用模型"或"图像领域的GPT"

核心团队成员

陈博远 (Boyuan Chen) — Research Lead

背景: - MIT博士,导师Vincent Sitzmann - 2025年6月加入OpenAI,迅速成为GPT图像生成五人核心成员之一 - 同时参与Sora视频生成团队

关键研究: - Diffusion Forcing (NeurIPS 2024): 将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势 - SpatialVLM (谷歌实习): 自动构建互联网规模3D空间推理VQA数据集(1000万图像、20亿QA对),赋予VLM定量空间推理能力 - 指令微调技术被Gemini 2.0采用

成长路径: - 高中科研夏令营时还不懂Python基本语法 - 谷歌DeepMind资深研究员夏斐两次邀请实习 - 从不懂Python到Research Lead仅用约8年

Jianfeng Wang — 世界知识理解

背景: - 中科大博士 - 微软工作近9年,期间与OpenAI合作DALL-E 3

核心贡献: - 让生图AI理解世界知识 - 解决"钟表永远指向10:10"问题(源于网络广告图偏见) - 复杂空间布局精准执行(苹果在中心、杯子在右边、书在上面...)

Yuguang Yang — 信息图表生成

背景: - 浙大竺可桢学院本科,约翰斯霍普金斯博士(计算化学物理与机器学习) - 跨界经历: 量化分析师 → 清华访问研究员(纳米机器人RL) → 亚马逊Alexa语音 → 微软Bing搜索

核心贡献: - GPT Image 2信息图和PPT生成能力 - 75页GPT-3论文 → 自动生成7张幻灯片 - 提醒: 做信息图要选择"思考模式"

Gabriel Goh — 团队负责人

背景: - 2019年加入OpenAI - 从DALL-E开始参与OpenAI多模态研究全程 - 早期研究偏向理论(可解释性、凸优化)

Weixin Liang — MoE与多模态效率

背景: - 斯坦福博士,浙大竺可桢学院本科 - 2025年博士刚毕业加入OpenAI

关键研究: - Mixture-of-Transformers (Meta实习): 模态解耦的MoE+解耦注意力,显著降低多模态模型预训练计算成本

其他核心成员

成员 背景 贡献
Kenji Hata - 透露GPT Image 1.0即GPT-4o图像生成部分
Ayaan Haque 前Luma AI 参与Dream Machine视频生成基础模型训练
Bing Liang 前Google 5年+ Imagen3、Veo、Gemini Multimodal → OpenAI
Mengchao Zhong 上海交大本科,TAMU硕士 多模态产品工程
Dibya Bhattacharjee 耶鲁,2015 IPhO铜牌 -
Kiwhan Song MIT博士(与陈博远同导师) 2025年10月最晚加入,团队提示词大师

技术路线推测

Diffusion Forcing架构

陈博远的博士代表作Diffusion Forcing可能是GPT Image 2的核心技术:

传统扩散模型: 全序列统一噪声级
自回归模型: 逐token预测

Diffusion Forcing: 逐token独立噪声级 + 因果下一个token预测
                 = 自回归的可变长度 + 扩散的长程引导

优势: - 可变长度生成(自回归特性) - 长程一致性(扩散特性) - 可能支持"图像领域的GPT"描述

多模态效率优化

Weixin Liang的Mixture-of-Transformers贡献: - 模态解耦的MoE - 解耦注意力机制 - 降低多模态预训练计算成本


能力展示

文字渲染

  • 多语言精准渲染: 中文、韩文、孟加拉语
  • 陈博远演示: 为家乡无锡、首尔队友、孟加拉队友生成海报

世界知识理解

  • 钟表时间精准控制(2:25、3:30、9:10、7:45)
  • 复杂空间布局执行

信息图表

  • 长文档自动转PPT
  • 科研级信息图生成

团队特征

华人占比高

  • 团队AI全家福评论区: "怎么全是亚洲人?"
  • 核心成员: 陈博远、Jianfeng Wang、Yuguang Yang、Weixin Liang、Mengchao Zhong等

跨界与年轻

  • 陈博远: 高中不懂Python → MIT博士 → OpenAI Research Lead
  • Yuguang Yang: 量化 → 纳米机器人 → 语音 → 搜索 → 图像生成
  • 多位2025年博士刚毕业即加入并成为核心

OpenAI文化

  • 不限制专业、欢迎跨界
  • 信奉自下而上涌现式研究
  • 小团队突破 → 公司倾斜资源 → 改变世界

Alpha含义

  1. 架构创新>算力堆砌: 13人团队4个月突破,证明算法创新仍有大空间
  2. Diffusion Forcing路线: 融合扩散+自回归的新范式可能扩散到视频/3D生成
  3. 华人AI人才: 核心团队华人占比高,中国AI教育/人才竞争力持续验证
  4. 多模态统一趋势: GPT Image 2与Sora、GPT-4o统一架构方向
  5. 非直接标的: OpenAI未上市,对NVDA等算力标的间接利好

相关页面