GPT Image 2团队揭秘 — 13人4个月重构底层架构¶

来源: 量子位 | 2026-04-23 核心信息: GPT Image 2研究负责人陈博远揭秘底层架构已彻底重构

核心突破¶

GPT Image 2全网刷屏，效果大幅提升的关键：底层架构已彻底重构。

时间线: 从2025年12月底的GPT Image 1.5算起，仅用4个月实现重大突破
团队规模: 核心团队仅13人
技术路线: 拒绝透露是否采用扩散模型或自回归，仅描述为"通用模型"或"图像领域的GPT"

核心团队成员¶

陈博远 (Boyuan Chen) — Research Lead¶

背景: - MIT博士，导师Vincent Sitzmann - 2025年6月加入OpenAI，迅速成为GPT图像生成五人核心成员之一 - 同时参与Sora视频生成团队

关键研究: - Diffusion Forcing (NeurIPS 2024): 将逐token独立噪声级扩散与因果下一个token预测结合，融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势 - SpatialVLM (谷歌实习): 自动构建互联网规模3D空间推理VQA数据集(1000万图像、20亿QA对)，赋予VLM定量空间推理能力 - 指令微调技术被Gemini 2.0采用

成长路径: - 高中科研夏令营时还不懂Python基本语法 - 谷歌DeepMind资深研究员夏斐两次邀请实习 - 从不懂Python到Research Lead仅用约8年

Jianfeng Wang — 世界知识理解¶

背景: - 中科大博士 - 微软工作近9年，期间与OpenAI合作DALL-E 3

核心贡献: - 让生图AI理解世界知识 - 解决"钟表永远指向10:10"问题(源于网络广告图偏见) - 复杂空间布局精准执行(苹果在中心、杯子在右边、书在上面...)

Yuguang Yang — 信息图表生成¶

背景: - 浙大竺可桢学院本科，约翰斯霍普金斯博士(计算化学物理与机器学习) - 跨界经历: 量化分析师 → 清华访问研究员(纳米机器人RL) → 亚马逊Alexa语音 → 微软Bing搜索

核心贡献: - GPT Image 2信息图和PPT生成能力 - 75页GPT-3论文 → 自动生成7张幻灯片 - 提醒: 做信息图要选择"思考模式"

Gabriel Goh — 团队负责人¶

背景: - 2019年加入OpenAI - 从DALL-E开始参与OpenAI多模态研究全程 - 早期研究偏向理论(可解释性、凸优化)

Weixin Liang — MoE与多模态效率¶

背景: - 斯坦福博士，浙大竺可桢学院本科 - 2025年博士刚毕业加入OpenAI

关键研究: - Mixture-of-Transformers (Meta实习): 模态解耦的MoE+解耦注意力，显著降低多模态模型预训练计算成本

其他核心成员¶

成员	背景	贡献
Kenji Hata	-	透露GPT Image 1.0即GPT-4o图像生成部分
Ayaan Haque	前Luma AI	参与Dream Machine视频生成基础模型训练
Bing Liang	前Google 5年+	Imagen3、Veo、Gemini Multimodal → OpenAI
Mengchao Zhong	上海交大本科，TAMU硕士	多模态产品工程
Dibya Bhattacharjee	耶鲁，2015 IPhO铜牌	-
Kiwhan Song	MIT博士(与陈博远同导师)	2025年10月最晚加入，团队提示词大师

技术路线推测¶

Diffusion Forcing架构¶

陈博远的博士代表作Diffusion Forcing可能是GPT Image 2的核心技术：

传统扩散模型: 全序列统一噪声级
自回归模型: 逐token预测

Diffusion Forcing: 逐token独立噪声级 + 因果下一个token预测
                 = 自回归的可变长度 + 扩散的长程引导

优势: - 可变长度生成(自回归特性) - 长程一致性(扩散特性) - 可能支持"图像领域的GPT"描述

多模态效率优化¶

Weixin Liang的Mixture-of-Transformers贡献： - 模态解耦的MoE - 解耦注意力机制 - 降低多模态预训练计算成本

能力展示¶

文字渲染¶

多语言精准渲染: 中文、韩文、孟加拉语
陈博远演示: 为家乡无锡、首尔队友、孟加拉队友生成海报

世界知识理解¶

钟表时间精准控制(2:25、3:30、9:10、7:45)
复杂空间布局执行

信息图表¶

长文档自动转PPT
科研级信息图生成

团队特征¶

华人占比高¶

团队AI全家福评论区: "怎么全是亚洲人？"
核心成员: 陈博远、Jianfeng Wang、Yuguang Yang、Weixin Liang、Mengchao Zhong等

跨界与年轻¶

陈博远: 高中不懂Python → MIT博士 → OpenAI Research Lead
Yuguang Yang: 量化 → 纳米机器人 → 语音 → 搜索 → 图像生成
多位2025年博士刚毕业即加入并成为核心

OpenAI文化¶

不限制专业、欢迎跨界
信奉自下而上涌现式研究
小团队突破 → 公司倾斜资源 → 改变世界

Alpha含义¶

架构创新>算力堆砌: 13人团队4个月突破，证明算法创新仍有大空间
Diffusion Forcing路线: 融合扩散+自回归的新范式可能扩散到视频/3D生成
华人AI人才: 核心团队华人占比高，中国AI教育/人才竞争力持续验证
多模态统一趋势: GPT Image 2与Sora、GPT-4o统一架构方向
非直接标的: OpenAI未上市，对NVDA等算力标的间接利好