GPT Image 2团队揭秘 — 13人4个月重构底层架构¶
来源: 量子位 | 2026-04-23 核心信息: GPT Image 2研究负责人陈博远揭秘底层架构已彻底重构
核心突破¶
GPT Image 2全网刷屏,效果大幅提升的关键:底层架构已彻底重构。
- 时间线: 从2025年12月底的GPT Image 1.5算起,仅用4个月实现重大突破
- 团队规模: 核心团队仅13人
- 技术路线: 拒绝透露是否采用扩散模型或自回归,仅描述为"通用模型"或"图像领域的GPT"
核心团队成员¶
陈博远 (Boyuan Chen) — Research Lead¶
背景: - MIT博士,导师Vincent Sitzmann - 2025年6月加入OpenAI,迅速成为GPT图像生成五人核心成员之一 - 同时参与Sora视频生成团队
关键研究: - Diffusion Forcing (NeurIPS 2024): 将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势 - SpatialVLM (谷歌实习): 自动构建互联网规模3D空间推理VQA数据集(1000万图像、20亿QA对),赋予VLM定量空间推理能力 - 指令微调技术被Gemini 2.0采用
成长路径: - 高中科研夏令营时还不懂Python基本语法 - 谷歌DeepMind资深研究员夏斐两次邀请实习 - 从不懂Python到Research Lead仅用约8年
Jianfeng Wang — 世界知识理解¶
背景: - 中科大博士 - 微软工作近9年,期间与OpenAI合作DALL-E 3
核心贡献: - 让生图AI理解世界知识 - 解决"钟表永远指向10:10"问题(源于网络广告图偏见) - 复杂空间布局精准执行(苹果在中心、杯子在右边、书在上面...)
Yuguang Yang — 信息图表生成¶
背景: - 浙大竺可桢学院本科,约翰斯霍普金斯博士(计算化学物理与机器学习) - 跨界经历: 量化分析师 → 清华访问研究员(纳米机器人RL) → 亚马逊Alexa语音 → 微软Bing搜索
核心贡献: - GPT Image 2信息图和PPT生成能力 - 75页GPT-3论文 → 自动生成7张幻灯片 - 提醒: 做信息图要选择"思考模式"
Gabriel Goh — 团队负责人¶
背景: - 2019年加入OpenAI - 从DALL-E开始参与OpenAI多模态研究全程 - 早期研究偏向理论(可解释性、凸优化)
Weixin Liang — MoE与多模态效率¶
背景: - 斯坦福博士,浙大竺可桢学院本科 - 2025年博士刚毕业加入OpenAI
关键研究: - Mixture-of-Transformers (Meta实习): 模态解耦的MoE+解耦注意力,显著降低多模态模型预训练计算成本
其他核心成员¶
| 成员 | 背景 | 贡献 |
|---|---|---|
| Kenji Hata | - | 透露GPT Image 1.0即GPT-4o图像生成部分 |
| Ayaan Haque | 前Luma AI | 参与Dream Machine视频生成基础模型训练 |
| Bing Liang | 前Google 5年+ | Imagen3、Veo、Gemini Multimodal → OpenAI |
| Mengchao Zhong | 上海交大本科,TAMU硕士 | 多模态产品工程 |
| Dibya Bhattacharjee | 耶鲁,2015 IPhO铜牌 | - |
| Kiwhan Song | MIT博士(与陈博远同导师) | 2025年10月最晚加入,团队提示词大师 |
技术路线推测¶
Diffusion Forcing架构¶
陈博远的博士代表作Diffusion Forcing可能是GPT Image 2的核心技术:
优势: - 可变长度生成(自回归特性) - 长程一致性(扩散特性) - 可能支持"图像领域的GPT"描述
多模态效率优化¶
Weixin Liang的Mixture-of-Transformers贡献: - 模态解耦的MoE - 解耦注意力机制 - 降低多模态预训练计算成本
能力展示¶
文字渲染¶
- 多语言精准渲染: 中文、韩文、孟加拉语
- 陈博远演示: 为家乡无锡、首尔队友、孟加拉队友生成海报
世界知识理解¶
- 钟表时间精准控制(2:25、3:30、9:10、7:45)
- 复杂空间布局执行
信息图表¶
- 长文档自动转PPT
- 科研级信息图生成
团队特征¶
华人占比高¶
- 团队AI全家福评论区: "怎么全是亚洲人?"
- 核心成员: 陈博远、Jianfeng Wang、Yuguang Yang、Weixin Liang、Mengchao Zhong等
跨界与年轻¶
- 陈博远: 高中不懂Python → MIT博士 → OpenAI Research Lead
- Yuguang Yang: 量化 → 纳米机器人 → 语音 → 搜索 → 图像生成
- 多位2025年博士刚毕业即加入并成为核心
OpenAI文化¶
- 不限制专业、欢迎跨界
- 信奉自下而上涌现式研究
- 小团队突破 → 公司倾斜资源 → 改变世界
Alpha含义¶
- 架构创新>算力堆砌: 13人团队4个月突破,证明算法创新仍有大空间
- Diffusion Forcing路线: 融合扩散+自回归的新范式可能扩散到视频/3D生成
- 华人AI人才: 核心团队华人占比高,中国AI教育/人才竞争力持续验证
- 多模态统一趋势: GPT Image 2与Sora、GPT-4o统一架构方向
- 非直接标的: OpenAI未上市,对NVDA等算力标的间接利好
相关页面¶
- entities/OPENAI — OpenAI实体页
- concepts/ai-model-release-cycle — AI模型发布周期
- sources/infoq-openai-1220b-funding-202604 — OpenAI $1220亿融资分析