从高端制造到多元公共服务，智平方×西子联合开启具身智能“全场景闭环”新纪元¶

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8

Title: SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你｜机器之心

URL Source: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8

Markdown Content:

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你

0%

展开列表

AI全方位接管，全链路打通干湿闭环，深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场，由谁来定义？2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了！涌现出组合泛化、跨本体迁移能力，VLA又行了？

04月17日

π 0.7

Image 21: img

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务，智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型，点燃下一个AI爆点（第二期）

04月17日

世界模型

Image 24: img

图灵也没想到，智能，必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来？乾坤未定，但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗？首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月，高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶，科大讯飞“招采Claw”如何让复杂招采省力合规？

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线，评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling？树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”，京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代：以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身？觅蜂杀进场破局：高质量数据水电一样即取即用

04月16日

觅蜂科技（Maniformer）

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架，实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

新闻资讯原创

6小时前

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你

“找AI生成电影海报，明明你偏爱硬核科幻的冷色调风格，它却给你画了小清新插画，简介写得像文艺片独白。”

这种“图文各玩各的”“AI不懂我”是当下AI多模态生成的普遍死穴。

我们是来自港科广和OPPO研究院的联合团队，今天和大家分享我们在个性化多模态生成领域的最新探索—DPPMG离散偏好学习框架，希望能为解决行业长期存在的“AI不懂用户”“图文生成割裂”痛点，提供一个全新的底层思路。相关论文《Discrete Preference Learning for Personalized Multimodal Generation》最近被国际信息检索顶会SIGIR 2026接收。

作者：张长旺@ https://changwangzhang.github.io

直击两个底层顽疾：我们之前都搞错了个性化生成的底层逻辑

现在的AI个性化生成，到底为什么总翻车？本质上是两个天生的瘸腿问题，从来没被真正解决过。

第一个问题，是偏好建模和内容生成的底层鸿沟。推荐系统搞了二十多年，最擅长的就是从你的点击、浏览、收藏里挖偏好，用图神经网络、协同过滤这些成熟方案，精准算出你喜欢的风格、题材、调性。但这些偏好输出的是连续的向量，就像一幅连绵的山水画；而当下主流的大模型、扩散模型，天生只认离散的token——也就是一个个独立的字、词、符号，像活字印刷里的单个铅字。

连续的山水画，没法直接拆成活字去印刷。之前的解决方案有多敷衍？要么把用户的历史内容直接全塞进prompt，有用的没用的混在一起，全是噪音；要么把图片转成干巴巴的文字描述，丢了90%的视觉细节，就像把一幅科幻海报写成“这是一张有飞船的图”，AI根本get不到你的审美。

第二个问题，是单模态生成的孤岛效应。我们现实里接触的内容，从来都是图文一体的：电影是海报配简介，广告是图片配文案，短视频是画面配台词。但现在的AI，生成图片和生成文字是两个完全独立的流水线，图片管审美，文字管内容，根本不互通。就像两个翻译，一个翻英文、一个翻中文，各翻各的，最后合起来驴唇不对马嘴。我们看到的绝大多数AI图文翻车，根源都在这里。

更让我们感到遗憾的是，很多个性化方案几乎都走上了“堆参数、堆算力”的弯路：全量微调成本高到中小公司难以承受，LoRA微调仍会破坏模型原有的通用能力，且无法从根本上解决上述两个底层矛盾。

技术核心设计：把模糊偏好变成AI能直接用的“专属活字”

我们提出的面向个性化多模态生成的离散偏好学习框架（DPPMG），核心逻辑可以通俗概述为：活字印刷式偏好定制。它用两阶段的设计，彻底补上了前面说的两个底层漏洞。

第一阶段，是把用户模糊的、连续的偏好，做成一套专属的、AI能直接读懂的“活字铅字”。

我们没有沿用传统的混合偏好建模方式，而是复刻了人类大脑“认知模块化”的逻辑——先为文本和视觉分别构建独立的用户交互图谱，分开建模用户的文字文风偏好和视觉审美偏好，从源头避免“图文风格错位”。

首先，我们采用推荐系统中成熟的LightGCN模型，分别提取用户的文本和视觉专属连续偏好向量。最关键的创新在于，我们引入残差向量量化（RQ-VAE），将连续的偏好向量拆解为固定长度、可解释的离散“偏好token”。

这个过程就像把人类复杂的情绪转化为精准的表情包：每个token对应一个明确的偏好标签（如“冷色调科幻”“紧凑叙事”），AI无需再猜测，可直接调用。

为了保证这些“活字”的可靠性，我们还加入了两个关键约束：

偏好真实性约束：确保用户点击过的内容得分永远高于未点击内容。
跨模态对齐约束：让同一风格的文本token和视觉token指向同一个语义空间，从根源上解决“图文各说各话”。

第二阶段，是把这些专属“活字”插进生成模型，用最小的成本实现个性化。

为了极致提升系统效率，整个过程，大模型和扩散模型的主干参数完全冻住，一丝不动，我们只微调这些偏好token相关的参数。就像你给一辆车换了一套定制的轮胎，发动机、变速箱全不动，就能让这辆车完美适配你的驾驶习惯，还不用重新造车。

之前的个性化生成，要么全量微调，成本高到中小公司根本碰不起；要么LoRA微调，还是要动大量参数，很容易把模型本身的通用能力搞崩。我们这个方案，需要训练的参数图像分支仅0.154%，文本分支仅0.448%，99.8%以上的模型参数保持不动。训练成本只有全量微调的几百分之一，单张A100显卡就能跑，几乎零成本，还不破坏原模型的能力。

最后，我们设计了“跨模态一致性+个性化”的联合奖励机制，一边确保生成的图文都贴合用户偏好，一边让图文的语义、风格完全对齐，优化“各说各话”的问题。

实验验证：低成本实现效果的全面超越

我们在电影和广告两个真实工业数据集上进行了全面的对比实验，结果显示：DPPMG在图像个性化相似度、文本个性化匹配度的多个核心指标上，均全面超越了此前的最优模型。

更有说服力的是用户研究结果：68.1%的测试用户认为，DPPMG生成的图文匹配度远高于同类方案。我们在论文中展示了几个直观的案例：

用户过往常浏览《星球大战》《夺宝奇兵》这类硬核科幻电影，参考内容是电影《异形》的基础信息，DPPMG生成的海报既保留了《异形》本身神秘暗黑的风格（黑绿配色、外星生物剪影），又融入了用户偏爱“柔和发光轮廓、略带卡通感角色”的视觉偏好；配套的电影简介，不仅精准保留了“太空商船、求救信号、未知生物”等核心剧情，还沿用了用户历史浏览内容中“救援、对抗、生存”的紧凑语气，图文语义高度契合，没有出现传统方案“海报暗黑、简介温情”的脱节问题。
给偏爱“冒险生存”风格的用户，生成的海报是角色特写、动态构图，简介侧重“绝境求生”的剧情；给喜欢“奇幻生物”风格的用户，海报则是充满神秘气息的生物造型，简介围绕“奇幻世界叛乱”展开。这两个案例清晰体现了DPPMG的核心优势——既能精准捕捉每个用户的个性化偏好（不管是视觉风格还是文本语气），又能保证生成的图文不脱节、风格统一，而且不用大规模微调模型，仅靠少量偏好token就能实现，解决了传统个性化生成“千人一面”“图文割裂”的痛点。

一点思考：AI的终极命题，从来不是“全能”，而是“懂你”

现在整个AI行业都在卷参数、卷算力，好像参数越多、算力越足，AI就越聪明。但人类的大脑仅用20瓦功耗，就能完成超级计算机都做不到的事，核心就在于分工明确：该感知的感知，该记忆的记忆，该推理的推理。

DPPMG的创新，本质上就是给AI找对了分工：让擅长挖掘用户偏好的推荐系统负责“懂人”，让擅长生成内容的大模型负责“造物”，用离散的偏好token作为两者之间的桥梁。而不是让生成模型既要学习海量的通用知识，又要记住每个用户的个性化偏好，最后什么都做不好。

AI发展到今天，我们已经从“能不能生成内容”的阶段，进入到“能不能生成我想要的内容”的阶段。我们认为，AI的终极命题从来不是“全能”，而是“懂你”。真正的以人为本，不是让AI变成无所不能的超人，而是让它能读懂人类那些模糊的、不可言说的“我喜欢”。

DPPMG框架具有通用性和可扩展性，能够应用在包括广告生成、内容创作、智能助理等多种业务场景，将能够让更多用户体验到“真正懂你”的AI生成能力。

参考资料

• Discrete Preference Learning for Personalized Multimodal Generation, SIGIR2026.

从高端制造到多元公共服务，智平方×西子联合开启具身智能“全场景闭环”新纪元¶

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你 ｜ 机器之心¶

机器之心¶

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你｜机器之心¶