从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元¶
公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8
Title: SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你 | 机器之心
URL Source: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8
Markdown Content:
SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你 | 机器之心¶
机器之心¶
![]()
登录
文章库
PRO会员通讯
SOTA!模型
AI Shortlist
AI 好好用

文章库

登录
SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你
0%
展开列表
AI全方位接管,全链路打通干湿闭环,深势发布玻尔·跃迁实验室
04月17日
AI for Science

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文
04月17日
Transformer

AI 下半场,由谁来定义?2026 WAIC 云帆奖启航
04月17日
2026 WAIC 云帆奖

π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?
04月17日
π 0.7

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你
04月17日
DPPMG

从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元
04月17日
GOVLA

直播预约 | 世界模型,点燃下一个AI爆点(第二期)
04月17日
世界模型

图灵也没想到,智能,必须在现实中「活」下来
04月17日
具身智能

π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面
04月17日
数据编译

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了
04月17日
Mega MoE

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗?首次系统评估LLM的人类行为模拟能力
04月17日
OPeRA Dataset

短短3个月,高德已拿下具身智能领域15项世界第一
04月17日
Abot-world

AI能力再进阶,科大讯飞“招采Claw”如何让复杂招采省力合规?
04月17日
2026科大讯飞 AstronClaw升级发布会

18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场
04月17日
RoboChallenge

Claude Opus 4.7深夜上线,评分碾压
04月17日
Claude Opus 4.7

表格建模也能Scaling?树模型的时代要改变了
04月17日
Scaling Law

打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施
04月16日
京东具身智能生态发布会

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建
04月16日
MaxHermes

数据限制具身?觅蜂杀进场破局:高质量数据水电一样即取即用
04月16日
觅蜂科技(Maniformer)

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」
04月16日
CPL++

![]()
新闻资讯 原创
6小时前
SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你
“找AI生成电影海报,明明你偏爱硬核科幻的冷色调风格,它却给你画了小清新插画,简介写得像文艺片独白。”
这种“图文各玩各的”“AI不懂我”是当下AI多模态生成的普遍死穴。
我们是来自港科广和OPPO研究院的联合团队,今天和大家分享我们在个性化多模态生成领域的最新探索—DPPMG离散偏好学习框架,希望能为解决行业长期存在的“AI不懂用户”“图文生成割裂”痛点,提供一个全新的底层思路。相关论文《Discrete Preference Learning for Personalized Multimodal Generation》最近被国际信息检索顶会SIGIR 2026接收。

作者:张长旺@ https://changwangzhang.github.io
直击两个底层顽疾:我们之前都搞错了个性化生成的底层逻辑
现在的AI个性化生成,到底为什么总翻车?本质上是两个天生的瘸腿问题,从来没被真正解决过。
第一个问题,是偏好建模和内容生成的底层鸿沟。推荐系统搞了二十多年,最擅长的就是从你的点击、浏览、收藏里挖偏好,用图神经网络、协同过滤这些成熟方案,精准算出你喜欢的风格、题材、调性。但这些偏好输出的是连续的向量,就像一幅连绵的山水画;而当下主流的大模型、扩散模型,天生只认离散的token——也就是一个个独立的字、词、符号,像活字印刷里的单个铅字。
连续的山水画,没法直接拆成活字去印刷。之前的解决方案有多敷衍?要么把用户的历史内容直接全塞进prompt,有用的没用的混在一起,全是噪音;要么把图片转成干巴巴的文字描述,丢了90%的视觉细节,就像把一幅科幻海报写成“这是一张有飞船的图”,AI根本get不到你的审美。
第二个问题,是单模态生成的孤岛效应。我们现实里接触的内容,从来都是图文一体的:电影是海报配简介,广告是图片配文案,短视频是画面配台词。但现在的AI,生成图片和生成文字是两个完全独立的流水线,图片管审美,文字管内容,根本不互通。就像两个翻译,一个翻英文、一个翻中文,各翻各的,最后合起来驴唇不对马嘴。我们看到的绝大多数AI图文翻车,根源都在这里。
更让我们感到遗憾的是,很多个性化方案几乎都走上了“堆参数、堆算力”的弯路:全量微调成本高到中小公司难以承受,LoRA微调仍会破坏模型原有的通用能力,且无法从根本上解决上述两个底层矛盾。
技术核心设计:把模糊偏好变成AI能直接用的“专属活字”
我们提出的面向个性化多模态生成的离散偏好学习框架(DPPMG),核心逻辑可以通俗概述为:活字印刷式偏好定制。它用两阶段的设计,彻底补上了前面说的两个底层漏洞。
第一阶段,是把用户模糊的、连续的偏好,做成一套专属的、AI能直接读懂的“活字铅字”。
我们没有沿用传统的混合偏好建模方式,而是复刻了人类大脑“认知模块化”的逻辑——先为文本和视觉分别构建独立的用户交互图谱,分开建模用户的文字文风偏好和视觉审美偏好,从源头避免“图文风格错位”。
首先,我们采用推荐系统中成熟的LightGCN模型,分别提取用户的文本和视觉专属连续偏好向量。最关键的创新在于,我们引入残差向量量化(RQ-VAE),将连续的偏好向量拆解为固定长度、可解释的离散“偏好token”。
这个过程就像把人类复杂的情绪转化为精准的表情包:每个token对应一个明确的偏好标签(如“冷色调科幻”“紧凑叙事”),AI无需再猜测,可直接调用。
为了保证这些“活字”的可靠性,我们还加入了两个关键约束:
-
偏好真实性约束:确保用户点击过的内容得分永远高于未点击内容。
-
跨模态对齐约束:让同一风格的文本token和视觉token指向同一个语义空间,从根源上解决“图文各说各话”。
第二阶段,是把这些专属“活字”插进生成模型,用最小的成本实现个性化。
为了极致提升系统效率,整个过程,大模型和扩散模型的主干参数完全冻住,一丝不动,我们只微调这些偏好token相关的参数。就像你给一辆车换了一套定制的轮胎,发动机、变速箱全不动,就能让这辆车完美适配你的驾驶习惯,还不用重新造车。
之前的个性化生成,要么全量微调,成本高到中小公司根本碰不起;要么LoRA微调,还是要动大量参数,很容易把模型本身的通用能力搞崩。我们这个方案,需要训练的参数图像分支仅0.154%,文本分支仅0.448%,99.8%以上的模型参数保持不动。训练成本只有全量微调的几百分之一,单张A100显卡就能跑,几乎零成本,还不破坏原模型的能力。
最后,我们设计了“跨模态一致性+个性化”的联合奖励机制,一边确保生成的图文都贴合用户偏好,一边让图文的语义、风格完全对齐,优化“各说各话”的问题。
实验验证:低成本实现效果的全面超越
我们在电影和广告两个真实工业数据集上进行了全面的对比实验,结果显示:DPPMG在图像个性化相似度、文本个性化匹配度的多个核心指标上,均全面超越了此前的最优模型。

更有说服力的是用户研究结果:68.1%的测试用户认为,DPPMG生成的图文匹配度远高于同类方案。我们在论文中展示了几个直观的案例:
-
用户过往常浏览《星球大战》《夺宝奇兵》这类硬核科幻电影,参考内容是电影《异形》的基础信息,DPPMG生成的海报既保留了《异形》本身神秘暗黑的风格(黑绿配色、外星生物剪影),又融入了用户偏爱“柔和发光轮廓、略带卡通感角色”的视觉偏好;配套的电影简介,不仅精准保留了“太空商船、求救信号、未知生物”等核心剧情,还沿用了用户历史浏览内容中“救援、对抗、生存”的紧凑语气,图文语义高度契合,没有出现传统方案“海报暗黑、简介温情”的脱节问题。

-
给偏爱“冒险生存”风格的用户,生成的海报是角色特写、动态构图,简介侧重“绝境求生”的剧情;给喜欢“奇幻生物”风格的用户,海报则是充满神秘气息的生物造型,简介围绕“奇幻世界叛乱”展开。这两个案例清晰体现了DPPMG的核心优势——既能精准捕捉每个用户的个性化偏好(不管是视觉风格还是文本语气),又能保证生成的图文不脱节、风格统一,而且不用大规模微调模型,仅靠少量偏好token就能实现,解决了传统个性化生成“千人一面”“图文割裂”的痛点。

一点思考:AI的终极命题,从来不是“全能”,而是“懂你”
现在整个AI行业都在卷参数、卷算力,好像参数越多、算力越足,AI就越聪明。但人类的大脑仅用20瓦功耗,就能完成超级计算机都做不到的事,核心就在于分工明确:该感知的感知,该记忆的记忆,该推理的推理。
DPPMG的创新,本质上就是给AI找对了分工:让擅长挖掘用户偏好的推荐系统负责“懂人”,让擅长生成内容的大模型负责“造物”,用离散的偏好token作为两者之间的桥梁。而不是让生成模型既要学习海量的通用知识,又要记住每个用户的个性化偏好,最后什么都做不好。
AI发展到今天,我们已经从“能不能生成内容”的阶段,进入到“能不能生成我想要的内容”的阶段。我们认为,AI的终极命题从来不是“全能”,而是“懂你”。真正的以人为本,不是让AI变成无所不能的超人,而是让它能读懂人类那些模糊的、不可言说的“我喜欢”。
DPPMG框架具有通用性和可扩展性,能够应用在包括广告生成、内容创作、智能助理等多种业务场景,将能够让更多用户体验到“真正懂你”的AI生成能力。
参考资料
• Discrete Preference Learning for Personalized Multimodal Generation, SIGIR2026.
