跳转至

从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8


Title: SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你 | 机器之心

URL Source: https://www.jiqizhixin.com/articles/d72e37e6-03db-45ef-8430-b78973ebefb8

Markdown Content:

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你 | 机器之心

机器之心

Image 1: 机器之心

Image 2: 未登录

登录

Image 3: empty_user 去登录

Image 4文章库Image 5PRO会员通讯Image 6SOTA!模型Image 7AI ShortlistImage 8: new-iconImage 9AI 好好用

Image 10: 机器之心

文章库PRO通讯会员SOTA!模型AI ShortlistImage 11: new-icon

AI 好好用

Image 12登录

Image 13: home

Image 14: logo文章库

Image 15: icon

Image 16: no-user登录

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你

0%

Image 17: icon展开列表

AI全方位接管,全链路打通干湿闭环,深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场,由谁来定义?2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了!涌现出组合泛化、跨本体迁移能力,VLA又行了?

04月17日

π 0.7

Image 21: img

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务,智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型,点燃下一个AI爆点(第二期)

04月17日

世界模型

Image 24: img

图灵也没想到,智能,必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来?乾坤未定,但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新:Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗?首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月,高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶,科大讯飞“招采Claw”如何让复杂招采省力合规?

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线,评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling?树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”,京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代:以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身?觅蜂杀进场破局:高质量数据水电一样即取即用

04月16日

觅蜂科技(Maniformer)

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架,实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

Image 38: avatar

新闻资讯 原创

6小时前

SIGIR'26|DPPMG 首创个性化多模态生成新范式:图文一致更懂你

“找AI生成电影海报,明明你偏爱硬核科幻的冷色调风格,它却给你画了小清新插画,简介写得像文艺片独白。”

这种“图文各玩各的”“AI不懂我”是当下AI多模态生成的普遍死穴。Image 39

我们是来自港科广和OPPO研究院的联合团队,今天和大家分享我们在个性化多模态生成领域的最新探索—DPPMG离散偏好学习框架,希望能为解决行业长期存在的“AI不懂用户”“图文生成割裂”痛点,提供一个全新的底层思路。相关论文《Discrete Preference Learning for Personalized Multimodal Generation》最近被国际信息检索顶会SIGIR 2026接收。

Image 40

作者:张长旺@ https://changwangzhang.github.io

直击两个底层顽疾:我们之前都搞错了个性化生成的底层逻辑

现在的AI个性化生成,到底为什么总翻车?本质上是两个天生的瘸腿问题,从来没被真正解决过。Image 41

第一个问题,是偏好建模和内容生成的底层鸿沟。推荐系统搞了二十多年,最擅长的就是从你的点击、浏览、收藏里挖偏好,用图神经网络、协同过滤这些成熟方案,精准算出你喜欢的风格、题材、调性。但这些偏好输出的是连续的向量,就像一幅连绵的山水画;而当下主流的大模型、扩散模型,天生只认离散的token——也就是一个个独立的字、词、符号,像活字印刷里的单个铅字。Image 42

连续的山水画,没法直接拆成活字去印刷。之前的解决方案有多敷衍?要么把用户的历史内容直接全塞进prompt,有用的没用的混在一起,全是噪音;要么把图片转成干巴巴的文字描述,丢了90%的视觉细节,就像把一幅科幻海报写成“这是一张有飞船的图”,AI根本get不到你的审美。Image 43

第二个问题,是单模态生成的孤岛效应。我们现实里接触的内容,从来都是图文一体的:电影是海报配简介,广告是图片配文案,短视频是画面配台词。但现在的AI,生成图片和生成文字是两个完全独立的流水线,图片管审美,文字管内容,根本不互通。就像两个翻译,一个翻英文、一个翻中文,各翻各的,最后合起来驴唇不对马嘴。我们看到的绝大多数AI图文翻车,根源都在这里。

更让我们感到遗憾的是,很多个性化方案几乎都走上了“堆参数、堆算力”的弯路:全量微调成本高到中小公司难以承受,LoRA微调仍会破坏模型原有的通用能力,且无法从根本上解决上述两个底层矛盾。

技术核心设计:把模糊偏好变成AI能直接用的“专属活字”

我们提出的面向个性化多模态生成的离散偏好学习框架(DPPMG),核心逻辑可以通俗概述为:活字印刷式偏好定制。它用两阶段的设计,彻底补上了前面说的两个底层漏洞。Image 44

第一阶段,是把用户模糊的、连续的偏好,做成一套专属的、AI能直接读懂的“活字铅字”。

我们没有沿用传统的混合偏好建模方式,而是复刻了人类大脑“认知模块化”的逻辑——先为文本和视觉分别构建独立的用户交互图谱,分开建模用户的文字文风偏好和视觉审美偏好,从源头避免“图文风格错位”。Image 45

首先,我们采用推荐系统中成熟的LightGCN模型,分别提取用户的文本和视觉专属连续偏好向量。最关键的创新在于,我们引入残差向量量化(RQ-VAE),将连续的偏好向量拆解为固定长度、可解释的离散“偏好token”。

这个过程就像把人类复杂的情绪转化为精准的表情包:每个token对应一个明确的偏好标签(如“冷色调科幻”“紧凑叙事”),AI无需再猜测,可直接调用。

为了保证这些“活字”的可靠性,我们还加入了两个关键约束:

  • 偏好真实性约束:确保用户点击过的内容得分永远高于未点击内容。

  • 跨模态对齐约束:让同一风格的文本token和视觉token指向同一个语义空间,从根源上解决“图文各说各话”。

第二阶段,是把这些专属“活字”插进生成模型,用最小的成本实现个性化。

为了极致提升系统效率,整个过程,大模型和扩散模型的主干参数完全冻住,一丝不动,我们只微调这些偏好token相关的参数。就像你给一辆车换了一套定制的轮胎,发动机、变速箱全不动,就能让这辆车完美适配你的驾驶习惯,还不用重新造车。Image 46

之前的个性化生成,要么全量微调,成本高到中小公司根本碰不起;要么LoRA微调,还是要动大量参数,很容易把模型本身的通用能力搞崩。我们这个方案,需要训练的参数图像分支仅0.154%,文本分支仅0.448%,99.8%以上的模型参数保持不动。训练成本只有全量微调的几百分之一,单张A100显卡就能跑,几乎零成本,还不破坏原模型的能力。Image 47

最后,我们设计了“跨模态一致性+个性化”的联合奖励机制,一边确保生成的图文都贴合用户偏好,一边让图文的语义、风格完全对齐,优化“各说各话”的问题。

实验验证:低成本实现效果的全面超越

我们在电影和广告两个真实工业数据集上进行了全面的对比实验,结果显示:DPPMG在图像个性化相似度、文本个性化匹配度的多个核心指标上,均全面超越了此前的最优模型。Image 48Image 49

更有说服力的是用户研究结果:68.1%的测试用户认为,DPPMG生成的图文匹配度远高于同类方案。我们在论文中展示了几个直观的案例:Image 50

  • 用户过往常浏览《星球大战》《夺宝奇兵》这类硬核科幻电影,参考内容是电影《异形》的基础信息,DPPMG生成的海报既保留了《异形》本身神秘暗黑的风格(黑绿配色、外星生物剪影),又融入了用户偏爱“柔和发光轮廓、略带卡通感角色”的视觉偏好;配套的电影简介,不仅精准保留了“太空商船、求救信号、未知生物”等核心剧情,还沿用了用户历史浏览内容中“救援、对抗、生存”的紧凑语气,图文语义高度契合,没有出现传统方案“海报暗黑、简介温情”的脱节问题。Image 51

  • 给偏爱“冒险生存”风格的用户,生成的海报是角色特写、动态构图,简介侧重“绝境求生”的剧情;给喜欢“奇幻生物”风格的用户,海报则是充满神秘气息的生物造型,简介围绕“奇幻世界叛乱”展开。这两个案例清晰体现了DPPMG的核心优势——既能精准捕捉每个用户的个性化偏好(不管是视觉风格还是文本语气),又能保证生成的图文不脱节、风格统一,而且不用大规模微调模型,仅靠少量偏好token就能实现,解决了传统个性化生成“千人一面”“图文割裂”的痛点。Image 52

一点思考:AI的终极命题,从来不是“全能”,而是“懂你”

现在整个AI行业都在卷参数、卷算力,好像参数越多、算力越足,AI就越聪明。但人类的大脑仅用20瓦功耗,就能完成超级计算机都做不到的事,核心就在于分工明确:该感知的感知,该记忆的记忆,该推理的推理。

DPPMG的创新,本质上就是给AI找对了分工:让擅长挖掘用户偏好的推荐系统负责“懂人”,让擅长生成内容的大模型负责“造物”,用离散的偏好token作为两者之间的桥梁。而不是让生成模型既要学习海量的通用知识,又要记住每个用户的个性化偏好,最后什么都做不好。Image 53

AI发展到今天,我们已经从“能不能生成内容”的阶段,进入到“能不能生成我想要的内容”的阶段。我们认为,AI的终极命题从来不是“全能”,而是“懂你”。真正的以人为本,不是让AI变成无所不能的超人,而是让它能读懂人类那些模糊的、不可言说的“我喜欢”。

DPPMG框架具有通用性和可扩展性,能够应用在包括广告生成、内容创作、智能助理等多种业务场景,将能够让更多用户体验到“真正懂你”的AI生成能力。

参考资料

• Discrete Preference Learning for Personalized Multimodal Generation, SIGIR2026.