AI 下半场，由谁来定义？2026 WAIC 云帆奖启航¶

公众号: 机器之心 发布日期: 04月17日 抓取日期: 2026-04-18 URL: https://www.jiqizhixin.com/articles/e4605bca-4452-4fb0-b564-6abce988836e

Title: Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文｜机器之心

URL Source: https://www.jiqizhixin.com/articles/e4605bca-4452-4fb0-b564-6abce988836e

Markdown Content:

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文

0%

展开列表

AI全方位接管，全链路打通干湿闭环，深势发布玻尔·跃迁实验室

04月17日

AI for Science

Image 18: img

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文

04月17日

Transformer

Image 19: img

AI 下半场，由谁来定义？2026 WAIC 云帆奖启航

04月17日

2026 WAIC 云帆奖

Image 20: img

π0.7来了！涌现出组合泛化、跨本体迁移能力，VLA又行了？

04月17日

π 0.7

Image 21: img

SIGIR'26｜DPPMG 首创个性化多模态生成新范式：图文一致更懂你

04月17日

DPPMG

Image 22: img

从高端制造到多元公共服务，智平方×西子联合开启具身智能“全场景闭环”新纪元

04月17日

GOVLA

Image 23: img

直播预约 | 世界模型，点燃下一个AI爆点（第二期）

04月17日

世界模型

Image 24: img

图灵也没想到，智能，必须在现实中「活」下来

04月17日

具身智能

Image 25: img

π0.6和GEN-1谁代表未来？乾坤未定，但这条底层赛道浮出水面

04月17日

数据编译

Image 26: img

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了

04月17日

Mega MoE

Image 27: img

ACL 2026 | OPeRA Dataset: LLM真的能模仿人类行为了吗？首次系统评估LLM的人类行为模拟能力

04月17日

OPeRA Dataset

Image 28: img

短短3个月，高德已拿下具身智能领域15项世界第一

04月17日

Abot-world

Image 29: img

AI能力再进阶，科大讯飞“招采Claw”如何让复杂招采省力合规？

04月17日

2026科大讯飞 AstronClaw升级发布会

Image 30: img

18家具身顶尖势力集结，RoboChallenge 打造全球最大具身模型竞技场

04月17日

RoboChallenge

Image 31: img

Claude Opus 4.7深夜上线，评分碾压

04月17日

Claude Opus 4.7

Image 32: img

表格建模也能Scaling？树模型的时代要改变了

04月17日

Scaling Law

Image 33: img

打造全球领先“具身智能超级供应链”，京东发布行业首个具身数据全链路基础设施

04月16日

京东具身智能生态发布会

Image 34: img

当AI迈入Harness时代：以MiniMax为样本看智能体云端新基建

04月16日

MaxHermes

Image 35: img

数据限制具身？觅蜂杀进场破局：高质量数据水电一样即取即用

04月16日

觅蜂科技（Maniformer）

Image 36: img

TPAMI 2026 | 北大彭宇新团队提出CPL++框架，实现视觉定位模型的「自知之明」和「自我纠错」

04月16日

CPL++

Image 37: img

机器之心原创

5小时前

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文

编辑｜泽南

最近，谷歌跟内存干上了。

上个月，谷歌的 TurboQuant 研究曾经引发过一场行业地震，其宣称能直接把大模型最吃显存的 KV Cache 压缩几倍，让市场开始担忧未来对内存的需求，引发了一波内存股暴跌，后续还有不小的学术争议。

这个星期，又有一篇谷歌论文引发了 AI 圈的关注，作者表示他们提出的方法解决了大模型处理长文本时的「内存瓶颈」（又来了），但实施的是完全不同的技术路线。

他们新开一条道路，通过对于大模型架构的机制创新，赋予了 RNN 「可生长的记忆容量」，找到了一种兼顾 Transformer 与 RNN 优势的新方法。 Image 39: 图片该方法可以让 AI 处理更长的文本，解锁「超长上下文」能力，与此同时极大地降低了推理的资源门槛。

人们纷纷表示欢迎：大模型生产环境要的就是这个。

Image 40: 图片当前的大模型几乎都是基于 Transformer 架构打造的，它占据统治地位，主要归功于其可增长的记忆容量（注意力机制的计算和空间复杂度随上下文长度呈二次方 Image 41: 图片增长）。这使得 Transformer 极其擅长长上下文的信息召回（Recall）。

然而，这种二次方复杂度也导致了严重的算力和显存瓶颈，使得处理超长文本的成本极高。

为解决这个问题，社区一直在复兴 RNN、线性注意力模型（Linear Attention）以及状态空间模型（SSM，如 Mamba 等）。这些循环架构的优势在于记忆容量固定（复杂度为 Image 42: 图片），推理速度快且显存占用低。然而，它们的致命弱点在于：无论读了多少文本，都必须把所有过去的信息压缩到一个「固定大小」的隐藏状态（Hidden State）中。

这种「信息漏斗」导致它们在密集召回任务（Recall-intensive tasks，比如从极长的文档中精准提取某个细节）中表现往往远不如 Transformer。

为打破僵局，来自 Google Research 的研究团队提出了一种名为 Memory Caching（MC）的技术，据说简单而有效。

Image 43: 图片 * 论文：《Memory Caching: RNNs with Growing Memory》

论文链接：https://arxiv.org/abs/2602.24281

在这项研究的视角中，存在一个架构光谱：一端是 Transformer（无压缩，Token 级缓存），另一端是传统的 RNN（全压缩，单一记忆）。而「记忆缓存（MC）」则解锁了介于两者之间的新形态：将成组 Token 压缩并缓存到长期记忆状态中，然后在需要时进行检索。

Transformer 会缓存每一个单独的标记，而 RNN 则考虑一个固定大小的记忆，并将上下文中的一切压缩到记忆的参数中。那么，如果我们把 RNN 的历史记忆也缓存下来会怎样？

简单来说，与其让 RNN 只维护一个不断被覆盖和更新的「当前状态」，不如定期对这些隐藏状态进行「快照打卡」（Caching checkpoints）。这样，在进行信息检索时，模型不仅可以查看当前的「在线记忆」，还能直接调取「缓存记忆」中的历史快照，瞬间找回过去的相关信息。

Image 44: 图片在研究的过程中，作为概念验证，研究人员提出了三种变体，基于过去的信息如何组合在一起。

1、门控残差记忆（Gated Residual Memory）：使用查询从过去检索相关信息，然后执行类似注意力的池化来组合检索到的信息。实际上，RNN 的记忆在增长，因此解码成本也在增长：

Image 45: 图片 2、记忆汤（Memory Soup）：另一种结合过去记忆的方式，是直接结合记忆的权重，而不是针对特定查询的输出。在这种情况下，我们需要对过去记忆的权重执行类似注意力的池化操作，然后对池化后的记忆执行一次检索。同样，这种变体相对于上下文长度具有不断增长的有效记忆，因此解码成本也在增长。

Image 46: 图片 3、稀疏选择性缓存（Sparse Selective Caching，SSC）：到目前为止，似乎没有免费的午餐，我们需要在不断增长的有效记忆和每 token 恒定的解码成本之间做出选择。

于是作者提出了 SSC，这是一种类似于 MoBA 的专家混合模型，在序列维度上稀疏地选择过去缓存记忆的一个子集，从而引出一个模型，其有效记忆在增长，但其每 token 解码成本保持相对恒定：

Image 47: 图片那么效果如何呢？

该方法可以作为一种通用框架，插入到各种现有的循环架构中，如线性注意力模型，或作者之前提出的深度内存模型 Titans 等。

实验结果表明了其强大的有效性：

Image 48: 图片模型在语言建模和常识推理任务上的表现。

作者在 13 亿参数的模型上进行了语言建模、召回密集型、长上下文以及 needle-in-a-haystack 等实验，结果显示 MC 相较于基础模型提供了改进。其中包括：

长上下文能力提升：在语言建模和长上下文理解任务中，加入了 MC 机制的循环模型性能得到了全面提升。
缩小与 Transformer 的差距：在最具挑战性的「上下文内召回（in-context recall）」任务中，加入了 MC 的模型击败了目前最先进（SOTA）的其他循环模型。
依然存在上限：虽然 MC 极大地弥补了 RNN 的召回短板，并极大缩小了与 Transformer 之间的性能差距，但论文也指出，在纯粹的密集召回任务上限上，Transformer 依然保持着最佳的准确率。

总的来说，该研究利用一种极其优雅的算法直觉（缓存历史状态快照），解决了一个长期存在的理论难题，让非 Transformer 架构在实用性上又向前迈进了一大步。

尽管在极限的密集召回上，它依然尚未彻底超越 Transformer，但新路已经铺就，随着 RNN、SSM 等架构的持续进化，Transformer 一家独大的现状或许要有所改变了？

AI 下半场，由谁来定义？2026 WAIC 云帆奖启航¶

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文 ｜ 机器之心¶

机器之心¶

Transformer与RNN合体，谷歌打下显存门槛，解锁超长上下文｜机器之心¶