三方协同创新，北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力¶

公众号: 机器之心 发布日期: 04月13日 抓取日期: 2026-04-14 URL: https://www.jiqizhixin.com/articles/86e5dc64-9c1e-4130-9aec-9a5a07e29bd7

Title: ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！｜机器之心

URL Source: https://www.jiqizhixin.com/articles/86e5dc64-9c1e-4130-9aec-9a5a07e29bd7

Markdown Content:

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！｜机器之心¶

机器之心¶

登录

去登录

文章库 PRO会员通讯 SOTA！模型 AI Shortlist AI 好好用

文章库 PRO通讯会员 SOTA！模型 AI Shortlist

AI 好好用

登录

文章库

Image 16: no-user 登录

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

0%

展开列表

直面LeCun愿景，智在无界发布最强具身世界模型，20万小时人类视频屠榜6大榜单

今天

Being-H0.7

Image 18: img

在一台1970年代的PDP-11上训练Transformer需要多久？答案是5.5分钟

今天

Transformer

Image 19: img

二元成功率已经过时！PRM-as-a-Judge才是你需要的具身操作评测框架

今天

具身操作评测框架

Image 20: img

养虾「不可能三角」：好用、好玩、安全，复旦这个「00后」团队做到了！

04月13日

XSafeClaw

Image 21: img

上海交大DENG Lab提出「LatentUM」：Unified Model的真正「战场」在视觉推理与世界模型

04月13日

DENG Lab

Image 22: img

荣耀发布自研龙虾AI智能体YOYO Claw技术开创“养虾本”新品类

04月13日

YOYO Claw

Image 23: img

13 个榜单 SOTA！明略科技正式开源GUI-VLA 模型Mano-P 1.0

04月13日

Mano-P 1.0

Image 24: img

全球第一，13个SOTA！我们找到了龙虾界掌管GUI的神

04月13日

Mano-P 1.0

Image 25: img

国内首个！加入六维力的全感知数采，让VLA模型进化出力触觉

04月13日

原生全感知力触数采系统

Image 26: img

迎接范式革命：最新、最全的大模型Latent Space综述，NUS、复旦、清华等联合出品

04月13日

Latent Space

Image 27: img

大卫贝克团队从头设计小分子结合蛋白质家族：开启按需定制生物传感器的新纪元

04月13日

AI for Science

Image 28: img

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

04月13日

LRT（Latent Reasoning Tuning）

Image 29: img

三方协同创新，北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力

04月13日

人形机器人

Image 30: img

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

04月13日

MME-Survey

Image 31: img

大佬深度解析：Coding Agent的底层运行逻辑是什么？

04月13日

Coding Agent

Image 32: img

CVPR 2026 WorldArena挑战赛启动，高德开源高性能世界模型基线

04月13日

ABot-PhysWorld

Image 33: img

陶哲轩亲调AI人设，权游小恶魔、贱女孩蕾吉娜版物理教学，你接受不

04月13日

聊天机器人

Image 34: img

Openclaw 龙虾五天五连，24小时两更，火力全开！到底更新了些什么？

04月12日

Openclaw

Image 35: img

CVPR 2026 | 摆脱相机依赖！M4Human推动毫米波人体感知迈向新阶段

04月12日

M4Human

Image 36: img

直播预约 | 世界模型，点燃下一个AI爆点

04月11日

黄大年茶思屋

Image 37: img

机器之心原创

16小时前

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

Image 39: 图片近日，哈尔滨工业大学（深圳）联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT（Latent Reasoning Tuning），通过一个轻量级的推理网络，将大模型冗长的「思维链」压缩为紧凑的隐式向量表征，一次前向计算即可完成推理，无需逐 token 生成数千字的中间推理过程。

LRT 不仅实现了高效思考，还能作为一种全新的混合思考范式，在 Qwen3 系列模型上超越了其原生的非思考模式。

Image 40: 图片

论文地址： https://openreview.net/forum?id=CbK7lYbmv8
代码开源： https://github.com/MobiusDai/LRT

出发点：大模型「自言自语」的推理过程真的全都有用吗？

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 为代表的慢思考推理模型，通过生成详尽的逐步推理链来解决复杂问题，展现了强大的推理能力。然而，这些模型存在一个显著痛点 —— 过度思考（Overthinking）：

即使是简单的数学题，模型也可能生成数千个 token 的推理过程，其中包含大量回溯、自我验证和冗余步骤；
推理轨迹的长度往往远超最终答案，导致推理延迟高、计算开销大，严重制约了实时应用。

Question：这些冗长的推理链真的全部必要吗？

关键发现：推理轨迹存在大量冗余

为了回答上述问题，团队设计了一组实验：在 DeepSeek-R1-Distill-Qwen-7B 模型上，将推理轨迹进行不同粒度的删减 —— 随机跳过一定比例的 token 或推理步骤，然后观察模型能否仅凭残缺的推理链给出正确答案。

Image 41: 图片核心洞察：即使随机丢弃 50% 的推理轨迹，模型准确率仅下降约 2 个百分点。这可以得出两个结论：

当前的推理轨迹中存在大量冗余信息，远超正确推理所需的信息；
推理模型具有强大的信息过滤能力，即使面对残缺、高困惑度的推理链，依然能从中提取关键信息并总结得出正确答案。

这一发现直接启发了团队的核心思路：既然完整的逐步推理链并非必要，能否用一种更紧凑的隐式表征来替代它？

方法：隐式思考模型 LRT

基于上述洞察，团队提出了 Latent Reasoning Tuning（LRT）框架。其核心思想可以概括为：用一个轻量级推理网络，将显式的推理链「编码」为固定长度的隐式向量，直接注入大模型即可生成最终答案。

技术架构

Image 42: 图片如上图所示，传统推理模型需要逐 token 自回归生成整条推理链（Decode → Decode → ... → Decode），而 LRT 的流程为：

输入编码：将问题输入大模型，提取其隐藏状态表征；
隐式推理：将隐藏状态送入轻量级的推理网络，一次前向传播即生成固定长度的隐式推理向量；
答案生成：将隐式推理向量与问题 (编码向量) 拼接后送入大模型，直接解码生成最终答案。

具体方法

对于一个推理型大模型 Image 44: 图片，将输入提示定义为： Image 45: 图片，推理轨迹为： Image 46: 图片，最终答案为 Image 47: 图片。

通常 Image 48: 图片，即推理过程所消耗的 token 数量远大于最终答案的长度 —— 这正是推理开销的根源所在。

模型的推理生成过程可分为两个阶段：

Prefill 阶段：模型一次性处理输入提示 X 中的全部 token，初始化注意力状态（KV 缓存）。这一阶段是并行的，计算效率较高；
Decode 阶段：模型逐 token 自回归地生成输出，每一步仅基于前序 token 与缓存状态进行推理。这一阶段是串行的，也是推理延迟的主要瓶颈。

在 Decode 阶段，思维链的生成过程可以形式化为：

Image 49: 图片其中 Image 50: 图片表示序列拼接。

注意到，在给定模型参数 Image 51: 图片和输入 Image 52: 图片的条件下，推理轨迹 Image 53: 图片完全由模型的输出分布决定。

因此，推理轨迹可以表示为输入与模型参数的函数 Image 54: 图片。相应地，LLM 先推理再总结得到答案的完整过程可以写为：

Image 55: 图片既然推理轨迹是输入的函数，而已经证明了它存在大量冗余，那么一个自然的想法是：使用一个更高效的函数来替代它？

基于这一思路，团队引入一个轻量级的推理网络 Image 56: 图片，直接从输入映射到紧凑的隐式推理表征： Image 57: 图片

隐式表征 Image 58: 图片以固定长度的连续向量序列替代了原本需要逐 token 解码的冗长推理链，从而将「Decode」过程转化为高效的「Prefill」操作。

在训练阶段，我们采用两阶段优化策略。第一阶段通过监督微调（SFT）优化推理网络参数 Image 59: 图片，最小化负对数似然损失：

Image 60: 图片该目标鼓励 Image 61: 图片生成的隐式表征能够引导冻结的基座模型 Image 62: 图片正确预测最终答案 Image 63: 图片。第二阶段进一步采用强化学习（GRPO），以答案正确性作为奖励信号，激励推理网络在隐式空间中探索更优的推理路径，从而突破训练数据质量的瓶颈。

实验结果

1. 高效思考 —— 在不同 Token Budget 下表现最优

Image 64: 图片在 DeepSeek-R1-Distill-Qwen-1.5B 上，与多种高效推理方法进行对比：

在不同的 Token 预算下，LRT 在域内和域外任务上全面领先。在 512-Token 下，其平均准确率比 NoThinking 高 2.66%，比 RL 类方法 ShorterBetter、LC-R1 分别高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式

Image 65: 图片 LRT 的模块化设计天然适合作为混合推理的新范式：面对简单问题使用隐式思考快速作答，面对困难问题切换回显式慢思考深入推理。在 Qwen3 系列模型上验证了这一能力：

在 Qwen3-4B 上，LRT 的 pass@4 平均准确率达到 71.60%，比 Qwen3 原生非思考模式高出 5.82 个百分点！在 GSM8K 上提升近 7%，在 LSAT 上提升超过 14%。这表明隐式推理向量能有效引导模型产生更多样、更高质量的解题路径。

3. 推理效率对比

Image 66: 图片 * LRT 的推理延迟显著低于 Qwen3 的混合思考模式，甚至比非思考模式还快 —— 因为隐式推理向量引导模型生成更简洁的答案，减少了解码步数。

4. 消融实验分析

Image 67: 图片 隐式推理 token 数量的影响：随着隐式 token 数从 64 增加到 256，性能稳步提升（42.53% → 48.42%）。

Image 68: 图片 两阶段训练：加入 RL 阶段后，域内任务平均提升约 9%，域外任务平均提升约 4.3%，验证了强化学习对隐式推理优化的关键作用。

Image 69: 图片更大的基础模型（如 Qwen3-8B）则能充分利用更多的隐式 token（使用 512 个隐式 token 时结果仍能提高），说明隐式推理的「容量」与基础模型能力正相关。

总结

隐式思考模型 LRT 开辟了一条全新的高效推理路径：

理论洞察：系统性地揭示了推理轨迹的高度冗余性，证明完整的逐步推理链并非正确推理的前提；
高效思考：通过将显式推理链压缩为隐式向量表征，用单次前向计算替代数千步自回归解码，大幅降低推理成本；
混合思考：模块化的即插即用设计，无需修改大模型参数，可在隐式推理与显式推理之间无缝切换，为混合推理系统提供了更优的替代方案；
效果优异：在数学、逻辑、科学等多类基准上全面超越现有高效推理方法，并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聪，哈尔滨工业大学（深圳）博士生，研究方向为高效思考与推理模型。通讯作者张正，哈尔滨工业大学（深圳）教授、博士生导师，教育部青年长江学者，主要从事高效能多模态人工智能的研究，近年专注于高效与可信多模态大模型。

主要完成单位为哈尔滨工业大学（深圳）& 深圳河套学院。

三方协同创新，北大-智源SpikePingpong算法助力智元灵犀X2彰显中国具身智能实力¶

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！ ｜ 机器之心¶

机器之心¶

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！｜机器之心¶