K8凯发·国际

谷歌之后英伟达入局扩散大语言模型Fast-dLLM推理速度飙276倍

日期:2025-06-03

  通过创新的技术组合,在不依赖重新训练模型的前提下★★,该工作为扩散模型的推理加速带来了突破性进展■★◆◆◆★。本文将结合具体技术细节与实验数据,解析其核心优势。

  传统扩散模型因双向注意力机制难以直接复用计算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制◆◆,通过以下设计实现高效计算:

  然而,MDMs 中的多令牌预测过程首先为每个令牌生成一个概率分布,然后从这些分布中独立采样。这种独立采样可能导致不理想的组合(如生成 “high house” 等无效组合)。Fast-dLLM 通过动态置信度筛选解决这一问题(所谓置信度,是指模型给 token 赋予的概率大小):

  Fast-dLLM 通过分块 KV 缓存与置信度感知并行解码的创新组合,实现了扩散模型推理效率的跨越式提升,同时保持了生成质量的稳定性■★◆■◆。其技术设计为非自回归生成模型提供了新的优化范式,有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用★■。未来◆★■■◆,随着模型规模的扩大和蒸馏技术的深化,Fast-dLLM 或将进一步缩小与自回归模型的性能差距,成为 LLM 推理加速的核心方案之一。

  Fast-dLLM 的零训练成本特性使其成为理想的推理优化工具,能够快速集成到现有的系统中◆◆■★。对于那些已经在使用扩散模型的企业和开发者来说,可以在不改变模型架构和训练流程的基础上★■★■,直接利用 Fast-dLLM 提升推理效率,缩短长文本生成耗时,为实际部署提供更可行的方案。

  近日★■◆◆■,NVIDIA 联合香港大学、MIT 等机构重磅推出Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!

  在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 将单步延迟从 0.26 秒降至 0★★■◆■★.09 秒,整体耗时从 266 秒压缩至 12 秒■★◆,实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著,例如 8-shot 提示的 GSM8K 任务中,加速后仍能保持 76% 的准确率。

  在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。然而■■★,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退◆★■◆◆◆,实际推理速度长期被自回归模型压制.

  双向缓存策略:采用 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复计算■★■。高相似度验证:实验表明,相邻推理步骤的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性◆◆◆◆■■。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步计算量显著降低★◆■◆■。

  谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度飙27■◆◆★■■.6倍

  阈值激活策略:仅对置信度超过阈值(如≥0■◆★■■.9)的 token 进行并行解码,低置信度 token 留待后续步骤处理。如图 3 所示,该策略可在保证生成质量的前提下■★■◆◆,并行输出多个 token。理论证明:当 (n+1)ϵ≤1 时(n 为并行解码 token 数★★■,并且并行解码的 n 个 token 的置信度都大于 1-ϵ)★★★★,贪婪解码策略下并行解码与顺序解码结果一致,从数学层面确保了生成逻辑的连贯性◆★。

  以下是 Fast-dLLM 算法的核心伪代码■■■★★,结合了分块 KV 缓存以及置信度感知并行解码,无需训练就可以在现有的开源 Diffusion LLM(如 LLaDA★■■◆★◆、Dream)上即插即用进行推理加速。