在过去的一两年中,Transformer 架构不断面临来自新兴架构的挑战。
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
上周五,腾讯宣布推出自研深度思考模型「混元 T1」正式版,这是一个能秒回、吐字快、擅长超长文处理的强推理模型。而之所以具备这些优势,很大程度上是因为腾讯采用了 Hybrid-Mamba-Transformer 融合架构。这一架构有效降低了传统 Transformer 架构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度最快可达 80 token/s。
与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H,其速度是同体量竞品模型的三倍。
速度的提升与成本的降低,是 AI 大模型迈向更广泛应用与普及的必经之路。如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。
恰好,滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)最近发帖,盘点了一下最近的几款 Mamba-Transformer 模型。我们对他的盘点进行了整理,希望能带给大家一些启发。
Mamba-Transformer 简介
Mamba-Transformer 混合架构,顾名思义,就是将 Mamba 与 Transformer 架构组合到一起。
Transformer 想必大家已经非常熟悉了,简单来说:Transformer 架构是一种以自注意力机制为核心的深度学习模型,自 2017 年由 Ashish Vaswani 等人提出以来,便革新了传统序列模型的设计理念。其关键在于多头自注意力机制能够在全局范围内捕捉输入序列中各元素之间的复杂依赖关系,同时通过位置编码保留序列位置信息,加上残差连接和层归一化等技术确保了高效的并行计算和稳定的训练过程。这种架构不仅显著提升了机器翻译、文本生成等自然语言处理任务的性能,也为后续 BERT、GPT 等预训练模型的快速发展奠定了坚实基础。
而 Mamba 则是一种状态空间模型(SSM)—— 该架构的一大显著优势是能高效地捕获序列数据中的复杂依赖关系,并由此成为 Transformer 的一大强劲对手。
经典的状态空间模型可被视为循环神经网络(RNN)和卷积神经网络的(CNN 融合模型。它们可使用循环或卷积运算进行高效地计算,从而让计算开销随序列长度而线性或近线性地变化,由此大幅降低计算成本。
作为 SSM 最成功的变体架构之一,Mamba 的建模能力已经可以比肩 Transformer,同时还能维持随序列长度的线性可扩展性。
Mamba 首先引入了一个简单却有效的选择机制,可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。然后,Mamba 还包含一种硬件感知型算法,可使用扫描(scan)而非卷积来循环地计算模型,这在 A100 GPU 上能让计算速度提升 3 倍。
凭借强大的建模复杂长序列数据的能力和近乎线性的可扩展性,Mamba 已经崛起成为一种重要的基础模型架构。关于 Mamba 架构的更详细介绍可参阅机器之心文章《一文看懂 Mamba,Transformer 最强竞争者》以及《再战 Transformer!原作者带队的 Mamba 2 来了,新架构训练效率大幅提升》。
而要将 Mamba 与 Transformer 混合到一起,常见的方式有两种:层级混合与序列级混合。如下图所示,当前的 Mamba-Transformer 混合架构模型会根据自身需要选择不同的混合策略。
Nemotron-H
3 月 21 日,英伟达推出了 Nemotron-H 系列的 Mamba-Transformer 混合架构模型,其中包含多种规模的多种模型,比如 Nemotron-H-8B-base、Nemotron-H-8B-Instruct、Nemotron-H-8B-VLM、Nemotron-H-47B-base、 Nemotron-H-56B-base、Nemotron-H-56B-VLM。其中 47B 版本可以在单台商品级 NVIDIA RTX 5090 GPU 上以 FP4 精度支持 100 万 token 长度上下文的推理。
实际上,Nemotron-H 就是英伟达近期发布的用于物理 AI 的强大 VLM 模型 Cosmos-Reason 1 背后的骨干网络。
据介绍,通过采用 Mamba-Transformer 混合架构,相比于 SOTA 的开源纯 Transformer 模型,Nemotron-H 在保证了相当乃至更好的准确度的同时,可以提供远远更快的推理速度(高达 3 倍)。下面两图展示了在 MMLU-Pro 基准上,Nemotron-H 与同等数量级参数的开源 Transformer 模型的准确度与吞吐量对比。可以看到,Nemotron-H 具有非常明显的效率优势。
此外,英伟达也公布了 Nemotron-H 的其它一些细节,包括 Nemotron-H-56B-base 的训练使用了 6144 台 H100 GPU 和 20 万亿 token,训练精度为 FP8(是 FP8 预训练的一次大规模展示);Nemotron-H-47B-base 是 Nemotron-H-56B-base 的蒸馏版 —— 蒸馏精度为 FP8 并使用了 630 亿训练 token。
Hunyuan-Turbo-S 和 Hunyuan-T1
3 月 21 日同一天,腾讯也宣布推出了深度思考模型混元 T1 正式版,并同步在腾讯云官网上线。而在此之前,他们已于 3 月初发布了混元 Turbo S 基础模型以及之后的混元 T1-preview 模型。
这些模型都采用了 Mamba-Transformer 混合架构,其中 T1 更是一款使用了大规模强化学习的强推理模型,在数学、逻辑推理、科学和代码等理科难题具有非常明显的优势。当然,Mamba-Transformer 高效率的优势也在这里有非常明显的体现。
比如在大语言模型评估增强数据集 MMLU-PRO 上,混元 T1 取得了 87.2 分,仅次于 o1。在 Ceval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。
据介绍,混元 T1 正式版沿用了混元 Turbo S 的创新架构,采用 Hybrid-Mamba-Transformer 融合模式。这是工业界首次将混合 Mamba 架构无损应用于超大型推理模型。
这一架构有效降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 的内存占用,从而显著降低了训练和推理成本,让混元 T1 实现首字秒出,吐字速度达到最快 80 token/s。
混元 T1 与 DeepSeek-R1 的吐字速度对比混元 T1 在超长文本推理领域也展现出独特优势。基于出色的长文捕捉能力,混元 T1 能有效解决长文推理中常见的上下文丢失和长距离信息依赖问题。同时,混合 Mamba 架构针对长序列处理进行了专项优化,通过高效的计算方式,在确保长文本信息捕捉能力的同时大幅降低资源消耗,在相近的激活参数量下,实现了解码速度提升 2 倍。
在体现推理模型基础能力的常见 benchmark 上,如大语言模型评估增强数据集 MMLU-PRO 中,混元 T1 取得 87.2 分,仅次于 o1。在 Ceval、AIME、Zebra Logic 等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,混元 T1 的成绩也达到业界领先推理模型的水平。
STORM
STORM 同样来自英伟达,是一款基于视频的多模态大型语言模型(Video-LLM)。相关研究论文已于本月初发布。
论文标题:Token-Efficient Long Video Understanding for Multimodal LLMs
论文地址:pdf/2503.04130
具体技术上,STORM 在图像编码器和 LLM 之间引入了一种新的时间编码器,从而将视觉和语言表征整合到了一起。该架构在工作流程早期引入了时间动态,从而可以显著提升 Video-LLM 的时间推理能力,同时还能大幅提升的下游计算效率。该团队表示:「通过将时间信息直接注入视觉 token,可以减轻 LLM 的时间推理负担,使其能够专注于更高级的语言任务。」
架构上,他们采用了 Mamba 状态空间模型作为时间层的核心,这既能高效处理长视频,同时也可增强对经过扩展的时间上下文的泛化。这个时间层对图像和视频输入的处理方式不同 —— 对于图像,它的作用是空间扫描器,通过结合全局空间上下文来增强 token;对于视频,它同时执行空间和时间扫描,以捕获全面的时空信息。
Mamba 层的主要优势在于它能够将历史信息压缩为状态表征。由于视频输入中的连续帧通常包含冗余信息,因此时间编码器可以有效地处理和传播整个视频序列的时间信息。这样一来,生成的视觉 token 本身就封装了时间历史,并有效地总结了视频的时间动态。
有了这一特性,LLM 处理所需的视觉 token 就更少了,同时还能保留关键信息。
他们的实验表明,新提出的方法效果很好,并且可以成功扩展到长上下文视频理解模型,而不会影响训练效率。
Vamba
Vamba 则是一个用于长视频理解的 Mamba-Transformer 混合模型,来自前文中提到的陈文虎团队。
我们知道,由于因果自注意力运算的二次复杂度(会导致训练和推理的计算成本很高),当前领先的 Transformer LMM 其实很难处理长视频,尤其是当视频长度长达 1 个小时以上时。现在虽有一些 token 压缩方法可以减少视频 token 的数量,但往往会丢失一些信息,并且处理极长序列的效率很低。
于是 Vamba 团队探索了另一个方向:不对视频 token 进行压缩,而是使用另一种模型架构来提高在训练和推理预填充阶段处理视频 token 的效率。
VAMBA 由此诞生!这款混合 Mamba-Transformer 模型可以对长达 1 个小时的视频实现高效的理解。该团队说明了设计这一架构的关键见解:可以设计高效的模块来近似基于 Transformer 的 LMM 中文本和视频 token 的因果自注意力运算。
论文标题:VAMBA: Understanding Hour-Long Videos with Hybrid Mamba-Transformers
论文地址:pdf/2503.11579
项目地址:Vamba/
具体来说,他们提出:
1、利用交叉注意力机制根据视频 token 更新文本 token,由于文本 token 的长度较短,这种方法成本较低;
2、采用 Mamba-2 以线性复杂度处理大量视频 token。
假设输入序列为 M + N 个 token,其中 M 是视频 token 的数量,N 是文本 token 的数量,该团队发现在许多长视频任务(M ≫ N)上,M 至少是 N 的 100 倍。
而该团队提出的新模型可以将训练 / 预填充计算复杂度从 O (d (M + N)²) 降低到 O (dMN + d²M),其中 d 是隐藏维度。不过该团队也指出,在实践中,由于目前 Mamba 的硬件优化不足,这种理论上的改进可能无法完全实现。
尽管如此,他们仍然观察到,在长视频输入的训练和推理过程中,GPU 内存使用量和 FLOP / 运行时间减少了 50% 以上。
VAMBA 可以使用 8 台 A100 GPU 进行有效训练,而 LongVU 和 LongLLaVA 分别需要 64 和 24 台 GPU 进行训练。通过进行两阶段训练,新提出的 VAMBA 在高难度的小时级视频理解基准 LVBench 上比之前最高效的视频 LMM 提高了 4.3%。在其他长视频理解数据集上,如 Video-MME、MLVU 和 LongVideoBench ,VAMBA 也表现出色。
看起来,Mamba-Transformer 混合架构已经开始在推理以及多模态任务中展露头角。通过合理的设计,Transformer 强大的性能可以与 Mamba 在长上下文和效率上的优势整合到一起,为大型语言模型(LLM)和大型多模态模型(LMM)带来新的可能性。
机器之心也曾报道过其它一些 Mamba-Transformer 混合架构模型,详情访问以下链接:
0 条