685亿参数仅激活29-45亿!美团LongCat发布Flash-Lite:N-gram嵌入开启轻量化MoE新范式

从专家扩展到嵌入扩展:大模型高效进化的新思路

在大模型研发领域,MoE(混合专家)架构一直是平衡性能与算力的重要技术路线。传统MoE通过增加专家数量来提升模型能力,但美团LongCat团队通过系统性实验发现了一个关键问题:随着专家数量增加,系统面临的边际收益递减和通信开销上升会越来越严重。

基于全面的分析与实验,团队得出重要结论:在特定条件下,嵌入扩展相比专家扩展能够获得更优的帕累托前沿。这意味着通过扩展嵌入层来增强模型能力,比单纯增加专家数量更具效率优势。基于这一洞见,LongCat-Flash-Lite应运而生。

N-gram嵌入层:精准捕获上下文语义

N-gram嵌入层是LongCat-Flash-Lite的核心创新,其核心作用在于增强模型对局部上下文语义的捕获能力。与传统词嵌入不同,N-gram嵌入通过哈希函数将当前token及其前序的N-1个token所构成的序列映射为一个整体的嵌入向量,并与该token的基础嵌入向量进行融合。

这种设计带来的实际效果非常直观。以"打开终端输入命令"这句话为例,传统模型可能误解为日常的"打开文件"操作,但有了N-gram嵌入后,模型能够精准锁定"编程"这个具体场景,显著提升了语义理解的精准度。

在N-gram嵌入向量的生成过程中,最关键的挑战在于避免哈希冲突。LongCat团队采用了两项关键设计来应对这一问题。首先是子表分解与线性投影:将大型的N-gram嵌入表拆分为多个子表,分别进行线性投影变换,可大幅降低哈希碰撞概率。其次是词汇表大小优化:通过精确设计词汇表规模,在存储开销与碰撞率之间找到最佳平衡点。

此外,团队还引入了嵌入放大技术。通过在输出前添加缩放因子或层归一化,确保嵌入层提供的语义信号在深层网络的残差连接中不会被注意力模块的输出所淹没,从而保障了其贡献在整个前向传播过程中的有效性。

系统级优化:从理论优势到实际性能

N-gram嵌入层的结构特性不仅能提升模型能力,其设计还为推理加速提供了新方向。尽管LongCat-Flash-Lite总参数量达到685亿,但通过动态激活机制,每次推理仅激活29亿至45亿参数。为进一步放大这一稀疏优势,团队在系统层面进行了三重核心优化。

参数智能分配

团队将31.4B参数(占总参数46%)投入N-gram嵌入层。相较于单纯增加MoE专家数量,此方案在达到高模型稀疏度后,既能有效减少专家模块间的通信与调度开销,又得益于嵌入层O(1)的查找复杂度,避免了参数扩容带来的计算线性增长。

专用缓存与内核优化

团队设计了N-gram Cache专用缓存机制。这一机制灵感源于传统的KV Cache,直接在GPU设备上管理N-gram ID,与推理框架中复杂的动态调度逻辑实现低开销同步,大幅降低嵌入查找的I/O延迟。

在软件层面,团队通过定制CUDA内核及广泛的内核融合来提升GPU占用率。典型的融合操作包括AllReduce+Residual Add+RMSNorm、路由器Logits的Softmax+TopK+Scaling融合等。同时应用PDL(Programmatic Dependent Launch)技术,有效减少内核启动间隙。

推测解码协同

为充分发挥稀疏激活优势,团队将其与推测解码策略深度协同。通过3步投机推理,扩大了实际的批次大小,充分利用低激活总参的特性。考虑到草案模型对延迟敏感的特性,让其使用常规嵌入层以规避N-gram查找计算的开销,进一步提升了整体推理性能。

性能表现:智能体与编程领域的卓越竞争力

基于上述从模型结构到运行时系统的垂直优化,LongCat-Flash-Lite在实际任务中展现出强劲竞争力。在智能体工具使用与编程任务上,该模型均取得了令人瞩目的成绩。

智能体任务表现

在评估复杂工具使用与工作流执行的基准测试中,模型表现突出。在τ²-Bench行业场景中,模型在电信(72.8分)、零售(73.1分)、航空(58.0分)三大子场景中均取得最高分,表明其能有效理解并执行涉及专业工具的复杂指令。在VitaBench通用场景中,模型以7.0分领先于对比模型,验证了其在多样化现实任务中的实用工具调用能力。

代码任务表现

在衡量编程实用技能的基准上,模型展现出强劲的问题解决能力。在代码修复任务(SWE-Bench)中,模型取得了54.4%的准确率,显著领先于同规模对比模型,证明其处理真实软件工程问题的有效性。在终端命令执行任务(TerminalBench)中,33.75分的表现远超对比模型所处的15-20分区间,体现了对开发者工作流中命令行操作的高精度理解。在多语言代码生成任务(SWE-Bench Multilingual)中,38.10%的准确率展现了跨编程语言与软件生态的良好泛化能力。

通用知识与推理能力

在综合评估中,模型保持了与规模相匹配的均衡性能。在综合知识(MMLU)中取得85.52分,与Gemini 2.5 Flash-Lite(84.68)相当。在中文理解(C-Eval与CMMLU)中分别取得86.55分与82.48分,在中文评估中具备一定优势。在复杂推理(MMLU-Pro、GPQA-Diamond)中取得78.29分与66.78分,显示了处理高阶、多学科问题的能力。在数学推理(MATH500、AIME)中,在基础(96.80%)与竞赛级数学问题(AIME24:72.19;AIME25:63.23)上均表现稳健。

技术资源与社区共建

LongCat-Flash-Lite的实践为大模型的高效扩展提供了一种新范式。通过N-gram嵌入与系统级优化的协同设计,用29亿至45亿的动态激活参数,在智能体与编码等关键任务上实现了与更大模型比肩的竞争力。

目前,模型权重及技术细节已全面开源。开发者可通过Hugging Face和Modelscope平台获取模型。同时,团队还开源了推理引擎的部分功能(SGLang-FluentLLM)和部分算子,便于社区更好地使用LongCat模型。

对于希望直接体验的开发者,LongCat团队已向开发者开放Flash-Lite版本API接口。开发者可登录LongCat API开放平台申请使用,每日免费额度高达5000万tokens,为研究和应用提供了充足的资源支持。

文章评论

登录后才能发布评论哦
立即登录/注册
消息提醒
Hello, world! This is a toast message.