Welcome-球速(体育科技有限公司)-Day
2026-06-23 03:31:01||273次|新闻资讯

【导读】6月17日,摩尔线程公布于AI训推一体全功效GPU智算卡MTT S5000上,完成对于智谱新一代开源旗舰模子GLM-5.2的Day-0极速适配。这次适配延续了摩尔线程于GLM-5.1长上下文Prefill与P/D异构分散推理场景中的优化堆集,并面向GLM-5.2超长上下文与繁杂推理负载,进一步开释MTT S5000于长输入Prefill阶段的高吞吐上风。

摩尔线程技能团队基在高机能SGLang-MUSA推理引擎和TileLang-MUSA算子编程语言,快速完成模子布局适配、要害算子优化、框架拉起与部署验证,于MTT S5000上实现GLM-5.2的高效、高精度推理。这一结果彰显了国产全功效GPU算力基础举措措施对于前沿SOTA模子的快速相应能力,也为软硬协同应答繁杂AI推理场景提供了可复制的工程实践。

1781674314952639.jpg

作为智谱迄今能力最强的开源模子,GLM-5.2专为长程使命(Long Horizon Task)能力而生。它撑持真正可用的1M Solid超长上下文,可不变支撑长达 8 小时的超永生命周期使命。于全世界百万用户介入盲测的前端开发评估体系Code Arena上,GLM-5.2取患上全世界可用模子第一的体现;比拟前代GLM-5.1,新模子于前端、后端和长程开发场景下的乐成率均有长足晋升,可以或许提供更实用、更具确定性的Coding能力,让繁杂体系工程与深度调试更稳、更强。

1781674268722412.jpg

为充实开释GLM-5.2的长上下文与繁杂推理潜能,MTT S5000从硬件算力、软件栈到开源框架举行了全链路适配与深度优化:

支撑超长上下文:开释长输入Prefill阶段高吞吐上风

GLM-5.2的Solid 1M上下文与长程使命能力,使长Prompt编码、上下文读入与KV Cache天生成为推理链路中的要害环节。长输入哀求于进入天生阶段前,需要先完成年夜范围Prefill计较;这一阶段高度依靠并行矩阵计较、Attention算子效率、显存容量与访存带宽。MTT S5000依附硬件级原生FP8加快,单卡浓厚算力高达1000 TFLOPS,配备80GB年夜容量显存与1.6TB/s超高带宽,可于长输入Prefill阶段集中开释高吞吐上风,为百万token级上下文处置惩罚提供足够缓存空间及不变数据吞吐。依托MUSA C++、Triton-MUSA与TileLang-MUSA等东西链,GLM-5.2相干算子布局可快速迁徙并针对于长序列场景连续优化,帮忙降低长上下文哀求的首Token等候时间(TTFT),晋升AI Coding、RAG及长文档阐发等场景的于线推理效率。

赋能前沿Coding与Agent能力:以算子与调理优化晋升推理效率

面向GLM-5.2重点强化的编程、智能体及长程使命场景,摩尔线程基在GLM家族多代模子的适配与优化经验,将模子布局适配、算子优化、框架拉起及部署验证能力快速迁徙至GLM-5.2。经由过程原生算子定制、TileLang-MUSA编程优化及SGLang-MUSA推理框架协同,MTT S5000可以或许于保障模子精度的条件下晋升推理吞吐、降低相应延迟,为客户提供面向AI Coding、Agent事情流及长文档阐发的高效推理办事。从GLM-4.七、GLM-五、GLM-5.1到GLM-5.2,摩尔线程已经持续实现对于智谱GLM家族前沿年夜模子的发布当日即时适配,沉淀出高效、可复用的工程底座。面向以GLM-5.2为代表的新一代长程使命模子,摩尔线程不仅提供基础适配,更经由过程Prefill优化与P/D异构分散方案,提供从单卡机能、多卡扩大、KV Cache传输到集群TCO(整体拥有成本)优化的端到端支撑。

将来,摩尔线程将依托MUSA软件栈强盛的生态兼容性,连续第一时间适配前沿模子能力,以高机能、可范围化的国产全功效GPU基础举措措施,加快年夜模子运用立异落地。

gg_20260512171736_266.png

-Welcome-球速(体育科技有限公司)


相关阅读

全国服务热线
400-607-5688
公司地址
北京市昌平区回龙观高新四街 6号院1号楼5层
公司邮箱
www@qiusu.com
版权所有:球速体育科技有限公司  京ICP备18004735号-1 京公网安备 11011402010817号
400-607-5688
在线咨询
京东商城
返回顶部
电话咨询
在线咨询
返回顶部