摩尔线程:五年“长考”,筑起全功能算力的硬核长城
如同英伟达的CUDA一样,CUDA 是英伟达围绕自家GPU 打造的一整套并行计算平台 + 编程模型 + 软件栈 + 生态体系,它长得像软件,但它和硬件能力是强绑定的。
MUSA也不仅仅是一个软件包,MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。这是一个可以让开发者在摩尔线程 GPU 上“写代码、迁移代码、跑框架、做调优、规模化落地”的整套平台。
摩尔线程的所有软硬件产品,均基于MUSA架构,MUSA完整定义了从芯片设计到软件生态的统一技术标准。
这正是摩尔线程坚持“全功能GPU”的初衷——既踏攀登路,必闯最高峰。所谓“全功能GPU”,并非仅具备图形渲染或AI训练能力,而是同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力。这种架构的芯片,不仅面向AI模型训练、智算中心部署,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力。
全功能GPU的优势在于“图算结合”。未来的世界将是多模态的,既需要AI计算理解世界,又需通过图形渲染构建世界,甚至需要支持超高清视频传输。全功能GPU正是能够跨域支持这些多样化计算需求的核心技术。无论计算范式如何变迁,所有创新都将在GPU的灵活性中诞生。
而今,最新一代的“花港”架构正式登场。
“花港”架构基于新一代指令集架构及MUSA处理器架构,算力密度提升50%,计算能效实现10倍提升。在原有MTFP8的技术下,新增MTFP6/MTFP4及混合低精度端到端加速技术。该架构提供了新一代的异步编程模型加速技术,全面优化异步编程模型、任务与资源调度机制,提升并行执行效率。通过自研高速互联MTLink技术,可支持十万卡以上规模智算集群。图形方面,“花港”提供一种全新的AI生成式渲染架构AGR,用AI加速图形渲染流水线,集成全新光追硬件加速引擎,能够完美支持DirectX 12 Ultimate。
另外,“花港”架构中,摩尔线程也自研并集成了完善的安全策略,通过4层安全架构(安全域、信任域、保护域和功能域),时刻为芯片提供安全守护。
为了解决传统GPU任务分配不均导致的算力闲置问题,“华山”集成了新一代异步编程模型:通过 Persistent Kernel 及自动化调度机制,将负载智能平衡到每一个计算单元,同时赋予了开发者近乎“无感”的高效开发体验。
此外,华山还集成了新一代Tensor Core,专为AI应用中的Tensor计算优化。特别是在FP8、FP6和FP4等低精度设计单元的改良上,华山为特定应用场景创造了新的技术解决方案——TCE-PAIR。这种技术允许两个Tensor计算引擎共享数据,避免重复数据调度,大幅提高算力效率。
更重要的是,华山芯片内部集成了专为大语言模型(LLM)定制的加速引擎,针对 Transformer架构及LLM的各个环节,摩尔线程将核心算法逻辑固化至硬件单元中。这种设计确保了每一个软件模块都有对应的硬件引擎驱动,使大模型训练和推理的速度与效率达到极致。
为了满足用户对超大规模算力的需求,华山提供了超十万卡级别的“AI工厂”技术,专注于Scale-up和Scale-out的扩展能力。在提升算力规模的同时,通过本地支持Scale-up,确保多GPU协同工作时的高效性能。
华山不仅支持摩尔线程的MTLink 4.0,同时开放支持多种以太网协议,使其能够兼容国内外各种硬件生态。通过对不同协议的支持,华山能够适配更多的Scale-up Switch和应用场景,并通过支持SHARP协议,提高通信效率,确保数据传输的高速和稳定。
在集群能力方面,华山的Scale-up系统使得单个超节点能够支持高达1024个GPU的扩展,为大规模计算提供了强大的带宽和处理能力。此外,华山内置的RAS2.0技术(包括ECC和SRAM校验)保障了芯片底层的准确性与稳定性。自动检测、上报与隔离机制确保在集群中任何芯片出现问题时能够及时处理,保证集群整体的安全性和稳定性。
尤为值得一提的是,华山集成了ACE2.0异步通信引擎,这也是摩尔线程的一项独特创新。与ACE1.0相比,ACE2.0通过在每个计算单元内设计小型ACE引擎,实现通信与计算的高度并行化,大幅提升了整体效率。这一技术的引入,配合RAS2.0和新一代Scale-up系统,使得华山在大模型训练中的集群能力更加出色,能够满足超大规模和高参数量的用户训练需求。
为此,摩尔线程推出了超十万卡级AI工厂技术,突破了传统GPU集群的瓶颈,支持Scale-up系统,可以扩展至1024个GPU,满足大规模AI计算任务的需求:
新一代MTLink 4.0技术支持多种协议与设备的兼容,具备1314 GB/s的片间互联带宽,极大提升了数据传输效率;同时,ACE 2.0(异步通信引擎)进一步优化了GPU之间的协同工作,提升了计算与通信的并行效率,支持更高效的任务调度与资源分配;RAS 2.0则增强了芯片的容错能力和可靠性,提供了更强的错误检测、调试能力以及ECC内存保护,确保超大规模集群的高稳定性和高可用性;此外,超节点解决方案MTT C256,支持256个GPU的超节点集群,能够在亿级拓扑互联层下高效互通,进一步提升大规模训练集群的效率。
MUSA 5.0 的核心竞争力在于其“无边界”的适配能力。它不仅完美兼容国际主流 CPU 操作系统,更实现了对国产 CPU 及开发环境的深度优化,这种“双轮驱动”的策略,确保了 MUSA 能够充分吸纳国内外生态优势,助力“云-边-端”系列产品在统一的软件栈下获得一致的性能表现。
具体来说,MUSA 5.0的升级包括三个主要部分:
这一系列升级计划于明年上半年正式规模化落地。MUSA 5.0 正在通过这种“全栈化、高性能、开放式”的软件哲学,不仅大幅提升开发者的工程效率,更在加速补齐国产 GPU 生态最后一块拼图。
在具身智能的开发逻辑中,Sim to Real(仿真到现实)的迁移效率决定了智能体的进化速度。对此,摩尔线程正式发布具身智能仿真训练平台 MT Lambda,它深度整合了物理、渲染与AI三大核心引擎,旨在为开发者提供一套从场景构建、数据合成到仿真训练的高效工作流。
此外,具身智能还需要一个强悍的边缘侧内核。摩尔线程首颗AI SoC芯片“长江”正式亮相,这标志着摩尔线程算力布局从 GPU 延伸到了高度集成的芯片系统。“长江”集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多维算力核心。无论是具身智能机器人,还是下一代 AIBOOK、AICube,均可通过“长江”获得原生 AI 算力。
为了打通具身智能的最后一公里,摩尔线程推出了完整解决方案——MT Robot。其中,基于KUAE智算集群提供的强大云端算力作为“大脑”,处理大规模训练与复杂决策;依托内置“长江”芯片的 MTT E300模组作为敏捷“小脑”,实现端侧的低延迟响应与实时避障。
摩尔线程在具身智能领域的入局,本质上是其全功能GPU能力的向下延伸与横向拓扑。通过MT Lambda仿真平台解决“虚实迁移”的效率难题,凭借“长江”AI SoC在边缘侧构筑强大的计算内核,再通过MT Robot方案实现“云端大脑”与“端侧小脑”的无缝协同——摩尔线程不仅提供了算力,更提供了一套从虚拟训练到物理落地的全栈自主路径,让AI真正具备了行走于物理世界的行动力。
对于国产GPU而言,要跨越“生态鸿沟”,必须解决三大痛点:迁移成本高、工具链不够成熟、社区与文档不够完善。但目标路径也很清晰——从“能用”到“好用”,再到“愿意用”。开发者体验做顺了,生态才会自发增长。摩尔线程的MUSA,本质上就是面向CUDA生态的一次国产化实践。
摩尔线程的MUSA软件栈也是围绕“如何让GPU既‘好用’又‘用得好’出发”。在圆桌论坛中,摩尔线程联合创始人、CTO张钰勃提到,“好用”和“用得好”看起来天然有张力:好用意味着更高层、更标准化、更贴近主流抽象;而要用得好、要突破,就必须把底层微架构的创新发挥出来。对此,MUSA的思路是:先对齐主流生态的使用习惯——编程模型、编程方式、加速库能力尽量与国际主流保持一致,让开发者以最低学习成本、最低迁移成本把国产 GPU 先“用起来”。同时,AIBOOK作为MUSA生态的核心入口,通过深度集成统一架构和开发者工具链,为开发者提供了从本地开发到云端扩展的无缝体验,进一步降低了生态参与门槛。
