性能再翻倍：科大讯飞宣布联合华为在“飞星一号”上实现 MoE 模型大规模专家并行集群推理性能飞跃

昨天发布 /正在检测是否收录...

0 73 60

4 月 18 日消息，科大讯飞研究院今日宣布，科大讯飞与华为昇腾联合团队通过多种优化手段提升“飞星一号”平台上 MoE 模型集群推理的性能上限，并在近期实现大规模专家并行集群推理性能翻番。

据介绍，科大讯飞不久前率先突破国产算力集群上 MoE 模型的大规模跨节点专家并行集群推理，公布业界首个基于国产算力的 MoE 模型训练推理方案。

在上一个版本算子和通信优化的基础之上，联合团队升级了适配 MOE 模型的 PD 分离 + 大规模专家并行系统解决方案，进行了多种技术创新工作，总结如下：

适配 MoE 的 PD 分离部署，通过定制集合通信协议，消除集合通信流量冲突，解决推理过程中 Prefill 阶段和 Decode 阶段的相互干扰，使得 P 实例和 D 实例均达到系统最优，性能提升 20%+；
实现国产算力上 MTP 多 token 预测技术，降低 MTP 层计算耗时，整体性能提升 30%+；
专家负载均衡算法再升级，多 DP 负载均衡，实现卡间负载均衡差异小于 8%，集群推理吞吐性能提升 30%+；
创新性实现异步双发射技术，解决高并发下的高 CPU 负载问题，实现 CPU 和 NPU 的高效协同，降低服务请求调度耗时，系统性能提升 10%。

基于上述解决方案的迭代与升级，联合团队通过在“飞星一号”平台上对星火 MoE 模型、DeepSeekV3 / R1 进行实测，实现了推理性能比上一个版本提升 1 倍，已逼近国产算力上 MoE 集群推理的性能上限。

该内容转自IT之家

本文共 446 个字数,平均阅读时长 ≈ 2分钟

喜欢就支持一下吧

本站为个人博客，博客所发布的一切破解补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的。

不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。

本站信息来自网络，版权争议与本站无关，您必须在下载后的24个小时之内从您的电脑中彻底删除上述内容。

访问和下载本站内容，说明您已同意上述条款。

本站不贩卖软件，所有内容不作为商业行为。如果有侵犯您的权益请点击“关于”联系WFXL，核实后会及时删除