2024年6月3日,昆仑万维正式宣布开源其最新的2千亿参数稀疏大模型Skywork-MoE。该模型在性能和成本效益方面都有显著提升,是全球首个支持单台4090服务器推理的开源千亿参数MoE大模型。

开源地址及资源

Skywork-MoE的模型权重、技术报告完全开源,免费供商业使用,无需申请:

昆仑万维发布全球首个支持4090推理

模型架构

此次开源的Skywork-MoE模型属于天工3.0研发系列,模型总参数量为146B,激活参数量22B,拥有16个Expert,每个Expert大小为13B,每次激活2个Expert。相比其他大模型,Skywork-MoE在推理成本上有显著下降,在相同的激活参数量20B情况下,其性能接近70B的密集模型。

技术创新

为了提升MoE模型的训练效果和泛化性能,Skywork-MoE在训练优化算法上做了两项创新:

  1. Gating Logits归一化操作:在Gating Layer的token分发逻辑中新增了normalization操作,增强模型对top-2 experts的置信度。
  2. 自适应Aux Loss:在MoE训练的不同阶段,模型自适应选择合适的aux loss超参数系数,以平衡Drop Token Rate和expert分发的均衡性。

训练基础设施

Skywork-MoE提出了两个重要的并行优化设计,使其在大规模分布式训练中的性能大幅提升:

  1. Expert Data Parallel:相较于现有的EP和ETP设计,EDP在Expert数量较少时依然能高效地切分模型,并优化all2all通信。
  2. 非均匀切分流水并行:通过非均匀的流水并行切分和重计算Layer分配方式,使计算/显存负载更均衡,训练吞吐量提升约10%。

推理性能

Skywork-MoE是目前唯一能在8×4090服务器上推理的开源MoE模型。在FP8量化下,Skywork-MoE可以在合适的batch size内达到2200 tokens/s的吞吐量。相关推理框架代码和安装环境已完整开源,详情见GitHub

总结

Skywork-MoE的开源不仅为社区带来了一个高效的MoE模型,还提供了大量关于模型结构、超参数选择、训练技巧和推理加速的宝贵经验。在成本控制和性能提升的双重优势下,Skywork-MoE为通往更强大、更高效的AI模型探索了新的路径。

作为一名新闻从业者,我认为昆仑万维的这一举措不仅展示了中国科技企业在AI领域的创新实力,也为全球AI研究和应用提供了重要的技术支持。Skywork-MoE的开源将激发更多的科研和商业应用,推动AI技术的进一步发展。这不仅是昆仑万维的成就,也是全球科技进步的一大步。

Leave a Reply

Your email address will not be published. Required fields are marked *