DeepSeek之后，国产芯片立功，AI训练成本再“打八折”

图片地址：https://n.sinaimg.cn/front20250326ac/254/w690h364/20250326/bb95-59b451b3fcb3f5824599653b84342ab2.jpg

转自：上观新闻 3月24日晚，DeepSeek-V3发布小版本升级，实测表现远超预期。几乎与此同时，另一款国产大模型蚂蚁百灵凭借国产芯片训练，实现同等性能突破，还将训练成本再降20%，同样引发市场关注。根据团队公布的论文显示，蚂蚁推出的百灵大模型分为两个版本——参数规模为168亿（激活参数27.5亿）的百灵Lite和参数规模为2900亿（激活参数288亿）的百灵Plus。通过实验表明，使用国产较低性能的GPU芯片，也能完成3000亿参数的MoE（混合专家）大语言模型的训练，而且性能与英伟达芯片训练的同等参数模型相当。记者在论文中看到，MoE大模型的训练通常依赖于英伟达H100或H800等高性能GPU芯片，但过高的成本以及出口管制等问题，也限制了大模型的普及应用。因此，百灵团队通过低性能GPU来训练模型，通过模型训练环境、优化策略、基础设施、训练过程、评估结果和推理等层面进行优化，用低成本来复现高性能模型。其中，跨异构计算与分布式