转自:上观新闻 3月24日晚,DeepSeek-V3发布小版本升级,实测表现远超预期。几乎与此同时,另一款国产大模型蚂蚁百灵凭借国产芯片训练,实现同等性能突破,还将训练成本再降20%,同样引发市场关注。根据团队公布的论文显示,蚂蚁推出的百灵大模型分为两个版本——参数规模为168亿(激活参数27.5亿)的百灵Lite和参数规模为2900亿(激活参数288亿)的百灵Plus。通过实验表明,使用国产较低性能的GPU芯片,也能完成3000亿参数的MoE(混合专家)大语言模型的训练,而且性能与英伟达芯片训练的同等参数模型相当。记者在论文中看到,MoE大模型的训练通常依赖于英伟达H100或H800等高性能GPU芯片,但过高的成本以及出口管制等问题,也限制了大模型的普及应用。因此,百灵团队通过低性能GPU来训练模型,通过模型训练环境、优化策略、基础设施、训练过程、评估结果和推理等层面进行优化,用低成本来复现高性能模型。其中,跨异构计算与分布式
DeepSeek之后,国产芯片立功,AI训练成本再“打八折”
2025-03-26 00:00:00来源: 媒体滚动
赞
你的鼓励是对作者的最大支持
- AI解读世界:如何培养孩子的艺术才能2025-03-26 00:00:00
- 邬贺铨:建议国家牵头建立全国统一的自动驾驶训练模型2025-03-28 00:00:00
- Intel CEO陈立武:将在AI硬件领域与NVIDIA一较高下2025-03-28 00:00:00
- 微软 CEO 纳德拉:公司正考虑自主开发高端生成式 AI 模型2025-03-28 00:00:00
- AI原住民:镜像世界中诞生的认知新物种|观察家2025-03-27 00:00:00
- 联想携手燧弘华创搭建万全异构智算平台,DeepSeek极限吞吐超8000 tokens/s2025-03-27 00:00:00
- 消息称百度 AI 开放日活动推迟,谢广军演讲已被取消2025-03-27 00:00:00
- BOSS直聘@大学生,多项AI功能升级助力就业2025-03-27 00:00:00
- 华硕无畏家族新品今日开售 高能AI加持 还有长效续航2025-03-27 00:00:00
- 国内首个!华为ModelEngine AI工具链通过信通院大模型平台认证2025-03-27 00:00:00