中国信通院发布“方升”大模型基准测试系列成果

图片地址：https://n.sinaimg.cn/sinakd20241118s/300/w720h380/20241118/712c-292eac5d0e0c60faa3941ae77293f6fe.jpg

随着国内外大模型技术和能力的提升，大模型评测也在产学研各界已得到蓬勃的发展。通过设计合理的任务、数据集和指标，对大模型进行基准测试，是当前定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平，指引未来学术研究，牵引产品研发、支撑行业应用，还可以辅助监管治理，也有利于增进社会公众对人工智能的正确认知，是促进人工智能技术产业发展的重要抓手。但随着大模型能力的快速提升，产业化落地应用逐渐增多，对大模型基准测试提出了更高要求，亟需创新性的评测体系，高质量的测试数据集，自动化的评测方法，科学、公正、透明的大模型基准测试环境。 2023年至今，在工信部人工智能关键技术和应用评测实验室和人工智能产业发展联盟（AIIA）评估工作组的指导下，中国信息通信研究院已对产学研各界已发布的500+大模型基准测试数据集和方法进行梳理和深入剖析，全面吸收产学研各界的优秀成果，打造全面和坚实的“方升”大模型基准测试体系。在大模型测试标准方面