随着国内外大模型技术和能力的提升,大模型评测也在产学研各界已得到蓬勃的发展。通过设计合理的任务、数据集和指标,对大模型进行基准测试,是当前定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。但随着大模型能力的快速提升,产业化落地应用逐渐增多,对大模型基准测试提出了更高要求,亟需创新性的评测体系,高质量的测试数据集,自动化的评测方法,科学、公正、透明的大模型基准测试环境。 2023年至今,在工信部人工智能关键技术和应用评测实验室和人工智能产业发展联盟(AIIA)评估工作组的指导下,中国信息通信研究院已对产学研各界已发布的500+大模型基准测试数据集和方法进行梳理和深入剖析,全面吸收产学研各界的优秀成果,打造全面和坚实的“方升”大模型基准测试体系。在大模型测试标准方面
中国信通院发布“方升”大模型基准测试系列成果
2024-11-18 00:00:00来源: 环球网
上一篇
西安城墙的数智密码
赞
你的鼓励是对作者的最大支持
- 小米智能生态官宣四款新品 11 月 27 日发布2024-11-24 00:00:00
- AI赋能“土味”工厂:透视中国“数智”生产力2024-11-24 00:00:00
- 日媒:中国“玩具之都”强势突围2024-11-25 00:00:00
- 特斯拉中国:Model Y限时交付尾款立减1万元2024-11-25 00:00:00
- Salesforce CEO:大模型可能已接近技术上限,AI的未来是智能体2024-11-25 00:00:00
- 2024酒类电商高质量发展大会发布酒类电商发展九大共识2024-11-24 00:00:00
- 推荐给孩子的书系列:孩子的第一套生活习惯养成书,可以选这套。2024-11-22 00:00:00
- 英特尔或为苹果制造SoC:用于iPhone 18系列的A20芯片2024-11-23 00:00:00
- 中国厂商重塑全球高端电视市场2024-11-23 00:00:00
- 采用我国独创技术!全球首款,正式发布2024-11-22 00:00:00