新关注 > 信息聚合 > 火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

2025-03-21 00:00:00来源: 机器之心Pro

偶然发现了一个很有趣的 AI 基准测试,点开链接,竟然是一个 MineCraft 作品投票页面? 如图所示,这些作品都是 AI 完成的,灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。网站地址:https://mcbench.ai/来都来了,先投个票吧。投票之前,作品都是「匿名」的。只有在投票后,我们才能看到每个 Minecraft 作品是由哪个模型完成的。 在这个基准里,主要看三个维度:指令遵循、代码完成度和创造力。AI 技术飞速演进的时代,传统的人工智能基准测试显然不够用了。总有人能想出一些新颖的测试方法,比如的沙盒建造游戏 Minecraft。这就是我们刚刚看到的 Minecraft Benchmark(MC-Bench)。作为用户,我们能够参与的部分就是:投票。累计票数中的 ELO 分数决定了每个模型的排名。有趣的是,无论采用哪种指标,排行榜的收敛程度都很高:Claude 3.7 &