新关注 > 信息聚合 > 大瓜来了!Llama 4 陷刷榜争议:“内部员工”发帖控诉,测评版本被指特供?

大瓜来了!Llama 4 陷刷榜争议:“内部员工”发帖控诉,测评版本被指特供?

2025-04-07 00:00:00来源: 网易新闻

新瓜,主角是昨天刚刚发布的Meta旗舰大模型——Llama 4内部爆料:性能不达标,压力下欲“优化”结果?首先引爆讨论的是一篇来自“一亩三分地”论坛的帖子,发帖人自称是参与Llama 4训练的内部员工,并表示已因此辞职 帖子内容信息量很大,主要说了几点:这篇帖子迅速引发了圈内关注,大家都在讨论这种做法是否违背了AI研发的基本诚信这是后续,真实情况还有待于观察 外部观察:TechCrunch质疑测试版本“误导性”无独有偶,知名科技媒体TechCrunch也发文,标题直指Meta新AI模型的性能测试“有点误导人”。TechCrunch的文章主要聚焦于Llama 4(即Maverick)在著名的人类评估排行榜LM Arena上的表现。Maverick确实取得了第二名的好成绩,但这背后似乎另有隐情: 一些Llama 4的实测号称千万上下文的召回率,上下文的实际表现,远低于预期 Llama 4 Maverick 在 aid