新关注 > 信息聚合 > Llama 版 o1 大模型发布:来自上海 AI Lab,强化学习代码已开源

Llama 版 o1 大模型发布:来自上海 AI Lab,强化学习代码已开源

2024-11-05 00:00:00来源: IT之家

复刻 OpenAI o1 推理大模型,开源界传来最新进展:LLaMA 版 o1 项目刚刚发布,来自上海 AI Lab 团队。简介中明确:使用了蒙特卡洛树搜索,Self-Play 强化学习,PPO,以及 AlphaGo Zero 的双重策略范式(先验策略 + 价值评估)。 在 2024 年 6 月,o1 发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。这次最新开源代码,也在开发者社区引起热议。 OpenAI o1 系列发布后,团队开始升级算法,专注于数学奥赛问题,作为 OpenAI 草莓项目的开源版本。10 月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高 Llama 模型数学奥赛能力。在最难的 AIME2024 基准测试 30 道题中,原版 LLaMA-3.1-8B-Instruct 做对 2 道,优化后做对 8 道,超过了除 o1-preview 和 o