Llama 版 o1 大模型发布：来自上海 AI Lab，强化学习代码已开源

图片地址：https://n.sinaimg.cn/spider20241105/663/w1080h1183/20241105/8f4c-91fff689f8fdcf6f44cd37f1d194ee4f.png

复刻 OpenAI o1 推理大模型，开源界传来最新进展：LLaMA 版 o1 项目刚刚发布，来自上海 AI Lab 团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play 强化学习，PPO，以及 AlphaGo Zero 的双重策略范式（先验策略 + 价值评估）。在 2024 年 6 月，o1 发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。这次最新开源代码，也在开发者社区引起热议。 OpenAI o1 系列发布后，团队开始升级算法，专注于数学奥赛问题，作为 OpenAI 草莓项目的开源版本。10 月初，团队上传新论文，使用成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）提高 Llama 模型数学奥赛能力。在最难的 AIME2024 基准测试 30 道题中，原版 LLaMA-3.1-8B-Instruct 做对 2 道，优化后做对 8 道，超过了除 o1-preview 和 o