复刻 OpenAI o1 推理大模型,开源界传来最新进展:LLaMA 版 o1 项目刚刚发布,来自上海 AI Lab 团队。简介中明确:使用了蒙特卡洛树搜索,Self-Play 强化学习,PPO,以及 AlphaGo Zero 的双重策略范式(先验策略 + 价值评估)。 在 2024 年 6 月,o1 发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。这次最新开源代码,也在开发者社区引起热议。 OpenAI o1 系列发布后,团队开始升级算法,专注于数学奥赛问题,作为 OpenAI 草莓项目的开源版本。10 月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高 Llama 模型数学奥赛能力。在最难的 AIME2024 基准测试 30 道题中,原版 LLaMA-3.1-8B-Instruct 做对 2 道,优化后做对 8 道,超过了除 o1-preview 和 o
Llama 版 o1 大模型发布:来自上海 AI Lab,强化学习代码已开源
2024-11-05 00:00:00来源: IT之家
赞
你的鼓励是对作者的最大支持
- 双十一盛惠:华硕无畏Pro14 AI超轻薄本,演绎高效移动办公新风尚2024-11-05 00:00:00
- 消息称英伟达拟参与马斯克旗下AI初创公司xAI数十亿美元融资2024-11-05 00:00:00
- ChatGPT搜索搞不定勾股定理新证明 但国产AI可以!2024-11-06 00:00:00
- 燧原科技创始人张亚林:AI发展的关键目标是要让大家都用得起2024-11-06 00:00:00
- 超级喜欢现在的生活状态,每天规律的运动学习????,和朋友见面喝咖啡2024-11-05 00:00:00
- AI时代教育有何挑战?如何应对?听听中外教育专家怎么说2024-11-04 00:00:00
- 哪个星座学习成绩最好?答案出人意料!2024-11-05 00:00:00