强化微调可以轻松创建具备强大推理能力的专家模型。昨天关于 o1 和 200 美元一个月的 o1-pro 的新闻已经消化完了吗?咱们该夸夸,该吐嘈就吐嘈,但也不得不说,OpenAI 是懂营销宣传的,至少这个 12 天连续发布的策略着实是赚足了眼球。 现在,OpenAI 的 12 天计划进入了第 2 天。凌晨两点,我们迎来了一个开发者和研究者更感兴趣的产品:Reinforcement Fine-Tuning,即强化微调。 今天参与发布的四人组是 OpenAI 研究副总裁 Mark Chen、OpenAI 技术员 John Allard 和 Julie Wang、Berkeley Lab 的环境基因组学和系统生物学研究者 Justin Reese。 Mark Chen 首先表示,今天发布的强化微调「允许你将你的黄金数据集转化为独特的产品,这将能让你将我们具有的神奇能力提供给你自己的用户和客户。」但它实际上要到明年才会真正
OpenAI 12连发第2弹:强化微调,少量样本就能训练自己的专家模型
2024-12-07 00:00:00来源: 机器之心Pro
赞
你的鼓励是对作者的最大支持
- 告别OpenAI,翁荔宣布加入VC2024-12-08 00:00:00
- 12星座本周幸运榜单(12/8~12/14)2024-12-08 00:00:00
- AI写小说有多离谱?用四种文风演绎马斯克 VS OpenAI大戏2024-12-08 00:00:00
- 陶哲轩对谈OpenAI高管,“也许很快OpenAI就能证明陶哲轩是错的”2024-12-08 00:00:00
- X 为 Grok 推出新 AI 图像生成模型 Aurora,可生成更加逼真的图像2024-12-08 00:00:00
- 皮卡丘的世界模型会比 Meta 先解锁 AR 元宇宙吗?2024-12-08 00:00:00
- 消息称OpenAI计划放弃AGI限制条款 以吸引更多投资2024-12-06 00:00:00
- Canalys:2024 Q3 全球智能手机出货量同比增长 5%,连续四个季度实现同比反弹2024-12-06 00:00:00