OpenAI 12连发第2弹：强化微调，少量样本就能训练自己的专家模型

图片地址：https://n.sinaimg.cn/front20241207ac/17/w1135h482/20241207/1954-2830efc716a699932dd118a35641f79d.jpg

强化微调可以轻松创建具备强大推理能力的专家模型。昨天关于 o1 和 200 美元一个月的 o1-pro 的新闻已经消化完了吗？咱们该夸夸，该吐嘈就吐嘈，但也不得不说，OpenAI 是懂营销宣传的，至少这个 12 天连续发布的策略着实是赚足了眼球。现在，OpenAI 的 12 天计划进入了第 2 天。凌晨两点，我们迎来了一个开发者和研究者更感兴趣的产品：Reinforcement Fine-Tuning，即强化微调。今天参与发布的四人组是 OpenAI 研究副总裁 Mark Chen、OpenAI 技术员 John Allard 和 Julie Wang、Berkeley Lab 的环境基因组学和系统生物学研究者 Justin Reese。 Mark Chen 首先表示，今天发布的强化微调「允许你将你的黄金数据集转化为独特的产品，这将能让你将我们具有的神奇能力提供给你自己的用户和客户。」但它实际上要到明年才会真正