
2025-07-06 12:20 点击次数:157
近日,国外大模子居品平台 OpenPipe 上发布了一项参谋91porn 91porn,诠释其奈何通过 GRPO 在重度推理游戏《时空谜题》中超过 R1、o1、o3-mini 等模子。参谋作家辞别为来自 Ender Research 的强化学习参谋员 Brad Hilton 和 OpenPipe 的首创东谈主 Kyle Corbitt。
他们的参谋默示,他们不仅将模子与 Sonnet 3.7 的差距舒缓至个位百分比,同期杀青进步 100 倍的推理老本优化。
请问中还分享了任务假想与超参数调度的训戒,并公开了基于 torchtune 框架构建的齐备磨练决策。
一、配景先容
自 OpenAI 旧年发布打破性的 o 系列推理模子以来,收受强化学习(RL)磨练的大型言语模子(LLMs)迎来爆发式增长。谷歌 DeepMind、阿里巴巴、DeepSeek、Anthropic 接踵推出支柱长 " 想维链 "(CoT)推理的先进模子,在可考证问题上奉行强化学习磨练,让传统的基准测试渐渐靠拢性能天花板。
尽管取得权贵进展,逻辑演绎才能仍是顶尖模子的阿喀琉斯之踵。现时 LLMs 盛大存在三大错误:
难以富厚跟踪通盘联系细节
无法保合手逻辑严实的推演经由
多步衔尾可靠性不及
即便顶尖模子生成 10-100 倍长度的输出,仍然会频现东谈主类可纵脱识别的初级弊端。
带着酷爱,咱们开启了一系列的探索:微型开源模子能否借助前沿强化学习时代,打破演绎推理的边域?
咱们开首从性能较弱的模子启程,在一项全新的推理任务上对其进行迭代磨练。跟着时代的推移,咱们明显不雅察到它们的推理才能有所晋升,最终达到甚而超过了一些先进的独有模子 。
二、基准测试框架
为了开展咱们的实验,咱们开首必须笃定一个具有明确可考证谜底且具有挑战性的推理任务。偶合其中一位作家之前创建了一个绝对稳当条件的谜题集——"时空谜题"(Temporal Clue)。除了安静事实真相明晰这一范例外,还不错按照需要创建新谜题。
"时空谜题"灵感源自热点桌游 Clue(Cluedo),在该游戏中,玩家们竞相揭开究竟是谁在 Boddy 先生的豪宅中谋杀了他。"时空谜题"将这款游戏转机为一个单东谈主逻辑谜题,它不仅涵盖范例身分 —— 凶犯是谁、用什么凶器、在哪作案,还增添了两个维度:作案时代和作案动机。谜题是立地生成的,游戏使用了 OR - Tools 的 CP - SAT 求解器进行印迹挑选。
在某个凉爽的冬夜,深沉富豪 John Q. Boddy 先生为他的密友举办了一场微型的奢靡晚宴。关联词,这场晚宴以悲催结束,Boddy 先生于清早时期被发现死在皆铎庄园的一个房间里。以下是被认定为嫌疑东谈主的联系利益东谈主员……
为了明确这项推理任务的最好水平,咱们对一些火爆的推理模子进行了基准测试 ,包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外,咱们还对 14B 和 32B 的 Qwen 模子进行了基准测试,这是咱们最终扫尾的预览:
风流少妇在这些基准测试中,咱们发现 Claude Sonnet 3.7 在设定 6.4 万个 token 的情况下进展最好,DeepSeek R1 的进展真的与 OpenAI 的 o1 和 o3 - mini 不相高下。关联词,未经调优的 Qwen 2.5 Instruct 模子在比拟之下就稍显逊色了。
一个症结问题是:咱们能否将这些较微型的通达权重模子磨练到前沿水平的进展?谜底是服气的,唯有效对方法。
三、磨练
为了磨练出一个具有前沿水平的推理模子,咱们收受了强化学习方法。咱们开首让大言语模子针对每个谜题生成多个回复,以此探索问题的各类可能性,从而指点它们学习。对得出正确谜底的推理经由赐与正向强化,而对误导模子的推理经由则进行处分。
在宽绰强化学习的方法中,咱们选用了 DeepSeek 模子的 GRPO 算法。与 PPO 等传统方法比拟,GRPO 不仅进展出色,还简化了磨练经由。
从宏不雅层面来看,咱们的磨练顺从以下几个基本门径:
针对谜题任务生成模子回复
对回复进行评分,并为每组聊天回复估算上风值
运用这些上风值估算扫尾指点的剪辑战略梯度对模子进行微调
用新的谜题和模子的最新版块重叠上述门径,直至达到最好性能
在生成回复要津,咱们使用了热点的 vLLM 推理引擎,并对参数选用进行了调优。咱们发现,向 vLLM 发送过多苦求会导致正在处理的苦求被霸占。为搞定这一问题,咱们使用了一个信号量来限制苦求数目,该信号量经过调优,好像在尽量减少换出的同期保合手较高的键值缓存运用率。
采样完成后,咱们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将音讯对象渲染为辅导字符串,其中包含一个助手掩码,用于笃定哪些象征是由大言语模子生成的。咱们发现这些模子在其默许模板中短少必要的 "生成" 标签,于是在 token 门径中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中,用以标记哪些位置需要进行亏欠野心。
在赢得助手掩码后,咱们对数据进行打包以便调优。除了在每个打包序列中包含多个辅导和回复除外,咱们还识别出分享的辅导象征,并为每个象征分派一个父 ID,同期附上范例的组 ID。关于像 "时空谜题" 这类平均每个谜题进步 1000 个象征的任务,咱们针对每个任务生成多个回复并高效打包张量,权贵减少了冗余。一朝将通盘必要信息打包完毕,咱们就能以二维花样直不雅呈现磨练数据集,每一排皆是一个可能包含多个辅导和回复的象征序列 。
有了数据后,咱们运转调优。模子照旧完成了预磨练和指示微调,具备一定的智能水平。固然它们还无法富厚地搞定谜题,然则偶尔也能告捷。通过提高正确推理的概率,咱们冉冉指点模子朝着 "神探" 的水平迈进。关于野心损构怨调度权重,咱们收受了战略梯度的方法。
在磨练经由中,咱们使用了由 PyTorch 团队提供的 Torchtune 库,其中包括 Llama、Gemma、Phi 等热点模子。咱们在这个容颜中除了使用 Qwen 模子,也用 80 亿参数和 700 亿参数的 Llama 模子进行了实验。Torchtune 还提供了一些检朴内存和晋升性能的器具,包括:
激活搜检点(Activation Checkpointing)
激活卸载(Activation Offloading)
量化(Quantization)
参数高效微调(PEFT),举例 LoRA
此外,Torchtune 支柱多设立和多节点磨练,还不错蚁合全分片数据并行(FSDP)和张量并行(TP)磨练。他们提供了十多个磨练配方,饱读吹用户复制并阐发我方的用例进行定制。他们齐备微调配方的修改版支柱以下功能:
多设立和单设立磨练
参考模子加载和权重交换以野心 KL 散度
使用组和父 ID 进行高档因果掩码野心
GRPO 亏欠集成和组件日记纪录
强化学习磨练经由触及超参数的选用。在磨练模子期间,咱们对各类成立进行了测试,最终笃定了以下参数:
模子:Qwen 2.5 Instruct 140 亿参数版和 320 亿参数版
每次迭代的任务数:32
每个任务每次迭代的样本数:50
每次迭代的总样本数:32 × 50 = 1600
学习率:6 × 10 ⁻⁶
微批次大小:关于 140 亿参数模子为 4 个序列,关于 320 亿参数模子为 8 个序列
批次大小:可变,取决于序列数目
批次大小之是以可变,是因为磨练经由中回复长度不同。每次迭代的序列打包效果会有波动,上风为零的回复会被丢弃。在一次实验中,咱们尝试将学习率与批次大小成反比动态调度,但这会导致小批次的学习率过高。经过上限处理后的版块与使用恒定学习率比拟莫得明显各异,但调度批次大小和学习率仍是将来值得探索的标的。
咱们还进行了简易的实验,在每次迭代的任务数和每个任务的样本数之间进行反向调度(即一个增多另一个减少),同期保合手每次迭代的总样本数任性十分。在较短的磨练周期内,这些变化莫得产生明显各异,这标明磨练配方对任务数目与单任务样本量之间的不同配比具有强鲁棒性。
四、扫尾
经过 100+ 次迭代磨练,咱们的模子告捷达到前沿级推理水平。
咱们的模子好像在准确率下落之前马上窜改。最好情状下,140 亿参数、1.6 万个 token 的模子已接近于 ClaudeSonnet 3.7 的性能。320 亿参数、6.4 万个 token 的模子更是真的达到了 Sonnet 的扫尾。
在磨练期间,性能晋升顺从幂律规章,在图表上变成线性关系(在恶化之前)。
下一步,咱们将探索各类化薪金的方法,冉冉构建才能的方法,或者好像引发出透彻探索的方法。
此外,咱们堤防到在磨练期间输出长度呈现出意旨真谛意旨真谛的规章。开首回复变长,随后趋于富厚,在磨练接近尾声时出现分化,其中 140 亿参数模子的回复变得更长,而 320 亿参数模子的回复长度则镌汰(尤其是在达到最好性能之后)。
为了从定性角度评估逻辑推理才能的晋升,咱们让首先进的模子 Claude Sonnet 3.7 对 Qwen 32B 模子所作念出的执行进行识别,并评估其合感性。Sonnet 从基础模子中识别出 6 个执行,除了一个被判定为正确外,其余均被判定为弊端。相悖,从经过磨练的模子中识别出 7 个执行,除了一个弊端除外,其余均被判定为逻辑合理。
终末,在假定按需部署具有弥散模糊量的情况下,咱们阐发 Fireworks AI 的无职业器订价层级估算了 Qwen 模子的老本。咱们绘图了一张准确性和推理老本的关系图,并发目下未经调优的模子中存在一条明晰的线性帕累托前沿线,极地面改善了老本与准确性之间的衡量关系。
五、结语
在咱们的造访参谋中,咱们探索了较微型的开源言语模子能否通过强化学习杀青前沿水平的演绎推理才能。对时代印迹谜题进行磨练时,咱们使用了超参数和 GRPO 方法来磨练 Qwen 14B 和 32B 模子,权贵低晋升了性能。这些窜改使开源模子在推感性能方面达到了最前沿的水平,并大幅度低斥责了老本。咱们的参谋扫尾突显了强化学习在高效磨练开源模子处理复杂演绎任务方面的雄伟后劲。
此外,终末还有一个惊喜。咱们发现,仅需 16 个磨练样本就能杀青高达 10 - 15% 的性能晋升,这意味着咱们无需大宗数据就能进行推理。
原文一语气:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue
雷峰网91porn 91porn