近期 DeepSeek 发布了如何透过强化学习 (Reinforcement Learning, RL) 来提升大型语言模型的推理能力,这项突破性的工作实证出不需要传统的监督方法,而是让模型通过自我探索,便能增强其推理能力。
我这几天阅读完论文后,我试图用非常简化且非常摘要的方式整理,篇幅较短若有疏漏之处敬请见谅。若各位大神觉得以下实在是隔靴搔痒,可以直接到原论文连结欣赏。
在开始之前,我们先来看看这篇做了甚么...
以下是我将整体论文框架,摘录而成的吉度简化示意:
参考资料:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learninghttps://arxiv.org/abs/2501.12948
阶段1: DeepSeek-R1-Zero
首先,这篇论文一开始基于 DeepSeek-V3-Base 模型,採用 GRPO 强化学习的框架进行训练,并先开发出 DeepSeek-R1-Zero,虽然这个模型就已经非常强了,但文中提到他存在 可读性 与 语言混杂 (如中英混杂) 的问题。(原文: DeepSeek-R1-Zero struggles with challenges like poor readability, and language mixing)
表现上,在AIME 2024 测试中,将 pass@1 从原本的 15.6% 大幅提升至 71.0%,经过多数投票后更达到了 86.7% 的优异成绩,已与 OpenAI o1-0912 的水準差不多。
阶段2: DeepSeek-R1
为了解决前面提到的可读性、语言混杂的问题,DeepSeek採用冷启动 (Cold-start),也就是先準备一堆思考炼 Chain-of Thought,CoT 范本让他学习,和採用多阶段训练 (Multi-stage Training),在历经Cold-start、RL、Rejection Sampling & Fine Tune、RL 的方法 (花妈: Do Re Mi So~),开发出 DeepSeek-R1。
最终在表现上,DeepSeek-R1 在各项竞赛中全面都赢过 OpenAI-o1-mini,并在 AIME 2024 与 MATH-500 上赢过 OpenAI-o1-1217,其他测试项目的表现也与 OpenAI-o1-1217 差不多。
阶段3: 知识蒸馏
更狠的是,DeepSeek 的团队,还试图透过知识蒸馏 (Knowledge Distillation,KD 也就是用大模型当老师,把它的知识教给小模型学习) 的方式,将大模型的推理能力转移至较小的模型 (如 Qwen2.5、Llama3) ,透过微调小模型取代高成本的RL训练过程,确保小模型具备优秀的CoT的能力。
实验结果发现,透过知识蒸馏的模型 (如 DeepSeek-R1-7B),表现与透过直接透过RL的小模型表现差不多,而且还在某些评比上,还赢过GPT-4o-0513,这证明 KD 是一种很有效的方式,相较于直接对小模型进行 RL 训练,或者重头砸一堆成本训练,KD更能快速学习并泛化推理能力。此结果对于未来许多资源受限的企业来说,是一个机会!
GroupRelative Policy Optimization (GRPO)
这个是(Shao et al., 2024) 所提出,是一种相对政策优化技术,旨在减少强化学习过程中的计算成本。其核心概念是不依赖传统的价值函数设计,而是透过群体内相对评分来进行优化,使 LLM 能够在更高效的 RL 训练中学习更复杂的推理行为。我以我自己的理解整理如下,未来若有时间再补上完整的数学介绍:
参考资料:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文连结: https://arxiv.org/abs/2501.12948DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models论文连结: https://arxiv.org/abs/2402.03300