Open AI 于 2017 年首次推出了PPO 算法。它引入了一个关键模型,该模型不断更新基础 LLM 的权重以改进其输出。
LLM 遵循内部逻辑运行;模型的权重决定了这种逻辑。使用 PPO 时,评论家模型(另一个经过特殊训练的 AI 模型)会检查大型语言模型的答案,然后判断该答案是否正确。如果正确,它将保留模型的权重(奖励);否则,权重会略有变化。
GRPO 不使用学习神经网络的排名来评判 LLM 的答案。它要求 LLM 生成一组答案。根据这 伊朗电报号码数据 些答案,它会尝试确定一个基准,并奖励组中的最佳答案。这意味着最佳答案会被优先考虑。
无评论家模型:GRPO 消除了 PPO 中使用的单独评论家模型,从而降低了内存和计算成本。
基于组的优势 估计:GRPO 通过比较同一问题的一组采样输出中的奖励来计算优势,而不是使用价值函数。
简化训练:GRPO 避免复杂的价值函数训练,并使用平均群体奖励作为基线。
资源效率:通过消除批评家并利用组比较,GRPO 更加节省内存且可扩展。
关注比较奖励:GRPO 与基于比较数据训练的奖励模型保持一致,强调群体内的相对表现。
迭代训练兼容性:GRPO 支持通过实时策略采样进行迭代更新,从而随着时间的推移提高稳定性和性能。
GRPO 是 PPO 的巧妙改良版,旨在通过以下方式提高效率和效力:
删除复杂的批评模型
使用基于组的相对集评估技术和简单的基于规则的系统来评估 LLM 答案。
使用生成的输出分数执行直接参数优化
这些变化使其更适合训练大型模型,因为在提高性能的同时,计算开销和资源利用率是值得关注的重要问题。