工作流程RLHF(模型数据策略在线提示)「工作流程建模」

本研究介绍了基于人类反馈的在线迭代强化学习 (RLHF) 的工作流程，并讨论了在线迭代 RLHF 背后的理论见解和算法原理，然后进行了详细的实际实施
详细信息请参阅https://github.com/RLHFlow/RLHF-Reward-Modeling和https://github.com/RLHFlow/Online-RLHF
现有的 RLHF 算法现有的RLHF方法大致可以分为两类：使用近端策略优化 (PPO) 的基于深度 RL 的方法直接偏好学习（例如 DPO）基于DRL的框架基于 DRL 的框架分为两个阶段：首先，训练奖励模型，然后应用 PPO 等 DRL 方法来优化正则化奖励
但是，调整 DRL 方法以获得最佳性能需要在超参数选择和代码级优化方面投入大量精力，尤其是在使用大型语言模型 (LLM) 时，因为微调这些模型的计算成本很高
此外，PPO 算法需要同时加载多个 LLM，这可能会占用大量内存，对于资源受限的项目来说可能是一个问题
直接偏好学习此类别中最常见的方法是 DPO，它将奖励制定为策略函数，并使用偏好数据集来优化损失函数
虽然与 DRL 方法相比，这种方法更容易调整，并且需要的计算资源更少，但它也存在一些挑战
具体来说，它被认为是“离线”的，因为它从固定数据集中学习，并且在训练期间无法查询偏好预言
这导致了过度优化的问题，因为有限的数据集可能无法覆盖可能的提示和响应的整个空间，导致在面对新的、分布不均的数据时性能不佳
在线迭代 RLHF在线迭代RLHF的流程可以概括如下：给定预先收集的偏好数据集 D = Doff（如果适用，否则为空），对于每次迭代 t ∈ [T]：首先根据迄今为止收集的历史数据D更新策略对
收集 m 个元组作为 Dt：抽取一个随机提示，收集两个响应并查询偏好信号
更新 D ← D ∪ Dt
最初，策略使用低奖励响应进行训练，这使得奖励模型能够准确评估这些响应
随着策略的改进和生成更高奖励的响应，这些响应可能会超出奖励模型的训练数据范围，从而降低其可靠性
使用中间策略生成新响应，收集这些样本的人工反馈，并将其纳入训练集可以解决此问题
这有助于提高高奖励机制下奖励模型的可靠性，从而提高策略性能
这种方法还可以应用于直接偏好学习算法，其中偏好数据集会不断更新新的在线数据
奖励模型作为人类反馈的近似值偏好数据集以下开源数据集的混合用作训练集：HH-RLHF：由早期 Claude 模型编写的包含对话历史和两个备选答案的成对偏好数据集
这些偏好由人工注释者提供
SHP：包含问题/说明和顶级评论对的 Reddit 帖子数据集，其中一个评论比另一个评论更受 Reddit 用户的青睐
仅使用得分比 > 2 的样本，每个提示最多取 5 对
HelpSteer：提示、响应和人工注释属性（有用性、正确性、连贯性、复杂性和详细程度）的数据集，范围从 0 到 4
提示是使用模板生成和人工生成方法的混合生成的，而响应则由内部 LLM 生成
PKU-SafeRLHF：30k+样本的专家对比数据集，每个样本包含一个问题的两种回答以及对帮助性和安全性的两种偏好信号
回答由开源聊天机器人生成，偏好信号通过14个危害类别的多级分类结果进行合并
UltraFeedback：来自不同资源（包括 UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN）的 64k 条提示的数据集，使用 4 个不同的 LLM 生成每个提示 4 个响应
偏好来自基于细粒度注释指令的 GPT-4，其中包含 4 个不同的方面（指令遵循、真实性、诚实和乐于助人）
UltraInteract：为复杂推理任务设计的偏好数据集，其中为每个指令收集一个偏好树，以指令为根，每个动作为节点
成对的正确和不正确的节点或轨迹用于偏好学习
Distilabel-Capybara：多轮对话的偏好数据集，其提示取自 Amplify-instruct，其中响应由开源 LLM 生成，偏好由 GPT4 生成
Distilabel-Orca3：与 Capybara 类似收集的数据集，但带有 open-orca 的提示
开源偏好数据集的摘要为了提高训练数据的质量，对开源数据集应用了过滤过程，删除了：低质量且无意义的样本对话内容为空或标签不正确以较小的边距进行成对比较（如果有绝对分数），因为这些信号往往很嘈杂此过程大约会删除 10% 的数据
数据集可在HuggingFace上获取
https://huggingface.co/collections/RLHFlow/standard-format-preference-dataset-662eec0252e194d5d40c252aBradley-Terry 奖励模型和偏好模型Bradley-Terry (BT) 模型和偏好模型的说明
奖励模型使用 SFT 模型进行初始化，用线性头替换最后一层，以预测适合偏好学习的标量分数
(成对) 偏好模型以提示 x 和两个响应 a1、a2 作为输入，预测 P(a1 ≻ a2|x, a1, a2) 的概率，并利用 LLM 作为偏好建模的下一个标记预测器的能力
两种模型均训练 1 个 epoch
对于偏好模型，样本被打包成长度为 3072 的块
考虑两个版本的训练集：Mix1：HH-RLHF + SHP + UltraFeedback + 总结Mix2：所有提到的数据集评价结果测试了三种不同的模型偏好信号方法：促使法学硕士成为法官奖励模式偏好模型使用 RewardBench 对模型进行评估，它评估四个类别的能力：聊天、困难聊天、安全和推理
Bradley-Terry (BT) 奖励模型与偏好模型的测试准确率比较
在所有指标上，提示方法的表现都优于 BT 模型和偏好模型
在与编码和数学相关的任务中，偏好模型的表现优于 BT 模型
使用 Mix2 训练的模型在安全和推理任务中表现出比 Mix1 更高的准确度
参考模型 Ultra-RM-13B 由于包含了与安全和推理相关的额外数据以及更强大的基础模型，表现出了卓越的性能奖励和响应长度之间的皮尔逊相关系数的热图
奖励模型中的长度偏差是显而易见的，两种奖励模型都在一定程度上偏向于较长的反应迭代策略优化在 LLaMA-3–8B 基础模型上执行自微调 (SFT) 以获得初始策略 π0，而不是使用指令模型
SFT 过程结合了以下指令数据集，包括 ShareGPT、Evol-Instruct、SlimOrca、MathInstruct、Magicoder-Evol-Instruct、GPT4-LLM、OrcaMath、GPTeacher、UltraInteract
训练在一个 epoch 内完成，块大小为 8192
迭代直接偏好学习对迭代直接偏好学习的建议实施的说明
该算法由两个主要组件组成：主代理和增强代理
以下是该算法的分步说明：数据收集：收集用户与 LLM 之间的历史交互数据，包括提示、响应和用户反馈
策略训练：使用收集的数据训练 MLE 策略，以最大化观察到的交互的可能性
使用增强代理进行探索：引入增强代理来探索 MLE 策略可能遗漏的响应空间的新领域
增强代理由从 MLE 策略派生的多个策略组成，并经过修改以引入多样性
在线互动：MLE 策略和增强代理均与用户在线互动
MLE 策略用作默认响应生成器，而增强代理则用于在 MLE 策略的输出存在不确定性或缺乏信心时探索新的响应
反馈整合：将用户反馈整合到系统中，以改进 MLE 策略和增强剂
策略更新：根据收到的反馈，策略会不断更新
MLE 策略会更新，以更好地匹配观察到的交互，而增强代理的策略会更新，以有效地探索响应空间的不同区域
终止条件：算法持续进行，直到满足终止条件，例如达到满意的性能水平或达到最大迭代次数
提示设置提示是从 UltraFeedback、HelpSteer、OpenOrca、UltraInteract、Capybara 和 DIBT-10K 收集的
提示集合可在HuggingFace上找到
模型评估这些模型通过标准基准进行评估，包括 AlpacaEval-2、MT-Bench 和 Chat-Arena-Hard本项目所用基准的总结
在线迭代 RLHF 显著提升通话质量评估结果以及结果模型与现有模型的比较
对所得模型的学术基准评估结果以及与其他开放获取法学硕士的比较SFR-Iterative-DPO-LLaMA-3–8B-R 在对话和指令遵循基准测试中的表现远远优于其他开源模型（少于 10B）
与原始离线 DPO 模型相比，该模型始终表现出更佳的性能，表明了在线迭代 RLHF 的优势
该模型的性能优于更大的模型Tulu-2-DPO-70B和GPT-3.5-turbo-1106
长度惩罚滤波数据的消融研究使用长度惩罚训练的模型产生的响应比原始模型明显更短
具有长度惩罚的模型在 AlpacaEval-2 基准上取得了优异的胜率，表明响应长度控制方面的性能有所提高
当使用长度惩罚进行训练时，该模型在一些学术基准上也表现出了更好的结果
论文链接https://arxiv.org/abs/2405.07863