你的位置：开云官网切尔西赞助商(2025已更新(最新/官方/入口) > 新闻动态 > 云开体育即Agent应用奖励函数或环境中的破绽来获取高奖励-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

热点资讯

开云官网切尔西赞助商(2025已更新(最新/官方/入口)

云开体育即Agent应用奖励函数或环境中的破绽来获取高奖励-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

发布日期：2026-01-04 16:40 点击次数：194

梦晨西风发自凹非寺量子位 | 公众号 QbitAI云开体育

之前指导OpenAI安全团队的北大学友翁荔（Lilian Weng），下野后第一个动作来了。

诚然是发～博～客。

前脚刚发出来，后脚就被大伙儿皆刷刷码住，挑剔区一堆东说念主列队加待读清单。

还有不少OpenAI前共事转发推选。

此次的博客一如既往万字干货，妥妥一篇研究综述，翁荔本东说念主直言写起来扼制易。

主题围绕强化学习中奖励黑客（Reward Hacking）问题伸开，即Agent应用奖励函数或环境中的破绽来获取高奖励，而并未确切学习到预期步履。

她强调奖励黑客步履在大模子的RLHF锻真金不怕火中的潜在影响，并敕令更多研究关注剖析温息争这一问题。

在我看来，这是现实全国部署更多自主AI模子应用的主要扼制。

尝试界说Reward Hacking

传统观念强化学习中，Agent应用奖励函数中的颓势或暧昧性来得回高额奖励，而莫得确切学习或完成预期任务，是一个常见的问题。

她举的例子包括：

机器东说念主把手放在物体和录像头之间，骗取东说念主类仍是收拢物体了以跳的更高为方针的Agent在物理模拟器中应用才略bug，完成不合适物理规章的跨越。

在大模子中，Reward hacking则可能流露为：

节录生成模子应用ROUGE评估计算的颓势得回高分，但生成的节录难以阅读。代码模子批改单位测试代码，甚而径直修改奖励自己。

翁荔觉得Reward hacking的存在有两大原因：

强化学习环境日常不完满准确指定奖励函数骨子上是一项奋勉的挑战

讲话模子兴起的时间，况且RLHF成为对皆锻真金不怕火事实上的方式，讲话模子强化学习中的Reward hacking流露也尽头令她担忧。

昔日学术界对这个话题的研究都尽头表面，专注于界说或解说Reward hacking的存在，然则对于推行该怎样缓解这种表象的研究仍然有限。

她写这篇博客，亦然念念敕令更多研究关注、剖析温息争这一问题。

为了界说Reward Hacking，翁荔率先追忆了比年来学术界提议的联系观念

包括奖励古老(Reward corruption)、奖励批改(Reward tampering)等等。

其中，Reward hacking这个观念，早在2016年由Anthropic首创东说念主Dario Amodei共一论文提议。

其时他和另一位联创Chris Olah还在谷歌大脑，且仍是与OpenAI联创John Schulman伸开融合。

如今他们仨又在Anthropic汇合了……

身无长物，笼统一系列研究，翁荔觉得Reward Hacking在较高端倪上可分为两类：

环境或方针设定不当：由于环境想象或奖励函数存在颓势，导致Agent学到非预期步履。奖励批改：Agent学会径直干预奖励机制自己。

同期她也觉得想象灵验的奖励塑造机制骨子上很悲凉。

与其挑剔想象不当的奖励函数，不如承认由于任务自己的复杂性、部分可不雅察情景、斟酌的多个维度和其他要素，想象一个好的奖励函数自己便是一项内在挑战。

另外皮散布外环境中测试强化学习Agent时，还可能出现以下问题：

模子即使有正确的方针也无法灵验泛化，这日常发生在算法阑珊挥霍的智能或才能时。模子大要很好地泛化，但追求的方针与其锻真金不怕火方针不同。

那么，为什么会出现Reward Hacking？把柄Amodei等东说念主2016年的分析成因包括：

环境情景和方针的不统统可不雅测性，导致奖励函数无法完满表征环境。系统复杂性使其易受袭击，尤其是被允许履行更正环境的代码时。波及抽象观念的奖励难以学习或表述。RL的方针便是高度优化奖励函数，这与想象考究的RL方针之间存在内在”突破”。

此外，不雅察到的Agent步履可能与无数个奖励函数相一致，准确识别其确切优化的奖励函数在一般情况下是不可能的。

翁荔预测跟着模子和算法的日益复杂，Reward Hacking问题会愈加渊博。

更智能的模子更善于发现并应用奖励函数中的”破绽”，使Agent奖励与真实奖励出现偏差。比拟之下，才能较弱的算法可能无法找到这些破绽。

那么，大模子时间的Reward Hacking，又有哪些特有之处？

讲话模子中的Reward Hacking

在RLHF锻真金不怕火中，东说念主们日常关注三种类型的奖励：

东说念主们确切但愿大模子优化的内容，被称为黄金奖励（Gold reward）东说念主类奖励（Human reward），推行用来评估大模子，在数据标注任务中来自个体东说念主类，且标注无意刻限定，并不成统统准确地响应黄金奖励代理奖励（Proxy reward），也便是在东说念主类数据上锻真金不怕火的奖励模子所预测的得分，禁受了东说念主类奖励的悉数弊端，加上潜在的建模偏差

翁荔觉得，RLHF日常优化代理奖励分数，但东说念主们最终温和的是黄金奖励分数。

举例，模子可能历程优化，学会输出看似正确且有劝服力的回话，但推行上却是不准确的，这可能会误导东说念主类评估者更日常地批准其非常谜底。

换句话说，由于RLHF，“正确”与“对东说念主类看似正确”之间出现了不合。

在一项RLHF研究中，使用了大模子竞技场ChatbotArena数据锻真金不怕火奖励模子，就出现AI更擅长劝服东说念主类它们是正确的情况：

RLHF培育了东说念主类对AI回话的招供度，但不一定就能培育AI的正确率。RLHF松开了东说念主类对AI回话的评估才能，评估的非常率更高。RLHF使非常的AI回话对于东说念主类更有劝服力，流露为评估的假阳性率权贵加多。

此外，跟着大模子越来越多当作评估者对其他模子提供反馈，也可能进一步引入偏差。

翁荔觉得这种偏差尤其令东说念主操心，因为评估模子的输出被用作奖励信号的一部分，可能容易被应用。

比如2023年一项实验中，节略更正候选谜底的方式就能更正成果，GPT-4倾向于给第一个谜底高分数，ChatGPT（3.5）更倾向于第二个。

另外，即使不更新参数，大模子仅靠落魄体裁习才能也可能产生Reward hacking表象，称为ICRH（In-context Reward Hacking）。

ICRH与传统Reward Hacking还有两个权贵不同：

ICRH在自我优化诞生中的测试时刻通过反馈轮回发生，而传统Reward hking步履在锻真金不怕火工夫发生。传统Reward hacking步履出咫尺Agent专注于一项任务时，而ICRH则是由完成通用任务脱手的。

翁荔觉得咫尺还莫得幸免、检测或退守ICRH的灵验方式，只是培育辅导的准确性不及以排斥ICRH，而扩大模子界限可能会加重ICRH。

在部署前进行测试的最好实践是通过更多轮次的反馈、各样化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。

缓解措施

临了翁荔暗示尽管有大都文件究诘奖励黑客表象，但少有使命提议缓解奖励黑客的措施。

她简要追忆了三种潜在方式。

一种是纠正强化学习算法。

前边提到的Anthropic首创东说念主Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中，指出了一些缓解标的，包括：

对抗性奖励函数（Adversarial reward functions）、模子预测（Model Lookahead）、对抗性盲化（Adversarial blinding）、严慎的工程想象（Careful engineering）、奖励上限（Reward capping）、反例抵挡（Counterexample resistance）、多奖励组合（Combination of multiple rewards）、奖励预锻真金不怕火（Reward pretraining）、变量不敏锐性（Variable indifference）、陷坑机制（Trip wires）。

此外，谷歌DeepMind团队此前提议了“解耦批准”的方式来注意奖励批改。