开云官网切尔西赞助商(2025已更新(最新/官方/入口)

云开体育即Agent应用奖励函数或环境中的破绽来获取高奖励-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

发布日期:2026-01-04 16:40    点击次数:190

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI云开体育

之前指导OpenAI安全团队的北大学友翁荔(Lilian Weng),下野后第一个动作来了。

诚然是发~博~客。

前脚刚发出来,后脚就被大伙儿皆刷刷码住,挑剔区一堆东说念主列队加待读清单。

还有不少OpenAI前共事转发推选。

此次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本东说念主直言写起来扼制易。

主题围绕强化学习中奖励黑客(Reward Hacking)问题伸开,即Agent应用奖励函数或环境中的破绽来获取高奖励,而并未确切学习到预期步履。

她强调奖励黑客步履在大模子的RLHF锻真金不怕火中的潜在影响,并敕令更多研究关注剖析温息争这一问题。

在我看来,这是现实全国部署更多自主AI模子应用的主要扼制。

尝试界说Reward Hacking

传统观念强化学习中,Agent应用奖励函数中的颓势或暧昧性来得回高额奖励,而莫得确切学习或完成预期任务,是一个常见的问题。

她举的例子包括:

机器东说念主把手放在物体和录像头之间,骗取东说念主类仍是收拢物体了以跳的更高为方针的Agent在物理模拟器中应用才略bug,完成不合适物理规章的跨越。

在大模子中,Reward hacking则可能流露为:

节录生成模子应用ROUGE评估计算的颓势得回高分,但生成的节录难以阅读。代码模子批改单位测试代码,甚而径直修改奖励自己。

翁荔觉得Reward hacking的存在有两大原因:

强化学习环境日常不完满准确指定奖励函数骨子上是一项奋勉的挑战

讲话模子兴起的时间,况且RLHF成为对皆锻真金不怕火事实上的方式,讲话模子强化学习中的Reward hacking流露也尽头令她担忧。

昔日学术界对这个话题的研究都尽头表面,专注于界说或解说Reward hacking的存在,然则对于推行该怎样缓解这种表象的研究仍然有限。

她写这篇博客,亦然念念敕令更多研究关注、剖析温息争这一问题。

为了界说Reward Hacking,翁荔率先追忆了比年来学术界提议的联系观念

包括奖励古老(Reward corruption)、奖励批改(Reward tampering)等等。

其中,Reward hacking这个观念,早在2016年由Anthropic首创东说念主Dario Amodei共一论文提议。

其时他和另一位联创Chris Olah还在谷歌大脑,且仍是与OpenAI联创John Schulman伸开融合。

如今他们仨又在Anthropic汇合了……

身无长物,笼统一系列研究,翁荔觉得Reward Hacking在较高端倪上可分为两类:

环境或方针设定不当:由于环境想象或奖励函数存在颓势,导致Agent学到非预期步履。奖励批改:Agent学会径直干预奖励机制自己。

同期她也觉得想象灵验的奖励塑造机制骨子上很悲凉。

与其挑剔想象不当的奖励函数,不如承认由于任务自己的复杂性、部分可不雅察情景、斟酌的多个维度和其他要素,想象一个好的奖励函数自己便是一项内在挑战。

另外皮散布外环境中测试强化学习Agent时,还可能出现以下问题:

模子即使有正确的方针也无法灵验泛化,这日常发生在算法阑珊挥霍的智能或才能时。模子大要很好地泛化,但追求的方针与其锻真金不怕火方针不同。

那么,为什么会出现Reward Hacking?把柄Amodei等东说念主2016年的分析成因包括:

环境情景和方针的不统统可不雅测性,导致奖励函数无法完满表征环境。系统复杂性使其易受袭击,尤其是被允许履行更正环境的代码时。波及抽象观念的奖励难以学习或表述。RL的方针便是高度优化奖励函数,这与想象考究的RL方针之间存在内在”突破”。

此外,不雅察到的Agent步履可能与无数个奖励函数相一致,准确识别其确切优化的奖励函数在一般情况下是不可能的。

翁荔预测跟着模子和算法的日益复杂,Reward Hacking问题会愈加渊博。

更智能的模子更善于发现并应用奖励函数中的”破绽”,使Agent奖励与真实奖励出现偏差。比拟之下,才能较弱的算法可能无法找到这些破绽。

那么,大模子时间的Reward Hacking,又有哪些特有之处?

讲话模子中的Reward Hacking

在RLHF锻真金不怕火中,东说念主们日常关注三种类型的奖励:

东说念主们确切但愿大模子优化的内容,被称为黄金奖励(Gold reward)东说念主类奖励(Human reward),推行用来评估大模子,在数据标注任务中来自个体东说念主类,且标注无意刻限定,并不成统统准确地响应黄金奖励代理奖励(Proxy reward),也便是在东说念主类数据上锻真金不怕火的奖励模子所预测的得分,禁受了东说念主类奖励的悉数弊端,加上潜在的建模偏差

翁荔觉得,RLHF日常优化代理奖励分数,但东说念主们最终温和的是黄金奖励分数。

举例,模子可能历程优化,学会输出看似正确且有劝服力的回话,但推行上却是不准确的,这可能会误导东说念主类评估者更日常地批准其非常谜底。

换句话说,由于RLHF,“正确”与“对东说念主类看似正确”之间出现了不合。

在一项RLHF研究中,使用了大模子竞技场ChatbotArena数据锻真金不怕火奖励模子,就出现AI更擅长劝服东说念主类它们是正确的情况:

RLHF培育了东说念主类对AI回话的招供度,但不一定就能培育AI的正确率。RLHF松开了东说念主类对AI回话的评估才能,评估的非常率更高。RLHF使非常的AI回话对于东说念主类更有劝服力,流露为评估的假阳性率权贵加多。

此外,跟着大模子越来越多当作评估者对其他模子提供反馈,也可能进一步引入偏差。

翁荔觉得这种偏差尤其令东说念主操心,因为评估模子的输出被用作奖励信号的一部分,可能容易被应用。

比如2023年一项实验中,节略更正候选谜底的方式就能更正成果,GPT-4倾向于给第一个谜底高分数,ChatGPT(3.5)更倾向于第二个。

另外,即使不更新参数,大模子仅靠落魄体裁习才能也可能产生Reward hacking表象,称为ICRH(In-context Reward Hacking)。

ICRH与传统Reward Hacking还有两个权贵不同:

ICRH在自我优化诞生中的测试时刻通过反馈轮回发生,而传统Reward hking步履在锻真金不怕火工夫发生。传统Reward hacking步履出咫尺Agent专注于一项任务时,而ICRH则是由完成通用任务脱手的。

翁荔觉得咫尺还莫得幸免、检测或退守ICRH的灵验方式,只是培育辅导的准确性不及以排斥ICRH,而扩大模子界限可能会加重ICRH。

在部署前进行测试的最好实践是通过更多轮次的反馈、各样化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。

缓解措施

临了翁荔暗示尽管有大都文件究诘奖励黑客表象,但少有使命提议缓解奖励黑客的措施。

她简要追忆了三种潜在方式。

一种是纠正强化学习算法。

前边提到的Anthropic首创东说念主Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中,指出了一些缓解标的,包括:

对抗性奖励函数(Adversarial reward functions)、模子预测(Model Lookahead)、对抗性盲化(Adversarial blinding)、严慎的工程想象(Careful engineering)、奖励上限(Reward capping)、反例抵挡(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预锻真金不怕火(Reward pretraining)、变量不敏锐性(Variable indifference)、陷坑机制(Trip wires)。

此外,谷歌DeepMind团队此前提议了“解耦批准”的方式来注意奖励批改。

在这种方式中,蚁合反馈的步履与推行履行的步履是分开的,反馈会在步履履行前就给出,幸免了步履对我方反馈的影响。

另一种潜在缓解措施是检测奖励黑客步履。

将奖励黑客步履视为一个异常检测任务,其中检测器应绚烂出不一致的实例。

给定一个简直战略和一组手动标注的轨迹回放,不错基于简直战略和方针战略这两个战略的动作散布之间的距离构建一个二分类器,并测量这个异常检测分类器的准确性。

之前有实验不雅察到,不同的检测器适用于不同的任务,而且在悉数测试的强化学习环境中,莫得任何测试的分类器大要达到60%以上的AUROC。

第三种潜在缓解措施是分析RLHF数据。

通过查验锻真金不怕火数据怎样影响对皆锻真金不怕火成果,不错得回掂量预处理和东说念主类反馈蚁合的观点,从而缩短奖励黑客风险。

哈佛大学与OpenAI研究东说念主员本年融合提议了一套评估计算,用于量度数据样本特征在建模和对皆东说念主类价值不雅方面的灵验性。他们在HHH-RLHF数据集上进行了系统的非常分析以进行价值对皆(SEAL)。

这一篇博客对于缓解措施的部分还只是“初探”,翁荔对下一篇内容给出了预报:

但愿我很快能在一篇挑升的帖子中涵盖缓解措施部分

对于翁荔

翁荔是OpenAI前华东说念主科学家、ChatGPT的孝敬者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。

毕业之后的翁荔先是良晌的在Facebook实习了一段时刻,后担任Dropbox软件工程师。

她于2017年头加入OpenAI,在GPT-4名堂中主要参与预锻真金不怕火、强化学习和对皆、模子安全等方面的使命。

在OpenAI客岁底扶助的安全照管人团队中,翁荔指导安全系统团队(Safety Systems),惩办减少现存模子如ChatGPT铺张等问题。

最着名的Agent公式也由她提议,即:Agent=大模子+缅念念+主动计议+器用使用。

其Google Scholar援用量达14000+。

一个月前,翁荔良晌归国现身2024Bilibili超等科学晚行动,以《AI安全与“培养”之说念》为主题进行了演讲共享。

这亦然她初度在国内大型行动步地公开采表AI主题演讲。

之后没几天,翁荔倏得发推文暗示决定下野OpenAI。

咫尺她还莫得晓示下一个计议,推特签名显现会与AI安全联系。

领英和谷歌学术页面也还挂着OpenAI,均未更新。

原文:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking

参考集结:https://x.com/lilianweng/status/1863436864411341112



相关资讯

新闻动态

TOP
友情链接:

Powered by 开云官网切尔西赞助商(2025已更新(最新/官方/入口) @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024