对话OpenAI研讨科学家:他们是如何让GPT4更像人的? |
发布时间:2023-04-06 文章来源:本站 浏览次数:2670 |
终究是怎样的大脑发明出了跨时期的ChatGPT?作为ChatGPT的姊妹模型,InstructGPT的中心技术和ChatGPT有很多相通之处。 近期,美国AI可察看性平台Arize AI采访了OpenAI的两位研讨科学家欧阳龙 (Long Ouyang) 和Ryan Lowe,他们是InstructGPT(采用人类反应的强化学习 (RLHF) 锻炼大型言语模型的首批主要应用之一)的发明者,在RLHF模型的演化和为GPT-4奠基方面发挥了重要作用。 以下是对话中的一些要点。 开发InstructGPT背后的动机是什么?GPT-3的哪些问题启示了InstructGPT的降生? 欧阳龙:我以为我们试图处理的一个主要问题是,当GPT-3问世时,人们对用它来做有用的认知工作感到过于兴奋,例如总结一篇新闻文章。但它的设计初衷并不是为了做这个,而是为了预测互联网上的人在特定环境下可能会说什么。事实证明,你能够经过设置文原本诱使模型为你执行有用的工作,当模型自动完成任务时,它能够给你你想要的东西。 因而,就摘要来说,一个例子是,或许你需求先给出一篇文章中的几个事例,然后是文章的摘要,后是你想要取得摘要的文章和要点总结,然后你请求他们完成概括。所以这个模型并不是被设计成一个助手或有用的工具,但在某些状况下你能够把它用作这个用处。这篇文本或者说这个项目的总体目的就是在一个目的函数上对模型停止微调,使其成为一个有用的助手或工具——直到今天也仍然如此。这来自于一些早期的工作,我们称之为调整言语模型。 对了,Ryan,你想谈谈OpenAI的调整问题吗? Ryan Lowe:人们对调整有不同的定义。但你能够运用的一个定义是,如何让我们正在锻炼的人工智能系统优化我们实践上想要优化的东西? 从历史上看,它始于一个小团队,这就是初早期RLHF工作发挥作用的中央。后来我们有了一个短期的调整团队,主要担任用现有的言语模型来优化我们真正想要优化的东西,让我们的目的变得有用、有协助,同时也能够减轻危害,遵照事实。还有一些关于长期调整的工作,试图考虑可能呈现的新的调整问题。因而,将来还可能呈现一些关于可扩展的监管和其他一些事情的工作。 你能对InstructGPT做一个简短的引荐或者对其做一个总结吗? 欧阳龙:这是一个自动化的系统,你提供一些文本作为输入,它也会提供一些文本作为输出。这些是我们所说的标志的概率散布,一个标志是单词的一局部,有时是整个单词,然后经过在每个阶段抽样出下一个可能的标志,然后继续这个过程,直到得到你目的的产出。所以有时分你会得到不同的结果,由于这个模型有一点概率性。 重要的是,你给这个模型的输入只是一个自然言语命令或指令,比方“用法语写一个关于青蛙的故事”,又由于它在各种不同的任务上承受过锻炼,所以它能够概括两个任务,第一个任务是运用法语,第二个任务是写一个关于青蛙的故事,我想这是在锻炼中他不会遇到的。 为了强调指令模型和早期香草言语模型之间的区别,指令模型“了解”你给了它一些明白的认知任务,同时你用言语明白地给出了这些指令;而在之前的模型之下,经过模型交流的方式,你想要完成的任务可能是经过一些例子或一种更委婉的方式。 Ryan Lowe:从高层次上讲,我们完成这一目的的方式根本上是应用人类数据。经过运用数据标注者——我们雇佣了一组承包商为我们标志数据,我们在正常的言语模型预锻炼阶段上做了一个额外的微调阶段。 这些数据标注者产生的主要数据之一是给定一些输入,如"写一个关于青蛙的故事"有多个候选输出,由不同的模型生成,而标注者会依据一些指令集和他们对指令的解释,将这些输入从佳输出到有效输出停止排序。然后我们运用强化学习来锻炼模型,以试图产生更接近人类偏好或排名较高的输出。 为什么要锻炼奖励模型呢?为什么要在第一步停止监视微调? 欧阳龙:或许我们会从奖励形式开端,由于这是我们的办法中真正关键的局部。有了Ryan之前提到的那种数据,即数据标注者给出了他们的偏好,比方关于青蛙的故事,我们就会用这些数据来锻炼一个十分大的神经网络,我们称之为奖励模型。 你能够把奖励形式想象成电子游戏中的分数或一个教师。奖励模型的输入是指令和输出,它返回一个分数,这个分数会通知你的输出有多好。假如这个分数不错,就意味着关于青蛙的故事是个好故事,假如这个分数很低,就意味着关于青蛙的故事是个烂故事。我们依据人类的判别来锻炼这个奖励模型,所以这个大模型有点像近似于人们以为在写青蛙故事或总结新闻文章或其他方面的一个好尝试。然后当我们锻炼一个完整不同的模型,我们也能依据奖励模型来做得更好。 因而,我们的办法的重要之处在于,我们没有采用其他办法,而是明白地学习了人们对一项任务的良好表现的见地。然后,我们单独优化一个神经网络,使其依据该表征完成一项好工作。因而,这就是从人类反应中停止的本质性强化学习。 我们正在做强化学习,由于我们试图依据一个模型去构建另一个完整不同的但能很好运转的新模型。然后人类的反应局部来自教师或分数模型,这些模型经过锻炼,能够预测人类的偏好。这就是这个办法的中心,然后,为了引导一堆数据,我们又做了所谓的监视学习或监视微调,在那里,我们实践上只是请求他们直接制造所谓的示范,而不是让人们对曾经写好的青蛙的故事给出他们的偏好。所以,他们本人被请求用法语写一个关于青蛙的故事,我们锻炼模型模拟他们在这些状况下运用的单词。这对引导数据很有用,但对RLHF办法来说不一定是必需的。 你能否看到其他主要的应用程序跳过了第一步? 欧阳龙:我们有时还会这样做,我想有一点是,如今少数的片段提示曾经变得很有竞争力了。因而,你有时能够跳过搜集演示,由于从模型的几个片段的输出曾经是能够承受的,或者说是曾经足够好,以致于没有必要停止单独的监视微调。 Ryan Lowe:一种考虑办法是,RLHF协助您取得更细粒度的模型行为调优,而监视式调优和搜集演示能够更彻底地改动模型行为。例如,假定你有一个模型,它在生成摘要方面很糟糕。在不同的糟糕摘要之间取得一堆排名反应并不是有用的。所以你要做的是搜集一些十分好的总结的例子,然后让你的模型试着模拟一下。实践上,这是一个经历问题,什么时分好从搜集演示转换到搜集比拟或排名数据。我们在另一篇论文中对此有一些结果但这依然是一个十分开放的问题。 你是怎样想到InstructGPT这个主见的?这个想法是如何呈现的,以及这个项目是如何在OpenAI中呈现的? 欧阳龙:我们实践上曾经研讨这个办法有一段时间了,只是动机略有不同。调整团队通常感兴味的不一定是使模型更好,虽然有时的确会产生反作用,但终目的是使它们更契合我们想要的。因而,在之前的几篇论文中,我们将这种办法应用于更窄的范畴,看看它能否有效。紧跟着GPT-3经过API部署到公众面前,团队的一些成员想到将我们在以前的论文中开发的对齐技术应用到这个新模型上,我们如今正在为公众效劳。 Ryan Lowe:初写谷歌文件提出这个倡议的人是Paul Chirstiano,他当时是调整团队的担任人。 很多人都在谈论下一代言语模型将会十分强大。这能否会带来有趣的应战,或者能否有新的办法来顺应这种应战并处置这些更强大的言语模型?你想把这项工作推进到哪里? Ryan Lowe:我们有一个内容政策,说我们不希望模型生成代码来入侵银行或做其他相似的奉公守法的事情,但我们发理想际上它有可能被立功分子用来编写代码来入侵银行。如今我们有一个困难的过程来引导事情朝着不这样做的方向开展,但在牢靠性和耐久性方面依然存在差距。所以我们只能继续具有我们的技术,让它们变得更好,这样假如你发现一些偏向,你能够疾速修复它。 Anthropic近发表了一些关于运用模型来协助这个过程的论文,十分有趣。我特别感兴味的一件事是超越了实质上与均匀标签者设立的框架。当我们开端问:你在依据谁在调整这些模型时,将会有一些十分棘手的问题。如今根本上是我们的标签员加上我们经过一组指令让他们遵照。但OpenAI并不想处在这样一个道德专制者的位置,即我们来决议怎样做是正确的,以及什么是正确的价值观。因而,驾驭这个问题将是一个应战,触及到机器学习的干预,但也触及到更普遍的社会技术角度。 随着言语模型变得越来越强大,这类研讨能否会呈现有趣的问题或新的应战和新的方向? 欧阳龙:其中一个问题是,假如这些模型十分强大,那么仅仅是停止这些比拟判别就会变得愈加艰难。因而,我们想要给出一个强大模型的任务示例是:为GitHub上的这个拉拽恳求编写代码检查。如今的模型还不能做到这一点,但你能够想象,在一两年内,更有才能的模型可能就能做到,这绝对是我们希望机器学习协助处理的事情。数据标签承包商评价模型编写的代码的时间可能十分长,也可能他们基本无法做到这一点。 因而,在运用模型处置的事情超越个人评价模型的才能时,一个十分突出的应战是,当模型在大量不同的事情上十分强大的时分,那么评判他们做得能否很好就会相当不容易。这是一个构建其别人工智能模型协助人们评价其他机器学习系统的新范畴。 Ryan Lowe:我同意欧阳龙所说的,我独一想补充的是关于长期的分歧性研讨;这些系统会依据你的程序来优化。因而,假如他们优化的是人类在做排名时哪些排名靠前的东西,那么你所优化的就是产生对人类来说听起来不错的输出。随着模型变得越来越强大,有可能在优化过程中,他们会发现有趣的或棘手的或具有诈骗性的(或许有待商榷)办法来产生高分的输出,而这实践上不是我们想要的输出。我以为我们还没有完整做到,但至少这是我们想要关注的事情。 至于如何缓解这种状况,有欧阳龙谈到的各种办法,也就是你有其别人工智能模型来协助你评价输出——这就是我谈到的可扩展的监视研讨作风。因而,人们正在研讨更多的可解释性问题,比方:我们能否尝试了解一个模型内部发作了什么? 这是另一个调整研讨的思绪。我们什么时分可以完成它还很难说,但这是值得考虑的。 你刚刚提到有人在察看模型内部发作的事情。你能指出你近在这个范畴看到的任何有趣的外部事物吗? Ryan Lowe:我还没有深化研讨这方面的文献,但从我所看到的和略读到的材料来看,Anthropic在可解释性方面的研讨十分有趣。他们正在研讨较小范围的转换器,试图理解里面到底发作了什么。 欧阳龙:关于树立言语模型所做的工作来说,有一些补充工作是以一种更可察看的方式停止的。Anthropic关于“监视言语模型所做的过程,而不是结果”这个想法很感兴味,就像我们一样。因而,这里的想法可能是把一个大任务合成成一堆小的组件,而你可能对其中的一些组成局部比对整个端到端的锻炼过程有更好的把握。 这是锻炼的一局部还是后的微调? 欧阳龙:我不断以来在人们编写程序时也看到过这种状况。有一个名为Ought的研讨小组,也为学术论文树立了一个所谓的文献检查助手。他们曾经运用这种技术来构建他们的言语模型辅助阅读温习工具。到目前为止我看到的例子都是这样的,但是考虑如何合成锻炼是很有趣的。 要进一步理解这篇论文或者理解你更普遍的工作,你有什么倡议吗? Ryan Lowe:我以为人们可能曾经在这么做了,但假如你还没有,无妨尝试一下这些模型,对它能做什么和不能做什么有一个直觉的理解。要特别去留意那些你试图让它做,而它却没有做的事情。我们正在做调整工作,但你也能够思索为一个十分详细的用例停止调整的工作。 此外,或许人们还能够开展出一点猎奇心,考虑假如我们有GPT7会发作什么,由于曾经有人在考虑这些更长期的调整问题。我们专注于长期调整方面的同事写了一篇关于批判的论文,同时他还锻炼言语模型来批判,这算是在可扩展的调整问题中的一个步骤。 欧阳龙:我也倡议你试试InstructGPT。这是一个公开的模型,你能够在beta.openai.com上得到一些免费的点数来玩,这一点并没有很多人晓得。 Ryan Lowe:是的,这很有趣,由于底层的GPT 3.5从去年早些时分就曾经能够运用了,但是只要当人们免费运用它,而且是以助手的方式,它才真正盛行起来。去试试InstructGPT吧,在某些方面它比ChatGPT更好,但在某些方面又比ChatGPT更差。 |