日惹 - ChatGPT是OpenAI的最新语言示例,与其前身GPT-3相比是一个重大改进。与许多大型语言示例类似,ChatGPT 能够以各种样式和不同目的创建文本,但具有更高的精度、细节和连贯性。它代表了OpenAI样本系列中的下一代,并且非常专注于交互式对话。那么chatGPT是如何工作的呢?
创建者使用监督学习和强化学习的组合来增强 ChatGPT,但正是这种强化学习组件使 ChatGPT 独一无二。创作者使用了一种称为从人类反馈中强化学习(RLHF)的特定技术,该技术在培训圈中使用人类反馈来最小化危险,不正确和/或有偏见的结果。
我们将研究 GPT-3 的局限性以及它们如何来自其训练过程,然后了解 RLHF 的工作原理并了解 ChatGPT 如何使用 RLHF 来解决这个问题。最后,我们将通过研究这种方法的一些局限性来结束。
ChatGPT 如何运作从人类反馈中强化学习
整个方法包括三个不同的步骤:
监督式优化步骤:根据标记器策划的少量演示数据对经过训练的语言模型进行微调,以了解哪个监督策略(SFT 模型)从所选操作方法列表中生成输出。它代表基本模型。 “模仿人类偏好”步骤:要求标签机对相对大量的SFT模型输出进行投票,从而创建一个由比较数据组成的新数据集。新模型在此数据集上进行训练。这称为奖励模型 (RM)。 近端策略优化(PPO)步骤:奖励模型用于进一步细化和改进SFT模型。这一步的结果就是所谓的政策模型。步骤 1 只出现一次,而步骤 2 和 3 可以连续重复:收集更多关于当前最佳策略模型的比较数据,用于训练新的奖励模型,然后是新策略。
现在让我们深入了解每个步骤的细节!
方法论的缺点
正如论文InstructGPT(根据其创建者的说法,ChatGPT是基于该论文)中所讨论的那样,该方法的一个非常明显的局限性是,在使语言模型与人类意图保持一致的过程中,用于完善模型的数据受到各种复杂的主观因素的影响,包括:
生成演示数据的贴标机的首选项。 研究人员设计了这项研究并编写了标签说明。 由开发人员提供或由 OpenAI 客户提供的提示选项。 标记器偏差包含在奖励模型的训练(基于评级的输出)和模型的评估中。特别是,作者指出了一个明显的事实,即参与培训过程的标签师和研究人员可能无法代表语言模型的所有潜在最终用户。
因此,在了解了chatGPT的工作原理之后,请查看VOI上其他有趣的新闻,是时候彻底改变新闻了!
The English, Chinese, Japanese, Arabic, and French versions are automatically generated by the AI. So there may still be inaccuracies in translating, please always see Indonesian as our main language. (system supported by DigitalSiber.id)