三分钟看懂ChatGPT.pdf - 墨天轮文档

三分钟看懂ChatGPT.pdf

深海云不知

445

8页

0次

2023-02-10

100墨值下载

三分钟看懂ChatGPT

量子位智库·火线报告

分析师：丁乔

dingqiao@qbitai.com

量子位科技简报——ChatGPT

技术

• 是什么

ChatGPT 是一个基于语言模型 GPT-3.5 的聊天机器人，ChatGPT模型是Instruct GPT的姊妹模型（sibling

model），使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。

• GPT起源

Generative Pre-Trained Transformer (GPT) 是一系列基于Transformer 的深度学习语言模型。

OpenAI于 2018 年 6 月在题为《Improving Language Understanding by Generative Pre-Training》的论文中提

出了第一个 GPT 模型 GPT-1。从这篇论文中得出的关键结论是，Transformer 架构与无监督预训练的结合产生了

可喜的结果。GPT-1 以无监督预训练+有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言

理解”。

2019 年 2 月，OpenAI发表了第二篇论文“Language Models are Unsupervised Multitask Learners”，其中介

绍了由GPT-1演变的GPT-2。尽管 GPT-2 大了一个数量级，但它们在其他方面非常相似。两者之间只有一个区别：

GPT-2 可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下，在多

项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。

随后，2020年5月，OpenAI发表《Language Models are Few-Shot Learners》，呈现GPT-3。GPT-3 比 GPT-2

大 100 倍，它拥有1750 亿个参数。然而，它与其他 GPT 并没有本质不同，基本原则大体一致。尽管 GPT 模型之

间的相似性很高，但 GPT-3 的性能仍超出了所有可能的预期。

2022年11月底，围绕ChatGPT机器人，OpenAI进行了两次更新。11月29日，OpenAI发布了一个命名为“text-

davinci-003”（文本-达芬奇-003”）的新模式。在11月30日发布它的第二个新功能：“对话”模式。它以对话

方式进行交互，既能够做到回答问题，也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。

工作原理

• 概述

使用机器学习算法来分析和理解文本输入的含义，然后根据该输入生成响应。该模型在大量文本数据上进行训练，

使其能够学习自然语言的模式和结构。

• 细节

ChatGPT 模型使用一种称为人类反馈强化学习 (RLHF) 的机器学习进行训练，可以模拟对话、回答后续问题、承

认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学习的奖励模型，OpenAI收集了比较数据，其中

包含两个或多个按质量排序的响应模型。为了使生成的文本更容易被人理解，OpenAI招募了人类训练师，在训练

过程中，人类训练师扮演了用户和人工智能助手的角色。模型在Microsoft Azure的超算设施上进行训练。

ChatGPT模型的训练过程与其前身RLHF非常相似：

1. 使用有监督的微调训练初始模型：人类训练师之间提供对话，其中一个扮演用户，另一个扮演ChatGPT 中的 AI

助手。为了创建强化学习的奖励模型，需要收集比较数据，并使用收集到的数据调整 GPT-3.5 模型；

of 8

100墨值下载

chatgpt

文档被以下合辑收录

ChatGPT行业研究报告（共80篇）

ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。结合ChatGPT的底层技术逻辑，有媒体曾列出了中短期内ChatGPT的潜在产业化方向：归纳性的文字类工作、代码开发相关工作、图像生成领域、智能客服类工作。月活破亿仅用两个月，成为2023年的第一个科技风口！

关注

文档被以下合辑收录

评论