暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
三分钟看懂ChatGPT.pdf
424
8页
0次
2023-02-10
100墨值下载
三分钟看懂ChatGPT
量子位智库·火线报告
分析师:丁乔
dingqiao@qbitai.com
量子位科技简报——ChatGPT
2
技术
是什么
ChatGPT 是一个基于语言模型 GPT-3.5 的聊天机器人,ChatGPT模型是Instruct GPT的姊妹模型(sibling
model),使用强化学习和人类反馈来更好地使语言模型与人类指令保持一致。
GPT起源
Generative Pre-Trained Transformer (GPT) 是一系列基于Transformer 的深度学习语言模型。
OpenAI2018 6 月在题为《Improving Language Understanding by Generative Pre-Training》的论文中提
出了第一个 GPT 模型 GPT-1。从这篇论文中得出的关键结论是,Transformer 架构与无监督预训练的结合产生了
可喜的结果。GPT-1 以无监督预训练+有监督微调的方式——针对特定任务进行训练——以实现“强大的自然语言
理解”。
2019 2 月,OpenAI发表了第二篇论文“Language Models are Unsupervised Multitask Learners”,其中介
绍了由GPT-1演变的GPT-2。尽管 GPT-2 大了一个数量级,但它们在其他方面非常相似。两者之间只有一个区别:
GPT-2 可以完成多任务处理。OpenAI成功地证明了半监督语言模型可以在“无需特定任务训练”的情况下,在多
项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。
随后,2020年5月,OpenAI发表《Language Models are Few-Shot Learners》,呈现GPT-3。GPT-3 GPT-2
100 倍,它拥有1750 亿个参数。然而,它与其他 GPT 并没有本质不同,基本原则大体一致。尽管 GPT 模型之
间的相似性很高,但 GPT-3 的性能仍超出了所有可能的预期。
202211月底,围绕ChatGPT机器人,OpenAI进行了两次更新。1129日,OpenAI发布了一个命名为“text-
davinci-003”(文本-达芬奇-003”)的新模式。在1130日发布它的第二个新功能:“对话”模式。它以对话
方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。
工作原理
概述
使用机器学习算法来分析和理解文本输入的含义,然后根据该输入生成响应。该模型在大量文本数据上进行训练,
使其能够学习自然语言的模式和结构。
细节
ChatGPT 模型使用一种称为人类反馈强化学习 (RLHF) 的机器学习进行训练,可以模拟对话、回答后续问题、承
认错误、挑战不正确的前提并拒绝不适当的请求。为了创建强化学习的奖励模型,OpenAI收集了比较数据,其中
包含两个或多个按质量排序的响应模型。为了使生成的文本更容易被人理解,OpenAI招募了人类训练师,在训练
过程中,人类训练师扮演了用户和人工智能助手的角色。模型在Microsoft Azure的超算设施上进行训练。
ChatGPT模型的训练过程与其前身RLHF非常相似:
1. 使用有监督的微调训练初始模型:人类训练师之间提供对话,其中一个扮演用户,另一个扮演ChatGPT 中的 AI
助手。为了创建强化学习的奖励模型,需要收集比较数据,并使用收集到的数据调整 GPT-3.5 模型;
of 8
100墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜