暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

AI 里程碑:GPT-4 发布了!

浮之静 2023-03-15
502


GPT-4 是 OpenAI 在深度学习规模化方面的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,输出文本),虽然在许多现实场景下不如人类那么强大,但在各种专业和学术基准测试中表现出与人类水平相当的性能(它以排名前 10% 左右的分数通过了模拟的律师资格考试,而 GPT-3.5 的分数约为排名最后 10%)。它已经在 OpenAI 的 API(有等待列表)和 ChatGPT+ 中提供,详情请见 research/gpt-4[1]

GPT-4  目前仍然存在缺陷和局限性,当你投入更多时间与它相处之后,它的表现或许不如初次使用时那么令人印象深刻。但是相比之前的模型,它更具创造性,幻觉现象更少,偏见更少。开源 OpenAI Evals[2] AI 模型性能自动评估框架,以允许任何人帮助改进模型。

能力

在非正式的对话中,GPT-3.5 和 GPT-4 之间的区别可能不太明显。当任务的复杂性达到足够的阈值时,两者之间的差异就显现出来了——相较于 GPT-3.5,GPT-4 更加可靠、创造性,而且能够处理比 GPT-3.5 更为微妙的指令。

为了理解这两个模型之间的区别,进行了各种基准测试,包括模拟最初为人类设计的考试。使用了最近公开可用的测试(在奥林匹克竞赛和 AP 自由响应问题的情况下)或购买了 2022-2023 版的练习考试。在这之前没有对这些考试进行过具体的训练。在考试中的少数问题在训练期间被模型所看到,但团队认为结果是具有代表性的——有关详细信息,请参阅 technical report[3]

还对传统的机器学习模型设计的基准进行了 GPT-4 的评估。GPT-4 在表现上明显优于现有的大型语言模型,并且在包括基准特定的制作或额外的训练协议在内的大多数最新技术(SOTA)模型中表现出色。

许多现有的机器学习基准测试都是用英语编写的。为了初步了解在其他语言中的能力,使用 Azure Translate 将 MMLU 基准测试(一个涵盖 57 个科目的 14,000 个多选题套装)翻译成多种语言。在测试的 26 种语言中的 24 种语言中,GPT-4 的表现都优于 GPT-3.5 和其他 LLM(例如 Chinchilla,PaLM)的英文表现,包括对于像拉脱维亚语、威尔士语和斯瓦希里语等资源稀缺语言的表现。

内部使用 GPT-4,在支持、销售、内容管理和编程等功能上产生了巨大的影响。我们还将其用于协助人类评估 AI输出,开启了我们对齐战略的第二阶段。

视觉输入

GPT-4 可以接受包含文本和图像的 prompt,这与仅文本设置并行,使用户可以指定任何视觉或语言任务。具体来说,它可以生成文本输出(自然语言、代码等),并给出包含交替文本和图像的输入。在其他领域(包含文本和照片、图表或屏幕截图的文档),GPT-4 在文本输入方面表现出类似的能力。此外,它可以使用为仅文本语言模型开发的测试时间技术进行增强,包括少量样本和思维链 prompt。图像输入仍然是一个研究预览,不对公众开放。

案例 1:VGA 充电器

案例 2:图表推理

案例 3:École Polytechnique 考试题

案例 4:极限熨烫

案例 5:纸质 InstuctGPT论文 摘要总结

案例 6:鸡块地图

案例 7:更多层

通过在一系列标准的学术视觉基准测试中评估 GPT-4 的表现来预览它的性能。然而,这些数字并不完全代表其能力的范围,因为会不断发现模型能够处理新的、令人兴奋的任务。未来 CV 工程师可能真的要失业了(大家猜猜我这篇文章是不是用 ChatGPT 写的)。

可操纵性

OpenAI 一直在按照其关于定义 AI 行为的帖子中所述的计划的每个方面进行工作,包括可操纵性。与传统的 ChatGPT 个性有固定的冗长度、语气和风格不同,开发人员(即将支持的 ChatGPT 用户)现在可以通过在“系统”消息中描述这些指令来指定他们的 AI 的风格和任务。系统消息允许 API 用户在一定范围内显着自定义他们的用户体验。OpenAI 将继续在这里进行改进(已知:系统消息是“越狱”当前模型的最简单方法,即遵循边界的程度并不完美),但 OpenAI 鼓励大家尝试并告诉他们你的想法。

案例 1:苏格拉底导师

案例 2:莎士比亚海盗

案例 3:JSON 人工智能助手

限制

尽管 GPT-4 具有类似于早期 GPT 模型的功能,但它仍然不是完全可靠的(会“幻觉”事实并产生推理错误)。在使用语言模型输出时应格外小心,特别是在高风险情境下,确切的协议(如人工审核、加强额外的上下文支撑或避免高风险用途)应根据具体用例的需要进行匹配。

尽管仍然是一个真正的问题,但相对于以前的模型,GPT-4 显着减少了幻觉(这些模型自每次迭代以来一直在改进)。在 OpenAI 的内部对抗性事实评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%。

在外部基准测试方面也取得了进展,例如 TruthfulQA(TruthfulQA: Measuring How Models Mimic Human Falsehoods[4]),该测试评估模型区分事实和敌对选择的一组不正确陈述的能力。这些问题与事实不符的答案配对,这些答案在统计上具有吸引力。

GPT-4 的基础模型在这项任务上只比 GPT-3.5 稍微好一些;然而,在应用 RLHF[5] 后训练(使用与 GPT-3.5 相同的过程)之后,差距变得很大。下面看一些例子,GPT-4 不会选择常见的说法(老狗不学新把戏),但它仍然可能错过细节(Elvis Presley 不是一个演员的儿子)。

GPT-4 的输出可能存在各种偏见,OpenAI 已经在这方面取得了一些进展,但仍有待改进。正如最近的博客文章所述:我们的目标是使我们构建的 AI 系统具有合理的默认行为,反映广泛用户价值观,允许这些系统在广泛范围内进行定制,并获取公众对这些范围的意见。

GPT-4 通常缺乏对其数据大部分截止时间(2021年9月)之后发生的事件的了解,并且不会从其经验中学习。它有时会犯简单的推理错误,这似乎与它在如此多的领域中的能力不相符,或者会过于轻信用户明显错误的陈述。有时它也可能像人类一样在难题上失败,比如在其生成的代码中引入安全漏洞。

GPT-4 在其预测中也可能自信地偏离正确答案,没有在可能犯错时仔细检查工作。有趣的是,基础预训练模型高度校准(它对答案的预测置信度通常与正确率相匹配)。然而,通过 OpenAI 当前的后期训练过程,校准性降低了。

风险与缓解措施

在训练和开发 GPT-4 过程中,OpenAI 不断采取措施来提高模型的安全性和对齐性。GPT-4 与之前的模型一样面临着风险,但由于其额外的功能,也带来了新的风险。为了了解这些风险的程度,OpenAI 邀请了多个领域的专家进行对抗性测试。GPT-4 引入了额外的安全奖励信号,通过训练模型拒绝请求有害输出来降低风险(例如:收集了额外的数据以提高 GPT-4 拒绝请求如何合成危险化学品的能力)。此外,OpenAI 采取了多种措施来缓解 GPT-4 的风险,并改进了模型的许多安全属性。虽然模型级的干预措施增加了引发不良行为的难度,但仍然存在违反使用指南(Usage policies[6])的“越狱”方法。随着 AI 系统的“风险每个标记”增加,OpenAI 认为需要实现极高的干预措施可靠度。在未来,OpenAI 还将继续与外部研究人员合作,以改进对 GPT-4 和其他 AI 系统可能产生的社会和经济影响。

相对于 GPT-3.5,缓解措施显著改善了 GPT-4 的许多安全属性。将模型响应不允许内容的请求的倾向降低了 82%,对敏感请求(例如医疗建议和自伤)按照 OpenAI 的政策更频繁地作出响应,提高了 29%。

相关资讯

GPT-4 Developer Livestream

OpenAI 总裁兼联合创始人 Greg Brockman 的开发人员演示,展示 GPT-4 及其部分能力/限制。视频地址:GPT-4 Developer Livestream[7]

草图生成网站

GPT-4 可以将餐巾草图的照片作为输入,输出一个完全功能的网站(HTML / CSS / JS)。

快速生成游戏

@skirano[8]:我不在乎它不是 AGI,GPT-4 是一项令人难以置信和具有变革性的技术。我在不到60秒的时间里重新创建了乒乓游戏,而且这还是我第一次尝试。一切都将不再一样。

游戏地址:Pong Game[9]

一键诉讼

DoNotPay 正在使用 GPT-4 生成“一键诉讼”,以起诉自动拨号者索赔1500 美元。想象一下,当你接到一个电话,点击一个按钮,通话被转录并生成了一份 1000 字的诉讼书。GPT-3.5 的表现不够好,但是 GPT-4 非常适合这项工作。

总结

AI 是一把双刃剑,在给我们带来无限想象力的同时,也容易被一些别有用心的人利用。而我们普通人能做的就是正确科学地使用 AI,用它来造福社会。

References

[1]

research/gpt-4: https://openai.com/research/gpt-4

[2]

OpenAI Evals: https://github.com/openai/evals

[3]

technical report: https://cdn.openai.com/papers/gpt-4.pdf

[4]

TruthfulQA: Measuring How Models Mimic Human Falsehoods: https://arxiv.org/abs/2109.07958

[5]

RLHF: https://openai.com/research/learning-from-human-preferences

[6]

Usage policies: https://openai.com/policies/usage-policies

[7]

GPT-4 Developer Livestream: https://www.youtube.com/live/outcGtbnMuQ

[8]

@skirano: https://twitter.com/skirano

[9]

Pong Game: https://pricklyjuvenilecontent.skirano.repl.co/

文章转载自浮之静,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论