计算机行业深度研究：文心一言、GPT3.5及GPT4的应用测评对比-国金证券.pdf

dbtiger

239

33页

2次

2023-03-21

5墨值下载

敬请参阅最后一页特别声明

OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API；国内百度于 3 月 16 日发布生成式大模型

“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异，我们对文心一言、GPT-3.5（ChatGPT 的

原模型）和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推

理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。

 在常识和创作类问题中，三大模型均能正确回答客观常识类问题；进行文学创作结果均能体现正面价值观，但文

心一言的分词功能有待提升；目前 GPT-4 尚未开放图像生成外部测试，文心一言的图像生成能力较为出色。

 在归纳和推理类问题中，文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型，但在归纳总结类任

务中表现较好；三大模型在情感推理类问题中仍有提升空间。

 在数学和代码类问题中，GPT-3.5 有更好的数学能力表现；GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生

成问题，但并非最优解，文心一言代码问题识别能力有待加强。

 在应用场景测试中，三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务，

但在文言文和古诗词理解运用方面表现不佳。

我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升，各模型性能都有

望实现进一步优化完善。

文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现，其中，文心一言虽然在逻辑推理

等任务中表现不及 GPT-3.5、GPT-4，但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心

的开放应用将极大加速国内生成式 AI 模型的落地应用节奏，有望帮助生态伙伴实现用户体验提升和生产降本增效。

我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司，如万兴科技、汉得信息、凌志软件、同花顺、金

山办公。

海外基础软硬件使用受限；应用落地不及预期；行业竞争加剧风险；测评问题有限导致结果或有偏差。

行业深度研究

敬请参阅最后一页特别声明

内容目录

1. 常识和创作.................................................................................. 3

2. 归纳和推理.................................................................................. 7

3. 数学和代码................................................................................. 12

4. 现实应用场景测试........................................................................... 17

5. 投资建议................................................................................... 30

6. 风险提示................................................................................... 30

图表目录

图表 1：三大模型测评结果综合对比 ............................................................... 3

图表 2：常识类问题的回答对比 ................................................................... 4

图表 3：文字创作问题的回答对比 ................................................................. 4

图表 4：图像创作问题的回答对比 ................................................................. 6

图表 5：演绎推理问题的回答对比 ................................................................. 7

图表 6：情感推理问题的回答对比 ................................................................. 8

图表 7：逻辑推理问题的回答对比 ................................................................. 9

图表 8：归纳总结问题的回答对比 ................................................................ 10

图表 9：数学问题的回答对比 .................................................................... 13

图表 10：代码生成问题的回答对比 ............................................................... 14

图表 11：安全应用问题的回答对比 ............................................................... 18

图表 12：生活应用问题的回答对比 ............................................................... 19

图表 13：客服场景问题的回答对比 ............................................................... 21

图表 14：办公协同问题的回答对比 ............................................................... 22

图表 15：推荐场景问题的回答对比 ............................................................... 26

图表 16：诗词理解问题的回答对比 ............................................................... 28

行业深度研究

敬请参阅最后一页特别声明

文心一言开放测试后，我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评，

测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息

抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。

根据测试结果可以看出，三大模型在客观问题问答方面都有出色表现，但在数学计算、代

码生成、情感理解和推理方面均有待提升。对比来看，文心一言在图像创作、归纳总结等

问题中表现较为出色，但在逻辑推理领域还有待加强。在具体应用中，三大模型均能基本

胜任 AI 助手、售后客服、产品推荐等场景需求，但在文本修饰及古诗词理解领域仍有提

升空间。

我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平

持续提升，各模型性能都有望进一步优化。

图表

：三大模型测评结果综合对比

应用领域

文心一言

GPT-3.5

GPT-4

常识和

创作

常识类问题

正确

正确且更为严谨

文字创作

分词错误

正确

正确且细节更丰富

图像创作

生成图像符合要求

无法生成

图像生成功能暂未开放

归纳和

推理

演绎推理

错误

正确

情感推理

结果正确，过程有偏差

错误

逻辑推理

错误

基本正确

归纳总结

符合要求，对未知内容直接

进行网页搜索

未能提取正确信息

符合要求，可对未知内容进行

推理，多轮对话能力较强

数字和

代码

数学计算

错误

正确

错误

代码生成

错误

未给出最优答案

模拟 AI

助手

安全类问题

符合要求

生活类问题

符合要求且给出可靠建议

符合要求

模拟 AI

客服

退换货问题

符合要求

模拟办

公助手

场景文档生成

符合要求

文字修饰

有待改进

模拟推

荐助手

推荐理财产品

及生日礼物

符合要求

教学辅

助

古诗词理解

基本正确

部分内容错误

来源：百度文心一言官网，chat.openai 官网，国金证券研究所

常识和创作部分我们分别对 3 个模型提出基于客观事实的常识问答、给定主题的文字创作

问题、给定主题的图像创作问题，以评价模型对已有知识的表述能力和图文生成能力。

 常识题：中国有多少个省？

3 个模型都进行了正确的回答，其中 GPT-4 生成的答案最为严谨和详细，不仅说明了“截

止 2021 年”（由于 GPT-4 的知识截止 2021 年）、优先列举了省份，且对具体省级行政区

的名称进行了详尽的列示。

of 33

5墨值下载

gpt

相关文档

评论