Artificial Analysis-人工智能行业AI现状：中国，Q1 2025(英译中)-250217.pdf

鲁路修

14页

5次

2025-04-21

免费下载

AI 现状：中国

人工分析

Q1 2025

我们的数据、见解和出版物基于我们对人工智能技术及其应用场景的全面

基准测试。这包括从语言模型API的小时级性能测试到我们众包平台上的

数百万次投票。

我们的公共网站，artificialanalysis.ai，广泛被人工智能创新领域的领先公

司引用。如欲讨论本报告、我们的出版物或服务，请通过contact@artificia

lanalysis.ai 联系我们。

人工分析

是领先且独立的AI基准测试和洞察提供商。我们支持工程师和

公司了解AI能力，并就其AI战略做出关键决策。

主要趋势

按起源划分的前沿语言模型

中国 AI 实验室逐渐赶上美国 AI 实验室；来自中国实验室的模型

随着 DeepSeek 的 R1 模型的发布，现在正在接近 o1 级智能

OpenAI, o3

DeepSeek, R1

USA

中国

OpenAI, o1

OpenAI, o1 - preview

OpenAI ， GPT - 4 Turbo

人类, 克劳德

十四行诗(6 月 24 日)

GPT-4o

OpenAI ， GPT - 4

DeepSeek, V3

阿里巴巴， Qwen 2.5 指令 72B

阿里巴巴， Qwen 2 指导 72B

DeepSeek, V2

阿里巴巴， Qwen 聊天 72B

OpenAI ， GPT - 3.5 Turbo

阿里巴巴， Qwen 聊天 7B

4Q22 1Q23 2Q23 3Q23 2Q24 3Q24 4Q24 1Q25 2Q254Q23 1Q24

模型发布日期

1. 人工分析智能指数：涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。

发布日期基于该模型的首次公开发布。2. o3 智能指数通过放大测量的 o1 的智能指数估算得出。3. 基于公司声明和可比结果估算。

在可用的情况下，尚未通过人工分析进行独立基准测试

缩小差距：

2024年最后几个月见证了多家顶尖

中国AI实验室推出众多高性能模型。这导致了中

国AI实验室与美国AI实验室在智能水平上的差距

缩小。目前，一些中国模型已与美国顶级实验室

的模型竞争。

在前沿实验室附近打开模型：

由 DeepSeek 和

阿里巴巴领导的开放权重模型已经接近 o1 级智

能。

推理模型很快变得司空见惯：

推理模型（在回

答前进行“思考”的模型）最早由OpenAI在2024

年第三季度引入。几个月内，以DeepSeek为代

表的中国竞争对手已基本复制了o1的智能水平。

目前，多家中国AI实验室已经拥有前沿级别的推

理模型。

美国和中国：随着时间的推移，前沿语言模型情报

索引人工分析智能

of 14

免费下载

相关文档

评论