
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
2
3
3
1
主要趋势
按起源划分的前沿语言模型
中国 AI 实验室逐渐赶上美国 AI 实验室 ; 来自中国实验室的模型
随着 DeepSeek 的 R1 模型的发布 , 现在正在接近 o1 级智能
OpenAI, o3
DeepSeek, R1
USA
中国
OpenAI, o1
OpenAI, o1 - preview
OpenAI , GPT - 4 Turbo
人类, 克劳德
十四行诗(6 月 24 日)
GPT-4o
OpenAI , GPT - 4
DeepSeek, V3
阿里巴巴 , Qwen 2.5 指令 72B
阿里巴巴 , Qwen 2 指导 72B
DeepSeek, V2
阿里巴巴 , Qwen 聊天 72B
OpenAI , GPT - 3.5 Turbo
阿里巴巴 , Qwen 聊天 7B
4Q22 1Q23 2Q23 3Q23 2Q24 3Q24 4Q24 1Q25 2Q254Q23 1Q24
模型发布日期
1. 人工分析智能指数:涵盖一系列语言模型智能和推理评估数据集的平均值。目前包括MMLU、GPQA Diamond、MATH-500及HumanEval。
发布日期基于该模型的首次公开发布。2. o3 智能指数通过放大测量的 o1 的智能指数估算得出。3. 基于公司声明和可比结果估算。
在可用的情况下 , 尚未通过人工分析进行独立基准测试
中国AI实验室推出众多高性能模型。这导致了中
国AI实验室与美国AI实验室在智能水平上的差距
缩小。目前,一些中国模型已与美国顶级实验室
的模型竞争。
阿里巴巴领导的开放权重模型已经接近 o1 级智
能。
答前进行“思考”的模型)最早由OpenAI在2024
年第三季度引入。几个月内,以DeepSeek为代
表的中国竞争对手已基本复制了o1的智能水平。
目前,多家中国AI实验室已经拥有前沿级别的推
理模型。
美国和中国 : 随着时间的推移 , 前沿语言模型情报
相关文档
评论