暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

面向 AI Agent 的数据分析

ClickHouseInc 2025-02-26
54


本文字数:7308;估计阅读时间:19 分钟


Meetup活动


ClickHouse Shanghai User Group第2届 Meetup 将于本周六举办,火热报名中,详见文末海报!



你正在运营一个分析数据库,突然发现有一批用户似乎从不休眠、不曾停歇,他们生成 SQL 查询的速度快得仿佛明天不存在。你可能会问:我们是不是又遭遇了 DDoS 攻击?答案是否定的。实际上,公司刚刚部署了一支自主 AI Agent 的工作负载集群,专门负责监控和优化某些业务指标。

如果你负责管理数据库或者从事数据库系统设计,这消息可能既让人兴奋又让人感到恐慌。

AI Agent 正在迅速发展,它们不仅具备推理能力,还能与实时数据库等第三方系统 (3rd party systems) 实时连接。随着 2025 年被称为 “智能体革命 (agentic revolution)” 之年,本文探讨了处于实时分析交汇点上的 AI Agent:它们如何与数据交互、使用模式如何,以及这对实时数据库设计意味着什么。我们将视 AI Agent 为实时数据库的一种 “新用户角色”,并探讨系统如何适应这种工作负载的初步趋势。最后,我们将通过展示 ClickHouse MCP Server,举例说明一个实时分析智能体工作流的实现方式。

谷歌在 2024 年的AI Agent趋势分析

接下来的部分将介绍近期 AI 发展的一些定义和背景知识,这对后文将大有裨益。但如果你已熟悉 AI 概念(并且紧跟着热点话题),建议直接跳至 “ AI agents 实施数据分析” 部分。


AI 概念速览

ELI5: AI Agent以及 LLMs 如何开启智能体时代

ELI5 意为 “向我解释得像我五岁一样” ,灵感来源于 subreddit r/explainlikeimfive

可以把 AI Agent 理解为超越了简单任务执行(或函数调用)的数字助理:它们不仅能理解上下文、做出决策,还能朝着特定目标采取实质性行动。它们以 “sense-think-act” 循环方式运作(参见 ReAct agents),处理各种输入(文本、媒体、数据),分析情境,然后利用这些信息开展有效工作。最关键的是,根据不同的应用领域,它们在理论上可以达到不同程度的自主性,既可能需要也可能不需要人工干预。

这里的颠覆性突破在于大语言模型 (Large Language Models, LLMs) 的出现。虽然 AI Agent 的概念已经存在一段时间,但像 GPT 系列这样的大语言模型 (Large Language Models) 却让它们在“理解”和沟通上获得了巨大提升。仿佛它们突然变得更“懂人话”——能够更准确地理解请求,并用模型训练过程中获得的相关上下文信息给出回应。


AI Agent 的超能力:“工具”  

这些智能体通过接入各种“工具”获得了超凡能力。工具不仅让 AI Agent 拥有执行多样任务的能力,也让它们不再仅仅是对话界面,而是能够完成诸如数据计算、信息搜索以及客户沟通管理等实际工作。换句话说,这就像区别于一个只会描述如何解决问题的人与一个能真正解决问题的人。

例如,ChatGPT 现已默认内置了一个搜索工具。通过与搜索服务提供商的集成,模型在对话过程中可以实时从网络上提取最新信息。这意味着它能够进行事实核查、获取最新事件与数据,从而提供实时更新的信息,而不再仅仅依赖于训练数据。

ChatGPT 搜索工具 UI

工具还可以简化检索增强生成 (Retrieval-Augmented Generation, RAG) 管道的实现。不同于仅依赖 AI 模型训练中学到的知识,RAG 允许模型在生成回答前先提取相关信息。举个例子:当使用 AI 助手协助客户支持(例如 Salesforce AgentForce, ServiceNow AI Agents)时,如果不借助 RAG,系统只能依靠其通用训练来回答问题;而有了 RAG,当客户询问最新产品特性时,系统会先检索最新的文档、发布说明以及历史支持工单,然后再生成回答。这确保了回答始终基于 AI 模型能够获取到的最新信息。


三思而后行:推理模型

三思而后行听起来确实是个明智的做法,不是吗?

在人工智能领域,另一个也许最令人瞩目的进展便是推理模型的出现。比如 OpenAI o1、Anthropic Claude 以及 DeepSeek-R1 这类系统,在响应提示之前,会先加入一个“思考”步骤,从而采用一种更为系统化的方法。它们不会直接给出答案,而是借助诸如链式思考这样的提示技巧,从多个角度分析问题,将问题拆解为若干步骤,并在必要时调用工具收集相关上下文信息。

这一转变标志着系统能力的提升:通过结合推理与实用工具,系统能够处理更为复杂的任务。近期的一个典型例子是 OpenAI 推出的深度研究,这是一款能够自主在线执行复杂多步骤研究任务的 AI Agent。它能够整合来自文本、图像和 PDF 等多种渠道的信息,在 5 到 30 分钟内生成详尽报告,而这一任务传统上往往需要人类耗费数小时才能完成。

简化的人工智能时间线

如果你希望更深入地了解人工智能相关概念,我推荐观看 IBM 关于 AI Agent的精彩视频(https://www.youtube.com/watch?v=F8NKVhkZZWI)


AI Agent 的实时数据分析  

如今已经是 2025 年,我们拥有由大语言模型 (LLM) 驱动的 AI Agent。这些AI Agent具备不同程度的自主能力,可以访问外部工具来执行查询、获取信息或执行任务。  

让我们来看一个典型的案例:一个具备自主决策能力的 AI 助手,它可以访问一个实时分析数据库,该数据库存储着公司的 CRM 数据。当用户询问最新(分钟级)的销售趋势时,AI 助手会查询已连接的数据源,反复分析数据,提取关键趋势信息,如月度增长、季节性变化或新兴产品类别,并生成自然语言回答,通常还会附带可视化图表。对于这种基于聊天的交互方式,性能尤为关键,因为 AI 需要执行一系列查询,对海量数据进行扫描,以提取有价值的见解。  

实时分析数据库具有一些特性,使其特别适用于此类 AI 工作负载。它们能够处理近实时数据,确保 AI Agent 能够获得最新信息,从而做出或辅助做出精准决策。此外,实时分析数据库擅长大规模数据的复杂聚合和模式识别,使 AI Agent 能够发现趋势、检测异常并提取可操作的洞察。  

核心分析能力同样至关重要。实时分析数据库在大规模数据集上的复杂聚合和模式识别方面尤为出色。与主要用于存储或检索原始数据的操作型数据库不同,实时分析数据库经过专门优化,能够高效分析海量信息。因此,它们特别适用于 AI Agent,帮助其识别趋势、检测异常,并提取有价值的洞察。  

此外,实时分析数据库应具备高效的交互式查询能力,这对于基于聊天的交互方式和高频探索性查询至关重要。即使在大规模数据和高并发查询的情况下,它们仍能保持稳定的性能,确保对话流畅,提高用户体验。  

最后,实时分析数据库通常作为数据的“最终归集地”,能够有效整合不同来源和格式的关键数据,形成统一的数据架构。这使得 AI Agent 能够获取完整的领域信息,同时避免对操作型系统的直接依赖。

这些数据库还具备高并发查询能力,确保在大数据量环境下依然能提供流畅的用户体验。同时,它们通常充当“数据归集中心”,整合来自不同来源和格式的关键信息,使 AI Agent 能够基于统一的领域数据做出判断。  

这些特性已经让实时分析数据库成为 AI 数据检索的重要基础,例如 OpenAI 收购 Rockset。但问题是:现有的实时分析数据库,真的已经准备好支撑 AI Agent 的这一需求了吗?  


AI Agent :新兴的用户画像  

在我看来,理解 AI Agent 如何利用实时分析数据库的最佳方式,是将其视为一种全新的用户类型,或者用产品经理的术语来说:一个新的用户画像 (user persona)。  

一个虚构的自主 AI 助手用户画像卡片  

从数据库的角度来看,AI Agent 的数量理论上没有上限。它们可以同时执行大量查询,代表用户或以自主方式进行数据分析、优化研究过程、获取深度洞察,并执行各种任务。  

长期以来,实时数据库已经逐步适应了人类用户的交互需求。这些用户可能直接连接数据库,或者通过中间件访问。典型的用户画像包括数据库管理员、业务分析师、数据科学家,以及构建数据库应用的软件开发者。行业在不断探索过程中,逐步理解了他们的使用模式,并相应提供了接口、查询操作符、用户界面 (UI)、数据格式、客户端工具及优化性能,以满足不同的应用需求。  

那么,现在的问题是:当前的实时数据库是否已经准备好支持 AI Agent 的工作负载?哪些特性需要重新设计?又有哪些新功能需要从零构建?  

虽然现在回答这些问题还为时尚早,但我们可以初步探讨一些可能的方向(当然,这个过程可能会带来更多问题,而不是直接给出答案):  

让 SQL 更适合 AI Agent 

SQL 作为一种广泛使用的查询语言,大多数大语言模型 (LLM) 都能够轻松生成 SQL 语句。这主要归功于丰富的训练数据。现代推理模型在构造 SQL 查询方面能力不断提升,通常会采用试错方式进行优化。但是,我们是否可以提供特定功能,以提升 SQL 生成的质量?更重要的是,在关键查询(如财务计算)中,如何确保核心指标的计算准确无误?  

一种可能的方案是结合自由格式的 SQL 查询与模板化 API,提供清晰的指标定义,以更好地控制查询流程。此外,我们还可以为 LLM 设计特定的 SQL 语言扩展,例如新增操作符或格式,以优化 AI 生成 SQL 的能力。  

提升数据发现能力  

AI Agent 通常从探索数据集开始,利用 `DESCRIBE` 和 `SHOW` 查询获取数据结构信息,并执行示例查询和描述性统计分析。我们可以进一步优化这一过程,提供专门针对 LLM 的查询操作,使其能够自动注释数据集,标注字段特性。这类似于服务器端的 `pandas.describe()`,但专为 AI Agent 设计。  

面向 LLM 的文档优化  

当前的实时分析数据库文档主要面向人类用户。如果我们希望 AI Agent 能够更高效地使用这些文档,就需要优化其对大语言模型 (LLM) 的兼容性。其中一种日益流行的方法是采用标准化格式,例如 `LLMs.txt`,以机器可读的方式提供文档内容,使 AI Agent 能够更轻松地解析和使用,从而提升数据交互的效率。  

提升实时分析数据库以支持 AI 负载  

与传统的交互式用户一样,AI Agent 也需要快速的响应时间来完成并发任务。不同之处在于,每次 AI 请求可能会在短时间内触发多个探索性和聚合查询。随着 AI Agent 的广泛部署,实时分析系统将面临更严峻的可扩展性挑战。解决方案并非唯一,但高效的实时数据库必须能够在高吞吐量和复杂查询的情况下保持稳定性能,以支持 AI Agent 的工作负载。  

服务器端 AI 记忆存储  

AI Agent 可以在多个交互过程中积累和回忆信息,以优化决策、个性化响应,或提升长期性能。这一能力通常被称为“AI 记忆”。  

在数据库层面,我们可以设想服务器端的状态管理机制,使 AI Agent 能够像交互式用户一样维护会话信息,包括设置和偏好。如果AI Agent 经常执行相似的查询(尤其是数据发现类查询),这种状态管理可以扩展到不同级别的缓存,从而加快查询响应时间。同时,这也需要可靠的机制来识别AI Agent用户,并合理限定其任务范围。  

适用于 AI Agent 的访问控制机制  

数据库通常采用基于角色的访问控制 (RBAC) 机制,通过角色分配来管理用户权限,以确保数据安全。而在 API 领域,短生命周期的 API Token 也被广泛用于提供临时访问权限,以降低数据泄露风险。我们可以借鉴 API 的安全机制,为 AI Agent 设计更灵活的访问控制方案,例如动态分配短生命周期 Token,使其访问权限与任务时长保持一致。  

 “我们的目标很宏大:到 2025 年底,我们希望帮助客户扩展其团队,并通过 10 亿个 Agentforce 智能体提升员工能力。”  

 —— Marc Benioff,Salesforce CEO,关于 AgentForce(Salesforce 的 AI Agent 产品) 

需要注意的是,上述讨论并非产品开发路线图,而是一个思维探索过程。随着 AI Agent 的应用不断拓展,行业仍在探索如何优化 AI 交互体验,并持续完善相应的数据库基础设施。  

那么,回到最初的问题:现有的实时分析数据库是否已经能够为 AI Agent 提供价值?答案是 肯定的(我们将在下一部分进行演示),但与所有新兴技术一样,仍然有许多值得改进的地方,未来会不断演进。  


ClickHouse MCP 服务器的实际应用  

2024 年 11 月,Anthropic 发布了模型上下文协议 (Model Context Protocol,MCP),这是一种开放标准,旨在简化 AI 驱动应用与数据源之间的集成。MCP 采用轻量级架构,开发者可以通过 MCP 服务器对外提供数据服务,或构建 MCP 客户端,与这些服务器交互。目前,MCP 服务器的典型应用场景包括数据库、文件系统、开发工具、Web 自动化 API 以及生产力工具等。  

近期,我们正式推出了 ClickHouse MCP 服务器,使 AI 模型能够无缝访问 ClickHouse 实例。该服务器提供了三项核心功能:  

1. 查询 ClickHouse 实例中的数据库列表;  
2. 获取指定数据库的表结构信息;  

3. 运行 SELECT 查询,检索数据(最重要的功能)。  

MCP 让我们能够以标准化方式,将 LLM 连接到其任务所需的上下文数据。下方短视频展示了 MCP 在 ClickHouse Cloud 公共体验环境中的实时演示,使用的是 Anthropic 的 Claude Sonnet 3.5 模型。  

在测试中,我们的第一个查询让模型熟悉数据集。Claude 通过 list_tables 工具查询了两个数据库:Forex 和 Stock,并随后执行 SELECT 查询,获取数据样本(此前的请求要求列出所有可用数据集)。  

随后,我们提出了一个较为宽泛的问题:“哪些科技股在互联网泡沫破裂时受影响最严重?” 值得注意的是,这个问题并未明确指定时间范围或字段名称,但 Claude 依然能够理解查询意图,推导出合适的分析方法,选取相关指标,并确定合适的时间范围,最终完成所需的数据分析。更有趣的是,我们可以将 AI Agent 完成此任务的时间,与分析师手动执行类似分析所需的时间进行对比,以评估其效率提升的潜力。  

 Claude 对数据的逐步探索 

在这次数据分析过程中,我们的查询请求共触发了 10 条 SQL 语句。最终,Claude 在短短几秒内从原始数据中提取出了一系列洞察,并生成了可视化图表和描述性分析。  

尽管这一方法非常有前景,但它仍然存在局限性,并非万能解决方案。即使 AI Agent 依赖实时数据作为事实依据,也无法完全避免“幻觉”问题——即模型可能会在高置信度下生成错误信息。因此,为了降低风险,我们需要采取一些关键措施,如:  

  • 采用模板化查询,确保数据完整性;  
  • 设定合理的默认参数(例如调整温度值);  
  • 实施安全机制,以验证 AI 生成的结果。  


在本地运行试试!  

最好的理解方式就是亲自尝试。你可以在我们的文档中找到详细指南,了解如何连接到 ClickHouse 公共体验环境。此外,ClickHouse MCP 服务器与 Claude 桌面版的安装步骤也在其 README 文件中有详细说明。  

如果你希望在本地离线运行,还可以使用兼容工具和替代模型搭建自己的环境。例如,我们尝试了以下本地部署方案:  

  1. 模型:llama3.2 3B,运行于 Ollama  

  2. 客户端:mcp-cli  

本地部署的一个显著优势是,所有数据均在本地处理,确保了更高的隐私性(并且不会受到 API 速率限制!)。然而,由于本地版本使用的模型规模较小,推理能力有限,它在探索性分析任务中的表现不如 Claude 桌面版。相比之下,它更适用于直接查询特定表和字段的问题,但在复杂的分析任务中容易遇到瓶颈。  

不过,随着开源推理模型(如 DeepSeek R1)的发展,AI 在数据探索中的能力将进一步增强。目前,DeepSeek R1 尚不支持工具调用,但未来的版本有望填补这一空白。  

ClickHouse MCP 服务器与 llama3.2 的本地部署示意图  


总结与展望  

AI Agent 逐步成为实时分析数据库的活跃用户,这一变化正在重塑我们对数据系统的认知。虽然这一趋势尚处于早期阶段,但随着模型上下文协议 (Model Context Protocol) 的推出,以及 AI 驱动分析工具生态系统的不断扩展,数据系统的基础架构正在逐步演进,以适应这一新需求。  

AI Agent 正在从单纯的查询执行工具和“函数调用者”,发展为具备数据理解能力、上下文管理能力和洞察力的智能助手。这一趋势既带来了巨大的机遇,也伴随着挑战。随着 AI Agent 的自主性不断增强,并在各个行业广泛部署,我们或将见证它们与数据系统交互模式的进一步演进,进而推动实时数据库的新一轮优化和功能创新。  

尽管本文探讨了一些实时分析数据库可能的演进方向,以更好地支持 AI Agent 的需求,但这只是一个起点。随着 AI Agent 的大规模应用和新场景的不断涌现,它们与实时数据库的关系也将在未来持续发展,甚至可能超出我们的预期。  



Meetup 活动报名通知

好消息:ClickHouse Shanghai User Group第2届 Meetup 已经开放报名了,将于2025年03月01日在上海 阿里巴巴徐汇滨江园区X区3层X7-301龙门书院 举行,扫码免费报名

注册ClickHouse中国社区大使,领取认证考试券

ClickHouse社区大使计划正式启动,首批过审贡献者享原厂认证考试券!


试用阿里云 ClickHouse企业版


轻松节省30%云资源成本?阿里云数据库ClickHouse 云原生架构全新升级,首次购买ClickHouse企业版计算和存储资源组合,首月消费不超过99.58元(包含最大16CCU+450G OSS用量)了解详情:https://t.aliyun.com/Kz5Z0q9G



征稿启示

面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com


文章转载自ClickHouseInc,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论