数据与人工智能(Data+AI)时代需要什么样的数据库系统?

Image

Data+AI 时代是否需要数据库系统做出改变,甚至设计全新的系统?前者的答案是肯定的,但是后者的答案暂时还不知道。我们可以结合当前的情况做出一些分析。

首先,Agents 应用爆发,与传统的数据应用在操作模式上存在本质的区别,它需要数据库系统更好的支持。例如数据库系统需要支持向量检索,也需要支持 Agents 比人更多更快的访问。此外,Agents 目前的工作方式存在很多试探性操作,包括对数据和元数据一次性发出一堆类似的查询、甚至对数据库做尝试性修改,所以 Databricks Lakebase 也支持类似 Git 的分支管理能力。Agents 的试错模式类似于传统应用开发过程中的开发和测试环境。不过后者一般只需要复制少数几套环境(包括数据库)用于开发测试,不像 Agents 有可能会搞出大量的试错分支。

其次,Agents 应用依赖对大模型的调用。为了解决大模型上下文窗口不够长、外部知识无法及时更新、个性化以及在团队中共享知识等问题,需要数据系统实现对记忆的管理。记忆系统会成为一种新的数据系统形态,还是会在现有的各种数据系统之上成为一种中间件?很多现有系统实际上是当作中间件在实现,负责记忆的提取、增删改查等操作,实际数据的管理还是借助底下现有的数据系统来解决。

第三,Agents 应用、大模型、各种 Agents 开发框架等都需要可观测性管理。Agents 应用涉及多步骤、动态的、多 Agents、多系统的交互,加上大模型结果的不确定性,更需要端到端的可观测性管理来记录、分析和诊断。从数据库系统的角度看,当前的可观测性数据库需要能够适应 Agents 的新需求,例如更多样的数据、更多的 Trace、更复杂的查询分析等。

Berkeley 的研究者发布了《Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First》,https://arxiv.org/pdf/2509.00997,背后更多的是类似 Databricks Lakebase 等的思路。Google 最近与 Kaggle 合作做了个 5 天的 Agents 应用开发课程《5-Day AI Agents Intensive Course with Google》,https://www.kaggle.com/learn-guide/5-day-agents,非常适合从应用角度来观察 Agents 开发过程中涉及的各种软件。总之,面对人工智能带来的巨大变化,数据系统领域需要积极拥抱变化,及时做出适应和改变。

Written on November 12, 2025