Lakehouse 架构具有巨大的发展势头,我们的数百名客户正在实现这一目标。作为受监管行业领域的数据驱动型组织,您是否经常想知道是否有针对您独特的安全和行业需求量身定制的 Lakehouse 蓝图?现在已经到了。
Databricks 很高兴推出一组新的自动化模板来部署专门为金融服务 (FS) 定义的数据湖库。Lakehouse for FS Blueprints是一组 Terraform 模板,专门用于金融服务,其中包含来自 600 多个 FS 客户的最佳实践和模式。它专为关键安全性和合规性策略量身定制,并提供特定于 FS 的库作为关键用例的快速入门,包括监管报告和交易后分析。您现在可以在几分钟内启动并运行,而不是几周或几个月。所有这些工作都建立在广泛采用的Databricks Terraform 提供程序之上,截至撰写本文时,该提供程序已部署在 1,000 多个 Databricks 客户中。
自动化部署模板的核心组件包括:
- AWS、Azure和GCP的安全连接。
- 安全访问外部云存储桶(AWS S3、Azure Blob 存储)访问配置为允许基于数据敏感性的细粒度访问权限。
- 创建Databricks 组,该组针对 FSI 组织中的角色量身定制,访问受限(可配置),这对个人身份信息 (PII) 限制很有用。
- 预安装的库、快速入门和集群,用于处理关键的 FS 用例,包括数据质量实施、数据模型模式实施和时间序列 ETL 包。
让我们更详细地了解 Lakehouse for FS Blueprints 提供的关键功能,以加快您部署 Lakehouse 架构的过程。
安全
FSI 必须应对越来越多、越来越复杂的安全威胁,以及不断变化的监管环境——所有这一切都随着数据量(和重要性)的增长而发生。对于金融服务机构来说,确保数据安全、隐私和合规性至关重要。Databricks 为 FS 蓝图创建了 Lakehouse,以更好地将关键安全性和合规性策略直接整合到部署配置中。
基于Databricks Lakehouse 平台的 FSI 采用者,市场上已经建立了标准的安全最佳实践。银行、保险和资本市场公司需要诸如安全连接(无公共 IP)、通过云主干网(例如,AWS 的私有链路)的安全通信以及用户组之间定义明确的数据隔离等功能。在我们的 Terraform 模板中,我们编写了所有这些用于自动部署的最佳实践。
数据治理
随着许多 FSI 构建他们的数据湖库,他们能够使他们的数据民主化并使其在整个组织中都可以访问。FSI 必须了解敏感数据的处理方式,并能够控制和审计对其的访问。为了管理数据湖,管理员通常依靠云供应商特定的安全控制来管理数据,例如 IAM 角色或基于角色的访问控制 (RBAC) 和面向文件的访问控制。我们假设需要组来限制某些数据分类,并在工作区设置中对这些分类进行编码。
请注意,Databricks 已在公共预览版中推出Unity Catalog,它使用熟悉的开放界面为 Lakehouse 数据带来细粒度的治理和安全性。Unity Catalog 允许组织使用标准 ANSI SQL 或简单的 UI 来管理细粒度的数据权限,使他们能够安全地打开他们的 Lakehouse 以供广泛的内部使用。它跨云和数据类型统一工作。最后,它超越了管理表来管理其他类型的数据资产,例如机器学习 (ML) 模型和文件。因此,企业可以获得一种简单的方法来管理其所有数据和人工智能 (AI) 资产。FS 蓝图的 Lakehouse 将在正式发布时进行更新以合并 Unity 目录。
金融服务快速入门
我们经常听到数据团队和数据领导者需要在数周而不是数月或数年内交付价值。在获取、集成和转换数据之前,数据团队通常会花费数周时间来了解问题。只有这样,数据团队才能开始开发、优化模型并将其部署到生产中。从确定需求、研究潜在解决方案、最终确定实施到看到结果,这种滞后甚至剥夺了最重要的数据科学计划的动力。
为了帮助我们的客户克服这些挑战,Databricks 创建了 Python 库,这有助于加速金融服务中的用例。作为 FS 蓝图 Lakehouse 的一部分,我们已将这些库预安装在标准集群上,从两个快速入门开始,以帮助企业快速掌握最佳实践:
-Waterbear:Waterbear 可以解释企业范围的数据模型(例如监管报告)和预配置表、流程和数据质量规则,从而加速生产数据的摄取和生产工作流程的开发。这使 FSI 能够部署具有弹性数据管道和最小开发开销的金融服务 Lakehouse。有关更多信息,请阅读此博客。
- Tempo : Tempo 是一组时间序列实用程序,用于简化 Databricks 上的时间序列处理。通过结合滴答数据、可靠数据管道和 Tempo 的多功能性,FSI 可以以最小的成本和快速的执行周期从各种用例中释放指数价值。有关更多信息,请阅读此博客。
这仅仅是个开始。随着我们继续构建我们的产品组合并为我们现有的解决方案加速器创建标准化库,我们将在 Lakehouse for FS Blueprints 中添加新的库或预配置集群,以便为我们的 FS 客户提供不断增长的关键功能集。
Lakehouse for FS 蓝图的主要优势
为金融服务而生
Lakehouse for FS Blueprints 专为支持金融服务中的合规性和安全性需求而设计。最佳实践是开箱即用的——包括关键的安全和治理控制——基于我们在 600 多个客户中看到的最佳实践和模式。您有一个起点,您可以在此基础上根据需要配置其他策略。
通过自动化节省时间和资源
使用 Lakehouse for FS Blueprints,您无需花费大量时间配置 Databricks。相反,构建开源部署框架并专注于您公司独有的定制。开发人员可以更快地移动,并且数据迁移耗时更少。您现在可以在几分钟内启动并运行,而不是几周或几个月。
加速实现价值
预配置集群简化并加速核心 FS 用例的部署,让您和您的业务利益相关者更快地实现价值。这些库可以减少您在数据工程、模式开发和模型开发等多个领域所花费的时间。要解决更多用例,请查看所有 Databricks解决方案加速器,您可以在其中轻松下载并导入您的工作区。
多云
多云采用势头强劲,Gartner 预测,到 2022 年,75% 使用云基础架构即服务 (IaaS) 的企业客户将采用深思熟虑的多云战略。考虑到这一点,Databricks 为每个主要公共云(AWS、Azure 和 GCP)创建了 Lakehouse for FS 蓝图。您可以避免跨云重复最佳实践,并更好地确保跨云部署 Lakehouse。
原文标题:Lakehouse for Financial Services Blueprints
原文作者:Ricardo Portilla, Antoine Amend and Samir Patel
原文地址:https://www.databricks.com/blog/2022/06/22/lakehouse-for-financial-services-blueprints.html