dynamic desensitization has zero impact on the business. Furthermore, its multi-engine-oriented unified security strategy framework
realizes the vertical expansion of dynamic data protection capabilities and the horizontal expans ion among multiple computing engines.
The distributed computing capability of the big data execution engine can be used to improve the data protection processing p erformance
of the system. The experimental results show that the precise SQL analysis and rewriting technology proposed by BDMasker is effective,
the system has good scalability and performance, and the overall performance fluctuates within 3% in the TPC -DS and YCSB benchmark
tests.
Key words: big data; data masking; dynamic data masking; SQL rewriting; query dependency
大数据时代, 大数据成为国家基础性战略资源. 党中央、国务院高度重视大数据发展, 开始全面实施国家
大数据战略, 其中, 数据的开放共享是大数据竞争战略核心. 从技术发展趋势看, 新的技术架构和大数据支撑
平台不断涌现, 云原生、湖仓一体架构正在重构大数据基础设施. 无论从访问数据湖、数据仓库到跨数据库、
跨域共享, 都需要更强的数据安全和数据共享能力. 然而, 无论开源大数据生态还是商业大数据系统, 对于开
放环境下大数据的安全保护能力都是严重落后于业务发展的. 近些年发生的隐私泄露事件都表明, 未经过脱
敏处理的数据发布或者共享很容易泄露数据隐私, 特别是个体敏感信息. 2018 年, 美国社交媒体 Facebook 的
8 700 万用户数据被咨询公司剑桥分析公司违规使用, 被判赔付 50 亿美元罚金; 2021 年, Facebook 又有 5.33
亿个人用户数据遭泄露. 开放环境下的安全问题, 已成为制约大数据技术发展与利用的瓶颈. 如何在开放的
复杂环境下保护敏感数据的隐私性, 同时保证数据的可用性和计算的高效性, 成为大数据安全领域的研究热
点之一
[1,2]
.
开放大数据环境下的数据安全与传统数据安全有很大的不同, 保护方式、保护对象、管理和技术的关系
均发生了变化. 开放大数据应用场景以数据的开放共享为目标, 参与数据处理的角色更加多元, 数据的流动
是常态, 这对数据的安全防护提出了更高的要求, 数据加密、静态脱敏等传统的数据安全措施已不再适用. 研
究表明, 采用隐私保护与动态数据脱敏技术, 是促进数据安全流通与共享、确保大数据服务可信的重要手
段
[3,4]
.动态数据脱敏技术可以在数据流动过程中不泄露敏感信息, 同时保留数据源的可用性, 具有较好的使
用价值和广阔的应用空间. 在开放大数据环境下, 面对海量多模数据和高并发访问请求, 如何以自动化、高
效、可扩展方式动态保护敏感数据, 同时减小对正常业务的影响, 是一个十分复杂但亟待解决的问题
[57]
. 面
临的主要挑战有:
(1) 异构环境的扩展性. 开放大数据场景下, 为了满足不同的数据查询、数据计算的时效性要求, 在同
一套集群上往往同时部署多种大数据计算引擎, 如 Apache Spark
[8]
适合延时较高的静态数据批量处
理场景、Apache Flink
[9]
适合低延时或实时的流数据处理场景等. 面对复杂多元的业务场景和多种计
算引擎, 需要研究如何创建、管理和维护面向异构引擎的统一数据保护策略, 并提供标准化的访问
方法, 解决异构环境的横向扩展问题. 同时, 除了动态数据脱敏能力外, 需要研究如何在一套框架
下同时灵活支持多种动态数据保护能力, 支持单个引擎动态数据保护能力的纵向扩展.
(2) 处理性能的高效性. 开放大数据环境下, 数据的产生速度越来越快, 数据规模持续指数级增长. 数
据安全防护要满足海量数据高性能实时保护的响应时间要求, 就必须能够在规则的引导下自动化
进行, 还要能够对全处理流程进行负载优化, 充分利用大数据执行引擎的分布式计算能力, 提升处
理性能.
(3) SQL 改写的精准性. SQL 是广泛采用的数据查询语言, 目前, 主流的大数据计算引擎均提供 SQL 访
问能力. SQL 改写是实现动态数据脱敏的关键技术. 业务领域的 SQL 请求千变万化, SQL 改写机制
会涉及所有定义了脱敏策略的列, 复杂 SQL 语句改写后可能会造成数据失真, 降低数据可用性,甚
至影响业务逻辑处理的准确性. 当面对复杂的 SQL 访问请求时, 如何保证改写后的 SQL 在不暴露
底层物理表敏感信息的前提下对业务完全透明, 使得业务逻辑不受数据保护的影响, 对动态数据保
护系统设计, 尤其是 SQL 改写技术提出了挑战. 下面以图 1 所示 TPC-DS
[10]
的 Query76 查询语句为
例, 对 SQL 改写的技术难点进行说明. Query76 覆盖了 SQL 语句中大部分重要语法规则.
评论