暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
中科院软件学报-面向开放大数据环境的动态数据保护系统.pdf
197
23页
5次
2023-07-27
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, 2023,34(3):12131235 [doi: 10.13328/j.cnki.jos.00 6783] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
面向开放大数据环境的动态数据保护系统
1,2
,
2
,
1,2
,
2
,
2
,
2
,
2
1
(动网移动体技重点验室(通讯份有限公), 广东 深圳 518057)
2
(兴通份有, 江苏 南京 210014)
通信作者: , E-mail: niu.jiahao@zte.com.cn
: 数据成为国家基础性战略资源, 数据的开放共享是我国大数据战略的核. 云原生技术和湖仓一体架
构正在重构大数据基础设施, 并推动数据共享和价值传播. 数据产业和技术的发展都需要更强的数据安全和
据共享能力. 然而, 放环境下数据的安全问题已成为制约大数据技术发展与利用的瓶颈. 无论开源大数据生态
还是商业大数据系统, 引发的数据安全及隐私保护问题都日益凸显. 开放大数据环境下的动态数据保护系统面
临着可用性、处理效性和统可扩展等方面的挑战. 提出向开放大数据境的动态据保系统
BDMasker, 通过一种基于查询依赖模型(query dependency model)的精准查询分析及查询改写技术, 能够精准感知
但不改变原始业务请求, 实现动态脱敏全过程对业务零影响; 通过面向多引擎的统一安全策略框架, 实现了动态
数据保护能力的纵向扩展和在多种计算引擎中的横向扩展; 利用大数据执行引擎的分布式计算能力, 提升系统的
数据保护处理性能. 实验结果表明, BDMasker 提出的精准 SQL 分析及改写技术是有效的, 系统具有良好的扩展能
力和性能表现, TPC-DS YCSB 基准测试中, 整体性能波动在 3%之内.
关键词: 大数据; 数据脱敏; 动态数据脱敏; SQL 改写; 查询依赖
中图: TP311
中文引用格式: 屠要峰, 牛家浩, 王德政, 高洪, 徐进, 洪科, 阳方. 面向开放大数据环境的动态数据保护系统. 件学报,
2023, 34(3): 12131235. http://www.jos.org.cn/1000-9825/6783.htm
英文引用格式: Tu YF, Niu JH, Wang DZ, Gao H, Xu J, Hong K, Yang F. Dynamic Data Protection System for Open Big Data
Environment. Ruan Jian Xue Bao/Journal of Software, 2023, 34(3): 12131235 (in Chinese). http://www.jos.org.cn/1000-9825/
6783.htm
Dynamic Data Protection System for Open Big Data Environment
TU Yao-Feng
1,2
, NIU Jia-Hao
2
, WANG De-Zheng
1,2
, GAO Hong
2
, XU Jin
2
, HONG Ke
2
, YANG Fang
2
1
(State Key Laboratory of Mobile Network and Mobile Multimedia Technology (ZTE Corporation), Shenzhen 518057, China)
2
(ZTE Corporation, Nanjing 210014, China)
Abstract: Big data has become a national basic strategic resource, and the opening and sharing of data is the core of China’s big data
strategy. Cloud native technology and lake-house architecture are reconstructing the big data infrastructure and promoting data sharing
and value dissemination. The development of big data industry and technology require stronger data security and data sharing capabilities.
However, data security in an open environment has become a bottleneck, which restricts the development and utilization of big data
technology. The issues of data security and privacy protection have become increasingly prominent both in the open sour ce big data
ecosystem and the commercial big data system. Dynamic data protection system under the open big data environment is now facin g
challenges of data availability, processing efficiency and system scalability and etc. This study proposes a dynamic data protection system
BDMasker for the open big data environment. Through a precise query analysis and query rewriting technology based on the quer y
dependency model, it can accurately perceive but not change the original business request, which indicates that the whole process of
基金项目: 国家重点研发计划(2021YFB3101100)
本文由大数据治理的理论与技术专题特约编辑杜小勇教授、杨晓春教授和童咏昕教授推荐.
收稿时间: 2022-05-14; 修改时间: 2022-07-29, 2022-09-07; 采用时: 2022-09-23; jos 在线出版时间: 2022-10-27
1214
软件学报 2023 年第 34 卷第 3
dynamic desensitization has zero impact on the business. Furthermore, its multi-engine-oriented unified security strategy framework
realizes the vertical expansion of dynamic data protection capabilities and the horizontal expans ion among multiple computing engines.
The distributed computing capability of the big data execution engine can be used to improve the data protection processing p erformance
of the system. The experimental results show that the precise SQL analysis and rewriting technology proposed by BDMasker is effective,
the system has good scalability and performance, and the overall performance fluctuates within 3% in the TPC -DS and YCSB benchmark
tests.
Key words: big data; data masking; dynamic data masking; SQL rewriting; query dependency
大数, 数据性战. 中央国务重视, 始全
大数, 其中, 享是争战. 从技势看, 构和
平台, 云原架构大数据基. 访据湖库到
跨域, 要更和数. 然而, 大数大数,
. 表明,
敏处或者共享隐私, . 2018 , 美国媒体 Facebook
8 700 数据剑桥使用, 赔付 50 亿罚金; 2021 , Facebook 又有 5.33
亿. , .
, ,
点之
[1,2]
.
开放大数据环境下的数据安全与传统数据安全有很大不同, 保护方式、
. , ,
是常, 据的了更, 加密敏等据安.
表明, 采用隐私保护与动态数据脱敏技术,
[3,4]
.动态数据脱敏技术可以在数据流动过程中不泄露敏感信息, 同时保留数据源的可用性, 具有较好的使
广. , 访, 如何
, 减小,
[57]
.
临的:
(1) . , , 在同
一套时部算引, Apache Spark
[8]
适合态数
理场Apache Flink
[9]
合低延时据处. 杂多场景
算引擎, , 访
方法, . 同时, ,
下同种动, 持单保护向扩.
(2) . 开放, , .
,
进行, , , 提升处
理性.
(3) SQL . SQL 是广泛采用的, 目前, 主流算引 SQL 访
问能. SQL 改写数据. 业务 SQL 万化, SQL 改写
会涉所有, 复杂 SQL 成数, 数据,
至影理的. 当面杂的 SQL 访, 写后 SQL
, 使业务,
护系, SQL 提出. 以图 1 所示 TPC-DS
[10]
Query76 句为
, SQL 技术. Query76 SQL 中大规则.
of 23
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜