机器学习隐私保护研究综述.pdf

海尔塔啾啾

890

30页

28次

2021-01-28

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software,2020,31(7):21272156 [doi: 10.13328/j.cnki.jos.006052] http://www.jos.org.cn

机器学习隐私保护研究综述



谭作文

张连福

(江西财经大学信息管理学院计算机科学与技术系,江西南昌 330013)

通讯作者: 张连福, E-mail: zlf_jx@163.com

摘要: 机器学习已成为大数据、物联网和云计算等领域的核心技术.机器学习模型训练需要大量数据,这些数

据通常通过众包方式收集,其中含有大量隐私数据,包括个人身份信息(如电话号码、身份证号等)、敏感信息(如金

融财务、医疗健康等信息).如何低成本且高效地保护这些数据是一个重要的问题.介绍了机器学习及其隐私定义

和隐私威胁,重点对机器学习隐私保护主流技术的工作原理和突出特点进行了阐述,并分别按照差分隐私、同态加

密和安全多方计算等机制对机器学习隐私保护领域的研究成果进行了综述.在此基础上,对比分析了机器学习不同

隐私保护机制的主要优缺点.最后,对机器学习隐私保护的发展趋势进行展望,并提出该领域未来可能的研究方向.

关键词: 机器学习;隐私保护;差分隐私;同态加密;安全多方计算

中图法分类号: TP181

中文引用格式: 谭作文,张连福.机器学习隐私保护研究综述.软件学报,2020,31(7):21272156. http://www.jos.org.cn/1000-

9825/6052.htm

英文引用格式: Tan ZW, Zhang LF. Survey on privacy preserving techniques for machine learning. Ruan Jian Xue Bao/Journal of

Software, 2020,31(7):21272156 (in Chinese). http://www.jos.org.cn/1000-9825/6052.htm

Survey on Privacy Preserving Techniques for Machine Learning

TAN Zuo-Wen, ZHANG Lian-Fu

(Department of Computer Science and Technology, School of Information Managemen, Jiangxi University of Finance and Economics,

Nanchang 330013, China)

Abstra ct : Machine learning has become a core technology in areas such as big data, Internet of Things, and cloud computing. Training

machine learning models requires a large amount of data, which is often collected by means of crowdsourcing and contains a large number

of private data including personally identifiable information (such as phone number, id number, etc.) and sensitive information (such as

financial data, health care, etc.). How to protect these data with low cost and high efficiency is an important issue. This paper first

introduces the concept of machine learning, explains various definitions of privacy in machine learning and demonstrates all kinds of

privacy threats encountered in machine learning, then continues to elaborate on the working principle and outstanding features of the

mainstream technology of machine learning privacy protection. According to differential privacy, homomorphic encryption, and secure

multi-party computing, the research achievements in the field of machine learning privacy protection are summarized respectively. On this

basis, the paper comparatively analyzes the main advantages and disadvantages of different mechanisms of privacy preserving for

machine learning. Finally, the developing trend of privacy preserving for machine learning is prospected, and the possible research

directions in this field are proposed.

Key words: machine learning; privacy-preserving; differential privacy; homomorphic encryption; secure multiparty computation

 基金项目: 国家自然科学基金(61862028, 61702238); 江西省自然科学基金(20181BAB202016); 江西省教育厅科技项目(GJJ160430);

江西省教育厅青年科技项目(GJJ180288)

Foundation item: National Natural Science Foundation of China (61862028, 61702238); Natural Science Foundation of Jiangxi

Province, China (20181BAB202016); Science and Technology Project of Provincial Education Department of Jiangxi (GJJ160430);

Young Science and Technology Project of Provincial Education Department of Jiangxi (GJJ180288).

收稿时间: 2019-09-10; 修改时间: 2020-02-09, 2020-03-20; 采用时间: 2020-04-09; jos 在线出版时间: 2020-04-21

2128

Journal of Software 软件学报 Vol.31, No.7, July 2020

近年来,机器学习(machine learning,简称 ML)发展迅速,已成为图像处理、语音识别和网络空间安全等领域

的基石.另一方面,得益于计算机技术、存储技术和网络技术的发展,政府、医院、银行等各类机构及电子商务、

零售、供应链等各类平台的数据量呈指数级增长.不仅如此,物联网、社交媒体和智能手机等媒介每分钟也产

生大量数据.数据持有者可以将这些数据发送给云服务提供商(cloud service provider,简称 CSP),以识别出潜在

的数据模型.这些模型可能有助于支持决策,改进业务,为客户提供增值服务

[1]

、预测服务和推荐服务

[2]

等.

在此背景下,许多 CSP 纷纷推出机器学习即服务(machine learning as a service,简称 MLaaS).这些 MLaaS 为

数据持有者提供基于机器学习的数据处理、模型训练、预测服务和部署等自动化解决方案,吸引机器学习实践

者在云平台部署应用程序,而无需建立自己的大规模基础设施和计算资源.著名的 MLaaS 平台包括 Google

Prediction API

[3]

、Amazon ML

[4]

、Microsoft Azure ML

[5]

和 BigML

[6]

等.典型的基于云平台的机器学习体系结构

如图 1 所示.这里的 CSP 可以是第三方 MLaaS 平台、合作伙伴公司甚至公司本身在场外或在某些独立设施中

运行的应用程序.数据持有者是政府、银行、医院、保险公司或电子商务网站等,他们可以选择在云平台中存

储、处理数据或使用云平台提供的服务.终端用户是使用部署在云平台中的服务的参与者,例如企业员工、医

生和诊所员工等.终端用户将预测请求上传给 CSP,CSP 将 ML 模型的预测结果返回给终端用户.

Fig.1 Architecture and privacy threat model of machine learning based on cloud platform

图 1 基于云平台的机器学习体系结构及隐私威胁模型

尽管 MLaaS 提供了诱人的好处,但也存在严重的问题,即用户数据的安全和隐私会受到各种威胁,如图 1 所

示.首先,在训练阶段,恶意 CSP 只要对训练算法进行相对较小的修改,就可生成高质量模型,并且满足标准 ML

度量(如准确性和可泛化性),或者获得对它的输入-输出访问权,最终从模型中提取出关于训练数据的详细信

息

[7]

.即使恶意 CSP 不能直接访问数据集,也可从模型参数中提取关于训练数据的敏感信息

[8]

.其次,预测阶段隐

私泄露问题.目前已有部分研究开始关注预测数据隐私问题

[911]

.在模型预测服务中,客户需要将预先训练好的

模型上传到 CSP.但模型泄漏会导致数据持有者利益的损失,甚至破坏原始数据.另外,即使只有黑盒访问权限的

恶意远程用户仍然可以利用精心设计的输入查询模型输出,从而获得有关训练数据的信息

[1217]

.机器学习中的

隐私泄露问题已成为云计算发展面临的一个重大挑战.

另一方面,隐私权作为一项基本人权,对个人和企业来说都极其重要,重视数据隐私和安全保护已成为世界

性的趋势.欧盟于 2018 年 5 月 25 日正式实施的《通用数据保护条例》(General Data Protection Regulation,简称

GDPR)

[18]

要求企业对用户数据的处理应建立在用户明确同意的基础之上,企业应赋予用户“被遗忘权”,即用户

可以随时删除或撤回其个人数据.被称为美国最严隐私法案的《加利福尼亚消费者隐私法案》(California

Consumer Privacy Act,简称 CCPA)

[19]

,已于 2020 年 1 月 1 日正式生效.它旨在加强消费者隐私权和数据安全保

护,违反该法案的企业将遭到严厉惩罚.我国在 2017 年 6 月起实施的《中华人民共和国网络安全法》

[20]

指出,

任何个人和组织不得窃取或者以其他非法方式获取个人信息,未经被收集者同意,不得向他人提供个人信息.这

谭作文等:机器学习隐私保护研究综述

2129

些法规的建立在不同程度上对人工智能传统的数据处理模式提出了新的挑战.

本文第 1 节介绍机器学习隐私保护背景知识,包括机器学习概述、机器学习隐私定义、机器学习敌手模型

和机器学习隐私保护场景.第 2 节讨论机器学习中典型的隐私威胁以及机器学习隐私保护方案的分类情况.第 3

节~第 5 节分类研究各种典型机器学习隐私保护机制,分析各类隐私保护技术的相关概念、典型方案及其隐私

保护场景,并对每一大类隐私保护技术进行高层次的总结.最后第 6 节总结并展望该领域未来可能的研究方向

及发展趋势.

1 背景知识

1.1 机器学习概述

机器学习是一个涉及多学科的研究领域,包括计算机科学、概率与统计学、心理学和脑科学等学科.机器

学习利用计算机有效地模仿人类的学习活动,通过对现有数据进行学习,产生有用的模型进而对未来的行为做

出决策判断.根据用来学习的数据性质进行划分,机器学习可分为监督学习、半监督学习、无监督学习和强化

学习四大类.

机器学习解决问题的过程分为训练阶段和预测阶段.在训练结束后获得目标模型,人们可以利用目标模型

进行预测.以监督学习为例,其机器学习模型是一个参数化函数 f



:X→Y,将输入数据 xX(特征)映射到输出数据

yY(标签).对于一个分类问题而言,Χ 是一个 d 维向量空间,Y 则是一组离散的类.根据这个函数能够对新数据准

确地进行分类.机器学习模型的训练过程本质上是寻找最优参数



的过程,其中参数



可以准确地反映 Χ 和 Y 的

关系.拥有 N 个训练样本的数据集,可利用公式(1)所示的损失函数 ℓ 来测量真实输出和预测输出之间的误差.模

型训练的目的是使损失函数最小化,训练结束后可得到最优模型参数



*= arg min ( ( , ( )))

yfx













(1)

其中,(



)是正则化惩罚项,用于防止过度拟合.

根据数据在模型训练前是否被集中收集,机器学习模型训练方式可分为集中式学习、分布式学习和联邦学

习 3 类.

集中式学习

在集中式学习(centralized learning)中,各参与方训练数据集中在中央服务器,如图 2(a)所示.优点是模型训

练和部署都很方便

,而且大大提高了模型训练的准确性,因而在实际场景中得到广泛的应用.缺点是给中央服务

器的存储和运算资源带来了高负载,尤其是在大数据时代,而且所有的用户数据都将面临安全和隐私风险,即数

据一旦上传到中央服务器

,用户便很难再拥有对数据的控制权、知情权,即数据将被用于何处,是否未经授权便

转让给第三方也不得而知.针对集中式学习模式下机器学习的隐私保护在过去几十年间已得到了广泛研究.

(a) 集中式学习 (b) 分布式学习 (c) 联邦学习

Fig.2 Model training methods in machine learning

图 2 机器学习模型训练方式

of 30

免费下载

机器学习

相关文档

评论