去中心化的分布式机器学习——群体学习简介

上海市计算机软件评测重点实验室 2021-07-09

2041

引言

精准医疗的一个主要目标是快速可靠地检测出患有严重和异质性疾病的患者。可以根据患者的血液转录组使用机器学习来识别疾病患者。然而，由于隐私立法的原因，技术可行和法律允许之间的差距越来越大。联邦学习在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。但它的参数仍由中央的参数服务器处理，并且其星形的架构降低了容错性。为了在不违反隐私法的情况下促进来自世界各地任何数据所有者的任何医疗数据的集成，德国波恩大学的研究人员联合惠普公司以及来自希腊、德国、荷兰的多家研究机构共同开发了一项结合边缘计算、基于区块链的对等网络协调的分布式机器学习方法——群体学习（Swarm Learning，以下简称SL），用于不同医疗机构之间数据的整合。这是一种分布式的机器学习方法，它结合了边缘计算，基于区块链的点对点网络和协调，同时保持机密性，从而超越联邦学习。论文标题为《Swarm Learning for decentralized and confidential clinical machine learning》，于2021年5月26日发表在Nature Vol.594上。

精准医疗的挑战

精准医疗的一个重要目标是鉴别白血病、结核病或COVID-19等危及生命的疾病患者。利用人工智能（AI）方法将使得大规模数据用于诊断目的。然而，由于隐私立法，一些技术可行的方案在法律上是不被允许的，例如从不同地区获取大规模的医疗数据。基于人工智能的精准医疗算法在利用大数据提升准确率的同时需要考虑与数据隐私和保护有关的重要标准。

基于人工智能的解决方案本质上依赖于适当的算法，但更依赖于大规模训练数据集。由于医学数据本身是分散的，本地数据量往往不足以训练可靠的分类器。因此，中心模型（图1 - b）是解决本地限制的一种模式。虽然从人工智能的角度来看是有益的，但集中式解决方案有其固有的缺点，包括数据流量的增加和对数据所有权、机密性、隐私、安全性的担忧，以及数据垄断的产生。

因此，需要有效、准确和高效的方法解决中央人工智能模型的挑战，必须保护机密、隐私和道德，必须具有安全性和容错性。联邦学习（Federated Learning，图1 - c）算法解决了其中的一些方面，数据保存在本地，解决了本地机密性问题，但模型参数仍由集中权力的中央协调人来进行处理。此外，这种星形架构降低了容错性。

群体学习介绍

相比于目前较流行的联邦学习方法，基于区块链技术的SL采取去中心化的方案，省去了专用服务器（图1 - d），通过Swarm网络共享参数，并在各个节点的私有数据上独立构建模型（图1 - e）。SL提供安全措施，以支持通过私有许可区块链技术（图2 - b）实现的数据主权、安全性和机密性（图2 - a）。每个参与者都有明确的定义，只有预先授权的参与者才能执行事务。新节点的加入是动态的，通过适当的授权措施来识别网络参与者。新节点通过区块链智能合约注册，获得模型，并执行本地模型训练，直到满足定义的同步条件为止（图2 - c）。接下来，通过Swarm API交换模型参数，并在开始新一轮训练之前，合并以创建具有更新参数设置的更新模型。

在每个节点上，SL分为中间件和应用层。应用环境包含机器学习平台、区块链和SL Library（包括在异构硬件基础设施中执行SL的容器化Swarm API），而应用层包含模型（图2 - d）。

SL的优势有：（1）将大量医疗数据保存至数据所有者本地；(2）不需要交换原始数据，因此也减少了数据流量；(3）提供高级数据安全；(4）保证网络分散成员的安全、透明和公平加入，而无需中央保管人；(5）允许参数合并，所有成员的权限相同。

群体学习预测重大疾病

SL论文的作者选择了几个威胁生命的疾病（包括白血病、结核病和COVID-19）来举例说明SL的医学价值，本文主要介绍其中的白血病预测部分。

首先，在三个数据集中（A1-A3，包括两种类型的微阵列和RNA测序）使用了12000多位患者的外周血单个核细胞（PBMC）转录组（图1 - f ~ h）。使用默认设置的深度神经网络训练。对于每个真实场景，样本被分为不重叠的训练数据集和一个全局测试数据集，用于测试单个节点和SL构建的模型（图3 - a）。在训练数据中，样本以不同分布被“隔离”在每个Swarm节点上，从而模仿临床相关场景。使用了急性髓系白血病（AML）患者的样本作为病例；所有其他样本称为“对照”。该模拟中的每个节点都可以代表一个医疗中心、一个医院网络、一个国家或任何其他独立组织，这些组织生成具有本地隐私要求的此类医疗数据。

在节点处和节点之间不均匀地分布病例和对照组（数据集A2，图3 - b），并发现SL优于每个单个节点（图3 - b）。使用数据集A1和A3获得了非常相似的结果，这有力地支持了SL性能的改善独立于数据收集或用于数据生成的技术（微阵列或RNA序列）的观点。

SL论文作者还在数据集A1-A3上测试了几个额外的场景：（1）在测试节点使用均匀分布的样本，其病例/对照比率与第一个场景中的相似（图3 - c）；(2）使用均匀分布的样本，但将特定临床研究中的样本分散到专门的训练节点，并在节点之间改变病例/对照比率（图3 - d）；（3）在指定的训练节点使用不同技术生成孤立样本（图3 - e）。在所有这些场景中，SL的性能优于单个节点，并且接近或相当于中心模型。

总结

SL建立在两种成熟的技术上——分布式机器学习和区块链，是一种去中心化的深度学习框架，可以在不共享数据的情况下对机器学习模型进行分散训练，在性能与中心模型、联邦学习基本相同或更优的情况下，有效保护了数据隐私，提高了安全性，并且不需要大量的数据传输，所有参与的节点权力平等。SL是一种实用性非常高的框架，可以用于包含大量离散的深度学习节点与具有一定隐私性、安全性要求的场景，可以有效推进精准医疗的发展。在目前全球疫情仍在持续的情况下，利用分布式的SL来对病毒数据进行学习、处理，也许可以对疫情控制带来很大的帮助。

人工智能测评服务

上海计算机软件测评重点实验室（SSTL）人工智能测评服务面向计算机视觉、语音识别、自然语言处理、推荐与搜索等领域，聚焦人工智能应用过程中的模型功能有效性评估、模型性能评估、数据集质量评估、对抗样本防御能力等，提供全方位的测评服务，保障人工智能应用的质量。

主要测评内容包括：

A 人工智能模型的功能有效性

包括混淆矩阵、准确率、精度、召回率、F1-Score、ROC、AUC等测评指标

B 人工智能模型的性能

包括模型推断时间、模型运行占用的资源、模型的压缩程度、模型的存储需求、模型的算力需求等

C 人工智能系统数据集质量评估

包括数据集规模、数据集标注质量、数据集的均衡性等

D 人工智能系统防御对抗样本能力

利用自研的对抗样本生成工具，通过白盒或黑盒的方式生成对抗样本，评估系统防御对抗样本的能力、系统对于物理世界攻击的防御能力等

E 人工智能系统的鲁棒性

包括干扰数据对系统的影响、数据集分布对系统的影响、业务不相关数据对系统的影响等

F 人工智能系统的安全性

包括模型是否采用加密算法、系统的功能安全认证、接口安全认证、网络通讯的安全性等

G 人工智能治理评估

包括模型的可解释性、模型的公平性、系统的应用风险、系统的伦理风险等

关于作者

丁敏捷，硕士、上海计算机软件技术开发中心人工智能治理研究所算法工程师，主要研究方向包括自然语言处理、知识图谱、图数据库等。完成基于BERT的英语中高考自动完形填空应用开发、基于MesoNet的深度伪造人脸检测系统开发，参与上海人工智能技术协会计算机视觉团体标准、自然语言处理评测标准研制，在ICTAI 2019与KSEM 2021学术会议发表学术论文2篇。

关于作者

陈敏刚，研究员、博士、上海计算机软件技术开发中心人工智能治理研究所执行所长、软件工程研究所副所长，ISO/IEC SC42国际人工智能标准化专家、上海市科技发展重点领域技术预见专家组专家，上海市科技进步特等奖获得者，完成十多项人工智能与大数据的国家标准研制，发表SCI/EI等学术论文超过30篇。

机器学习

文章转载自上海市计算机软件评测重点实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

去中心化的分布式机器学习——群体学习简介

评论