联邦学习:突破“数据隐私保护”与“数据孤岛”困境
了解数据安全和隐私保护法规,合法使用数据 #生活技巧# #工作学习技巧# #数字技能提升#
作者:vivo互联网安全团队-涂大喜
随着计算能力、算法、数据量的巨大发展,人工智能迎来了第三次发展高潮,并开始探索各个行业。然而,随着“大数据”的兴起,更多的工业应用领域中出现了“小数据”或质量较差的数据。 “数据孤岛”现象广泛存在。例如,在信息安全应用中,虽然不少企业推出了基于人工智能技术的内容安全审计、入侵检测等安全服务,但出于对用户隐私和商业秘密的考虑,企业很难交换原始数据企业之间、企业之间的服务各自独立,整体协作和技术水平很难在短时间内取得突破性发展。如何在保护各机构数据隐私的前提下推动更广泛的合作,能否通过技术手段解决数据隐私保护问题,联邦学习是解决这一问题、实现跨企业的有效途径协同治理。
一、引言
最新的ChatGPT(全称:Chat Generative Pre-trained Transformer)在各个社交媒体上都是无与伦比的。它是OpenAI开发的人工智能聊天机器人程序,将于2022年11月上线。该程序采用基于GPT-3.5架构的大规模语言模型,并通过强化学习进行训练。自发布以来,OpenAI 估值已升至290 亿美元。上线两个月后,用户数突破1亿。展望2016年,人工智能已经开始走向成熟。今年,随着AlphaGo击败人类顶尖围棋棋手李世石和柯洁,我们真正见证了人工智能(AI)的巨大潜力,并开始期待更复杂、最先进的AI技术的出现。用于许多应用,包括无人驾驶汽车、医疗保健。如今,人工智能技术几乎在每个行业都展示了其优势。
然而,当我们回顾人工智能的发展历程时,无可避免的是,人工智能的发展经历了几经坎坷。人工智能还会继续衰落吗?什么时候会出现?由于什么因素?目前公众对人工智能的兴趣部分是由大数据的可用性驱动的:2016年AlphaGo总共使用了30万盘棋作为训练数据,取得了优异的成绩。随着AlphaGo的成功,我们很自然地希望像AlphaGo这样的大数据驱动的人工智能将在我们生活的各个方面变得无处不在。然而,人们很快意识到现实世界的情况有些令人失望:
图1:人工智能发展挑战
事实上,我们的数据质量非常有限甚至很差,例如聊天数据中存在大量噪音。数据标签的收集比较困难,很多场景的数据是无标签的。数据是隔离的,这也是最重要的一点。每个应用程序的数据都不同。例如,主要从事社交软件的公司使用社交属性数据,主要从事电子商务的公司使用电子商务交易数据,银行使用的是信用数据,以去中心化的方式应用。现实中,如何开展跨组织的数据合作将是一个很大的挑战。与此同时,隐私保护政策也变得更加严格。这是第二个要点。这些法规阻止许多组织收集和分析用户数据,并且这些数据在本地受到法规的保护。数据是人工智能时代的石油,但由于监管规定、商业保密等因素,“数据孤岛”现象越来越明显。同时,随着政策法规的逐步完善和公众隐私保护意识的加强,如何在保护数据隐私的前提下实现行业协作、协同治理,如何打破“数据孤岛”的困境而“数据隐私保护”成为当前人工智能技术产业应用亟待解决的问题。
二、联邦学习概述
2.1 “数据隐私保护”与“数据孤岛”困境
数据孤岛与数据隐私保护的困境:一是来自人工智能技术本身的特点,需要海量数据作为基础;另一个原因是全球范围内对数据隐私和安全的日益重视。
人工智能技术,尤其是深度学习,依赖于模型和算法,更依赖于通过海量数据进行模型训练。为了不断改进,仅依靠某个组织掌握的数据无法实现快速的技术突破。理想的状态是数据之间建立广泛的联系,形成协同作用,创造更大的价值。现实情况是,有效数据往往难以获取或以“数据孤岛”的形式呈现。企业之间的数据共享需要用户授权,而很多用户往往拒绝数据共享;即使在公司内部,数据壁垒也不容易突破;互联网巨头的存在使得少数公司截获大量数据。这些因素都会导致数据孤岛,难以创造“1+12”的数据价值。
全球对数据隐私和安全的重视带来了更大的挑战。这一挑战导致大多数企业只使用小数据,从而加剧了数据孤岛现象。欧盟出台了第一部数据隐私保护法——《通用数据保护条例》(GDPR),明确了数据隐私保护的多项规定。与以往的行业规范不同,这是一部真正可执行的法律,条款非常明确和严格。例如,运营商应该允许用户表达自己希望数据被“遗忘”的愿望,即“我不想让你记住我过去的数据,也希望你以后不要用我的数据来建模” ”。同时,违反GDPR的后果也非常严重,罚款最高可达受处罚组织全球收入的4%。 Facebook和谷歌成为该行为的第一批被告。我国2017年实施的《中华人民共和国网络安全法》和《中华人民共和国民法通则》也指出:“网络运营者不得泄露、篡改、毁坏其网络信息。他们收集的个人信息,并与第三方进行通信。在交易时,有必要确保拟议的合同明确规定要交易的数据范围和数据保护义务。”这意味着用户数据的收集必须公开透明,企事业单位在未经用户授权的情况下不能交换数据。
尽管全球范围内有明确的法律法规并达成广泛共识,但由于技术等因素的限制,数据隐私保护在实际应用中仍然是一个难题。收集数据的一方通常不是使用数据的一方。例如,甲方收集数据,传输给乙方进行清洗,然后传输给丙方进行建模,最后将模型出售给丁方使用。实体之间这种形式的数据传输、交换和交易违反了相关法律法规,可能会受到严厉处罚。如何在保护数据隐私的前提下从技术上解决数据孤岛问题,如何在隐私安全和监管的要求下让AI系统更高效、更准确地使用自己的数据(特征)和弱监督(注释很少)为了做出更好的模型,人们提出了联邦学习的解决方案,并不断探索其在特定行业场景中的应用。
2.2 联邦学习定义
数学定义:
定义N个数据持有者{F1,F2,F3.Fn},他们都希望通过整合各自的数据{D1,D2,D3.Dn}来训练机器学习模型。传统的方法是将所有数据放在一起,用D=D1U D2U.U Dn 来训练模型MSUM,而联邦系统是所有数据持有者协作训练模型MFED 的学习过程,并且对于任意数据持有者Fi不会将其专有数据Di暴露给他人。另外,模型MFED的精度被定义为VFED,它应该非常接近与数据集一起训练的模型MSUM的精度VSUM。由公式定义,令为非负实数,若
|VFED-VSUM|
那么就说联邦学习算法有精度损失。
图2.1:联邦学习模型的组成
根据Peter 等人给出的上述定义。在综述[1]中可以清楚地看到,联邦学习是指在满足隐私保护和数据安全的前提下,设计一个机器学习框架,让众多客户端(如移动设备或整个组织)在协调下中央服务器(例如服务提供商)共同训练模型,同时维护训练数据去中心化及分散性,以在不暴露数据的情况下分析和学习来自多个数据所有者的数据。同时,从定义中可以总结出四个特点:
数据隔离:整套联邦学习机制协作过程中,数据不会向外传输,数据会保存在本地,避免数据泄露,满足用户隐私保护和数据安全的需求。无损:通过联邦学习去中心化建模的效果与将数据组合在一起建模的效果进行对比,几乎是无损的。共同获益:可以保证参与各方在保持独立性的同时,能够进行信息和模型参数的加密交换,同时成长。对等:联邦学习框架下,各个参与者地位平等,可以实现公平合作,不存在一方主导另一方的情况。
2.3 联邦学习隐私性
隐私是联邦学习的基本属性之一,需要安全模型和分析来提供有意义的隐私保证。在本节中,简要介绍和比较联邦学习的不同隐私技术,并确定防止间接泄漏的方法和潜在挑战。
多方安全计算(Secure Multi-party Computation, SMC) :
SMC安全模型自然涉及多方参与,并在定义明确的模拟框架中提供安全证明,保证完全的零知识,即各方除了自己的输入和输出之外一无所知。零知识是非常理想的,但这种理想的属性通常需要复杂的计算协议,并且可能无法有效实现。在某些情况下,如果提供安全保证,部分知识披露可能被认为是可以接受的。 SMC可以用来构建安全要求较低的安全模型,以换取效率。
差分隐私计算(Differential Privacy):
使用差分隐私或k-匿名算法来保护数据隐私。差分隐私计算、k-匿名计算和进化计算的方法包括向数据添加噪声,或者使用泛化方法掩盖某些敏感属性,直到第三方无法区分个体,从而使数据无法被对手恢复,从而起到了保护用户隐私的作用。
同态加密计算(Homomorphic Encryption):
在机器学习过程中,还采用同态加密,通过加密机制下的参数交换来保护用户数据隐私。与差分隐私保护不同的是,数据和模型本身不会被传输,也无法通过彼此的数据来猜测。因此,原始数据层面泄露的可能性很小。最近的工作采用同态加密在云上集中和训练数据。在实践中,加法同态加密被广泛使用,并且需要多项式逼近来评估机器学习算法中的非线性函数,导致准确性和隐私之间的权衡。
2.4 联邦学习分类
在实际应用中,由于孤岛数据具有不同的分布特征,联邦学习也可以分为三类:水平联邦学习、垂直联邦学习、联邦迁移学习:
图2.2:联邦学习分类法
如果要建立用户行为的预测模型,需要一部分特征,也就是原始特征,称为X,比如用户特征,同时还必须有标签数据,即期望的答案,称为Y。例如,在金融领域,标签Y是需要预测的用户信用;在营销领域,标签Y是用户的购买欲望;在教育领域,是学生对知识的掌握程度等。用户特征X加上标签Y构成了完整的训练数据(X,Y)。但现实中经常遇到这种情况:每个数据集的用户并不完全相同,或者用户特征不完全相同。具体来说,以两个数据所有者的联邦学习为例,数据分布可以分为三种情况:
两个数据集的用户特征重叠部分较大,而用户重叠部分较小,如图2.2(a)所示;两个数据集的用户重叠部分较大,而用户特征重叠部分较小,如图2.2、2.2中(b)所示;两个数据集的用户和用户特征之间的重叠相对较小,如图2.2(c)所示。为了应对以上三种数据分布情况,我们将联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。
2.5 联邦学习步骤
一般来说,联邦学习模型主要由两部分组成:联邦学习系统架构和加密模型训练[2]。假设现有两个数据所有者(组织A和组织B)想要共同训练一个机器学习模型,并且他们的业务系统分别拥有各自用户的相关数据。另外,组织B也有模型需要预测的标记数据。出于数据隐私和安全考虑,组织A和组织B不能直接交换数据。此时,联邦学习系统就可以用来构建模型了。系统架构由两部分组成,如图2.3所示:
图2.3:联邦学习系统架构
整个过程可以分为:
(1)加密样本对齐:由于两个组织的用户群体并不完全重叠,系统在A组织和B组织不泄露各自数据的前提下,采用基于加密的用户样本对齐技术来确认两个组织的共享用户,并且不要互相暴露或重叠用户,以便结合这些用户的特征进行建模。
(2)加密模型训练:一旦确定了共同的用户组,数据就可以用来训练机器学习模型。为了保证训练过程中数据的保密性,需要第三方合作者C进行加密训练。以线性回归模型为例,训练过程可分为以下四个步骤(如图(b)所示):
协作者C将公钥分发给模型A和模型B,以加密训练过程中需要交换的数据。对准数据A和对准数据B以加密形式交互以计算梯度的中间结果。对齐数据A和对齐数据B是根据加密的梯度值计算的,而对齐数据B根据其标签数据计算损失,并将这些结果汇总给协作者C。协作者C通过汇总结果计算总梯度并解密。协作者C将解密后的梯度发送回模型A和模型B;模型A和模型B根据梯度更新各自模型的参数。迭代上述步骤,直到损失函数收敛,从而完成整个训练过程。在样本对齐和模型训练过程中,组织A和组织B各自的数据保存在本地,训练过程中的数据交互不会导致数据隐私泄露。因此,双方能够借助联邦学习实现合作训练模型。(3)效果激励:联邦学习的一大特点是解决了为什么不同机构加入联邦进行联合建模的问题,即模型建立后,模型的效果会在实际应用中展现出来,并记录在永久数据记录机制(例如区块链)。提供更多数据的机构会看到模型的效果更好[3],体现在对自己机构的贡献和对他人的贡献。这些模型将向各机构反馈他们如何在联合机制上工作,并继续激励更多机构加入这个数据联合。
上述三个步骤的实施不仅考虑了隐私保护和多个机构联合建模的效果,还考虑了如何奖励贡献更多数据的机构,并以共识机制来实施。因此,联邦学习是一种“闭环”的学习机制。
三、 总结展望
3.1 总结
联邦学习作为隐私增强计算与人工智能相结合的全新技术范式,已成为解决数据安全与开放共享矛盾的重要技术路径。在联邦学习中,用户可以使用本地数据在自己的终端上训练模型,上传并汇总模型的加密参数,集成不同的模型更新,优化预测模型。
2022年是联邦学习——从联邦学习到可信联邦学习的技术分水岭。针对近两年隐私计算和联邦学习发展应用所面临的安全和效率挑战,“可信联邦学习”被提出。该范式以隐私保护、模型性能和算法效率为核心,共同构成了更加安全的可信联邦学习。
3.2 落地展望
目前联邦学习在工业领域已经开始探索。不同行业有多样化的应用场景和实施形式。未来在某些领域可能具有以下广阔前景[4-10]:
在手机领域, 近年来,移动设备配备了日益先进的传感和计算能力。再加上深度学习(DL) 的进步,这为智能车辆和辅助驾驶等有意义的应用带来了无数的可能性。传统的基于云的机器学习(ML) 方法需要将数据集中在云服务器或数据中心上。然而,这会导致与不可接受的延迟和通信效率低下相关的关键问题。为此,移动边缘计算(MEC)被提出来使生成数据的边缘设备更加智能。然而,用于移动边缘网络的传统机器学习技术仍然需要与外部各方(例如边缘服务器)共享个人数据。最近,鉴于日益严格的数据隐私立法和日益增长的隐私担忧,联邦学习(FL)的概念被引入。在FL 中,终端设备使用本地数据来训练服务器所需的ML 模型。然后终端设备将模型更新而不是原始数据发送到服务器进行聚合,这将进一步加速数据生成终端设备变得更加智能;
在风控领域,多家金融机构联合建模的风控模型,可以更准确地识别信用风险,共同打击欺诈。多家银行建立的联邦反洗钱模型可以解决该领域样本量小、数据质量低的问题。
在智慧零售领域,联邦学习可以有效提高信息和资源的匹配效率。例如,银行具有用户购买力的特征,社交平台具有用户个人喜好的特征,电商平台具有产品特性的特征。传统的机器学习模型无法直接对异构数据进行学习,但联邦学习可以保护三方。联合建模是在数据隐私的基础上进行的,为用户提供更精准的产品推荐等服务,从而打破数据壁垒,构建跨领域合作。
在医疗健康领域,联邦学习对于提高医疗行业协作水平具有更加突出的意义。在推进智慧医疗的过程中,患者的症状、病理报告、检测结果等私人数据往往分散在多家医院、诊所等跨地区、不同类型的医疗机构。联邦学习实现机构间跨区域协作,且数据不泄露。在本地,多方合作建立的预测模型可以更准确地预测疼痛、遗传病等疑难疾病。如果所有医疗机构都能建立联邦学习联盟,可能会将人类的医疗保健提升到一个全新的水平。
参考:
[1] Kairouz P、McMahan HB、Avent B 等人。联邦学习的进展与开放问题[J].机器学习的基础和趋势,2021 年,14(12): 1-210。[2] Li T、Sahu AK、Talwalkar A 等。联邦学习:挑战、方法和未来方向[J]. IEEE 信号处理杂志,2020 年,37(3): 50-60。 [3]中国计算机学会联邦学习助力物联网?从“数据孤岛”到“共同繁荣”[OL]. [2019-8-15].[4]杨强. GDPR对人工智能的挑战及基于联邦迁移学习的对策[J].中国人工智能学会通讯,2018,8:1-8[5] 张成,谢艳,白辉,等。联邦学习综述[J].基于知识的系统,2021,216: 106775.[6] Kairouz P、McMahan HB、Avent B 等人。联邦学习的进展与开放问题[J].机器学习的基础和趋势,2021 年,14(12): 1-210。和概述[OL]。 [2023-02-11].[8]今天,ChatGPT为联邦学习写了一首诗[OL]。 [2023-02-11].[9]界士园。字节跳动在联邦学习领域的探索与实践[OL]. [2023-02-11].[10]杨Q,刘Y,陈T,等。联邦机器学习:概念与应用[J]. ACM 智能系统与技术汇刊(TIST),2019,10(2): 1-19.MLA
网址:联邦学习:突破“数据隐私保护”与“数据孤岛”困境 https://www.yuejiaxmz.com/news/view/733433
相关内容
一种基于联邦学习的电表用电数据的隐私保护方法与流程数据安全与隐私保护:大数据时代的挑战与机遇
国际数据隐私保护日谈如何保护数据隐私
数据隐私,数据隐私保护:如何保护个人数据安全?
业界:打破数据孤岛 实现优质数据互联互通
数据安全 隐私,数据时代隐私安全
数据隐私保护
数据安全与隐私保护战略峰会将亮相北京ISC互联网安全大会
数据隐私与安全保护指南.pptx
数字隐私和数据保护:在数字时代保护个人数据的挑战与应对