一种基于联邦学习的电表用电数据的隐私保护方法与流程
了解数据安全和隐私保护法规,合法使用数据 #生活技巧# #工作学习技巧# #数字技能提升#
1.本发明属于数据隐私保护技术领域,具体涉及一种基于联邦学习的电表用电数据的隐私保护方法。
背景技术:
2.电力企业的生产计划往往建立在经验数据上,因此,每一年度对下一年度的用电量的预测至关重要,如果对下一年度的用电量预测不准,这有可能出现两种情况:一是电厂的发电量过多,造成不必要的能源浪费;二是发电量不足,满足不了各行各业和人民生活的用电需求。
3.线性回归的进步和广泛使用为电力企业进行用电量预测带来了极大的便利,线性回归方法是一种利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
4.比如,电力系统用电量可视为因变量,如经济指标、人口、气候等可能影响用电量的因素可视为自变量,研究单一自变量与因变量的关系为一元线性回归分析,若研究两个或以上的自变量与因变量的关系则为多元线性回归。
5.目前,电力系统中的线性回归模型通常以集中的方式执行,即各行政级别企业的私有数据都在云服务器上进行收集和处理,尽管集中式线性回归模型具有便捷、高效等特点,但是集中式线性回归可能存在各方所拥有的敏感数据的隐私泄漏的问题。
6.现有技术中,公开号为cn115081540a的中国专利文献记载了一种基于集成决策学习的数据隐私可保护分类分级方法及系统,将训练决策树模型所需的用户侧设备数据类别属性参数以加扰的方式通过对称加密送至云端服务器进行数据集成;云端服务器利在不解密的情况下将所有用户侧设备上传的类别属性进行集成,再将集成计算后的密文下发至各用户侧设备,用户侧设备利用解密获得的数据完成集成决策学习的决策树模型的训练;采用训练后的决策树模型进行用户侧设备本地数据的分类分级识别,这方法中,数据在加密服务防和云服务器上具有泄露的风险。
7.公开号为cn115174115a的中国专利文献记载了一种电力需求响应数据管理方法,该方法包括以下步骤:接收数据,所述数据包括电力需求响应业务产生的数据信息及大文件类型数据;根据所述信息类型上传至区块链:当所述信息为公共信息时,将所述信息的明文发送至区块链;当所述信息为隐私信息时,将加密后的所述信息发送至区块链;发送所述大文件类型数据至区块链,该方法通过区块链技术来解决电力数据的隐私问题,需要建立区块链网络,对数据处理的技术要求高,且提高了电力数据处理的成本。
8.公开号为cn115098883a的中国专利文献记载了一种基于安全多方计算的数据隐私保护方法和系统,该方法包括:请求方向管理方发送调研请求,其中调研请求中包含有设定的标准条件;管理方根据调研请求从数据持有方中筛选出符合标准条件的目标对象;管理方和数据持有方基于目标对象的目标数据和目标分析模型进行安全多方计算,得到相应的分析结果,并将分析结果传输到请求方。该方法中,是通过管理方获取数据,并设置筛选
条件,一方面管理方的公信力比较高情况下才能保障数据隐私安全,另一方面部分有用但隐私的数据可能被筛选掉,不利于分析结果的准确性。
技术实现要素:
9.本发明旨在提供一种基于联邦学习的电表用电数据的隐私保护方法,解决现有技术中使用电力系统中的统计数据对用电量进行预测时,可能存在各方所拥有的敏感数据的隐私泄漏的技术问题。
10.为解决上述技术问题,本发明采用以下技术方案:
11.提供一种基于联邦学习的电表用电数据的隐私保护方法,该方法在联邦场景下,电力系统中各电表用电数据的数据拥有方协同建立一个用电量预测模型,以便基于所述用电量预测模型,根据以往电表用电数据预测未来用电量;该方法由所述数据拥有方提供数据,由加密服务方提供加解密服务,由服务器方计算得到用电量预测模型的参数,具体包括:
12.加密服务方将公钥分配给数据拥有方和服务器方;
13.电表用电数据的数据拥有方将本地数据预处理成第一中间量原始数据,所述第一中间量原始数据通过同态加密操作进行加密和聚合,得到第二中间量数据,所述数据拥有方使用公钥对所述第二中间量数据加密后上传给服务器方;
14.所述服务器方得到所述第二中间量数据,并使用公钥解密,然后对所述第二中间量数据添加第一扰动数据,得到第三中间量数据,所述服务器方使用公钥对所述第三中间量数据加密后发送到所述加密服务方,所述加密服务方使用公钥对所述第三中间量数据进行解密,获得第三中间量数据;
15.所述加密服务方对所述第三中间量数据添加第二扰动数据,得到第四中间量数据,所述加密服务方使用公钥将所述第四中间量数据加密后发送给服务器方,服务器方使用公钥解密得到第四中间量数据,用于训练得到用电量预测模型的不准确模型参数;
16.数据拥有方获取所述不准确模型参数和第一扰动数据,数据拥有方根据所述第一扰动数据消除所述不准确模型参数中的扰动量,得到用电量预测模型的准确模型参数。
17.优选的,所述电表用电数据的数据拥有方将本地数据预处理成第一中间量原始数据包括:
18.(1)数据拥有方提供由m个类型的特征数据组成的训练数据集m,所述训练数据集m记录历史用电数据的不同特征下对应的用电量值;
19.所述训练数据集m为d={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(x
i1
,x
i2
,...,x
in
),xi中每一个元素分别记录着历史用电数据的特征值,yi是对应的用电量值;
20.(2)建立多元线性回归模型hw(xi)=w
·
xi,该多元线性回归模型即所述用电量预测模型,hw(xi)为通过多元线性回归模型预测的用电量值,其中w=(w0,w1,...,wn),参数组w中各参数是所述多元线性回归模型的回归系数,该参数组由所述训练数据集m训练学习得到,参数组w使d中的样本得到最佳拟合;
21.(3)在由所述训练数据集m训练学习得到参数组w时,基于以下代价函数f(w)和公式(1)、公式(2)至公式(n)表示的坐标下降法求解最优参数组w,这里代价函数f(w)为关于实际用电量值和拟合的用电量值的误差平方和:
[0022][0023][0024][0025][0026]
这里的t表示当前的迭代次数,通过下面代价函数f(w)对wk的偏导数求解目标函数argmin,这里的wk表示当前求取的参数组w中的第k个参数:
[0027][0028]
将代价函数f(w)对wk的偏导数中包含隐私数据信息的中间量pk和zk提取出来:
[0029][0030]
这里的x
ij
代表所述训练数据集m第i条数据的第j个特征值;wj代表所述多元线性回归模型的第j个回归系数;
[0031]
所述中间量pk和zk即所述第一中间量原始数据。
[0032]
优选的,所述训练得到用电量预测模型的不准确模型参数包括:
[0033]
服务器方令得到解:
[0034][0035]
为wk最优的回归系数,通过使用上述解进行坐标下降法的迭代运行推导出。
[0036]
优选的,所述历史用电数据的特征值包括时间、每分钟的有功功率和每分钟的平均电压。
[0037]
优选的,所述的数据拥有方为各行政区级电力企业,各方的电表用电数据为隐私数据,需保证私有;所述的服务器方为国家电网专设服务器“国网云”,各数据拥有方的数据均上传至此进行模型训练;所述的加密服务提供方为具有一般加密功能的硬件和软件组建的加密服务提供程序,用于为服务器方和数据拥有方提供密钥。
[0038]
与现有技术相比,本发明的有益效果是:该基于联邦学习的电表用电数据的隐私保护方法在联邦场景下,电力系统中各电表用电数据的数据拥有方协同建立一个用电量预测模型,由数据拥有方提供数据,由加密服务方提供加解密服务,由服务器方计算得到用电量预测模型的参数,计算用电量预测模型的参数过程中,数据拥有方的电表用电数据以及电量预测模型的参数都得到很好的保护,具体体现在以下几方面:1、由数据拥有方在本地将数据直接预处理成第一中间量原始数据,并对其进行同态加密和聚合,由于进行了同态加密和聚合处理,云服务器只得到一组加密且聚合的中间量,不能由此推断出关于本地电表用电数据的任何敏感信息。2、由服务器方添加第一扰动数据,加密服务方不能得到真实
的第二中间量数据,因此它将无法推断出用电量预测模型的真实参数,防止加密服务方上用电量预测模型的真实参数泄漏。3、而通过加密服务方对第三中间量数据添加第二扰动数据,服务器方只能推导出不真实的用电量预测模型的参数,防止用电量预测模型的真实参数在服务器方泄露。而第一扰动数据和第二扰动数据的设计使得服务器方推导出不真实的参数,但是每个数据拥有方可基于不真实的参数和第一扰动数据和第二扰动数据获得真正的参数。
附图说明
[0039]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0040]
图1为本发明基于联邦学习的电表用电数据的隐私保护方法一实施例的流程图。
具体实施方式
[0041]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
在一个实施例中,提供一种基于联邦学习的电表用电数据的隐私保护方法,这里的联邦学习是一种分布式机器学习技术,通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式构建全局模型,从而实现数据隐私保护和数据共享计算的平衡。
[0043]
该基于联邦学习的电表用电数据的隐私保护方法在联邦场景下,电力系统中各电表用电数据的数据拥有方协同建立一个用电量预测模型,以便基于用电量预测模型,根据以往电表用电数据预测未来用电量。该方法由数据拥有方提供数据,由加密服务方提供加解密服务,由服务器方计算得到用电量预测模型的参数,结合图1所示,具体包括:
[0044]
步骤s1:加密服务方将公钥分配给数据拥有方和服务器方。
[0045]
该加密服务提供方为具有一般加密功能的硬件和软件组建的加密服务提供程序,用于为服务器方和数据拥有方提供密钥,加密服务方、数据拥有方和服务器方为相互独立的三方。这里的数据拥有方为各行政区级电力企业,各方的电表用电数据为隐私数据,需保证私有。服务器方为国家电网专设服务器“国网云”,各数据拥有方的数据均上传至此进行模型训练。
[0046]
步骤s2:电表用电数据的数据拥有方将本地数据预处理成第一中间量原始数据,第一中间量原始数据通过同态加密操作进行加密和聚合,得到第二中间量数据,数据拥有方使用公钥对第二中间量数据加密后上传给服务器方。
[0047]
如果从每个数据拥有方中直接收集数据,并在云服务器计算第一中间量原始数据则会导致数据拥有方隐私数据的泄露,因此,这里是由数据拥有方在本地将数据直接预处理成第一中间量原始数据,第一中间量原始数据与数据拥有方的电表用电数据相关联。
[0048]
同时为了增强第一中间量原始数据的安全性,还对其进行同态加密和聚合,同态加密和聚合后的第二中间量数据与第一中间量数据是相关联的,由于进行了同态加密和聚
合处理,云服务器只得到一组加密且聚合的中间量,即第二中间量数据,不能由此推断出关于本地电表用电数据的任何敏感信息。
[0049]
步骤s3:服务器方得到第二中间量数据,并使用公钥解密,然后对第二中间量数据添加第一扰动数据,得到第三中间量数据,服务器方使用公钥对第三中间量数据加密后发送到加密服务方,加密服务方使用公钥对第三中间量数据进行解密,获得第三中间量数据。
[0050]
步骤s4:加密服务方对第三中间量数据添加第二扰动数据,得到第四中间量数据,加密服务方使用公钥将第四中间量数据加密后发送给服务器方,服务器方使用公钥解密得到第四中间量数据,用于训练得到用电量预测模型的不准确模型参数。
[0051]
虽然数据拥有方的本地私有数据通过同态加密和聚合来得到进一步保护,但保护用电量预测模型的真实参数不泄露给服务器方和加密服务方也是至关重要的,因此,这里的步骤s3以及步骤s4中添加了两个扰动数据。
[0052]
如果加密服务方直接获取了第二中间量数据,也可以推断出用电量预测模型的真实参数,所以为了防止加密服务方上用电量预测模型的真实参数泄漏,服务器方添加第一扰动数据,加密服务方不能得到真实的第二中间量数据,因此它将无法推断出用电量预测模型的真实参数。同样的,通过加密服务方对第三中间量数据添加第二扰动数据,服务器方只能推导出不真实的用电量预测模型的参数。由于这两个扰动数据的存在,加密服务方和服务器方均不能获取用电量预测模型的真实参数,防止用电量预测模型的真实参数在加密服务方或服务器方泄露。
[0053]
步骤s5:数据拥有方获取不准确模型参数和扰动数据,数据拥有方根据扰动数据消除不准确模型参数中的扰动量,得到用电量预测模型的准确模型参数。
[0054]
上面第一扰动数据和第二扰动数据的设计需保证服务器方只能推导出不真实的参数,但是每个数据拥有方可基于不真实的参数和第一扰动数据和第二扰动数据获得真正的参数。
[0055]
这里引入加密服务方提供加解密服务,使得服务器方处理获取的数据进行隐私处理,服务器方则保障算力和算法得到保障,并通过服务器方将各数据拥有方的数据整合起来实现建立一个用电量预测模型的目的。
[0056]
在一个实施例中,该基于联邦学习的电表用电数据的隐私保护方法中建立的用电量预测模型为多元线性回归模型,这样,电表用电数据的数据拥有方将本地数据预处理成第一中间量原始数据包括:
[0057]
(1)数据拥有方提供由m个类型的特征数据组成的训练数据集m,训练数据集m记录历史用电数据的不同特征下对应的用电量值;
[0058]
训练数据集m为d={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(x
i1
,x
i2
,...,x
in
),xi中每一个元素分别记录着历史用电数据的特征值,yi是对应的用电量值。
[0059]
这里的历史用电数据的特征值包括时间、每分钟的有功功率和每分钟的平均电压。
[0060]
(2)建立多元线性回归模型hw(xi)=w
·
xi,该多元线性回归模型即用电量预测模型,hw(xi)为通过多元线性回归模型预测的用电量值,其中w=(w0,w1,...,wn),参数组w中各参数是多元线性回归模型的回归系数,该参数组由训练数据集m训练学习得到,参数组w使d中的样本得到最佳拟合;
[0061]
(3)在由训练数据集m训练学习得到参数组w时,基于以下代价函数f(w)和公式(1)、公式(2)至公式(n)表示的坐标下降法求解最优参数组w,这里代价函数f(w)为关于实际用电量值和拟合的用电量值的误差平方和:
[0062][0063]
这里的t表示当前的迭代次数,通过下面代价函数f(w)对wk的偏导数求解目标函数argmin,这里的wk表示当前求取的参数组w中的第k个参数:
[0064][0065]
将代价函数f(w)对wk的偏导数中包含隐私数据信息的中间量pk和zk提取出来:
[0066][0067]
这里的x
ij
代表训练数据集m第i条数据的第j个特征值;wj代表多元线性回归模型的第j个回归系数;
[0068]
这里的中间量pk和zk即第一中间量原始数据。
[0069]
然后该基于联邦学习的电表用电数据的隐私保护方法中训练得到用电量预测模型的不准确模型参数包括:
[0070]
服务器方令得到解:
[0071][0072]
为wk最优的回归系数,服务器方通过使用上述解进行坐标下降法的迭代运行推导出。这里的中间量pk和zk是经过一系列处理后得到的第四中间量原始数据。
[0073]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
网址:一种基于联邦学习的电表用电数据的隐私保护方法与流程 https://www.yuejiaxmz.com/news/view/733426
相关内容
关于数据隐私保护的9点思考一种基于深度学习的数据清洗方法与流程
数据安全与隐私保护:大数据时代的挑战与机遇
数据隐私保护:维护个人隐私权和数据安全的方法.pdf
一种工业互联网数据隐私保护方法和系统技术方案
数据隐私保护
国际数据隐私保护日谈如何保护数据隐私
位置隐私保护方法的研究与应用
数据隐私保护保证措施.docx
数据隐私保护:保护用户隐私的最佳实践