一种基于GDK-means...贫困生信息隐私保护方法研究_刘晓娜.pdf

资源描述

1、2023 年 6 月 10 日第 7 卷第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1130302023.062023.06收稿日期：2023-01-28基金项目：甘肃省高等学校创新基金项目（2020B-256）一种基于 GDK-means 的高校贫困生信息隐私保护方法研究刘晓娜1，王恺1，王成德1，徐彦强2（1.兰州文理学院，甘肃兰州 730000；2.兰州工业学院，甘肃兰州 730050）摘要：高校在对贫困生的资助过程中，为保证公开、公平，会获取相关学生很多关键性隐私数据，如贫困原因、生源所在地、家庭收入、家

2、庭成员、在校消费等敏感隐私数据。同时资助的结果又要求必须公开以保证管理过程的公正性。针对高校对贫困生数据发布中的公开与隐私保护之间的矛盾，提出了一种基于 GDK-means 的隐私保护方法。在该算法下，在 K-means 聚类的基础上，对生成的簇进行簇内泛化，来对发布的敏感数据进行去隐私化处理，以达到用户隐私保护的目的，同时量化了处理所带来的信息丢失度。经理论分析和实验，验证了采用 GDK-means 算法，在保证数据可用性的前提下，可实现数据发布中较好的隐私保护性。关键词：贫困生资助；分布式聚类；隐私保护；K-means 算法中图分类号：TP311.13；G647 文献标识码：A 文章编号：

3、2096-4706（2023）11-0030-04Research on a College Information Privacy-Protection Method for Poor Students Based on GDK-meansLIU Xiaona1,WANG Kai1,WANG Chengde1,XU Yanqiang2(1.Lanzhou University of Arts and Science,Lanzhou 730000,China;2.Lanzhou Institute of Technology,Lanzhou 730050,China)Abstract:In t

4、he process of providing financial aid to poor students,colleges and universities obtain a lot of key private data about the students in order to ensure openness and fairness,such as the reason for poverty,the location of the students origin,family income,family members,school spending and other sens

5、itive private data.At the same time,the results of financial aid must be made public to ensure the fairness of the management process.A privacy-protection method based on GDK-means is proposed to address the contradiction between disclosure and privacy-protection in the release of data on poor stude

6、nts in colleges and universities.Under this algorithm,the published sensitive data can be de-privatised by intra-cluster generalisation of the generated clusters on the basis of K-means clustering to achieve the purpose of user privacy-protection,while quantifying the degree of information loss caus

7、ed by the processing.After theoretical analysis and experiments,it is verified that the use of GDK-means algorithm can achieve better privacy-protection in data publishing under the premise of ensuring data availability.Keywords:financial aid for poor students;distributed clustering;privacy-protecti

8、on;K-means algorithm0 引言高校在对生活困难学生认定时，主要标准就是家庭条件困难和在校期间生活简朴。其中评定时需要收集学生在校日常消费数据，以及影响家庭经济状况的有关因素开展认定工作，如家庭收入、家庭负担、特殊群体、生源地、突发状况、学生食堂和教育超市消费等数据，以供对学生进行资助和相关等级认定，并在完成评定后需要对学生的部分信息进行公示，才能保证整个评定过程公平、可靠。但是，这些原始数据中通常包含很多的个人隐私信息，如果不经过任何处理就直接发布，势必会造成严重的隐私泄露，从而导致困难身份披露和属性披露，使得善意的助学行为变成对困难学生的心理伤害，甚至会降低部分困难学生的

9、参与度，从而降低了资DOI:10.19850/ki.2096-4706.2023.11.007助的善意效力。而且，保证数据的私密性和保证数据的效用又是相互矛盾的。采用传统的数据匿名、扰乱、添加噪声等，均不能很好地解决这方面的问题。因此，如何在数据发布中保证个人敏感信息不被泄露，避免各种隐私攻击，同时保证发布数据具有较高效用是当前面临的一个重大挑战1。同时，由于隐私数据的特殊性，数据库表中各个字段的不同数据，需要具有完全不同的隐私敏感度，在发布过程中对这部分数据的隐私保护需求也各不相同，即数据的敏感度与数据组自身的独特性也有关系。现有数据收集和发布中的隐私保护方案，大多数未充分考虑需要对隐私数据

10、进行垂直分级，即个性化隐私需求的情况。另一方面，极端相反的过度保护现象，也可造成可用数据的丢失，从而使得资助的评定过程失去了部分原始数据的支撑，降低了公平性。基于隐私数据发布过程的保护，就是要从学生数据的个体角度出发，考虑数据敏感度因素，真正实现个性化隐私保护，同时实现原始数据的使用价值。基于以上原则，就要求在学生资助的整个31312023.062023.06第 11期评定、公布过程中，采用的数据发布算法，不仅要保证对学生消费数据的充分利用，更要在保证挖掘结果和用户数发布后，在不泄露用户隐私的前提下，使脱敏后的数据具有可用性。1 隐私数据发布保护关于信息发布的隐私保护方面的研究还处在起步阶段，

11、目前的解决技术主要有以下 3 种。1.1 匿名保护数据发布为保护个人资料，通常将 ID、姓名等能标识该用户的显性属性字段进行了删除和加密，但恶意数据获取者往往可根据已发布数据中的相关知识背景，如专业、年级、籍贯等其他数据库中取得的数据进行链接，从而可推导出隐私数据，尤其是一些特殊的数据，如青海、软件、19 级，这三个字段数据在数据库表中均非关键字属性，但由于某些取值的独特性，如籍贯青海生源的学生如果人数较少，那么在非显性属性字段的情况下，仍能造成隐私的泄露。1.2 对原始数据进行扰乱分布式系统中数据发布时，其标示符字段会被删除，但通过记录关联技术，将准标示字段与知识背景匹配后，则可推理出用户身

12、份，从而获得用户隐私数据。在目前已有算法中，已验证可保持结果的统计特性，但是该方法通常会破坏掉数据的完整性和真实性，导致需进一步对其中的数据丢失度与可用性进行分析，在实际应用中很难达到数据可用与隐私保护两者之间的平衡。1.3 安全多方计算安全多方计算采用密码学技术来解决用户的隐私问题，在无可信第三方的情况下，要求多个参与方共同但独立的计算一个目标函数。该过程需构造多方安全协议，算法难度大。并且需要严格要求每一方仅获取自己的计算结果，其他方的输入数据在整个过程中不能交互。该方法会消耗过多的计算资源，实现难度大，实际应用较少。2 基于匿名发布的聚类算法为解决上述 3 种方法的不足，近期提出了一些基

13、于匿名发布的聚类算法，如K-means（K-均值算法）、DK-means（分布式均值聚类）、PPDK-means（安全多方计算均值聚类）等，这些算法主要基于集中式数据库进行设计，主要通过一个横向划分表来实现分布式数据的隐私保护2。其中 K-means 算法是一种较为经典的基于距离的聚类算法，k 代表要分的组数，可由用户预先给定。组之间数据的通过组内元素的相似性划分，采用距离作为相似性的评价指标，即认为某一个数据距离核中心对象的距离越大，其数据独特性就越强，由该值暴露整体数据的可能性就越大。该距离可根据实际要求，选用欧几里得距离、明科夫斯基距离和余弦距离等。K-means 算法核心思想是各聚类本

14、身尽可能地紧凑，而各聚类之间尽可能地分开，通过迭代寻找 k 个类簇的一种划分方案，使得用这 k 个类簇的均值来代表相应各类样本时所得的总体误差最小，其求解过程非常直观简单3。具体实现步骤如下：1）创建一初始模糊伪划分 k 个点。2）利用模糊伪划分，计算每个簇的质心。3）对全局数据集中的每一个数据点，计算质心与数据点的距离，将数据点分配到距离最近的簇分组。4）对每一个簇，计算簇中所有点的均值，并将均值作为新的质心。5）重复以上 2）4）步骤，直到簇的质心不再改变。K-means 按照如上步骤将相同一类的数据聚集后，在组内聚集的基础上，按照所属类型发布，即可有效减少数据的隐私度。本文在上述算法的基

15、础上，提出了一种用遗传算法来提高 K-maens 数据发布计算效率的 GDK-means 方法。在具体实现时，针对已有大学生信息数据的垂直划分数据库，在 K-means 算法的基础上，加入遗传算法来修改聚类中心，采用欧几里得距离确定系列数据的 K 个划分，使得各数据之间的差异最小，且各簇集之间数据差异明显，减少相互之间的关联。在大数据体量下，该算法具有一定的可伸缩性和高效性，并且计算复杂度仅为 O（t）数量级，具体为 O（NKt），其中 N 为数据表中数据项个数，t 为迭代次数4。3 GDK-means 算法与模型建立GDK-means 为一个使用遗传算法来实现 K 步聚类分类的过程，它通过遗

16、传算法中的过程来对节点数据进行选取，以生成一个隐藏用户标识数据的发布数据库。选择出最合适的隐私保护技术，可以有效地衡量和评价对隐私信息的保护程度，可对资助学生信息表中，按数据特征和应用需求来使用。一般按照以下条件对数据进行选择：簇内数据的相异度最小，达到聚类的目标函数；所选数据带来的信息丢失量是最小4。3.1 数据标准化令 P 为当前分布式数据库中节点个数，使用聚类方法将数据点到原型的聚类 Dij作为优化的目标函数，利用函数拘束极值的方法对迭代运算调整规则，即使用聚类方法将节点划分为 clt1，clt2，cltm等 m 个互不相交的簇5。定义 1：全局数据集。令 DS=S1，S2，SP 为分布

17、式系统，其中各站点的 N 维局部数据集为 DB1，DB2，DBP，其数据并集为全局数据集。定义 2：簇内聚类过程。令 clt=v1，v2，vp 为节点聚类后生成的一个簇，每个簇中的数据点个数为 t1，t2，tn。对各节点进行聚类生成的簇集 sdt=clt1，clt2，cltn，全局聚簇的中心节点分别为 C1，C2，CK，聚簇 Ki（i=1，2，k）所对应的局部聚类中心 C1i，C2i，Cpi，对于所有的 j=1，2，m，满足|cltj|k。定义3：聚类集目标函数。其中dij(xj，ci)2是数据点采用欧几里得距离方式获得的 xj到中心点 ci之间距离，以此作为聚类结束

18、的准则函数。刘晓娜，等：一种基于 GDK-means 的高校贫困生信息隐私保护方法研究32322023.062023.06第 11期现代信息科技3.2 衡量信息敏感度从信息理论的角度来看，自信息是用来衡量单个事件所含的信息量，即事件发生的概率与事件中包含的信息量先关，同步变化6。因此，学生资助信息发布数据中，每个敏感属性上某个特定值出现的频率越低，就意味着该值独特性越强，会因此泄露出更多的信息，如上述举例中的生源籍贯地，该取值在某些时候具有特殊独一性的情况。那么对该属性字段的敏感度赋值就应该越高。因此，可引入自信息概念，来度量敏感属性中不同敏感值的敏感度。其中，设数据表 T 中，各属性字段敏感

19、值的敏感度 s 的取值，设其在自信息上发生的概率记为 Prs，则其敏感度定义为：3.3 衡量信息丢失量可以用被保护的隐私信息仍然被发现或者预测出来的可能性来衡量7。信息丢失量 Breach=P真实数据所占的比例P真实数据被识别出来的概率+P非真实数据所占的比例P非真实数据被识别出来的概率P非真实数据被还原的概率。设学生数据隐私破坏区间宽度 BreachWidth，如果原始数据 x 落到区间 x1，x2 上的概率为 c%，则称区间 x1，x2是置信度为 c%的隐私破坏区间，而该区间的宽度（x2x1）就定义了置信度为 c%的隐私破坏区间宽度，该值需小于等于 k。3.4 生成簇集合基于以上的隐私保护

20、模型以及衡量信息丢失量的方法，提出以下基于 K-means 隐私保护基础上的 GDK-means 生成簇方法。借助 MATLAB 中的 F_JIR.m 库，使该算法一次生成一个簇，并向簇中添加数据，当前簇中节点度达到 k 时，在产生新的簇来表达数据，直至无新的数据加入。具体过程描述如下：输入：局部数据集 DB1，DB2，DBP，聚簇个数 k。输出：k 个聚簇。Step1 以随机值初始化找到一个原始个体 Si；Step2 以 Si为初始种群 Q（1）主站点，随机产生 k 个初始聚簇中心Step3 While（未达到聚类目标函数 E）对每一个节点 Si，（i1，p）Receive（C1，C2，Ck

21、）；/*接收簇中心*/利用遗传算法中的目标函数方法计算得到个体的适应值；对于局部数据集DBi计算到所有全局聚簇中心的距离；Step4 while（数据项！=null）取出运行得到的数据集中的某个字段；取出查询数据集中需要字段的值；按选择策略和个体适应值大小从 Q（n）中选择下一代再生个体；设定交叉概率值 q1和变异概率 q2，对本代中的再生个体进行遗传交叉、数据变异等操作，生成最新一代的族群Q(n+1)；重新按照目标函数来计算新一代族群 Q(n+1)中的个体适应值；Step5 用最接近目标适应值即数据最近原则确定当前 Si所属聚簇；Step6 收集各站点所有的局部聚类信息后，修改新的目标聚类函

22、数 E；Step7 直至目标函数 E 稳定，或达到一定的迭代次数，算法结束。4 模拟实验为了验证本文提出的算法的性能，使用资助学生的现有数据，并将其纳入模型进行模拟实验。实验所用计算机 CPU为 Intel core i7，8 GB 内存，64 位 Windows 10 操作系统，软件借助 MATLAB。在实验中，实验数据集信息如表 1 所示。原始数据 Student1、Student2、Student3、Student4 是往年资助数据集，在这三组基础数据上，采用数据标准化，组合后得到数据样本集 DataSet_1-DataSet_4。其中，DataSet_1 服从均匀分布，聚类之间的划分清

23、晰；数据样本集 DataSet_2服从高斯分布并包含噪声数据点；数据样本集 DataSet_3 根据欧氏距离排序，三个聚类之间存在部分重叠；数据样本集DataSet_4 服从高斯分布，五个簇之间存在绑定现象；最后四项是添加一些噪声后的数据集。表 1 实验中使用的数据集原始数据组原始数据量/条组合后数据数据量数据特点Student1336DataSet_1600均匀Student2150DataSet_2653高斯分布Student3157DataSet_3603部分重叠Student4420DataSet_4750添加噪声实验中随机从数据库中抽取 500 条记录，分别采用 DK-mea

24、ns 算法与文中所提出的 GDK-means 进行数据丢失量与执行效率的比较，其结果如图 1 和图 2 所示，明显可见采用GDK-means 算法分析后的数据丢失量更小，执行时间更小，具有更好的效率。123450.30.40.50.60.70.8数据信息丢失量K值 DK-means GDK-means图 1 GDK 与 DK-means 算法信息丢失量比较33332023.062023.06第 11期 01020304050执行时间/ms节点个数 GDK-means DK-means图 2 GDK 与 DK means 执行时间比较通过实验，可以看出：1）图 1 中，信息丢失量随着 k 的增加

25、而变大。2）确定的 k 个划分平均方差最小，对大的数据集比较高效。3）聚类的运算时间有所降低，时间复杂度为 O（Nkt）。4）用户可以根据自己的隐私保护需求来设定迭代次数和改变 k 的值，来定义可承受的数据丢失量。5 结论本文针对贫困学生数据发布中信息披露与隐私保护之间的矛盾，提出了一种基于 GDK means 的隐私保护方法。在该算法下，对学生信息数据库中的数据进行划分，对其中的敏感字段进行聚类分析，并量化了这一过程中的数据丢失量，同时有利于在实现隐私保护的同时，提高数据统计的有效性。敏感数据可以在 K-means 聚类的基础上在集群内进行泛化，从而对发布的数据进行去隐私，从而达到用户隐私

26、保护的目的。通过理论分析和实验，验证了 GDK-means 算法在保证数据可用性的前提下，可以在数据发布中实现更好的隐私保护，运行过程对数据来说公平而高效，为安全有效的发布学生隐私信息数据提供了可行的解决方案。参考文献：1 宋海娜.数据收集与发布中的分级隐私保护关键技术研究 D.北京：北京邮电大学，2021.2 叶青.隐私保护轻度量化度量技术研究 D.南京：东南大学，2019.3 严加展，陈华，李阳.改进的模糊C-均值聚类有效性指标 J.计算机工程与应用，2020，56（9）：156-161.4 张可铧，成卫青.基于空间动态划分的差分隐私聚类算法 J.计算机工程与应用，2021，57（2）：9

27、7-103.5 刘越.K-means 聚类算法的改进 D.桂林：广西师范大学，2016.6 王延军.基于模糊聚类分析的教学评估 J.甘肃高师学报，2022，27（5）：34-36.7 王海燕，崔文超，许佩迪，等.Canopy 在划分聚类算法中对K 选取的优化 J.吉林大学学报：理学版，2020，58（3）：634-638.作者简介：刘晓娜（1980），女，汉族，甘肃庆阳人，讲师，硕士，研究方向：软件理论、隐私保护。4 结论近年来，医学影像是人工智能最有研究和应用前景的领域，但高质量数据获取难度大、数据标注成本高等因素严重制约了“人工智能+医学影像”的发展。本文通过多模态数据融合、基于访问控制

28、的数据隐私保护技术和互联网等技术，基于乳腺超声影像数据和病理报告数据，设计并实现了乳腺超声影像筛选与标定系统，本系统的实现提升了标注医生的工作效率，为乳腺超声影像在 AI 领域的应用提供了高质量的数据支撑。参考文献：1 施俊，汪琳琳，王珊珊，等.深度学习在医学影像中的应用综述 J.中国图象图形学报，2020，25（10）：1953-1981.2 吕明慧，周帅，朱强.基于深度学习乳腺超声计算机辅助诊断系统研究进展 J.中国医学影像技术，2020，36（11）：1722-1725.3 肖祥林，周春容.基于云+SOA 架构的异构智慧校园平台设计与实现 J.电子设计工程，2018，26（4）：85-8

29、9.4 周洪成，谭宇.基于 SOA 架构的智慧旅游综合管理服务平台设计研究 J.通信与信息技术，2021（2）：87-89+79.5 冯维娜.浅谈分层技术在计算机软件开发中的应用 J.开封大学学报，2019，33（4）：81-83.6 杨芙清.软件工程技术发展思索 J.软件学报，2005（1）：1-7.7 王祥，李红娟，丁红发.基于风险访问控制的大数据安全与隐私保护 J.电子技术与软件工程，2021（13）：236-238.作者简介：申辉繁（1987），男，汉族，湖南邵阳人，工程师，硕士，研究方向：数据挖掘、软件工程；通讯作者：黄源（1989），男，汉族，四川德阳人，工程师，硕士，研究方向：数据挖掘、软件工程。（上接 29 页）刘晓娜，等：一种基于 GDK-means 的高校贫困生信息隐私保护方法研究

展开阅读全文