1、现代电子技术Modern Electronics TechniqueSep.2023Vol.46 No.182023年9月15日第46卷第18期DOI:10.16652/j.issn.1004373x.2023.18.014引用格式:梁科.基于不确定场定义模糊贡献度的多源测绘信息数据挖掘研究J.现代电子技术,2023,46(18):7176.基于不确定场定义模糊贡献度的多源测绘信息数据挖掘研究梁 科1,2(1.娄底市地理信息中心,湖南 娄底 417000;2.中南大学,湖南 长沙 410000)摘 要:地理测绘信息来源具有多源性,不同数据源下的数据需要大量模糊语言描述,但缺少精准定义不同来源测
2、绘信息的特征属性。针对不同来源的数据关系挖掘精准度差的问题,文中设计一种基于不确定场定义模糊贡献度的多源测绘信息数据库相似关系挖掘算法。使用 Kmeans算法划分测绘多源数据类型,把划分结果作为训练数据集并转变为矩阵模式,代入反向传播(Back Propagation,BP)神经网络中训练,并清洗多源信息数据。利用数学中的不确定场模型定义测绘多源信息的模糊贡献度,获得数据库多源信息模糊水平。在遗传算法基础上引入兴趣度概念,定义两个测绘信息同时存在的信息量,调节染色体适应度,将杂交概率与染色体相似度的耦合关联作为多源信息模糊相似关系输出值,完成预期数据挖掘工作。实验结果表明,所设计的挖掘算法模糊
3、相似关系挖掘时间约为7.5 s,方差值在6以内,数据挖掘结果的精准度在85%以上,可为地理测绘数据的正确应用提供可靠借鉴。关键词:地理测绘多源信息;模糊贡献度;模糊相似关系;数据挖掘;不确定场;遗传算法中图分类号:TN91934;TP391 文献标识码:A 文章编号:1004373X(2023)18007106Multisource surveying and mapping information data mining based on fuzzy contribution degree of uncertainty field definitionLIANG Ke1,2(1.Loudi
4、Geographic Information Center,Loudi 417000,China;2.Central South University,Changsha 410000,China)Abstract:The sources of geographic surveying and mapping information are multisource.The data under different data sources need a large number of fuzzy language descriptions,and there is a lack of accur
5、ate definition of the characteristics of surveying and mapping information from different sources.In allusion to the poor accuracy in mining data relationships from different sources,a mining algorithm of similarity relationship in multisource mapping information database based on fuzzy contribution
6、 degree defined by uncertainty field is designed.The Kmeans algorithm is used to divide the types of multisource surveying and mapping data,and the division results are taken as the training data set and transformed into the matrix mode,which is then substituted into the BP(back propagation)neural n
7、etwork for training,and the multisource information data is cleaned.The uncertainty field model in mathematics is used to define the fuzzy contribution degree of multisource surveying and mapping information to obtain the fuzzy level of multisource information in database.On the basis of genetic alg
8、orithm,the concept of interest degree is introduced to define the amount of information that two mapping information exist at the same time,the chromosome fitness is adjusted,and the coupling association between the hybridization probability and the chromosome similarity is used as the output value
9、of the fuzzy similarity relationship of multisource information to complete the expected data mining.The experimental results show that the mining time of the designed mining algorithm for fuzzy similarity relations is about 7.5 s,the variance is within 6,and the accuracy of the data mining results
10、is above 85%,which can provide a reliable reference for the correct application of geographic surveying and mapping data.Keywords:geographic surveying and mapping multisource;fuzzy contribution degree;fuzzy similarity relationship;data mining;uncertainty field;genetic algorithm收稿日期:20230109 修回日期:202
11、30228基金项目:湖南省科技项目(202000560001)7171现代电子技术2023年第46卷0 引 言高精度地理测绘数据是城市规划和施工建设的重要保障。在地理测绘数据库中,某些定性自然语言空间与定量图形空间之间存在映射12。在规范的数据库建设标准中,相同测绘目标伴随尺度的改变,会保持一种相似关系,这类相似关系被称为模糊相似关系。要想完成优质的城市规划设计,恰当利用国土地理资源34,则需要精准挖掘不同来源测绘数据的模糊相似关系,帮助相关工作人员更好地实现国土监测任务。不同来源的数据挖掘问题一直是数据挖掘领域研究的重点。李瑞峰等人通过森林预测概率设置权重因子,将权重因子看作级联层中每个森林
12、的权重,依照数据样本分布差异计算类密度与局部孤立因子,得到数据离群水平,并完成数据挖掘5。李莉使用agent判断目标类可能性,引入逻辑和社会选择理论,采用判断聚合模型得到全局分类结果6。但上述两种方法都存在挖掘精准度低的问题,数据挖掘效率无法满足当前工作需求。以上方法在地理测绘信息中应用后,存在明显弊端。因为地理测绘信息来源具有多源性,不同数据源下的数据需要大量模糊语言描述,但缺少精准定义不同来源测绘信息的特征属性。针对不同来源的数据关系挖掘精准度差的问题,本文设计一种基于不确定场定义模糊贡献度的多源测绘信息数据库相似关系挖掘算法。利用 Kmeans算法和 BP 神经网络进行数据清洗,去除数据
13、库中的无效信息;采用不确定场模型综合判断多源信息模糊水平;使用遗传算法得到最优的模糊相似关系挖掘结果。最后在实验分析中验证了本文方法的实用性。1 地理测绘多源信息数据清洗地理测绘多源信息之间具备一定相关性,无法从单一方面证明某个数据为异常值。为检查数据库中的信息是否具备一致性,利用 BP神经网络完成数据清洗工作。BP神经网络拥有良好的非线性映射,但在样本庞大、复杂度高的环境下会产生较大误差。为弥补其性能缺陷78,使用 Kmeans 算法划分地理测绘多源信息类型,将划分结果作为训练数据集,引入 BP神经网络中,完成可靠的数据清洗。采用欧氏距离9评估多源地理测绘信息样本和聚类中心之间的关联度,假设
14、a1、a2、a3多源地理测绘数据集的原始聚类中心是d1、d2、d3,那么地理测绘数据bi和聚类中心ej之间的相似水平为:()bi,ej=i=1c|bi-ej2 (1)式中c代表样本维数。更新地理测绘数据集的聚类中心,过程为:el=i=1ghig (2)式中:g为地理测绘数据集内的样本数量;hi是数据矢量。本文将地理测绘多源信息类型划分过程定义为式(3),并把输出结果融合为若干数据集。()ej,el=i=1c|eji-eli2 (3)BP神经网络中包含输入层、隐含层与输出层,每个层级之间为全连接状态,各连接弧衔接两个神经元,并赋予一定权值,权值即为上一层神经元对下一层神经元的影响程度1011,各
15、层的随机两个节点互不相连。网络训练过程分为正向、反向两步流程,其中隐含层拥有一定抽象作用,可以在输入信息中提取数据特征,完成网络非线性映射。将地理测绘数据集转变成矩阵模式,归一化输入矩阵A,得到:Ai=A-min()Amax()A-min()A (4)式中,max()A、min()A依次为矩阵中的最大与最小值。若网络内涵盖k个输入样本,第i个输入地理测绘样本是ki,将ki引入网络后,输出结果的误差总值为:Bc=12i=1c()mi-mi2 (5)式中:mi是网络真实输出值;mi是预期输出值。BP 神经网络调节权值时,为避免训练过程产生振荡,导致收敛速率变慢,在权值中代入动量项12。假如uj是第
16、j层权值矩阵,j为第j层输入矢量,那么包含动量项的权值调节矢量解析式为:uj()t=qj+uj()t-1(6)式中:q代表学习率;是神经元误差输出信号;是动量指数。执行完以上操作后,分组训练多源数据集,奇数组是训练样本,偶数组是检测样本,最终的输出值即为地理测绘数据清洗结果。2 基于不确定场定义地理测绘数据模糊贡献度地理测绘空间信息本身具有模糊性,为提升模糊相似关系挖掘的准确性,需要预先对信息模糊水平进行分析,了解不同信息元素的模糊贡献度1314。本文设计一种基于不确定场模型的模糊信息模糊72第18期水平评估方法。此模型把数学中的欧几里得全部空间作为一个持续的场,将r()x,y拟作不确定场()
17、x,y位置的概率密度函数。设定地理空间中的测绘数据支持集是C,为便于计算,采用栅格架构离散化处理支持集C,关于各栅格()i,j,将其记作:D()i,j=glr()x,y dxdy (7)式中:D代表栅格点()i,j的覆盖范围;gl表示覆盖系数。地理测绘参照对象拥有一定空间范围1516,测绘初始点匀称分布于参照对象内。针对参照对象E,初始点的概率分布函数为:r()x,y=1 Q()h,()x,y h0,()x,y h (8)式中:Q()h是参照对应面积;h表示测绘高度。关于测绘多源信息的方位关联,使用 8圆锥模型,把测绘目标的欧几里得平面划分成8个方向,在各圆锥内,依照距离中轴线越近概率越高的定
18、理,可获得如下模型:r()x,y=rmax,8 (9)式中:表示射线和圆锥内轴线的夹角;rmax是一个不为零的定值;o代表计算次数。通常状况下,地理测绘多源信息的空间相似度由查找请求与文档通过请求得到,多源信息模糊水平相似度在代数计算中是二者的乘积1718。假设地理测绘信息查找模糊面积是ra()x,y,多源信息文档的模糊面积是rb()x,y,那么测绘信息的模糊空间相似度公式为:sim=Tra()x,y rb()x,y dxdy (10)式中T代表欧几里得平面。即便是完全重合的两个空间目标,运算获得的相似度也不可能是 1,但这样不会影响输出结果的排序,模糊相似度越大,排序越靠前。在真实场景中,若
19、对数据库内每个文件都创建模糊面积,不但耗时耗力,还浪费存储空间。所提方法使用折中手段,仅计算查找模糊面积ra()x,y的模糊空间相似度,即可明确整个数据库多源信息的模糊水平,将式(10)简化为:simf=Ura()x,y dxdy (11)式中U是数据库文档的模糊空间面积。3 遗传算法下地理测绘多源信息模糊相似关系挖掘为精准有效地挖掘多源信息模糊相似关系,使用遗传算法划分多源信息中模糊贡献度约束下的频繁项集,得到地理测绘数据之间的模糊关联规则1920。多源信息频繁项集挖掘更偏向于局部最优搜索,这与以往遗传算法搜索全局最优有较大区别,极易得到大量解,但在计算时要确保种群多样性,防止发生过早收敛。
20、算法详细过程如下:把一个时间序列拟作一条染色体,各基因均表示一个事件,与此同时,在染色体头部保存事件总数量。针对单个事件,分别采用 0、1、2来描述事件的不发生、少量发生与多次发生,并把该值保存在染色体基因末尾。由于地理测绘数据较为繁复2122,挑选的频繁项集是基于贡献度完成的。在描述染色体适应度时,还要进一步考虑兴趣度要素。兴趣度代表模糊相似关系的有趣程度,描述两个测绘信息同时具备的信息量,将其定义为:InterestV W=Sup()V WSup()VSup()V WSup()W()1-Sup()V W(12)式中:V、W为两个测绘信息;Sup()V、Sup()W依次为两个测绘信息的兴趣指
21、数;Sup()V W表示二者之间的兴趣模糊水平。按照上述内容,把染色体适应度表示成:I()N=1 Sup()N+2 Sup()N1+2 (13)式中:1、2是事先设定的两个权重值,取值范围在 0.50.7之间。种群初始化一定要确保多样性,算法中原始个体来自两部分:专家经验和随机生成。专家经验表示把既成知识的已知模糊相似关联反向推演为事件序列,在初始种群内引入必要属性,保证种群存活;随机生成是把随机择取的时间序列编码为初代个体,提升遗传算法的搜索能力2324。生物进化时,会和自身相同属性物种生活在一起,延伸至遗传算法中,就是让个体在指定生活条件中进化,利用个体之间的相似性调节个体适应度,若个体和
22、其他个体属性相近,适应度降低,反之则提升2526。依照全新的适应度选择个体,就能最大限度地保证群体多样化特征。本文使用 Jaccard距离推算个体之间的模糊相似度,表示为:梁 科:基于不确定场定义模糊贡献度的多源测绘信息数据挖掘研究73现代电子技术2023年第46卷simk()N1,N2=|N1 N2|N1 N2 (14)式中:N1、N2为两个适应度因子。把模糊相似度设定成两个染色体之间同等基因数和基因总和的比值,则适应度因子N的类内模糊相似度为:simq()N=1Si=1Ssimk()N1,N2(15)式中S代表计算迭代数量。则调节后的染色体适应度为:I()N=I()N()1-simq()N
23、(16)遗传算法中的杂交算子是拟照生物学交配行为获得的2728,通过两个不同染色体以一定概率互换基因,产生全新子个体。实施杂交时,若两个个体相似度过高,则杂交效果不会太理想。达到预设的最高进化代数之后,把杂交概率和染色体相似度之间的耦合关联作为地理测绘多源信息模糊相似关系,输出值即为最终的模糊关联结果,计算公式为:Ov=1-sim()M1,M2 (17)式中:M1、M2为两个父代个体。4 实验结果与分析4.1 实验准备通过实验分析来证明采用所提算法进行测绘信息模糊相似关系挖掘性能的有效性,将文献5中加权深度森林法和文献6中判断聚合法作为对比方案。实验数据为某省地理数据库近5年的测绘数据,命名为
24、数据集 A,其数据集大小为 2 00030 000,实验指标分别为适应度、挖掘时间、纯度、方差以及精准度,实验平台为Spark。4.2 不确定场定义模糊贡献度后的数据分类利用不确定场定义数据库中的模糊贡献度可以较好地提取可挖掘特征,为后期数据的进一步挖掘提供条件。将本实验中的数据进行不确定场定义后,再结合模糊贡献度进行分类,分类结果如图1所示。通过图 1可以看出,多源地理测绘数据在分类初期呈现不相干特征。所提方法将不确定场定义模糊贡献度后的数据分为 5类,其中红色点为聚类中心,所提方法将离聚类中心点最近的所有数据点归为一类,一个圈内圈住的所有数据点表示为一类,这些数据均具有相同的特征。采用所提
25、方法能够实现不确定场定义模糊贡献度后的数据分类,分类效果较好,说明本文方法可以针对多源地理测绘数据形成较好的约束分类效果。图1 不确定场定义模糊贡献度后的数据分类4.3 实验结果4.3.1 适应度值对比为验证不同方法对多源信息样本的模糊相似关系的挖掘能力,以适应度值为例分析。适应度值可衡量个体生存与生殖机会的大小,适应度值越大,证明获得解的质量越高,挖掘稳定性越好。设定实验迭代次数为 1 200 次,三种方法测绘多源数据集迭代曲线对比如图 2所示。图2 测绘多源数据集迭代曲线对比观察图 2可知,加权深度森林法的适应度值在 40100之间,判断聚合法的适应度值范围在 60120之间,而所提方法的
26、适应度值在100140之间,适应度值明显高于其他两种方法。由此可以得出,所提方法的适应度值最高,更有利于获得精准的全局最优解,具有极强的稳定性与鲁棒性。4.3.2 数据挖掘运行时间对比为充分检测所提方法的运算效率,在地理数据库中使用程序随机产生若干相同格式的检测数据,分别检验三种方法在相同数据集规模下的运行耗时。模糊相似关系数据挖掘运行时间对比如图3所示。从图 3可知:伴随数据量的持续增多,判断聚合法与加权深度森林法数据挖掘耗时均大于所提方法,且差值逐渐变大,呈线性增长态势;而所提方法的数据挖掘74第18期时间最大值约为 7.5 s,且增长幅度较为缓慢。出现此种现象的原因为:所提方法在数据挖掘
27、时,利用数据清洗策略评估数据一致性,剔除缺失值,利用不确定场定义模糊贡献度,从根本上节省了挖掘时间。图3 模糊相似关系数据挖掘运行时间对比4.3.3 数据挖掘纯度与方差对比数据挖掘精度是判断方法能否投入实际应用的重要因素,本文使用纯度、方差两个指标分析三种方法数据挖掘的正确性。数据挖掘结果纯度值越高,证明聚类结果越准确。设定数据集内数据总数是Q,被正确划分的数据个数是Z,则纯度Pd计算公式为:Pd=ZQ (18)方差是一种评判原始数据与期望值相差的度量值,方差越小,证明数据挖掘结果精度越高,计算公式为:2=()X-2Y (19)式中:X代表变量;是总体均值;Y为数据总和。设定实验次数均为 55
28、 次,以每 5 次为一个实验周期,取各周期的计算均值为对比目标,三种方法模糊相似关系挖掘纯度与方差实验结果如图4、图5所示。图4 数据挖掘纯度对比从图4、图5的实验结果可以看出,所提方法在相同实验环境下纯度值在 0.7左右,而加权深度森林法和判断聚合法的纯度值在 0.40.6之间,所提方法的纯度值明显高于其他两种方法;所提方法的方差在 6以内,小于加权深度森林法和判断聚合法,展现出了独有的计算优势。这是由于所提方法采用不确定场定义模糊贡献度,明确了挖掘特征,再利用遗传算法来搜索全局最优解,增强了数据挖掘准确性,提升了模糊相似关系聚类水平,故所得结果更接近真实情况。图5 数据挖掘方差对比4.3.
29、4 数据挖掘精准度对比分别采用所提方法、判断聚合法、加权深度森林法对数据挖掘精准度进行测试,实验结果如图6所示。图6 数据挖掘精准度对比从图 6的实验结果可知,随着数据集的增大,三种方法的数据挖掘精准度有所变化。所提方法的数据挖掘精准度保持在 85%以上,而判断聚合法和加权深度森林法的数据挖掘精准度在 60%85%之间,所提方法的数据挖掘精准度最高。这是由于所提方法使用 Kmeans算法划分测绘多源数据类型,并采用BP神经网络清洗多源信息数据,使得挖掘的精准度得到提高。5 结 语为深入研究测绘多源信息中的模糊相似关系,本文梁 科:基于不确定场定义模糊贡献度的多源测绘信息数据挖掘研究75现代电子
30、技术2023年第46卷设计一种基于遗传算法的多源信息模糊相似关系挖掘算法。采用 Kmeans算法与 BP神经网络对多源信息数据进行清洗。在遗传算法的基础上,将杂交概率与染色体相似性之间的耦合关联作为输出值,完成预期的数据挖掘。该方法能够有效弥补传统数据挖掘的不足,精准呈现不同来源数据之间的模糊关联,在实验分析中也证明了其应用优势,具有相当的可用性。在后续工作中,将研究如何凭借有效内存实现数据模糊相似关系划分,进一步优化算法整体性能。参考文献1 孙中原,韩青,孙成苗,等.基于地理信息的空间规划衔接研究与实践J.测绘科学,2020,45(10):155160.2 侯雪.测绘地理信息在智慧矿山发展中
31、应用研究J.世界有色金属,2022(8):3133.3 郭黎,姜晶莉,李豪,等.多源地理空间矢量数据关联模型设计J.测绘通报,2020(7):97102.4 张合兵,李铭辉,张青磊.基于多源数据的国土空间规划用地分类体系构建和土地类型识别J.农业工程学报,2020,36(5):261269.5 李瑞峰,杨海峰,蔡江辉,等.一种基于加权深度森林的离群数据挖掘算法J.小型微型计算机系统,2022,43(7):14261431.6 李莉.基于判断聚合的分布式数据挖掘分类算法研究J.计算机科学,2020,47(z1):450456.7 匡俊搴,赵畅,杨柳,等.一种基于深度学习的异常数据清洗算法J.电子
32、与信息学报,2022,44(2):507513.8 李政文,杜文菊,饶妮妮.基于不准确图像数据清洗的分类方法研究J.信号处理,2022,38(7):15471554.9 宋军英,崔益伟,李欣然,等.基于欧氏动态时间弯曲距离与熵权法的负荷曲线聚类方法J.电力系统自动化,2020,44(15):8794.10 韩红桂,鲁树武,伍小龙,等.基于改进型 SVM的城市污水处理过程异常数据清洗方法J.北京工业大学学报,2021,47(9):10111020.11 李波.基于权值优化神经网络的交通拥堵程度决策方法J.计算机应用研究,2020,37(10):29762979.12 何俊,张云飞,张德海.基于
33、Petri网的数据清洗规则链自动组合与检测J.计算机工程,2020,46(11):124131.13 霍月英,李文权,李晓娟,等.快速公交服务水平模糊分级方法J.东北大学学报(自然科学版),2020,41(10):15091516.14 丁凯,胡畔,李伟,等.考虑信息缺失的电压暂降经济损失模糊评估方法J.中国测试,2020,46(7):4653.15 焦龙龙,罗森林,刘望桐,等.结合路径标签和数据变异的模糊测试关键数据定位方法J.北京理工大学学报,2020,40(9):10091017.16 郭黎,李翔,张政,等.基于混合式的地理空间数据库课程教学模式探索J.测绘通报,2022(z1):949
34、8.17 卢二坡,张焕明.基于稳健主成分回归的统计数据可靠性评估方法J.统计研究,2011,28(8):2127.18 杨晓梅.多源信息数据的并行优化抽样聚类Kmeans算法J.计算机仿真,2020,37(7):305308.19 柴华奇,袁雅娜.基于多层次模糊关联算法的通用航空产业知识挖掘研究J.数学的实践与认识,2021,51(7):6170.20 陈通,樊蓓蓓,陈东萍.基于双重模糊模拟的直觉模糊向量关联规则挖掘J.计算机集成制造系统,2020,26(7):18751886.21 高天宇,王庆荣,杨磊.粗糙集属性依赖度强化的应急数据挖掘模型J.计算机工程与应用,2021,57(3):879
35、3.22 杨学习.地理空间异常模式自适应探测方法研究J.测绘学报,2021,50(4):567.23 潘家文,钱谦,伏云发,等.模糊自适应并行遗传算法在函数优化中的应用J.小型微型计算机系统,2021,42(11):23132322.24 孙雨萌,柏俪娜,张旭秀.核模糊聚类划分子种群的双种群遗传算法J.大连工业大学学报,2021,40(1):6773.25 陈波,詹明强,黄梓莘.基于关联规则的库岸边坡监测数据挖掘方法J.长江科学院院报,2022,39(8):5864.26 董浩,李烨.基于多种群遗传算法的虚拟机优化部署研究J.控制工程,2020,27(2):335341.27 杨震,王红军.基于加权 K近邻的改进密度峰值聚类算法J.计算机应用研究,2020,37(3):667671.28 冯晓东,黄世荣,戴冠鸥,等.天牛须遗传杂交算法的研究与应用J.计算机工程与应用,2021,57(15):90100.作者简介:梁 科(1980),男,瑶族,湖南娄底人,硕士,高级工程师,研究方向为测绘地理信息技术在自然资源调查、国土空间规划、项目选址与质量检查、不动产登记、卫星监测和传统测绘项目方面的应用等。76