收藏 分销(赏)

基于改进模糊聚类算法的数据信息分析与预测模型设计.pdf

上传人:自信****多点 文档编号:576885 上传时间:2024-01-02 格式:PDF 页数:5 大小:1.68MB
下载 相关 举报
基于改进模糊聚类算法的数据信息分析与预测模型设计.pdf_第1页
第1页 / 共5页
基于改进模糊聚类算法的数据信息分析与预测模型设计.pdf_第2页
第2页 / 共5页
基于改进模糊聚类算法的数据信息分析与预测模型设计.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第16期No.162023年8月Aug.2023收稿日期:2022-05-09稿件编号:202205060基金项目:河北省卫生厅2020年度河北省医学科学研究课题(20200563)作者简介:高楚淮(1986),男,河北张家口人,助理工程师。研究方向:药品数据分析。基于改进模糊聚类算法的数据信息分析与预测模型设计高楚淮(河北北方学院 附属第一医院,河北 张家口 075000)摘要:为了提升医疗领域药品信息的数据分析效率,文中对聚类分析算法进行了研究,并对传统的基于目标C均值模糊聚类算法(FCM)加以改进,

2、进而实现药品数据的无监督分类预测。改进算法引入了 K 均值(K-means)聚类进行类别中心的初始化,使算法可获取与样本空间分布一致的聚类中心。同时基于信息粒度概念,结合聚类样本的类间耦合度与分离度指标来构建判别分类效果的有效性函数,进而为样本聚类提供了显性的指标遵循规则,并有效提升了算法在迭代过程中对于最优值的求解效率。构建的仿真数据测试结果表明,改进FCM算法能够准确判断数据样本的类别数目。而对于450个测试样本,改进后的FCM算法误分类数量仅为23个,分类错误率为5.11%,RMSE则为0.032 1。相较于传统FCM算法,错误率与RMSE值分别降低了5.56%及79.61%。关键词:模

3、糊聚类;聚类分析;K-means;药品;数据分析中图分类号:TN915.08;TP311文献标识码:A文章编号:1674-6236(2023)16-0021-04DOI:10.14022/j.issn1674-6236.2023.16.005Data information analysis and prediction model design based on improved fuzzyclustering algorithmGAO Chuhuai(The First Affiliated Hospital of Hebei North University,Zhangjiakou 07

4、5000,China)Abstract:In order to improve the data analysis efficiency of drug information in the medical field,thispaper studies the clustering analysis algorithm,improves the traditional target based C means fuzzyclustering algorithm(FCM),and realizes the unsupervised classification and prediction o

5、f drug data.Theimproved algorithm introduces Kmeans algorithm to initialize the category center,so that the algorithmcan obtain the cluster center consistent with the spatial distribution of samples.Based on the concept ofinformation granularity,the algorithm constructs the effectiveness function to

6、 judge the classificationeffect by combining the coupling degree and separation degree indexes of clustering samples,whichprovides explicit index compliance for sample clustering and effectively improves the efficiency of solvingthe optimal value in the iterative process of the algorithm.The test re

7、sults of the simulation dataconstructed by data cleaning show that the improved FCM algorithm can accurately judge the categorynumber of data samples.For 450 test samples,the number of misclassification of the improved FCMalgorithm is 23,and the classification error rate is 5.11%.Compared with the F

8、CM algorithm,it reduces5.56%,RMSE is 0.032 1,and 79.61%compared with the traditional FCM algorithm.Keywords:fuzzy clustering;cluster analysis;Kmeans;drugs;data analysis-21电子设计工程 2023年第16期随着药品生产供应市场的发展,建立安全完备的药品研制、生产及流通体系势在必行。当前我国的医药市场主体依然呈现出“多、散、小”的格局,且药品的基础资料多为非结构化数据,故仍存在信息统计与查询困难的问题。而如何运用大数据平台进行药品

9、信息的分析,并实现准确的分类及预测,对药品流通的所有参与者而言均具有重要意义。对于监管者,其可建立行之有效的安全风险防范体系;而对于医疗机构,则能优化供应链管理水平,进而逐步实现运行模式的优化1-4。聚类分析(Cluster Analysis)是数据挖掘领域的常用算法,近年来基于划分、层次与密度分析等思路,该算法得到了进一步的发展5-11。其中,模糊聚类(Fuzzy C-Means,FCM)算法是一种基于模糊数学理论的机器学习(Machine Learning,ML)算法。与其他聚类算法不同的是,其引入了隶属度函数,增添了样本类别的非定性描述,使得物体与客观世界建立了更为契合的映射关系。此外,

10、该方法无需训练样本,是一种无监督的聚类方法,并可自动提取药品信息中的特征,进而实现样本的自主分类。文中在对常用的、基于目标函数的模糊聚类分析算法进行讨论的基础上,结合医药数据信息分析的应用场景对该算法加以改进。仿真结果表明,改进后的算法在对药品数据进行聚类预测时,关键性指标有了显著改善。1理论基础1.1传统模糊聚类算法基于目标函数的模糊 C 均值聚类(FCM)算法是模糊集理论中常用的数据分析方法12-14,其结构简单且计算复杂度较低,并可对样本数据进行自动分类。FCM算法的基本流程如图1所示。图1传统FCM算法流程1.2改进模糊聚类算法传统的 FCM 算法虽应用广泛,但其在对药品数据资源进行分

11、析时,对初始值较为敏感,导致收敛速度较慢,且在迭代过程中易陷入局部最优,影响了数据分析及预测的精度。因此,文中将继续对 FCM 算法进行改进15-16。改进的算法流程如图 2所示。图2改进的FCM算法流程首先使用 K 均值法(K-means)计算初始聚类中心,具体表达式为:E=i=1kpCi|p-mi2(1)采用二维空间内所有对象到样本中心的平方差之和,作为 K-means的误差判别 E,而 p为输入样本在二维空间的映射,mi则为 Ci的聚类中心。引入该方法后,能够有效提升 FCM 的聚类中心初始化效果。此外,为了度量FCM算法的聚类效果,文中还引入了一种基于信息粒度的有效性函数。信息粒度可表

12、征类间样本的耦合性,且其主要包含耦合度 Cd(c)和分离度Sd(c)两个概念。其计算公式分别为:Cd(c)=1ni=1cj=1numijd2iji=1,2,c;j=1,2,n(2)其中,uij为隶属度,dij为欧氏距离。Sd(c)=i,k=1;ikcd2ikc(c-1)/2,i,k=1,2,c(3)基于式(2)-(3),可得到度量聚类效果的有效性函数为:-22GD(c)=Cd(c)+(1-)1Sd(c)(4)式(4)中,为耦合度和离散度间的权重调节因子。根据图 2 的流程,改进后的 FCM 会根据有效性函数GD对分类效果进行判别,使得类内样本间的距离尽量缩小,而类别间的聚类中心间距则尽可能扩大

13、。其中,类别间聚类中心的距离判别方法如下:D(i,j)=vi-vj,ij;1ic;1jc(5)此外,为避免数据噪声对模糊矩阵隶属度的判别造成影响,文中还对目标函数进行了改进:minJFCM=k=1ni=1cumik(dik)2+i=1cik=1n(1-uik)m(6)式(6)中,i为松弛因子,其降低了原损失函数对隶属度的约束。该参数的表式如下:i=Ki=1numikd2ikk=1numik(7)其中,K 为常数。则改进后的 FCM 算法参数更新方法如下:u(t+1)ik=d()tikj=1cd()tjk-2m-1(8)v()t+1i=k=1n(u()tik)mxkk=1n(u()tik)m(9

14、)2方法实现2.1仿真实验设计为了评估改进后的模糊聚类算法性能,文中筛选了某药品信息库中的部分药品作为数据集。具体的数据集参数为:样本总数有450个;药品类别有3种;每类样本个数为150个;药品特征参数有8个。在评估改进后的聚类方法对于药品的聚类分析效率时,使用了均方根误差(SRMSE)作为评价指标。其定义方式如下:SRMSE=1N()x,y|Dp(x,y)-c(x,y)2(10)其中,Dp(x,y)为聚类后样本在二维空间内的位置坐标,c(x,y)是数据集中实际聚类中心的位置坐标,N则为该类药品的样本总量。在进行仿真分析时,文中结合样本规模对改进FCM算法的参数进行了设置,如表1所示。表1算法

15、仿真过程中所用参数的设置参数MBmaxCmax参数值20.001100120.6备注模糊指数阈值最大迭代次数最大聚类数有效性函数耦合权重此次所使用的仿真软硬件环境为:CPU 为 i7-10750H;硬盘规格为1 TB 7200 rpm;系统内存16 GB,操作系统为Windows10。显卡采用P620,显存4 GB,编程环境为Matlab 2019b。2.2算法仿真结果为了评估算法的改进效果,将其与传统模糊聚类方法进行了比较。两种算法的迭代曲线如图 3所示。图3算法迭代曲线图 3 显示了算法在迭代过程中,目标函数随迭代次数的变化情况。从图中可以看出,传统算法在进行 25 次迭代之后,目标函数值

16、才趋于平稳;而该算法的目标函数值仅迭代 15次便趋于稳定,且迭代效率提升了约 40%。由此可知,与传统 FCM 算法相比,改进算法的目标函数收敛速度较快。根据实际的算法应用场景,在对药品数据进行聚类分析前,由于类别数量 c并非确定值,故还需根据算法的有效性函数值来确定。表 2给出了在仿真过程中,将数据集划分为不同类别时的算法有效性函数值。可以看出,当 c=3时,算法能够得到最优的有效性函数值,约为0.421 3,而该类别数也与数据集的实际类别数相一致。高楚淮基于改进模糊聚类算法的数据信息分析与预测模型设计-23电子设计工程 2023年第16期表2不同类别数所对应的有效性函数值类别数c23456

17、789101112有效性函数值0.793 50.421 30.573 40.621 80.693 40.716 40.773 90.821 60.839 00.922 70.951 3对数据集进行聚类仿真实验,得到的结果如图4所示。图4算法的样本分类效果图图 4中,将表 1的数据集进行标准化处理,并映射至二维空间,即可得到图 4(a)所示的效果图;而对图4(a)中的数据使用文中算法进行聚类,获得的效果如图 4(b)所示。在图 4(b)中,空心圆圈为实际的聚类中心,圆弧线则为类别的边界。从图 4(b)可以看出,圆弧线将所有的样本划分为 3 类,且各个类簇之间并未存在交叠的现象。由此证明所提算法能

18、对数据集中的所有数据进行明确分类。对于聚类算法,首先要将一堆无序的数据划分为正确的类别。表 3 给出了算法在 50 次运行过程中,能将实验数据正确划分为 3 类的统计结果。由表可知,该算法的正确率为 94%,相较于传统算法,提升了 8%;而平均运行时间降低至 201 s,在传统算法的基础上缩短了27.17%。表3算法聚类性能对比指标50次运行后正确分类次数统计/次正确率(%)平均运行时间/s传统FCM4386.0276改进FCM4794.0201表4统计了在类别数c=3时,所有样本的分类精度情况。对于 450 个测试样本,该算法的误分类数量为 23,分类错误率为 5.11%,RMSE 值为 0

19、.032 1。且相较于传统 FCM 算法,其错误率下降了 5.56%,RMSE值则降低了79.61%。表4算法分类精度性能对比指标误分类数/个错误率(%)RMSE传统FCM4810.670.157 4改进FCM235.110.032 13结束语文中对药品的聚类分析与预测方法进行了研究,通过引入新的聚类中心初始化机制及有效性函数改进了传统的 FCM方法。仿真结果表明,该算法对于聚类中心与样本的分类精度均有显著改善。而随着我国医药领域数字化进程的推进,所提算法将会有更为广阔的应用前景。参考文献:1 刘录.考虑医改体制的医疗服务供应链资源配置研究D.成都:电子科技大学,2021.2 许德刚,李凡,王

20、露,等.优化烟花算法在医疗物资应急调度中的应用J.计算机工程与应用,2021,57(24):249-258.3 邹玉龙.区域医院药品信息智能化共享方案研究(下转第30页)-24电子设计工程 2023年第16期行设计的蓝牙模块,可以实现无线传输的功能,实验结果可实时显示在便携智能手机中。与商用 TSI-8530粉尘检测仪相比,结果表明,文中所设计的系统具有较高的精确度,测量PM2.5质量浓度时,平均相对误差约是 7%。又由于成本低廉,操作方便,在居家生活16、工业环境监测方面具有较大的应用潜力。参考文献:1 徐良.基于光散射的颗粒粒度检测技术研究D.杭州:中国计量大学,2019.2 于婷,战俊彤

21、,马莉莉,等.椭球形粒子浓度对激光偏振传输特性的影响J.中国激光,2019,46(2):213-221.3 夏赛.大气颗粒物浓度测量仪的设计与应用研究D.合肥:合肥学院,2020.4 张子同.新型光散射式颗粒物传感器系统的研究D.无锡:江南大学,2021.5 杨安,张子同,汤思达,等.颗粒物数量与粒径分布的光学测量系统设计J.激光与红外,2022,52(3):392-328.6 王鹏飞,张喆,樊新学.基于Mie散射理论的粉尘浓度测量研究J.科技创新与应用,2021,11(33):67-71.7 花金平,江毅.可调谐外腔半导体激光器研究进展J.半导体光电,2021,42(1):11-19,56.

22、8 马晓明,张志利,刘春平,等.半导体激光器驱动电路的设计J.光通信技术,2021,45(7):1-4.9 刘傲东,廖宏宇,刘紫东.微弱信号放大电路设计J.电子设计工程,2021,29(14):149-153.10徐志夺.基于加速度传感器的微弱信号放大电路设计J.电子元器件与信息技术,2022,6(2):78-80.11吴赓.蓝牙技术在单片机控制中的应用J.机电信息,2021(26):60-61,64.12李柯.基于Arduino的智能蓝牙小车设计J.电子测试,2022,36(7):21-23.13吉忠科.可穿戴微流体生物传感贴片数据采集系统设计D.大连:大连理工大学,2021.14唐修雄,刘

23、伟.一种基于DMA技术的高效串口数据处理方法J.信息通信,2020(10):86-88.15罗红梅.基于App Inventor的图像识别APP设计J.电脑知识与技术,2020,16(1):49-50.16汪文海,贺发文,黄妹玲,等.基于STM32的颗粒物浓度检测系统设计J.电子质量,2019(1):39-42.(上接第24页)J.微型电脑应用,2019,35(1):113-115,128.4 邢梦妍.HIS架构的医院药物配置中心信息管理系统设计J.信息技术,2021(1):157-162,168.5 陈恒恒,倪志伟,朱旭辉,等.基于聚类分析的差分隐私高维数据发布方法J.计算机应用,2021,

24、41(9):2578-2585.6 黄海燕,刘晓明,孙华勇,等.聚类分析算法在不确定性决策中的应用J.计算机科学,2019,46(S1):593-597.7 薛红艳.集成聚类算法研究D.无锡:江南大学,2021.8 方加娟,赵广复.基于聚类分析的高维数据异常特征光流检测系统J.激光杂志,2019,40(12):128-131.9 王依赟,许英.基于复杂网络的混合数据聚类分析J.太原科技大学学报,2021,42(4):321-326.10向志华,邵亚丽.一种结合贪心选择和特征加权的高维数据聚类算法J.电子科技,2019,32(11):70-73.11解艳.基于大数据挖掘处理的多维数据去重聚类算法

25、分析模型仿真J.自动化技术与应用,2021,40(12):112-115.12Kuo R J,Lin J Y,Nguyen T.An application of sinecosine algorithm-based fuzzy possibilistic c-or-dered means algorithm to cluster analysisJ.SoftComputing,2021,25(11):1-16.13Cui X,Yan E C.Fuzzy C-means cluster analysisbased on variable length string genetic algorithmfor the grouping of rock discontinuity setsJ.KSCEJournalofCivilEngineering,2020,24(6):5321-5336.14刘稀文,段隆振,段文影.基于FCM的簇内欠采样算法J.南昌大学学报(理科版),2021,45(5):437-444.15王治和,王淑艳,杜辉.基于密度敏感距离的改进模糊C均值聚类算法J.计算机工程,2021,47(5):88-96,103.16江萌萌,刘广钟.改进的FCM算法在UASN分簇中的应用J.计算机技术与发展,2018,28(12):147-151.-30

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服