收藏 分销(赏)

基于决策树的供应商全链路动态特征挖掘算法.pdf

上传人:自信****多点 文档编号:640598 上传时间:2024-01-22 格式:PDF 页数:6 大小:660.02KB
下载 相关 举报
基于决策树的供应商全链路动态特征挖掘算法.pdf_第1页
第1页 / 共6页
基于决策树的供应商全链路动态特征挖掘算法.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、为了降低特征挖掘结果的汉明损失和错误率,提出了一种基于决策树的供应商全链路动态特征挖掘算法 对数据实施数值化、离散化和归一化处理,通过降低数据值域的差异来降低汉明损失和错误率 利用处理后的数据建立决策树,通过剪枝操作提高了数据分类的精度,采用改进的 值和 神经网络有效挖掘全链路动态特征 该算法降低了挖掘结果的汉明损失和错误率,且分类处理精度、准确率、召回率均有所提高 该算法有效提高了供应商全链路动态特征的挖掘效果关键词:决策树;供应商;全链路特征;数据预处理;剪枝操作;神经网络;数据分类;动态特征挖掘中图分类号:文献标志码:文章编号:(),(,;,):,:;供应链系统在全球经济化背景下的发展规

2、模扩大、速度加快,在这种情况下市场环境变得越来越复杂,进而提高了供应链系统的风险 同时,供应链数据所呈现出的半结构化、非结构化特点增加了大数据环境下数据分析的模式和方法的复杂程度 ,导致采用传统的人工操作难以对复杂的供应链系统进行管理在目前的全渠道零售模式中,大数据样本、差异性、相关性等特征改变了传统供应系统的结构 在供应商全链路系统的管理维护中,动态特征提取是非常重要的一项内容 供应商全链路运行过程中会表现出相对应的动态特征,其所收集到的数据是冗杂的,且在众多动态特征中掺杂着某些与问题关系不明显或无关的数据 因此,若要发现某一问题,就要找到与之对应的动态特征动态特征提取就是将多特征数据转换成

3、仅包含主特征的数据,再对降维后的数据实施分类处理,从而实现对原数据的准确分类识别王妍等 设计了一种基于互信息的特征提取算法,该算法为提高数据特征挖掘精度,将改进后的互信息作为特征提取标准,利用滑动窗口技术完成对增量数据的实时处理,并将历史数据和实时数据特征相融合,在快速降维的基础上完成特征分析和挖掘 张丽等 设计了一种基于“特征降维”文本复杂网络的特征提取算法,该算法依据数据共现关系、依存句法关系多次多级抽取数据,以此构建网络模型,融合 法和 算法对模型中的结点重要性进行评价,获取重要性高的数据作为特征数据,由此实现对特征数据的提取 然而在实际应用中发现,上述传统算法在挖掘供应商全链路动态特征

4、时,未对数据实施归一化处理,从而增加了挖掘结果的汉明损失和错误率为了解决传统算法中存在的问题,本文基于决策树设计了一种新的供应商全链路动态特征挖掘算法 决策树是一种分类方法,既能够用于数据分析处理,也能够用于数据预测,其具有易解释、效率高、能够生成便于理解的分类规则等优势,目前已被广泛应用 同时,本文算法在决策树处理前,通过数值化、离散化和归一化处理完成对数据的预处理,使得数据值域差异得到降低,以此来降低汉明损失和错误率,并在决策树处理过程中,通过剪枝操作来提高数据分类的精度 数据预处理与分类 数据预处理供应链具有灵活多样的软性结构特征 供应链中生成的数据包括但不限于如下内容:商品编号、商品名

5、称、操作信息、时间戳、交易参与方、数字签名、源数据地址、前一步骤地址 供应商全链路中存在的数据都是由多个属性构成的,包括连续性及非连续性属性,同时也存在字符串型、浮点型等多种属性,不同属性对应不同的取值范围 因此,为了提高动态特征挖掘的精准度,在实施特征挖掘前,本文对供应商全链路数据进行预处理,预处理方式如下所示)数据数值化处理 供应商全链路数据数值化处理的难度较低,只需对全部数据的属性进行统计,并为其赋值)数据离散化处理 采用 算法对原始供应商全链路数据集 中的每个属性 进行离散化处理,具体过程如下:按照从小到大的顺序,根据数据属性值()对数据进行排序 采用、描述相邻的两个记录,并对记录由上

6、到下进行扫描 当记录的属性值满足 ()()时,此时决策值之间没有差异,应按照顺序继续扫描 当记录中不存在 ()()时,获得断点 ()()通过上述分析可知,当决策值和属性值之间存在差异时,获得断点 )数据归一化处理 上述过程已将原始供应商全链路数据集进行离散化处理,但数据的值域之间有所差异,需要离散化的数据也会因受到不同属性的影响而产生不同的结果 为了降低这一差异对结果的影响,还需要对数据采取归一化处理本文通过奇异距离函数对供应商全链路数据集进行归一化处理 假设 和 分别代表异构数据集上的两个数据,其中 的第 个属性为,的第 个属性为,设 (,)为第 个属性上 和 对应的距离函数,其表达式为(,

7、),槡()式中:为供应商全链路数据集中存在的类别数量,;,为第 个属性对应的值为 在所有供应商全链路样本数据中的总数;,为第 个属性对应的值为 在所有供应商全链路样本数据中的总数;,为第 个属性对应的值为 在所有供应商全链路样本数据中输出类别为 的样本总数;,为第 个属性对应的值为 在所有供应商全链路样本数据中输出类别为 的样本总数 如果 和 的取值存在未知数,则 和 之间的距离用 表示在距离函数 (,)的基础上对供应商全链路数据进行归一化处理,可得 (,)(,)()式中:为归一化处理后的数据;,为供应商全链 路数据集中第 个属性的最大值;,为供应商全链路数据集中第 个属性的最小值;(,)为

8、与 ,之间对应的距离函数;(,)为 ,与 ,之间对应的距离函数 数据分类由于数据特征空间是无法事先给定的,且其随时间的变化而不断变化,因此,数据特征空间具有未知性和演化性 本文采用决策树对经过预处理的数据进行分类,在划分数据类别的基础上沈阳工业大学学报第 卷准确挖掘其特征 构建决策树并对决策树进行剪枝的过程如下所示)基于供应商全链路数据建立决策树 在决策树的生成过程中,通过旋转矩阵来产生不同的样本数据集,进而生成不同的模型决策树 一般来说,初始状态下建立只包括全部样本根结点的供应商全链路决策树 基本步骤如下:分类过程由多条分类规则表示 因此,第一条规则为判断样本是否为叶结点 如果样本集中样本未

9、达到一定数量,或样本集中没有可进行测试的属性,又或该样本集中所有样本同属于一个类别,则该样本为叶结点,将其标记在相应的类别中,若不满足上述条件,则将结点所在的样本集依据属性值分成两个以上的子集 依据步骤构建多个子集 对于基于决策树的供应商全链路动态特征挖掘算法来说,选择数据属性的标准是至关重要的 算法对供应商全链路数据属性的选择是根据信息增益来进行的,因此,选取犹豫模糊信息增益中的最大值替代 算法中的模糊信息增益,并将其作为数据属性的分类标准 将样本通过属性 划分为,共 个子集,可得信息增益值 表达式为 ()式中:中有 个样本;子集 中有 个样本;参数 的表达式为 ,(,)()其中,为 中的样

10、本所属类别为 的频率;为 中样本全部类别个数依据信息增益比,利用 决策树分类算法 对属性进行选择,其表达式为 ()式中:为选择后的属性;为拆分信息,其表达式为 ()()对所建决策树剪枝 由于所建决策树与样本集可能存在拟合度过高的情况,所以还需对决策树进行剪枝处理 将分支变为结点的关键是某个统计量是否符合一定要求决策树剪枝是一种对已有决策树的简化操作,主要为预剪枝和后剪枝两种形式 预剪枝法是在决策树生长的过程中依据一定条件来判断是否继续对结点进行划分的方法;后剪枝法是让所建决策树在生长到一定程度后再依据分类错误率和编码长度来分析是否要将分支变为结点的方法 在剪枝过程中通常会将两种方法结合使用由于

11、数据集区间值属性之间的冗余信息对决策树的分类效果存在影响,因此还需扩展决策树属性,避免决策树重复选择具有同一条件属性的数据 将分类规则抽取出后表示成 的形式,每个条件()部分合取项都是依据供应商全链路数据建立的决策树中对应路径属性值偶对构成的,结论()部分则是由所建决策树中叶结点标记的类别构成的 根据上述过程建立决策树,对供应商全链路数据进行分类处理 供应商全链路动态特征挖掘算法为得到维数较低的动态特征空间,本文先对供应商全链路数据依据改进后的 值进行特征提取,再利用 神经网络进一步优化,从而挖掘供应商全链路的动态特征 的改进在供应商全链路动态特征数据挖掘的过程中,首先利用改进的 获取供应商全

12、链路数据的特征项假设 统计量用来表示供应商全链路中某一数据对其所在类别贡献的重要性 统计量的数值越大,该数据对该类别的分类贡献值越高 随机选取其中的第 种数据与第 个类别,则二者之间的 统计量计算公式为 ()()()()()()式中:、分别为特征在不同类别中出现的频数;代表独立分布数据;代表存在关联性分布的数据;代表数据不存在分类贡献值;代表数据存在分类贡献值传统的 值只能反映出贡献值的大小,无法反映出贡献值的正负 考虑到了这一点,本文对 值进行了改进,即 槡()()()()()()利用改进后的 值公式,可以清晰地分辨供应商全链路数据与类别之间贡献的正负关系在供应商全链路特征数据的挖掘过程中,

13、分类规则是依据某类数据的某些特征出现频率建立的,对相应类别贡献呈正相关的特征项即为改进较大第 期张世良,等:基于决策树的供应商全链路动态特征挖掘算法的 值特征项 利用 神经网络挖掘动态特征本文利用 神经网络在供应商全链路数据特征项中挖掘动态特征 为了防止无关因素影响数据挖掘结果的准确性,本文事先依据重要性高低对特征项有序排列,然后利用 神经网络提高动态特征挖掘的精度,步骤如下:)选取特征项中重要性最高的若干特征项进行训练,再对其进行精度预测并检验;)依据特征项重要性高低向两端分别增减一个邻近的特征项,再次对特征项进行训练、预测精度并检验,将结果与原特征项检验结果作对比;)多次重复进行上述操作直

14、到提取出精度最高的 个特征项,即为动态特征,完成挖掘将特征项进行有序排列的方法多种多样 输入输出关联法以分离联系法为基础,权衡特征项的主要依据是随着样本值的改变而产生改变的输出累加值 设存在一个特征项 ,若样本值的改变对输出值的影响越大,则存在的特征项 越重要当输入输出关联值 ()中存在特征项 时,可得()(,)(,)()()()设第 个特征项在第 、个供应商全链路样本中的属性值分别为 (,)和 (,),第 、个供应商全链路样本的决策属性值为 ()和(),符号函数用 ()表示,则存在以下两种情况:当 时,输出 ;当 时,输出 由于量纲差异会对结果造成影响,还需对样本 进行归一化处理,即 ()(

15、)()()由此可将式()改写为()(,)(,)()()()根据上述输入输出关联值 ()获得重要性较高的特征项,即为动态特征,从而完成对供应商全链路动态特征的挖掘 实验与结果分析为了验证基于决策树的供应商全链路动态特征提取算法的有效性,设计如下测试过程 实验设计为避免实验结果的单一性,分别采用基于决策树的供应商全链路动态特征提取算法(算法 )、基于互信息的特征提取算法(算法 )和基于“特征降维”文本复杂网络的特征提取算法(算法 )进行对比测试设置实验环境如下:数据来源为 供应链管理数据库 该数据库为知识规则库,数据规则属性一致,其中包含 项存储类别,数据量共计 数据库中的数据置信度为 ,最小支持

16、度为 实验主要针对配送货标签数据展开处理,该类别的数据总量为 结果分析)汉明损失 该指标用于反映数据分类环节的精度,从侧面反映数据挖掘结果的有效性 汉明损失越低,数据挖掘有效性越高,其计算公式为 ()()式中:为数据总量;为数据集合;()为指标函数;表示两个数据集之间的对称差 特征数据分类器将数据 预测为一个二值向量在该部分实验过程中,通过孤立点查询的方式检验数据分类结果,从而判断分类精度 不同方法的汉明损失测试结果如图 所示图 不同算法的汉明损失测试结果 根据图 中数据可知,算法 的汉明损失始终低于算法 和算法 ,表明算法 的动态特征挖掘效果更好 这是因为算法 在对数据预处理时进行了归一化处

17、理,有效降低了不同属性对数据分类过程的影响,从而能够对数据进行更加准确地分类,达到提升挖掘效果的作用)错误率 该指标能够较为直观地体现不同算法的挖掘正确性 错误率越低,说明数据挖掘越有效,其计算公式为 (,)()式中:取值为 ;为 所在数据集;为特征项在上述实验的基础上,将错误率作为对比指标来验证不同算法的挖掘效果 错误率测试结果如图 所示沈阳工业大学学报第 卷图 不同算法的错误率测试结果 由图 可以看出,算法 的挖掘错误率低于算法 和算法 ,其错误率数值始终低于 ,表明该算法对动态特征挖掘具有显著的效果 随着待处理数据量的增加,算法 的错误率呈现出先上升后趋于平稳的态势,说明数据量的增加对算

18、法本身的性能产生了微弱的影响,在产生波动后才趋于稳定)数据分类处理精度 将数据分类处理结果的评价精度作为指标,对不同算法的性能进行测试 数据分类处理精度 的计算公式为 (,)(,)(,)()式中:为排序函数;为特征项 的前一个特征项不同算法的数据分类处理精度测试结果如图所示图 不同算法的数据分类处理精度测试结果 对图 中的数据进行分析可知,算法 的数据分类处理精度值高于算法 和算法 ,且其波动情况相对更加稳定,算法 对供应商全链路数据的分类处理效果是最优的 这是因为算法 不仅对数据实施了预处理,还通过剪枝操作提高了决策树的分类效果,且随着待处理数据量的增加,用于剪枝操作的数据量也在增加,提高了

19、排除等效冗余数据的可能性,因此,算法 的平均挖掘精度也在不断增加)准确率、召回率和 以准确率 、召回率 及准确率与召回率的调和平均值 为指标,对不同算法的挖掘效果进行测试,三项指标值越高,数据挖掘效果越好,相应计算公式为 ()()()()式中:表示判定为错误特征项但实际上是正确特征项数量;表示判定为正确特征项但实际上是错误特征项数量;表示被判定为正确特征项但实际上也是正确特征项数量在统计不同算法挖掘准确率、召回率的基础上,计算 值的评估结果,测试结果如图 所示图 准确率、召回率和 测试结果 ,由图 可以看出,算法 的 个衡量指标的数值明显高于算法 和算法 ,且均处于 以上 由此可知算法 在动态

20、特征的挖掘中效果更好且更加稳定 结论为了提高供应商全链路动态特征挖掘的有效性,基于决策树设计的供应商全链路动态特征挖掘算法通过数据预处理,从根本上降低了挖掘结果的汉明损失和错误率 利用决策树算法划分数据类别,通过改进 值和 神经网络准确挖掘其动态特征 该算法对动态特征的精确挖掘有助于降低供应商全链路的风险系数参考文献():刘颖 供应链金融大数据分布特征的分析与洞见 计算机科学,():(第 期张世良,等:基于决策树的供应商全链路动态特征挖掘算法 ,():)张思敏,宋海清 基于拉丁超方抽样的全渠道供应链网络优化 系统工程理论与实践,():(,():)王妍,李俊,曾辉,等 一种基于互信息的实时特征提

21、取算法 小型微型计算机系统,():(,():)张丽,马静 一种基于“特征降维”文本复杂网络的特征提取方法 情报科学,():(,“”,():)齐志鑫,王宏志,周雄,等 劣质数据上代价敏感决策树的建立 软件学报,():(,():)戴永辉,魏农建,袁莹,等 基于广义生态群落的跨境电商软性供应链仿真分析 上海大学学报(社会科学版),():(,(),():)高圣乔,刘新亮,高彦平 基于区块链的食品供应链数据双链存储优化模型 食品与机械,():(,():)戚学軻 针对流特征的动态特征选择算法研究 南京:南京理工大学,(:,)尹儒,门昌骞,王文剑 一种模型决策森林算法 计算机科学与探索,():(,():)张宇献,陈向文,钱小毅 基于双链量子遗传优化的分类规则挖掘算法 沈阳工业大学学报,():(,():)张旭,周新志,赵成萍,等 基于犹豫模糊决策树的非均衡数据分类 计算机工程,():(,():)李春生,焦海涛,刘澎,等 基于 决策树分类算法的改进与应用 计算机技术与发展,():(,():)焦亚男,马杰 一种改进的 决策树剪枝算法 河北工业大学学报,():(,():)王鑫,陈建凯,翟俊海 区间值属性单调决策树算法的扩展 计算机工程与科学,():(,():)(责任编辑:钟媛英文审校:尹淑英)沈阳工业大学学报第 卷

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服