基于异常值检测矩阵分解的服务质量预测.pdf

资源描述

1、基于异常值检测矩阵分解的服务质量预测张园园，朵琳*，韦贵香(昆明理工大学信息工程与自动化学院，云南昆明650500)摘要：基于 QoS 感知的 Web 服务推荐是帮助用户找到高质量服务的解决方案之一.为了准确预测候选服务的 QoS 值，通常需要收集用户的历史 QoS 数据.然而，现有的方法大多忽略了历史数据中的异常值会导致预测准确度降低.为了解决这一问题，提出一种基于异常值检测矩阵分解的服务质量预测方法.首先，使用基于 K-means 的隔离森林算法先对历史 QoS 数据进行聚类，将历史数据中的异常值剔除；然后，将其用于改进的矩阵分解模型中对未知值进行预测；最后，利用柯西损失来评估观察值与预测

2、值之间的差异.实验采用WSDream 数据集进行测试，结果表明，提出的异常值检测模型的响应时间的 MAE 与 RMSE 指标平均提高了19.11%和 39.59%，吞吐量的 MAE 与 RMSE 指标平均提高了 9.82%和 29.89%，证明所提模型有效改进了预测准确度.关键词：K-means 聚类；异常值检测；矩阵分解；柯西损失；服务质量中图分类号：TP311文献标志码：A文章编号：02587971(2024)02025510Web 服务是面向服务的架构、云计算和物联网等技术的关键组成部分.近年来，互联网上 Web服务数量急剧增加，因此在许多具有几乎相同功能的Web 服务中选择最优的 We

3、b 服务是用户面临的挑战之一1.一般来说，服务质量（qualityofser-vice，QoS）包括响应时间、吞吐量等参数，是评价服务推荐性能的重要非功能性指标2.QoS 可以区分具有相同功能的不同 Web 服务，并且可以在一定方面反映 Web 服务的质量信息.因此可以根据用户的QoS偏好和候选Web服务的 QoS 值选择最合适的服务3.近年来，针对基于QoS的个性化服务推荐的研究越来越受到关注.研究者针对服务质量预测提出了许多种方法.其中，协同过滤（collaborativefiltering，CF）技术4是使用最广泛的方法之一.协同过滤根据其实现原理可分为两类：基于内存（或邻域）的方法和基

4、于模型的方法.基于邻域的 QoS预测算法5的关键步骤是计算用户（或服务）之间的相似度，然后根据相似用户（或服务）提供的历史 QoS 值预测未知的 QoS.基于模型的 QoS 预测算法6需要基于训练数据和机器学习算法构建一个有能力的模型，整合来自相关用户的历史数据预测目标服务的质量.基于模型的 QoS 预测算法主要有矩阵分解（matrixfactorization，MF）7-8等技术，近年来基于矩阵分解的方法广泛应用于 QoS 预测领域.Zhang 等9通过将原始矩阵分解与集成的用户聚类正则化项相结合，设计了一种个性化推荐方法.它通过统计用户在不同标签上的行为将用户划分为不同的聚类，并将该约束作

5、为矩阵分解模型中的正则化项，以提高其预测精度.Yu 等10提出了带有偏差项的矩阵分解合并地理位置信息，利用潜在因素模型预测未知的 QoS 值，从而获得高质量的服务推荐.Zhu 等11通过数据转换、在线学习和自适应权重等新技术扩展了传统的矩阵分解模型.Ryu 等12提出了一种使用偏好传播方法的基于位置的矩阵分解，它将调用相似性和邻域相似性整合到偏好传播过程中以应对数据稀缺性.尽管矩阵分解方法在预测精度方面做出了一些改进，但很少考虑数据中的异常值的影响.为了提高预测的准确性并缓解数据稀疏和冷收稿日期：2022-10-11；接受日期：2023-03-29；网络出版日期：2023-05-04基金项目：

6、国家自然科学基金（61962032）；云南省科技厅优秀青年项目（202001AW07000）.作者简介：张园园（1996），女，河南人，硕士生，主要研究智能信息处理和 Web 服务推荐.E-mail：.*通信作者：朵琳（1974），女，云南人，副教授，主要研究智能信息处理和下一代网络.E-mail：.云南大学学报（自然科学版），2024,46（2）:255264JournalofYunnanUniversity:NaturalSciencesEditionDOI:10.7540/j.ynu.20220532启动问题，一些研究将这些方法与用户或服务的上下文信息结合起来.该信息包括用户或服务的位置

7、以及服务的调用时间等.Tang 等13通过将协同过滤与用户的地理数据集成，解决了QoS感知服务推荐中的稀疏性问题.Lee 等14通过同一位置区域的用户采用偏好传播提高预测精度.方法通过位置信息将用户和服务聚类到不同的组，然后使用偏好传播分别计算不同用户和服务之间的相似性，最后，引入矩阵分解模型以通过整合这些约束预测缺失的QoS值.Hu 等15提出了一种同时考虑QoS属性的时间动态和服务用户的个性化因素的QoS预测方法.该方法将 CF 方法与改进的时间序列方法无缝结合，并使用卡尔曼滤波器弥补 ARIMA 模型的不足.然而，在基于 CF 的算法中，用户的 QoS 值是由其他用户提供的历史 QoS

8、值决定的16.因此，如果历史 QoS 数据中一部分数据出现异常，那么预测性能将会受到很大影响.考虑到这一因素，许多研究者提出了消除不可靠数据或减少其对 QoS预测影响的方法.Qiu等17提出一种利用用户的信誉增强 MF 的方法.Hashemi 等18提供了一个通用的信任模型减少不可靠的用户数据对 QoS 预测的影响.这些方法都致力于解决用户信誉对 QoS 预测的准确性问题，然而在对异常值的处理方面有所欠缺.为此，本文针对历史 QoS 数据中存在的异常值降低预测准确度的问题，受文献 19 的启发，提出一种基于异常值检测矩阵分解的服务质量预测方法（matrixfactorizationbasedo

9、noutlierdetection，ODMF）.将历史 QoS 数据中的偏离正常范围很远的值称为异常值，采用考虑历史数据中存在的异常值将会造成预测准确度降低的思想，检测并去除其异常的 QoS 值，然后将其输入改进的矩阵分解模型中，为了使测量结果具有更好的鲁棒性，使用柯西损失评估观察值与预测值之间的差异.在公共数据集 WSDream 上进行多次实验，结果表明，本文提出的方法在 QoS 预测准确度上有明显的提高.1异常值检测矩阵分解框架该模型主要分为两部分，首先利用 K-means 聚类算法检测历史 QoS 数据中正常范围的值，通过异常值检测算法，即隔离森林（isolationforest）算法去

10、除偏离正常范围的值；然后在矩阵分解模型中添加柯西损失，对预测值与观察值之间的差异进行预测评估.理论上，柯西损失允许近一半的观察结果超出正常范围，而在实际数据集中不太可能有近一半的观察结果超出正常范围，因此在进行观察值与预测值之间差异的评估上具有一定的鲁棒性，并能够提供更好的预测结果.1.1异常值检测用户的 QoS值是由其他用户贡献的 QoS值决定的，因此考虑这些值的可靠性是非常重要的.在用户服务评分系统中，一些用户可能出于某种原因提供错误的评分，一些用户也可能会提供随机值.另外，用户观察到的 QoS 值很大程度上也会依赖于网络延迟、服务器过载等调用环境，这可能导致部分 QoS 值偏离正常范围值

11、很远，因而在数据库中可能存在各种不正确的数据，这些数据远离聚类中心，因此被视为异常20.故而在这些系统中，区分历史 QoS 数据是否是异常值对提高预测精度非常重要.识别历史 QoS 数据中是否存在异常值的一种方法是利用隔离森林算法检测，隔离森林算法由Liu 等21提出，首先使用无监督学习方法检测异常数据点，然后可以将其从训练数据中删除，在移除异常值的数据集上重新训练模型通常会提高性能.使用隔离森林算法为每个数据计算异常值，分数取值在 0,1 范围内，值越大表示异常值的可能性越大.K-means 聚类算法由 MacQueen22首次提出，是一种常用的聚类分析方法，K-means 聚类过程旨在找到

12、聚类中心 k 并为每个数据点分配类标签，即=(m1,m2,mk).(1)mi并使每一个数据点 x 和与其最近的聚类中心的距离平方和最小.minGIndck1xilkximk2，(2)xiG=G1,G2,GnTRnclkk 1,2,cmk式中：是第 i 个数据点，是类别指标矩阵，是类样本的集合，是第 k 类的中心.基于 K-means 的隔离森林算法的一个重要优势在于无需归一化的直观异常分数计算过程便可以清楚地显示数据集中的哪些记录被认为是异常值或异常.对比经典的隔离森林算法来说，它可以更好地分析包含错误值的历史 QoS 数据.计算异常分数值如下：c(R)=2H(R1)2R1R，(3)

13、256云南大学学报（自然科学版）http:/第46卷s(x)=2c(R)E(t,M,p)，(4)H()H(R1)=ln(R1)+0.577 215 664 9E()c(R)式中：R 表示整个数据集中的记录，是一个函数，表示样本x 遍历的所有 I-Tree 的平均值，表示不成功搜索过程的平均路径长度，t 表示决策树的数量，M表示在搜索过程中完成的二分分裂的总数，p 表示最终节点的基数.如果某些记录的分值接近 1，则很可能是异常值，如果分值远小于 0.5，则可以认为是正常值.Q=qij RmnU RmdS RnlX USTqijUSl(l min(m,n)X1.2矩阵分解（MF）MF 是一种

14、基于模型的方法，通过采用机器学习技术预测矩阵的缺失值.在该方法中，MF 将给定的矩阵分解为几个低秩因子矩阵的乘积.在 Web 服务 QoS 预测的背景下，基于 MF 的方法的基本框架是将矩阵分解为两个低秩因子矩阵和，即，T 为转置.其中，m 是用户数，n 是服务数，表示用户 i 观察到的服务 j 的某个 QoS 属性的值.的每一行表示用户的潜在特征，的每一行表示服务的潜在特征，潜在特征的维数由参数控制.为了能够高精度地预测矩阵的未知值，表示预测误差的公式为：e=12mi=1nj=1Iij(qijUTiSj)2，(5)Iij式中：是一个指示符函数，表示用户 i 在矩阵中观察到的服务 j 上的 Q

15、oS 值是否丢失，为了防止过拟合，加入两个正则化项，表示为：(U,S)=12mi=1nj=1Iij(qijUTiSj)2+u2U2F+s2S2F，(6)2Fus式中：是矩阵的Frobenius范数，和表示正则化系数.1.3服务质量预测为了获得更稳健的预测结果，本文选择柯西损失构建目标函数.目标函数导出为：(U,S)=12mi=1nj=1Iijln(1+(qijUTiSj)22)+12uU22+12sS22,(7)UiSjUu式中：和分别表示的第 i 行和 S 的第 j 行，s和表示正则项系数，是一个常数.UiSj为了获得式（7）目标函数的局部最小值，采用梯度下降算法.该算法迭代地找到目标函数的

16、局部最小值.为此，在每次迭代中，目标函数的梯度都应该根据和计算，更新规则如下：Ui UiUi,(8)Sj SjSj,(9)US式中：表示学习率.当找到函数的最小值时，将使用和的值预测训练矩阵的未知值.2实验结果与分析2.1数据集本文在由 Zheng 等23收集的包含调用 5825 个 Web 服务的 339 个用户的 QoS 信息的公共真实世界 Web 服务 QoS 数据集 WSDream 上进行实验.该数据集包括 Web 服务的响应时间（responsetime,RT）和吞吐量（throughput,TP）记录.用户响应时间的范围是020s，吞吐量的范围是01000kb/s.2.2实验环境

17、本实验程序在基于x64的处理器的 Windows10 系统，11thGenIntel(R)Core(TM)i5-11320H3.20GHz，16.0GiB 内存，Pycharm2018，Python3.8 环境下运行.实验中基于深度学习的模型均由 NVIDIAGeForceGTX10504.0GiB、基于Python 的 TensorFlow 包、I7-7700HQ、16.0GiB 内存环境下进行训练.2.3评价指标本文中采用平均绝对误差（meanabsolute error，MAE）和均方根误差（root meansquareerror，RMSE）衡量预测性能.MAE 不仅根据等待

18、预测的值的数量确定平均差异，还计算真实值与预测值之间的绝对差异.RMSE 对异常值非常敏感，并赋予它们相对较高的权重.因此，采用 MAE和 RMSE 评估 ODMF 的 QoS 预测性能.直观地说，MAE 和 RMSE 的值越小，ODMF 模型对 QoS 预测的准确度就越高.MAE计算如下：EMA=?QQ?N,(10)RMSE 计算如下：ERMS=(QQ)2N,(11)第46卷张园园等：基于异常值检测矩阵分解的服务质量预测257Q式中：Q 表示实际的 QoS 值，表示 QoS 的预测值，N 表示预测的 QoS 值的数.2.4基线模型为了验证所提模型的效果，本实验在预测方法上选择了 7 种先进模

19、型作为本文方法的基线模型.（1）通过协同过滤实现 Web 服务的个性化 QoS预测(UPCC)24：通过 PCC 计算不同用户之间的相似性，利用相似用户的历史调用经验预测未知的QoS 值.（2）基于项目的协同过滤推荐算法(IPCC)25：通过挖掘服务之间的相似性预测QoS 缺失值.（3）通过协同过滤提供支持 QoS 的 Web 服务推荐(UIPCC)23：结合 UPCC 和 IPCC 中分别采用的相似用户和相似 Web 服务进行 QoS 预测的一种混合协同过滤方法.（4）概率矩阵分解方法(PMF)26：一种基于模型的方法，使用概率 MF 预测 Web 服务的 QoS 值.（5）使用潜在因素模型

20、对 Web 服务进行个性化 QoS 预测(BiasedMF)10：一种使用偏置项量化位置影响的矩阵分解方法.（6）基于上下文相关矩阵分解的协作 QoS 预测(CSMF)27：一种利用了用户到服务和环境到环境的交互的上下文敏感的矩阵分解模型.（7）基于上下文的深度神经模型的多属性QoS 预测(DNM)28：一种用于多QoS属性预测的最先进的深度学习模型.2.5结果与讨论在实验中，矩阵密度定义为原始 QoS 数据集的密度.由于实际观察到的 QoS 矩阵通常非常稀疏，实验研究了不同矩阵密度对本文所提方法的预测精度的影响，将 QoS 矩阵密度从2.5%增加到 10%，步长为 2.5%.DoT=2.5%

21、表示随机取 2.5%的数据作为训练集，其余的作为测试集研究预测性能.由于训练矩阵的数据是随机选择的，为了得到可靠的结果，实验运行了 10 次，并将获得结果的平均值作为该方法的最终结果.对 8 种方法的响应时间和吞吐量的实验比较结果分别显示在表 1、2 中.从表 1、2 中结果显示，所提出的模型与最好的基线模型相比，响应时间矩阵上的 MAE 与RMSE 指标平均提高了 19.11%与 39.59%，在吞吐量矩阵上的 MAE 与 RMSE 指标平均提高了 9.82%和 29.89%.为了突出说明异常值检测的有效性，本文分别做了未去除异常值（ODMF-outliers，ODMF-ol）和去除异常值（

22、ODMF-removed，ODMF-re）两种实验对比.为了公平地与基线模型进行比较，选择了基线模型中表现最好的 DNM 做了异常值检测的实验对比，其中，表中 DNM-re 表示去除异常值后的实验结果.表 1、2 的实验结果表明本文模型 ODMF 不仅与其他 7 种模型相比实现了更好的 QoS 预测准确度，而且验证了去除异常值对实验结果的有效性.如表 1、2 所示，与保留异常值的实验数据相比，去除异常值的实验在预测精度上表现出更好的效果.且 ODMF-ol和 ODMF-re 的 MAE 值和 RMSE值都受 QoS 矩阵密度的影响，当 QoS 矩阵密度变大时，ODMF-ol 和 ODMF-re

23、的响应时间和吞吐量表1ODMF 与其他方法在响应时间上的比较Tab.1ComparisonofODMFandothermethodsonresponsetime方法DoT=2.5%DoT=5%DoT=7.5%DoT=10%MAERMSEMAERMSEMAERMSEMAERMSEUPCC0.9171.9730.6581.5710.5941.4690.5551.359IPCC0.8922.2410.8942.2670.6901.8340.5631.644UIPCC0.7781.9970.7391.8660.6741.6890.6041.596PMF0.7131.8440.5691.5370.51

24、51.3980.4851.318BiasMF0.6891.5430.5901.3850.5331.3040.5021.253CSMF0.5471.4720.4811.3270.4641.2850.4391.230DNM0.5021.4700.4291.3670.3751.3780.3671.288DNM-re0.4891.4780.4171.4040.3661.3720.3601.256ODMF-ol0.4411.2160.3861.1060.3510.9890.3290.844ODMF-re0.3840.9090.3590.8440.3000.8070.3060.766258云南大学学报（自

25、然科学版）http:/第46卷的 MAE 和 RMSE 的值都呈现下降趋势，意味着其预测精度逐渐提高.随着矩阵密度的降低，8 种方法的 QoS 预测精度都逐渐降低，这是因为与低密度的用户服务矩阵相比，高密度的矩阵意味着相应的训练集包含更多有用的信息、更多可用的数据和更多可以提取的潜在特征，说明当收集到 QoS数据更多时，可以实现更高的预测精度.与UPCC、IPCC 和 UIPCC 相比，ODMF 实现了更好的预测精度，这是因为 ODMF 使用矩阵中的所有可用信息进行预测，而基于邻居的方法仅使用相似邻居（用户或服务）的信息进行预测.与PMF 相比，ODMF 在不同的矩阵密度下都提供了更好的预测精

26、度.这是因为 ODMF 在预测模型中考虑了数据的异常情况，可以减少不可靠用户的影响，而 PMF 只使用原始用户服务矩阵，预测的准确性会受到异常值数据的影响.与 PMF 相比，BiasMF 与 CSMF 在响应时间矩阵上表现更好.这是因为挖掘到的潜在因素越多，预测准确度越高.随着矩阵密度的增加，其他模型的 RMSE 值下降迅速，基于深度神经网络的方法 DNM 的 RMSE 值下降得慢些，但它在 MAE 方面比非深度学习模型表现更好.而本文所提的 ODMF 模型在两个指标上都优于 DNM.因此，对于不同矩阵密度的响应时间与吞吐量，ODMF 模型的 MAE 和 RMSE 值都比其他方法低，这表明本文

27、所提方法比现有方法具有更高的准确性，并验证了本文所提方法的有效性.2.5.1 去除异常值百分比的影响为了更加直观地观察历史 QoS 数据中的异常值对预测结果的影响，实验设置去除异常值百分比为 1%、10%和20%3 种不同的情况，分别比较矩阵密度为 0.05、0.1、0.15 和 0.2 的 MAE 和 RMSE 结果.比较结果如图 14 所示.如图 1 所示，当矩阵密度一定时，去除异常值百分比增大，其相应时间矩阵上的MAE 值减小，说明其预测准确度增大.如图 2 所示，当去除异常值百分比为 1%时，其响应时间矩阵上的 RMSE 值随矩阵密度的变化较明显，响应时间矩阵的 RMSE 值总体随着去

28、除异常值百分比的增加而减小.在吞吐量矩阵上观察去除异常值百分比变化时，相比较图 3 的 MAE 值的平稳变化，图 4 中在同一矩阵密度条件下，其 RMSE 值的变化表现的更为明显.综上，当去除异常值百分比为20%时，图1去除异常值百分比在响应时间上的 MAE 比较Fig.1MAEcomparisonofpercentageofoutliersremovedinresponsetime表2ODMF 与其他方法在吞吐量上的比较Tab.2ComparisonofODMFandothermethodsonthroughput方法DoT=2.5%DoT=5%DoT=7.5%DoT=10%MAERMSEM

29、AERMSEMAERMSEMAERMSEUPCC45.33593.64828.75871.83825.07764.83323.22061.970IPCC37.917100.21540.718105.62231.61585.64426.07176.922UIPCC36.24196.62234.68486.71930.37877.17026.21772.063PMF24.40972.54519.11658.66116.92052.44715.76148.950BiasMF28.99770.53922.02758.09019.13352.23517.62748.892CSMF20.44658.049

30、17.15949.93315.34745.02914.67843.096DNM20.83966.13016.74657.03314.48050.96113.16546.251DNM-re19.29065.65815.63858.30714.32252.65712.96248.650ODMF-ol18.98342.39616.11340.28814.77338.83313.03137.247ODMF-re17.20740.74414.94738.52413.33237.55412.74335.878第46卷张园园等：基于异常值检测矩阵分解的服务质量预测259QoS 预测评估指标 MAE 和 RM

31、SE 一般最小，此时预测准确度最高，这也表明，数据集中存在的异常数据会降低预测准确度.当矩阵密度较小时，受异常值影响较大，例如当矩阵密度为 0.05 时，随着去除异常值的比例增加，其响应时间的 MAE 和 RMSE明显下降，即预测准确度明显增加，说明当数据集中包含的异常值比例越高，对结果的影响越大.不同异常值比率条件下矩阵密度变密时，ODMF 的MAE 和 RMSE值均明显变小，也可以证明，可用的QoS 值越多，可以提供更多的信息，预测结果越好.因此，在一定范围内去除异常值比率越高，其预测准确率就越高.2.5.2 矩阵密度的影响在实验中，矩阵密度表示训练数据的稀疏性，也表明有多少可用信息来帮助

32、实验进行预测.为了研究矩阵密度的影响，本实验将密度矩阵从 0.05 变化到 0.30，步长为 0.05.结果如图所示.响应时间与吞吐量矩阵的 MAE 和RMSE 都会随着矩阵密度的增加而降低.结合图 58 发现，当训练矩阵的密度在 0.05 到 0.20 之间时，响应时间与吞吐量矩阵 MAE 和 RMSE 都迅速下降，这表明预测结果有很大提高.随着密度的进一步增加，响应时间与吞吐量矩阵的 MAE 和RMSE 开始缓慢下降，曲线趋于平坦.这些比较细节表明，原始数据的稀疏性会对预测精度产生很大影响，随着矩阵密度的增加，模型所获得的信息量就越大，就有更多的信息可用于预测，因此预测精度会增加.如果有更

33、多的附加条目可用，所提出的图2去除异常值百分比在响应时间上的 RMSE 比较Fig.2RMSEcomparisonofpercentageofoutlierremovedinresponsetime图3去除异常值百分比在吞吐量上的 MAE 比较Fig.3MAEcomparisonofpercentageofoutliersremovedinthroughput图4去除异常值百分比在吞吐量上的 RMSE 比较Fig.4RMSEcomparisonofpercentageofoutlierremovedinthroughput图5不同矩阵密度在响应时间上的 MAE 比较Fig.5Compariso

34、nofMAEwithdifferentmatrixdensityinresponsetime图6不同矩阵密度在响应时间上的 RMSE 比较Fig.6ComparisonofRMSEwithdifferentmatrixdensityinresponsetime260云南大学学报（自然科学版）http:/第46卷方法可以获得更好的预测结果.这一观察表明，当原始稀疏矩阵通过收集更多QoS值而变得更密集时，提出的方法可以大大提高预测精度.=12.5.3 参数的影响实验可知，柯西损失中的常数对预测结果也有一定的影响，为了更加清晰直观地观测参数的影响，实验设置改变参数的大小，并将训练比率固定为 0

35、.5，去除异常值比率设置为0.02和0.1.对参数多样化设置进行实验，比较随不同参数变化时其响应时间和吞吐量的 MAE和 RMSE 值.比较结果如图 912 所示，可以看出，本文所提方法对参数很敏感，这是因为参数隐含地决定了在训练阶段哪些数据将被视为异常值.因此，实验中需要选择合适的达到最佳的性能.由图 9 中可以看出，参数为 1 左右时，其 MAE 值在响应时间矩阵上最小，随着参数的增大或减小，MAE 值增大，因此在响应时间矩阵上参数设置为 1 时，其性能表现最好.观察图 10 可以发现，当参数为 1 和 5 时，其响应时间矩阵上的 RMSE 值结果相似，综合考虑选择时，其在响

36、应时间矩阵上性能表现最好.如图 11、12 所示，当参数为5 时，图 11 所示的 MAE 值和图 12 所示的 RMSE值在吞吐量矩阵上都最小，随着参数的增大或减小，其 MAE 和 RMSE 值都增大，因此在吞吐量矩阵上参数设置为 5 时，其性能表现最好.3结论本文针对服务质量预测中存在的历史 QoS 数据异常值导致预测准确度降低的问题，提出了一种图10参数的大小在响应时间上的 RMSE 比较Fig.10Comparison of RMSE values of parameter inresponsetime图11参数的大小在吞吐量上的 MAE 比较Fig.11Comparison

37、of MAE values of parameter inthroughput图7不同矩阵密度在吞吐量上的 MAE 比较Fig.7ComparisonofMAEwithdifferentmatrixdensityinthroughput图8不同矩阵密度在吞吐量上的 RMSE 比较Fig.8ComparisonofRMSEwithdifferentmatrixdensityinthroughput图9参数的大小在响应时间上的 MAE 比较Fig.9ComparisonofMAEvaluesofparameter inresponsetime第46卷张园园等：基于异常值检测矩阵分解的服务质量预测

38、261基于异常值检测矩阵分解模型框架的解决方法.首先将历史 QoS 数据中的异常值利用基于 K-means的隔离森林算法剔除，对比经典的隔离森林算法来说，它可以更好地分析包含错误值的历史 QoS 数据；然后与改进的矩阵分解模型相结合，并利用柯西损失评估预测值与观察值之间的差异，柯西损失在进行观察值与预测值之间差异的评估上具有一定的鲁棒性，并能够提供更好的预测结果，从而得出历史 QoS 数据中存在的异常值会对预测结果产生影响的结论.未来将继续对影响服务质量预测的因素进行研究，例如网络速率、拓扑结构等，并提出解决方案.参考文献：GhafouriSH,HashemiSM,RazzaziMR,etal

39、.Webservicequalityofservicepredictionviaregionalreputa-tion-based matrix factorizationJ.Concurrency andComputation:Practice and Experience,2021,33(17):e6318.DOI:10.1002/cpe.6318.1鲁城华,寇纪淞.基于用户和服务区域信息的个性化web服务质量预测J.管理科学,2020,33(2):63-75.LuCH,KouJS.Personalizedwebservicequalitypre-dictionbasedonuserand

40、serviceareainformationJ.ManagementScience,2020,33(2):63-75.2BekkoucheA,BenslimaneSM,HuchardM,etal.QoS-aware optimal and automated semantic web servicecomposition with users constraintsJ.Service Ori-entedComputingandApplications,2017,11(2):183-201.DOI:10.1007/s11761-017-0205-1.3夏会,高旻,邹淑.时空感知下基于结构相似度的

41、web 服务质量预测J.重庆大学学报,2021,44(1):88-496.DOI:10.11835/j.issn.1005-2909.2021.01.012.XiaH,GaoM,ZouS.Predictionofwebservicequal-itybasedonstructuralsimilarityunderspace-timeper-ceptionJ.Journal of Chongqing University,2021,44(1):88-96.朵琳,杨丙.基于概念格的稀疏数据协同过滤校正自然噪声方法J.吉林大学学报(理学版),2020,58(5):1173-1180.DOI:10.13

42、413/ki.jdxblxb.2019443.Duo L,Yang B.Collaborative filtering correction ofnaturalnoisemethodofsparsedatabasedonconceptlatticeJ.JournalofJilinUniversity(ScienceEdition),2020,58(5):1173-1180.5MnihA,SalakhutdinovRR.Probabilisticmatrixfac-torizationJ.Advancesin Neural Information Pro-cessingSystems,2008,

43、20:1257-1264.6ZhengZ,MaH,LyuMR,etal.Collaborativewebser-viceQoSpredictionvianeighborhoodintegratedmat-rix factorizationJ.IEEE Transactions on ServicesComputing,2012,6(3):289-299.DOI:10.1109/TSC.2011.59.7刘建勋,丁领航,康国胜,等.基于特征深度融合的web 服务 QoS 联合预测J.通信学报,2022,43(7):215-226.LiuJX,DingLH,KangGS,etal.Jointpre

44、dictionofweb service QoS based on feature depth fusionJ.JournalofCommunications,2022,43(7):215-226.8ZhangCX,ZhangZK,YuL,etal.Informationfilter-ingviacollaborativeuserclusteringmodelingJ.Phys-icaA:StatisticalMechanicsanditsApplications,2014,396:195-203.DOI:10.1016/j.physa.2013.11.024.9YuDJ,LiuY,XuYS,

45、etal.PersonalizedQoSpredic-tion for web services using latent factor modelsC/IEEEInternationalConferenceonServicesComputing,Anchorage,AK,USA,2014:107-114.10ZhuJM,HePJ,ZhengZB,etal.OnlineQoSpredic-tionforruntimeserviceadaptationviaadaptivematrixfactorizationJ.IEEETransactionsonParallelandDis-tributed

46、Systems,2017,28(10):2911-2924.DOI:10.1109/TPDS.2017.2700796.11RyuDK,LeeKK,BaikJM.Location-basedwebser-viceQoSpredictionviapreferencepropagationtoad-dresscoldstartproblemJ.IEEETransactionsonSer-vicesComputing,2018,14(3):736-746.DOI:10.1109/TSC.2018.2821686.12TangMD,ZhangTT,LiuJX,etal.Cloudservice13图1

47、2参数的大小在吞吐量上的 RMSE 比较Fig.12Comparison of RMSE values of parameter inthroughput262云南大学学报（自然科学版）http:/第46卷QoSpredictionviaexploitingcollaborativefilteringandlocation-based data smoothingJ.Concurrency andComputation:Practice and Experience,2015,27(18):5826-5839.DOI:10.1002/cpe.3639.LeeKK,ParkJH,BaikJM.

48、Location-basedwebser-viceQoSpredictionviapreferencepropagationforim-provingcoldstartproblemC/2015IEEEInternationalConferenceonWebServices,NewYork,USA,2015:177-184.14HuY,PengQM,HuXH,etal.Webservicerecom-mendationbasedontimeseriesforecastingandcollab-orativefilteringC/2015 IEEE International Confer-en

49、ce on Web Services,New York,USA,2015:233-240.15WuC,QiuWW,ZhengZB,etal.QoSpredictionofweb services based on two-phase k-means clusteringC/2015IEEEInternationalConferenceonWebSer-vices,NewYork,USA,2015:161-168.16QiuWW,ZhengZB,WangXY,etal.Reputation-awareQoSvaluepredictionofwebservicesC/2013IEEEInterna

50、tionalConferenceonServicesComputing,SantaClara,CA,USA,2013:41-48.17HashemiSM,GhafouriSH,HungPCK,etal.AnewmodelfortrustworthywebserviceQoSpredictionJ.Concurrencyand Computation:Practice and Experi-ence,2022,34(6):e6778.DOI:10.1002/cpe.6778.18YeFH,LinZW,ChenC,etal.Outlier-resilientwebservice QoS predi

展开阅读全文