1、Telecom Power Technology 109 Aug.10,2023,Vol.40 No.15 2023 年 8 月 10 日第 40 卷第 15 期通信网络技术DOI:10.19399/ki.tpt.2023.15.035云计算环境下大数据的大规模任务处理研究李德刚,王成威,于 振,李广义,王烁寰(山东省国际信托股份有限公司,山东 济南 250101)摘要:提出一种基于多目标粒子群的算法,以应对云计算环境下大数据的大规模任务处理造成的挑战。通过引入多域虚拟网络映射方法,在多目标指导下优化任务处理过程。基于帕累托支配理论,采用快速非支配选择方法,为虚拟网络映射问题获取一组最佳解。使
2、用拥挤度比较算法计算获得最佳映射方案,以实现负载均衡,同时减少带宽资源的使用,并降低数据传输成本。引入柯西变异操作,提高算法的收敛速度,从而有效应对大规模任务处理。关键词:大数据;云计算;大规模任务处理Research on Large Scale Task Processing of Big Data in Cloud Computing EnvironmentLI Degang,WANG Chengwei,YU Zhen,LI Guangyi,WANG Shuohuan(Shandong International Trust Co.,Ltd.,Jinan 250101,China)Abs
3、tract:Provide an algorithm based on multi-objective particle swarm optimization to address the challenges posed by large-scale task processing of big data in cloud computing environments.By introducing a multi domain virtual network mapping method,the task processing process is optimized under the g
4、uidance of multiple objectives.Based on Pareto dominance theory,a fast non dominated selection method is adopted to obtain a set of optimal solutions for the virtual network mapping problem.Using congestion comparison algorithms,the optimal mapping scheme is calculated to achieve load balancing whil
5、e reducing the use of bandwidth resources and reducing data transmission costs.Introducing Cauchy mutation operation to improve the convergence speed of the algorithm,thus effectively dealing with large-scale task processing.Keywords:big data;cloud computing;large-scale task processing0 引 言随着信息技术的飞速
6、发展和大数据应用的普及,人们进入了信息时代1。大数据的持续增长和多样化的数据类型,给传统的任务处理与数据分析带来了前所未有的挑战。在高度数字化和信息化的时代背景下,云计算作为一种强大的计算和存储平台,成为解决大规模任务处理问题的重要方式2。然而,随着数据规模的急剧扩大,传统的任务处理方法面临着问题日益复杂的情况3。如何高效处理海量的数据任务,是云计算和分布式系统的热门议题。此外,不同领域和资源之间的异构性,以及多个领域之间的数据通信需求,使任务处理和资源优化更加复杂4。在云计算环境中,各个域之间的资源分布和性能差异可能导致任务分配不均和资源利用率低下等问题出现。为有效应对这些挑战,研究者们积极
7、探索任务处理方法,以实现任务的智能分配、资源的高效利用以及整体系统性能的提升。实际应用场景中,大规模任务处理的效率和质量会直接影响系统的性能与用户体验。然而,传统单一领域任务处理方法经常忽视资源的异质性和多领域之间的通信成本,难以满足多样化需求5。随着任务规模的不断膨胀,如何合理分配任务,同时保持每个节点的负载平衡,并减少数据传输成本,变得愈发复杂。为解决这些问题,文章提出一种基于多目标粒子群算法的创新性方法,目的是在大规模任务处理过程中实现任务负载的均衡和域间通信带宽资源成本的最小化。通过融合帕累托支配理论、拥挤度比较法以及柯西变异操作,所提方法在解决任务分配和资源优化方面取得了显著成果,有
8、助于为大数据环境下的多领域任务处理提供指导,推动该领域的进一步发展,以应对日益复杂和庞大的任务处理挑战,同时为云计算在大规模任务处理中的应用提供新的思路和方法。1 系统架构设计文章提出一种基于多域并行计算思想的大规模任务处理方法。每个域内的节点处理速度受计算资源性能和内部调度策略的影响。一方面,传统方法通常将数据处理任务按照某种规则分配到各个域的节点,易导致部分节点负载过重,资源利用不均,产生资源浪费问题6,7。因此,设计一种能够高效合理实现数据中心负载均衡的大规模任务处理方法显得尤为重要8。另一方面,云计算环境下的大规模任务处理由于域间数据传输量大,给固定网络资源带来了巨大收稿日期:2023
9、-06-19作者简介:李德刚(1987),男,山东菏泽人,硕士研究生,工程师,主要研究方向为大数据分析与应用、ETL 数据采集汇聚、目标跟踪探测。2023 年 8 月 10 日第 40 卷第 15 期Aug.10,2023,Vol.40 No.15Telecom Power Technology 110 压力,导致带宽资源成本急剧上升9。多域环境下的大规模任务部署实例如图 1 所示。图 1 多域环境下的大规模任务部署实例针对处理大规模任务面临的挑战,基于云计算环境的大规模任务处理方法能够提供关键性的解决方案。通过创新性地应用多域并行计算思想、帕累托支配理论、拥挤度比较法以及柯西变异操作等,设计
10、了一种高效快速的任务处理方法,可实现数据中心负载均衡和带宽资源成本的优化,有助于提高大数据分析和处理效率,实现长期收益10。大数据环境下基于多域的大规模任务处理方法的逻辑架构如图 2 所示。文章构建基于多域的大规模任务处理方法的系统架构,在大数据环境下实现任务处理的高效性和资源优化。该方法的逻辑架构清晰展现了各个模块之间的紧密协作,确保大规模任务能够得到有效处理。在整个处理流程中,不同模块之间的密切协作是实现任务高效处理的关键。监控器模块通过获取信息,为系统提供重要的输入数据,包括大规模任务请求的资源需求信息、可用物理节点以及链路的资源状态等。这些数据为后续的虚拟网络映射方案奠定了基础。虚拟网
11、络映射控制器模块负责执行虚拟节点映射操作,生成虚拟网络映射方案,并根据实际情况进行调整。部署控制器模块承担了任务部署的重要任务,根据虚拟网络映射方案、节点以及链路资源状态,制定任务部署策略,实现任务的合理分配和节点的负载均衡。这些模块协同作用,使得整个系统能够高效处理大规模任务。通过监控器的信息获取和虚拟网络映射控制器的执行,能够在任务映射过程中保持负载均衡,并最小化带宽资源成本。部署控制器的任务策略进一步优化了任务的部署过程,确保任务能够得到有效执行。通过协同工作,基于多域的大规模任务处理方法实现了大规模任务的高效处理和资源优化。图 2 的系统架构提供了一个直观视角,有助于更好地理解该方法的
12、工作流程和各模块之间的相互关系,对于推动大规模任务处理领域的研究和应用具有积极意义。该方法可以更好地应对大数据环境下任务处理的挑战,提高任务处理的效率和 质量。123图 2 大数据环境下基于多域的大规模任务处理方法的逻辑架构2 实现过程通过将多域结构应用于大规模任务处理领域,构建了一种基于多域协作的系统架构,同时基于帕累托理论方法,在多域协作的背景下优化大规模任务处理流程,为解决大规模任务处理问题提供了更加高效的解决方案。与传统的单目标粒子群算法不同,所提的大规模任务处理方法采用一种全新的初始种群生成策略。一方面,在算法迭代过程中运用帕累托支配理论,可以比较可行解之间的关系,通过使用快速非支配
13、选择方法,可以获得帕累托最优解集,从而获取映射方案的最优解集。另一方面,采用拥挤度比较法,设计了一个选取问题最终唯一解的策略,以确保粒子群的多样性。第一步,设定最大迭代次数为 Max Generation,并初始化每个粒子的位置向量 Popi,同时将每个粒子的速度向量设置为 0。在每次迭代过程中,运用Kruskal 最小生成树算法,从可用物理路径集合中动态选择权重最小的物理路径,评估种群中的每个粒子,计算其适应度值。第二步,求解帕累托最优解集,获得最优的虚拟网络映射方案集合。第三步,引入拥挤度比较法,获得唯一的最优解。拥挤度比较法需要根据欧几里得距离公式,计算围绕每个可行解形成的最小矩形的对角
14、线长度,将其定义 2023 年 8 月 10 日第 40 卷第 15 期 111 Telecom Power TechnologyAug.10,2023,Vol.40 No.15 李德刚,等:云计算环境下大数据的 大规模任务处理研究为变量 Di,作为拥挤度的度量。可行解拥挤程度的计算如图 3 所示,基于可行解所在的最小矩形的对角线长度,可以求得可行解的拥挤度。f2f1Diii+1i-1图 3 可行解拥挤程度的计算第四步,将具有个体极值的历史最优位置向量进行存档。进化过程中,算法会将每个粒子的当前位置向量设置为其个体历史最佳位置向量 pbest,并将每个粒子的当前适应度值设置为其个体极值。第五步
15、,通过循环操作搜索最优解。首先,更新每个粒子的速度,即Veli=w*Veli+r1*(pbesti-Popi)+r2*(pbesti-Popi)(1)式中:w 为惯性权重;Veli 和 Popi 分别为第 i 个粒子的速度向量和位置向量;r1和 r2为学习因子,取值为 0 1;pbesti 为个体历史最优位置向量。其次,引入柯西变异方法,计算种群中第 j 维粒子的平均速度,计算公式为 1jAvgPopScaleiVelVelPopScale=ij(2)式中:Velij为第i个粒子在第j维上的速度,而AvgVelj-AvgVelmax,AvgVelmax,将 AvgVelmax设为 1;PopS
16、cale为粒子种群的大小。最后,对全局最优位置向量 gbest采取变异措施。经过变异后得到可行解 gmutbest,其计算公式为 gmutbestj=gbestj+AvgVeljF(Popmin,Popmax)(3)式中:F 为随机数;Popmin,Popmax 为问题的定义域。通过比较 gmutbest和全局最优位置向量 gbest,选择更优解进行存档更新,然后进行迭代,直至达到最大迭代次数。3 结 论文章提出一种应用于大数据环境下多域大规模任务处理的启发式方法。首先,引入一种创新性方法迅速获取虚拟网络映射方案的最优解集,即算法过程中的帕累托最优解集。通过应用帕累托支配理论,在保持最大映射成
17、功率的前提下,获得一系列高质量的虚拟网络映射方案。其次,设计并采用拥挤度比较法,从帕累托最优解集中选取最终的唯一解,不仅能够确保算法的种群多样性,还能够在保持高质量解的基础上提升算法性能。最后,为避免陷入局部最优,引入柯西变异操作,以增强算法的全局搜索性能,确保能够在迭代过程中发现更优解,从而得到最终的唯一最优解,即最优虚拟网络映射方案。参考文献:1 赵 康.云环境下大规模地理矢量数据存储与并行计算研究 D.武汉:武汉大学,2021.2 孟 飒.大规模云计算系统的可靠性建模及优化研究 D.成都:电子科技大学,2021.3 蒋元义.云计算环境下海量矢量数据的高效存储与并行叠置分析 D.昆明:昆明
18、理工大学,2020.4 吴春毅.云计算下针对大数据的大规模任务处理关键问题研究 D.长春:吉林大学,2019.5 丁 言.云计算下大数据高效处理的若干关键问题研究 D.长春:吉林大学,2018.6 李 程.面向大数据云平台的资源管理系统 D.北京:中国电子科技集团公司电子科学研究 院,2018.7 艾 玮.云计算环境下大规模文本挖掘并行处理技术研究 D.长沙:湖南大学,2017.8 申 超.面向大数据应用的云计算中心性能分析方法 D.上海:上海大学,2017.9 石佩林.云计算数据中心带宽成本优化算法研究 D.北京:北京邮电大学,2017.10 邱曦伟.大规模复杂 IT 系统可靠性、性能、能耗关联建模理论及其优化技术研究 D.成都:电子科技大学,2016.