收藏 分销(赏)

大规模复杂终端网络的云原生强化设计.pdf

上传人:自信****多点 文档编号:917122 上传时间:2024-04-07 格式:PDF 页数:18 大小:2.98MB
下载 相关 举报
大规模复杂终端网络的云原生强化设计.pdf_第1页
第1页 / 共18页
大规模复杂终端网络的云原生强化设计.pdf_第2页
第2页 / 共18页
大规模复杂终端网络的云原生强化设计.pdf_第3页
第3页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 大规模复杂终端网络的云原生强化设计李振华王泓懿李洋林灏杨昕磊(清华大学软件学院北京100084)()Cloud Native Reinforced Design for Large-Scale Complex Terminal NetworksLi Zhenhua,Wang Hongyi,Li Yang,Lin Hao,and Yang Xinlei(School of Software,Tsinghua University,Beijing 100084)AbstractAs the“last mile”of Internet content delivery,terminal netwo

2、rks seem rather simple but in fact constitute99%of the performance bottlenecks.Classic design is usually oriented to typical devices and regular environments,thus making it difficult to accommodate and reproduce diversified scenarios and resulting in severe performancedegradation.By comprehensively

3、gathering and deeply diagnosing the anomalies of large-scale complex terminalnetworks at the cloud,we have revealed several important defects of the classic design for terminal networks in threekey dimensionsavailability,reliability and credibility.In order to fix these defects effectively and effic

4、iently,thecross-layer and cross-technology collaboratively reinforced design methodology is adopted (e.g.,the time-inhomogeneous 4G/5G dual connectivity management method is utilized to minimize the probability of networkdisconnection),so as to fulfill self-regulation mechanism design for ubiquitous

5、 scenarios.The research achievementshave been applied to the high-speed network of the Ministry of Public Security,17 million UUSpeedTest App users,70 million Xiaomi mobile phones,100 million Baidu PhoneGuard users,and 900 million WiFi devices.In recentyears,we have also conducted forward-looking ne

6、twork design based on cloud-hosted emulators to discover and fixpotential defects without real-world user engagement,thus making the design of terminal networks“born in the cloudand grow in the cloud”.The research achievements have been applied to Huawei DevEco Studio IDE(IntegratedDevelopment Envir

7、onment),Tencent App Market,Google Android Emulator,and multiple popular Apps(like Douyinand Toutiao)of ByteDance.Key words terminal network;network measurement;network design;cloud native;network emulation摘要作为互联网数据传输的“最后一公里”,终端网络看似简单却构成 99%的性能瓶颈.经典设计面向典型设备常规环境,难以兼顾多样化场景,导致严重性能落差.通过云端汇聚并深度诊断大规模终端网络异常

8、,在可用、可靠、可信 3 个关键维度揭示经典设计多处重要缺陷,采用跨层跨代的协同强化方法针对性修复(如时变非齐次 4G/5G 双连接管理方法最小化断网概率),实现无场景预设的自调控机制设计.应用于公安部高速网络、1 700 万“测网速”app 用户、七千万小米手机、一亿百度手机卫士用户以及九亿WiFi 设备.近年来进一步开展基于云端模拟器的前瞻网络设计,无需真实用户设备参与即可发现并修复潜在缺陷,让终端网络设计“生于云、长于云”.研究成果应用于华为 DevEco Studio 集成开发环境、腾讯应 收稿日期:2023-09-11;修回日期:2023-10-07基金项目:国 家 重 点 研 发

9、计 划 项 目(2022YFB4500703);国 家 自 然 科 学 基 金 项 目(61902211,62202266);微 软 亚 洲 研 究 院 合 作 研 究 项 目(100336949)This work was supported by the National Key Research and Development Program of China(2022YFB4500703),the National Natural ScienceFoundation of China(61902211,62202266),and the Microsoft Research Asia

10、Collaborative Research Project(100336949).通信作者:李振华()计 算 机 研 究 与 发 展DOI:10.7544/issn1000-1239.202330726Journal of Computer Research and Development61(1):219,2024用市场、谷歌安卓模拟器及字节跳动多款流行应用(如抖音和今日头条).关键词终端网络;网络测量;网络设计;云原生;网络模拟中图法分类号TP391自 1969 年诞生以来,互联网数据传输的基本结构一直由风格迥异的两部分组成:骨干网络和终端网络.前者包含数千万路由中继节点,由专业人员实时

11、维护,通常能保持高速稳定;后者作为数据传输的“最后一公里”,服务于多样化动态接入场景,如ADSL 有线电缆、WiFi 4/5/6 热点和蜂窝 2G/3G/4G/5G,对用户体验的影响最为直接,但由于规模巨大(近千亿节点)并且缺乏专业维护,很容易出现各种问题,看似简单却构成绝大多数(99%以上)数据传输过程的性能瓶颈1-3.长期以来,终端网络设计一直遵循“实验研究原型测试规模部署用户报修”的经典模式.随着现代互联网愈发庞大繁杂、多源异构,经典模式拖沓沉重、弊端重重实验研究与原型测试往往面向典型设备和常规环境,难以复现与兼顾终端复杂性,造成严重性能落差4,带给用户 4 个方面的困惑:1)网速困惑.

12、5G 和 WiFi 6 接入网络都宣称高达10 Gbps 的带宽和低至数毫秒的时延,然而用户实际体验到的却相去甚远5,甚至连我们日常拨打微信语音电话至今都经常卡顿.2)断连困惑.作为国家重点投资、市场热点宣传的 5G 接入网络,虽然峰值带宽很高,但信号覆盖半径小、穿透能力弱、运营成本高(不少 5G 基站夜间会自动关闭),连接中断的概率显著增加.3)安全困惑.用户身边通常遍布蜂窝基站和看似免费的 WiFi 热点,但很多都存在风险,比如央视315 晚会就多次报道犯罪分子利用蜂窝伪基站和WiFi 伪热点实施电信诈骗的猖獗现象.4)代际困惑.5G 手机和流量套餐通常都比 4G 要贵,但与之匹配的应用,

13、如自动驾驶和虚拟现实并不成熟,并且 5G 基站的总体覆盖范围小于 4G,导致很多用户对是否要升级 5G 存在疑惑.更糟糕的是,这些困惑往往长期存在、得不到及时解决,用户怨声载道却又不明就里.形象地说,终端网络设备一旦离开生产厂家,就像一个离家流浪闯荡的孩子,无时无刻不在面对各种未知、异常和风险.为此,本文作者(以下简称“我们”)多年来一直致力于终端网络基础设计模式的反思与革新.我们同终端设备制造商、网络运营商、操作系统和应用软件开发商广泛交流合作,发现想要解决大规模复杂终端网络的性能落差问题“知易而行难”.举一个典型案例,如图 1 所示是安卓 11/12/13 操作系统(分别发布于 2020/

14、2021/2022 年)共用的一段源代码,虽只有 10 行但意义重大,它控制着安卓设备对蜂窝网络的优先连接模式.不难看出,当一台安卓 11/12/13设备附近既有 5G 基站又有 4G 基站时,这段代码的处理方式非常简单:能连 5G 就连 5G,不能才降到 4G,而不考虑具体环境因素,比如信号强度或资源竞争.private int getPreferredNetworkMode()int networkMode=MobileNetworkUtils.getNetworkTypeFromRaf(int)mTelephonyManager.getAllowedNetworkTypesForReas

15、on(TelephonyManager.ALLOWED_NETWORK_TYPES_REASON_USER);if(!showNrList()Log.d(LOG_TAG,Network mode:+networkMode+reduce NR);networkMode=reduceNrToLteNetworkType(networkMode);Log.d(LOG_TAG,getPreferredNetworkMode:+networkMode);return networkMode;缩写 Raf=Radio access family,Nr=New radio=5G(目前阶段)Fig.1Cont

16、roller code for cellular network priority connected mode in Android 11/12/13 operating systems图 1安卓 11/12/13 操作系统对蜂窝网络优先连接模式的控制代码 如果一部安卓 5G 手机当前被很弱的 5G 信号和很强的 4G 信号同时覆盖,常识告诉我们:此时应该选择 4G 连接更为合理,不幸的是,基于图 1 中的代码,安卓会直接选择信号很弱的 5G 连接.更糟糕的是,由于 5G 基站附近的安卓手机通常都会优先连接到它,将导致该 5G 基站网络资源被多部手机激烈竞李振华等:大规模复杂终端网络的云原生

17、强化设计3争,而附近广泛存在的 4G 基站却由于无人问津而长期空闲、浪费充裕的网络资源,我们称这一现象为“饱和饥饿”6:明明服务方的总体资源是充足的,但客户方却得不到或者所得资源太少.更进一步,我们反思安卓操作系统蜂窝网络管理模块的设计者是否知道上述问题?基于常识推断,他(她)很可能是知道的.如果确实知道,那他(她)为什么不改进呢?仔细思考这个看似矛盾的状况,我们发现:即使设计者知道,也很难修改,因为这涉及到动机、平台、资源与知识层面的四道鸿沟:1)动机鸿沟.终端网络的软硬件设计者很多时候并非用户咨询和投诉压力的直接承担者,没有足够强烈的动机来解决问题.典型案例是安卓操作系统中多个网络模块的设

18、计所导致的问题几乎都被投诉到安卓手机制造商.2)平台鸿沟.即使设计者有动机解决性能落差问题,也经常因为缺乏平台支持,无法了解丰富场景下大量终端设备的实际使用情况.没有手机制造商的许可和帮助,即便安卓网络模块的设计者也很难洞悉用户在非预设场景下的真实体验.3)资源鸿沟.假设动机和平台兼备,大规模复杂终端网络的设计者还需要承担十分可观且不确定的后端资源开销来进行长期细致的数据采集和分析.值得注意的是,即便在利益相关的大公司内部,所需后端资源也不容易(充分)审批.4)知识鸿沟.即使动机、平台、资源方面都得到支持,想要妥善解决大规模复杂终端网络的性能落差问题,设计者还需要具备硬件、信号、频谱、网络、用

19、户心理等多维度全栈知识,这通常是最深也最隐蔽的科研鸿沟.针对用户的四重困惑和研发的四道鸿沟,我们多年来一直和终端网络用户投诉压力的直接承担者(如小米手机研发团队、“测网速”App 研发团队以及 WiFi 万能钥匙研发团队)紧密合作,以克服动机鸿沟.同时,这给予我们贴近数亿终端网络设备所处丰富场景的机会,具备细致识别用户真正痛点问题的客观条件,从而克服平台鸿沟.然而,对于剩下的资源鸿沟和知识鸿沟,工业界合作方通常并不能够提供充分的支持.因此,我们的科研工作聚焦于大规模复杂终端网络的低开销测量分析与自调控机制设计.一方面,针对终端网络设备规模性带来的调研成本挑战用户上报网络异常的常规和峰值负载可能

20、相差上万倍,利用服务器无感知的云原生基础设施,毫秒级精细取用云端资源,最小化测量分析开销,在可用、可靠、可信 3 个关键维度揭示终端网络经典设计的多处重要缺陷.具体来说,面对数量可观而时空不确定的终端网络异常数据,利用云原生的微服务核心技术以及轻量级容器/沙盒载体,能够细粒度按需灵活部署及快速回收后端资源,避免传统云计算平台中频繁发生的、由于虚拟机服务器绝大部分时间“空转”所导致的资源浪费.在云端为终端网络营造一个牢固而集约的家,让终端设备一个都不掉队.另一方面,针对终端网络场景复杂性带来的定制优化挑战非典型场景和非主流用户普适存在,采用跨层跨代的协同强化方法,整合多层次各方面知识,实现无场景

21、预设的自调控机制设计.尤其要避免经典设计和理论文献中看似合理的“震荡型”片面设计(牺牲较为隐蔽的“长尾”用户性能,成全更为显著的典型用户性能),网络整体性能提升的同时,不损害非主流长尾用户的局部性能.研究成果应用于公安部高速网络、三百万小米移动(虚拟运营商)用户、1 700 万友声科技“测网速”App 用户、七千万小米手机、一亿百度手机卫士用户以及九亿 WiFi 终端设备.1主要研究内容和创新点如图 2 所示,我们的研究立足终端网络的 3 个关 模糊拒绝采样应用效果亚秒网速测量核心思想云原生+可用可靠可信缓慢昂贵展示迟钝强化设计受限随机短暂表面被动等待市场垄断累积反馈调度快速网页加载时变马尔可

22、夫最短断网时间移动虚拟运营生态优化净化多源关联审查普适识别定位跨层诱捕检测溯源黑产链条研究维度设计缺陷关键技术跨层跨代协同工业系统高速传输稳定连通持久安全Fig.2Cloud native reinforced design for large-scale complex terminal networks:main research contents and innovations图 2大规模复杂终端网络的云原生强化设计:主要研究内容和创新点4计算机研究与发展2024,61(1)键维度:可用(高速传输)、可靠(稳定连通)和可信(持久安全),揭示经典设计的多处重要设计缺陷:1)可用性方面,终端

23、网络测速过程缓慢昂贵,网页展示过程迟钝拖沓;2)可靠性方面,断网修复机制被动等待、无法及时连通,网络运营市场长期垄断、阻碍技术创新;3)可信性方面,危险网络接入点的检测方式受限随机、检测结果很不理想,并且即使检测成功、防御或反击策略的效果也往往短暂而表面.针对这 3 个缺陷,我们面向大规模复杂终端网络,运用云原生强化设计的核心思想,结合(全协议栈)跨层跨代协同强化的关键理念,从广大用户体验痛点出发,以点带面渐进修复设计缺陷,最终突破网络整体性能边界,并在多个代表性工业系统中部署应用.研究创新性主要体现在 3 个方面:1)软硬件及人类行为因素的综合考量.不同于一般的强化学习过程,终端网络的设计不

24、是一个简单抽象的数学模型(往往很难以公式来形式化),涉及复杂的软硬件及人类行为因素,很多时候还要考虑工业界接受程度和对互联网整体生态系统的影响,因此需要大规模用户配合众包测量、大数据关联分析以及网络跨层协同设计.2)云原生微服务技术的双重有效支撑.大规模复杂终端网络的测量分析往往涉及数量可观而时空不确定的后端存储和计算资源开销,作为云原生的核心技术,微服务构建于轻量级容器或沙盒之上,如果设计合理、部署得当能够精细粒度按需灵活部署及快速回收,从而大幅度降低调研成本;同时,通过服务器无感知的开发模式,有效降低网络研究者利用云计算技术的知识门槛7.3)面向长尾用户体验的普适性能改进.终端网络的经典设

25、计面向主体用户、主流环境,其优化升级通常能够提升网络主体性能,但同时不可避免地损害部分用户局部性能,这种“牺牲小我、成全大我”的方式对现代互联网产业而言并不可取.与此相反,我们的研究注重细致周全的终端网络设计,从长尾用户的体验痛点出发,以点带面,最终促成网络整体的完善和进化.基于上述云原生强化设计新模式,我们对多个大规模复杂终端网络工业系统开展全面测量、深度分析和谨慎改造.在可用、可靠、可信 3 个关键维度所研发的 6 项代表性关键技术及其应用效果简介如下:1)提出模糊拒绝采样理论,首次实现亚秒级网速测量.网络带宽(即网速)的准确测量是保障诸多网络应用服务质量的重要前提,而影响准确性的关键因素

26、是信道噪音.主流工业系统(如 Ookla Speedtest和 Google FAST)所采用的经典测速技术致力于从时间或空间角度减少噪音,导致测量过程缓慢拖沓、流量开销高昂.我们采取迥异于前人的解决思路:不再从时空角度减少噪音,而是从统计分析角度利用噪音.基于计算几何学和离散控制论研发“模糊拒绝采样”双向强化测速技术,同时达成快速、轻量、准确这 3 个传统意义上看似矛盾的目标8-9.此外,自适应部署和回收跨运营商的(瞬时)容器和(长时)虚拟机作为测试服务器,将平均测速时间降到 1 s 以内,即“亚秒级”5,同时将平均测速开销(主要是网络流量)降低为原来的 1/10.该技术成果应用于公安部第三

27、研究所高速网络以及拥有 1 700 万移动终端用户的友声科技“测网速”App.2)设计累积反馈调度算法,提升网页可视内容加载速度.绝大部分互联网流量以 Web 网页形式传输和展现,但经典网页加载方式并不契合实际用户体验,往往加载很多资源而页面并无(关键)可视内容,浪费网络流量和用户时间.我们将可视化速度指标(speed index)融合进网页加载过程,创新设计“累积反馈调度”算法10,通过云端(微)服务器和客户端浏览器的协同交互,以渐进反馈方式应对网络状态、浏览器执行以及视窗大小在加载过程中的不确定性,不断累积优化网络资源的调度下载顺序,使得可视内容的展现速度提高 40%以上,而给服务器端带来

28、的计算开销少于 5%.该技术成果部分应用于“测网速”App 的网页加载过程.3)构建时变非齐次连接管理模型,最优化蜂窝网络故障的诊断和修复时机.从 2G 到 5G,蜂窝网速越来越高、服务密度越来越高、时延越来越低,然而手机异常断网的发生概率却越来越大.我们同小米手机操作系统(MIUI)团队合作定制安卓操作系统,连续 8 个月跟踪测量 34 个型号共计 7 000 万部小米手机的异常断网故障,总共收集到 20 亿条故障事件日志.通过服务器无感知的日志存储和分析,发现安卓蜂窝通信模块多处不为人知的重要设计缺陷,是导致手机异常断网的主要根源.从而构建基于“时变非齐次马尔可夫过程”的连接管理模型,在统

29、计意义上最优化蜂窝网络故障的诊断和修复时机,将所有手机断网时长缩短 36%、5G 手机断网次数减少 40%.对应论文11获得 ACM SIGCOMM 2021 会议唯一最佳学生论文奖,这也是亚洲科研院校历史上首次获颁该奖项.李振华等:大规模复杂终端网络的云原生强化设计54)运用人工智能结合统计建模方法,优化与净化移动虚拟运营生态系统.受电信资源充分利用和激发良性市场竞争的双重驱动,移动虚拟运营商(简称“移动虚商”)近年来迅速流行,为用户提供灵活优惠的入网服务.另一方面,移动虚商的发展也面临多重挑战,比如网络性能歧视、套餐转售利润微薄、计费不准确以及诈骗电话多等问题.我们同拥有 300 万用户的

30、移动虚商“小米移动”合作,基于较低的预算为移动用户建立云原生月度时序数据库,运用微观人工智能结合宏观统计建模的方法,解决移动虚商所面临的一系列挑战问题12-13.尤其是融合多种数据清洗和机器学习算法,准确预测用户网络流量、离网概率和风险系数14,帮助小米移动提高运营利润 60%、降低用户流失 61%、减少诈骗电话 94%.5)通过多源数据关联审查,普适识别和准确定位伪基站.移动运营商部署合法基站的同时,不法分子也部署了大量非法伪基站,使用极高信号强度诱使移动设备错误连接,趁机发送垃圾或诈骗短信.我们同百度手机卫士团队合作研发“伪基站雷达”系统15,云端收集并关联分析来自上亿手机的非隐私多维数据

31、,平均每天识别过滤数百万条伪基站短信,定位伪基站的中值误差低至 11 m,该精度已足够支持执法机构实时跟踪伪基站的装载车辆.伪基站雷达系统一直工作、维护和优化至今,其识别和定位结果为公安部持续提供关键信息,帮助公安干警每月抓捕伪基站犯罪人员数十名、收缴伪基站设备数百台.6)设计主被动结合的跨层诱捕方法,准确识别并自动溯源 WiFi 网络攻击.WiFi 热点(即 WiFi 路由器)承载移动互联网大部分终端流量,不可避免地成为各种安全威胁的攻击目标.为全面了解全国范围的 WiFi 安全威胁,我们与拥有 9 亿用户的“WiFi 万能钥匙”App 团队合作搭建 WiFi 安全检测系统16.云端定制弹性

32、 IP 地址及合成网页内容,以个性化微服务方式对 1 900 万 WiFi 热点实施攻击行为诱捕与主被动跨层检测,从而宏观把握 WiFi 安全威胁的普遍性(至少 4%的 WiFi 热点存在安全威胁)、风险性和技术特征.最重要地,我们首次揭示 WiFi 攻击背后的地下黑色广告产业,并发现第三方 Web 分析平台(通常合法运营但并不知情)是其盈利链条的关键环节.据此向国内主要 Web 分析平台检举报告,使得基于WiFi 的广告攻击减少接近一半.2终端网络可用性测量与改进用户对终端网络的第一诉求是可用(usability),能够以应用所需要的速度接收来自互联网的数据包,并且能够看到这些数据包的直观效

33、果.就接收速度而言,可用性要求数据的高速传输,通常称为“高网速”或者“高带宽”.同等带宽前提下,不同的数据传输方式,如先传谁、后传谁、怎么传则会产生不同的直观效果,这突出地表现在 Web 网页的展示上,而Web 网页是今天绝大多数移动应用的呈现形态.2.1网络带宽的快速测量理论、技术及应用网络带宽的准确测量是保障诸多网络应用服务,如微信语音、视频直播和在线会议质量的重要前提17-18.网络带宽观测数据经常被政府报告、商业新闻和运营商广告所引用,直接或间接地影响网络用户的选择和决策19.实际上,在新冠疫情期间,网络带宽测量(简称“测网速”)一度成为家庭网络最热门的服务,因为居家办公的网民非常关心

34、其带宽情况20.因此,移动虚拟运营商用户对带宽也十分重视,他们很担心被实体运营商区别对待而导致服务质量降级.此外,移动网络的兴盛使得带宽随环境而剧烈变化,因而测网速服务的需求频率大幅度提升21-22.安卓 11 操作系统甚至专门提供 API 帮助 5G 应用粗略评估网络带宽.影响带宽测量准确性的关键因素是信道噪音,它来源于拥塞控制和信道共享等诸多因素.长期以来,主流工业系统(如 Ookla Speedtest、Google FAST和友声科技“测网速”App)所采用的带宽测量技术均致力于从时间或空间的角度来降低信道噪音的影响,要么像 Google FAST 那样延长测量时间直到噪音变得很弱,要

35、么像 Ookla Speedtest 那样使用空间邻近的测量服务器(全球范围已经分布式部署 16 000 多台服务器,几乎能给任何一个测速终端分配一台)以直接避免绝大多数噪音.前者使测量过程缓慢拖沓,后者使测量系统成本高昂,并且这些缺点伴随高速无线网(如 5G 和 WiFi 6E)的普及而急剧恶化.如果一台 5G 手机当前下行带宽约 1 Gbps,那么使用 Speedtest测速一次就需要持续 15 s、消耗 1.4 GB 左右的蜂窝流量前者尚可忍耐,后者极难接受,因为 1.4 GB蜂窝流量一般需要花费好几块钱!针对这一领域瓶颈问题,我们采取迥异于前人的解决思路:不再从时间或空间的角度降低或避

36、免6计算机研究与发展2024,61(1)噪音,而是从统计分析的角度容纳和利用噪音.该创新思路来自一个关键发现:虽然噪音经常导致带宽瞬时采样的显著波动,却几乎从不影响带宽关键区间的存在和位置.如图 3 所示,在测速过程的任一时刻,带宽的关键区间都包含数量众多的采样点,并且这些采样点密集地聚拢在一起(Vx和 Vy之间).随着时间的推移,新出现的采样点可能上下跳跃,甚至成为离群值(outlier),但新计算的关键区间则只会微调,即便是离群值的出现也只会反向强化关键区间的稳定.正常采样点关键区间实时带宽异常噪声点时间VmaxVyVxVminFig.3Existing sampling points o

37、f the bandwidth at a certaintime as well as their crucial interval图 3某一时刻带宽的现存采样点及其关键区间 在上述创新思路和关键发现的指导下,我们基于计算几何学和离散控制论研发“模糊拒绝采样”8-9双向强化带宽测量技术:正常采样点被接受,正向强化关键区间;异常噪音点被拒绝,反向强化关键区间;关键区间往往在测速刚开始的几秒就已经十分明显,并不需要拖沓冗长地再测十几秒.由于我们的带宽测量技术对噪音不敏感,并不需要距离用户终端很近的测速服务器,因此可以使用廉价弹性的公有云虚拟机和容器构建测速(微)服务器池,在几乎不影响测速性能的前提

38、下,能够将经典设计的基础设施开销降低数十倍.具体来说,如果测网速系统服务用户较少,则完全使用容器微服务、按需瞬时部署测速服务器,测试完毕马上回收;反之,如果测网速系统服务用户较多且地理位置随机,则更适合使用常驻虚拟机作为测速服务器,并且尽量分散部署在核心互联网流量交换点(Internet eXchangepoints,IXP)附近,从而兼顾成本和性能.通过模糊拒绝采样结合云原生测试服务器部署,能够同时达成快速、轻量、准确这 3 个在传统意义上看似矛盾的目标.基于 Web 的技术实现,其架构如图 4 所示,能将网络带宽的测量时间从主流工业系统的 1030 s 降低到 35 s,相关代码全部开源.

39、还部署了在线原型系统一键测速,对应技术应用到公安部第三研究所的高速网络带宽检测工作中,取得预期效果:平均测量时长为 2.4 s,流量消耗为 1.2 GB;相比 Ookla SpeedTest,平均测量时长缩短 6.2 倍,流量消耗减少 9.1 倍.客户端互联网应用噪声数据驱动型服务器选择自适应多源传输互联网接受结果服务端用户态内核态关键区间采样弹性带宽探测接受拒绝函数拒绝输入分布P(x)采样X目标分布T(x)?Fig.4Architecture of Web-based Fast BTS system based onfuzzy rejection sampling图 4基于模糊拒绝采样的 W

40、eb 快速轻量带宽测量系统架构 更进一步,基于移动 App 的技术实现应用到国内最大规模的“测网速”App,绝大部分情况下能在亚秒级(即少于 1 s)时间内准确测量移动终端的网络带宽5,相关代码和数据已开源.在“测网速”App 研发团队的大力支持下,我们顺利邀请到354 万移动手机用户开展为期4 个月(2021 年8 月至 11 月)的“深度”带宽测量,总共收集到 2 360万条深度测量数据,每一条对应一次带宽测量所涉及到的物理层、链路层、网络层、传输层和应用层的丰富信息,但不包含任何用户隐私数据.从这些数据中我们发现一个令人惊讶和沮丧的事实:从 2020 年和 2021 年,尽管 WiFi

41、6 路由器和 5G 基站被不断部署,WiFi 数据传输的平均带宽基本保持不变,2020 年为 132 Mbps,2021 年为 137 Mbps,4G/5G 数据传输的平均带宽甚至还下降了,2020 年分别为 68 Mbps 和343 Mbps,2021 年分别为 53 Mbps 和 305 Mbps.仔细分析各项深度信息,我们发现 WiFi 带宽主李振华等:大规模复杂终端网络的云原生强化设计7 以中国大陆为例,存在 8 个核心 IXPs,分别位于北京、上海、广州、南京、沈阳、武汉、成都和西安.https:/FastBTS.github.io http:/FastBTS http:/ http

42、s:/MobileBandwidth.github.io要受制于其上游固定宽带的接入带宽,而接入带宽最近几年停滞不前.4G 带宽下降主要因为它原先拥有的 3 个高带宽频段被“重耕”给 5G 使用,但这些频段对 5G 来说又过于狭窄、不够高速.此外,还发现建筑物林立的城市中心区域虽然密集部署了大量 5G基站(因此手机端接收信号很强),但由于建筑物多径干扰、用户之间负载均衡以及密集基站之间糟糕的切换问题,强信号却往往对应较低的接入带宽23.上述根因分析基本上解释了本文开头提到的“网速困惑”.2.2面向可视内容的快速网页加载技术研究绝大部分互联网流量以 Web 网页形式传输和展现,但经典的网页加载方

43、式并不契合实际用户体验,往往加载很多资源而页面并无关键可视内容,浪费网络流量和用户时间,如图 5(a)所示.为此,我们将近年来广受关注的可视化速度指标引入网页加载过程,以量化页面被可视内容填充的速度(当然越快越好),如图 5(b)所示.虽然速度指标的直观效果简单清晰,但其积分计算方式却十分复杂,所以此前一直被学术界和工业界用来回顾式地评估已发生的网页加载过程24-29,并不适合用做显式启发来指导即将发生的网页加载过程.(a)原始顺序加载元素(b)优先加载视觉关键元素1 000 ms1 800 ms3 000 ms1 000 ms1 800 ms3 000 msFig.5Different lo

44、ading processes of a typical web page(CCTV homepage)under the same networkenvironment图 5同等网络环境下一个典型网页(央视网主页)的不同加载过程 深度分析使用速度指标启发指导网页加载调度的实际困难,我们发现其主要来自 3 方面不确定性:1)网 络 环 境;2)浏 览 器 执 行 环 境;3)用 户 端 视 口(viewport).首先,使用同一设备加载相同的静态页面,在不同的网络环境下会产生显著的速度指标差异.事实上,即使此操作是在非常类似的受控网络环境下重复执行,仍会出现相当大的速度指标差异,原因在于为加载

45、页面而分配的计算资源可能随时间而变化.此外,考虑到不同的用户端视口大小,即便同一页面的关键元素也是不确定的.即便客户端知道视口大小,很多时候也无法执行速度指标最优化的网页加载调度,因为在网页加载完成之前它并不知道哪些元素是“重要”的,特别是许多现代网站采用“流动式”布局来自动调整网页元素的大小和位置.这些不确定性使得我们不可能提前或一次性地获得速度指标最优化的网页元素加载调度方案.为克服上述困难,我们从经典分布式调度理论出发,结合速度指标的积分特性,创新设计“累积反馈调度”算法10,以微服务渐进反馈方式应对网络环境、浏览器执行环境以及视窗大小在网页加载过程中的不确定性,不断累积优化网络资源的调

46、度下载顺序,从而接近最大速度指标.首先为网页在不同窗口下创建预加载微服务,离线提取元素位置和资源依赖并保存;客户端访问网页时,向服务端查询可见元素.随后,为每个客户端创建专有的传输微服务负责双端通信,客户端据此利用依赖信息生成基本的资源加载顺序.传输微服务和客户端协同监听网络和 JavaScript 引擎的不确定事件,实时调整以接近最优加载顺序.相比传统整体式架构,基于微服务的调度架构可以利用双端信息更准确地调控加载过程,并且独立于网页原有服务,不会对 Web 系统产生整体性影响.多主流网站、多网络场景下的实验结果表明:可视内容的展现速度能提高 40%以上,介于 30%到50%之间,平均 41

47、%.创新调度算法运行 1 次平均只需要 12 ms,仅为网页加载时间的 0.3%,具体时间复杂度为 O(nlog n)、其中 n 表示网页中的元素数目.给服务器端带来的额外计算开销通常少于 5%,具体内存开销通常低于 400 MB,而具体网络流量开销一般在 12 KB 左右.值得一提的是,我们所开发的“累积反馈调度”协作模块适用于当前所有主流 Web(微)服务器,并可通过简单配置动态加载,相关的所有代码和数据均已开源.值得一提的是,上述快速网页加载技术已经部分应用于“测网速”App 的网页加载过程,视觉效果上进一步加速了 2.1 节所述网络带宽的快速测量过程.8计算机研究与发展2024,61(

48、1)https:/SipLoader.github.io3终端网络可靠性测量与改进解决了终端网络的可用性问题,用户基本上能够体验到期待的数据传输性能,此时网络设计者的研究通常会朝着纵向或横向继续努力,纵向努力进一步提高传输带宽或降低传输时延30,横向努力则致力于大规模扩展或大面积覆盖31.然而,在终端网络领域真实的工业实践中,当基本可用性得到保证之后,用户的诉求往往并不在于纵向或横向的无止境提高,而是更关注一个隐藏维度可靠性(reliability),即可用性的长时间大面积保障.一种带宽时延极优但时不时断网、无故扣费甚至被恶意攻击的网络服务,对比另一种带宽时延能接受、同时稳定规范安全的网络服务

49、,对于普通终端用户来说,几乎都会选择后者并不夸张地说:“网络不可靠,则性能无意义!”3.1蜂窝网络可靠性的全国性测量、分析及增强人们每天都使用手机上网,从 2G、3G、4G 到 5G,网速越来越高、时延越来越低、单位覆盖面积的服务密度越来越大32.然而,根据小米手机团队近年来的运维经历,手机异常断网的发生概率却越来越高.这里“异常断网”指的是手机有信号且基站未过载、但依然无法接入互联网,导致蜂窝连接十分不可靠,小米手机用户投诉和吐槽激烈.具体来说,安卓操作系统将蜂窝异常断网故障分为 3 类.1)数据连接错误(Data_Setup_Error).用户设备可以接收到附近基站的信号,却无法和它建立数

50、据连接,并且该基站当前并未过载、还有服务能力.2)无服务(Out_of_Service).用户设备和基站成功建立数据连接,但收不到蜂窝数据.3)数据阻塞(Data_Stall).用户设备可以从基站接收到数据,但突然发生长时间停滞:有发出的数据包、却没有接收的数据包;如果停滞时间超过 1 min,安卓就认为发生了数据阻塞故障.为了深度理解并有效解决该痛点问题,我们同小米手机团队合作,基于定制化 MIUI 操作系统(其架构如图 6 所示)连续 8 个月跟踪测量 34 个型号共计 7 000 万部小米手机的异常断网事件.和小米手机(而不是苹果手机、三星手机或者华为手机)研发团队开展合作并非偶然,而是

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服