收藏 分销(赏)

机器学习在数据安全感知系统的应用.docx

上传人:二*** 文档编号:4717938 上传时间:2024-10-10 格式:DOCX 页数:9 大小:232.62KB 下载积分:5 金币
下载 相关 举报
机器学习在数据安全感知系统的应用.docx_第1页
第1页 / 共9页
本文档共9页,全文阅读请下载到手机保存,查看更方便
资源描述
机器学习在数据平安感知系统的应用 我们生活在一个信息泛滥的世界,越来越难去跟踪信息,或者手动为他人筹划信 息;幸运的是,现代数据科学可以对大量的信息进行分类,并将与我们相关的信息呈现出 来。 机器学习算法依靠在数据中观察到的用户知识和模式,对我们可能喜欢或感兴趣的内 容做出推断和建议。随着机器学习技术越来越容易被开发人员使用,有一股力量促使公司 利用这些算法来改进他们的产品和用户的体验。 作为流动数据资产智能可视的发起者和领航人,全息网御以独特的平安视角深入分析 流动数据在各个行业的业务共性,抽象出以流动数据为核心的数据平安风险感知系统平 台。该平台就是结合运用AI智能机器学习,实时构建"用户-设备-应用-数据"四个维 度的关联分析,为企业流动数据建立评估监测、预警/告警、溯源审计的联动机制提供依 据,从而感知数据平安风险,并形成可视、可控、可追溯的数字空间平安态势感知和防护 体系。 今天在这里,我们就来具体说说机器学习在数据平安感知系统中是如何应用的。 系统利用统计和无监督学习算法实现了用户和实体行为的异常检测分析。用户和实体 行为的分析方法(User and Entity Behavior Analysis, UEBA)是基于实体行为的网络风险 分析,是利用统计和机器学习等算法的自适应分析,是基于大数据平安分析的网络异常行 为检测与平安态势感知。本文从算法和架构两个方面描述这些算法在系统中的应用。 一、概述 系统是由三局部组成:网络流量采集系统(HoloFlow ),实体行为分析系统 (HoloML )和管理系统(HoloVision )。网络流量采集器会从网络关键设备节点,通常 从汇聚交换机处,接受并处理网络原始流量,生成网络中设备、应用、数据(文件和网 页)以及用户的网络行为日志,并保存于数据仓库。分析平台将这些日志映射为四类实体 行为,分别是:用户实体、设备实体、应用实体和数据实体。然后根据实体间的行为逻辑 关系、时序关系以及地理位置关系等,生成动态关联的网络全息图。同时,利用数理统 计、机器学习等算法为每个实体画像构建正常行为基线。最后再通过实体的正常行为画像 识别比对出异常行为,并提醒管理员及时对异常行为追踪溯源。 系统的层级结构共分为5层,如图-1 : Representation Layer Dashboards Reports Search Detection、 Layer ( Aggregated Anomaly - Z~...~~~ J3 cRules Engine Outlier AnalysisProfiling Layer Profiling Layer Feature Engineering Density Estimation Correlation Analysis Cluster Analysis Aggregation Layer Collection Layer Content Scanning HR database Network Proxy Device Activity Data Activity Application AcHivity Active Directory 图」OnFire系统层级结构 日志收集层:收集多种网络协议数据,支持第三方日志信息的导入。 汇聚层:完成数据清洗,数据转换,数据聚合工作,并提取用户、设备、应用和数据实体 信息。 画像层:根据实体的历史信息,利用数理统计、机器学习等算法为每个实体画像,建立正常行为基线,并将其可视化展现。 异常行为检测层:计算实体每个行为与正常行为画像的差异,从而识别异常行为,并将其 可视化展示。 展示层:为平安系统分析员提供友好、可用的人机接口,便于事后的追踪溯源。 二、实体行为分析.行为画像 在画像层中,我们按用户、数据、应用和设备四个维度分析和挖掘实体行为以掌握实 体间的相互关系,识别出正常行为模式并建立实体间的正常行为基线,运用到的是无监督 的机器学习算法。在随后的检测层中,系统将计算正常行为基线与当前行为之间的差异, 从而判断此行为是否异常。 通常,特征工程(feature engineering)会从实体行为中提取特征,将这些特征作为学习算法的输入来识别实体行为的模式。平台使用多种算法来识别正常行为的模式,下面简 要介绍两种: (1)核密度估算 核密度估计(Kernel Density Estimation )为实体行为特征构建密度的估算函数。在 我们的UEBA解决方案中,我们使用非参数密度估计算法(non para metric estimation), 因为这不需要那么严格的假设条件,而核密度估算是常用方法之一。在计算数据密度分布 估算函数时,算法使用高斯核来创立数据的直方图,而不是用矩形对数据进行分箱。也就 是说在每个分箱的中心绘制高斯分布,这种方法可以平滑直方图,并得到对特征空间中每 个点的数据密度的连续估计。对于异常检测通常方法是估算每个数据点的密度,并将密度 最小点称之为异常。 如图-2显示一天中的登录行为:X轴是时间,y轴是登录概率,从该图可以看出高密 度时段为6到20o如果有人在0到6之间登录,那么表现为行为异常。 1224 0-2用户登录时间的核密度 ■■■■■I一■■■. (2 )特征工程 在系统中,大多数活动是时间依赖性的。对于时序数据,我们从三个方向提取数据特 征:时间、统计和频谱。时间类特征包括:不同的时间粒度、自相关性、离峰值距离、正 负转向点等。统计类特征包括:移动均值、标准差、趋势量度、季节性、周期性、序列相 关性、偏度、峰度和自相似性等。频谱类特征包括:FFT平均系数、最大频率、中位数 频率、频谱中心以及频谱延展度等。 1 .行为异常分析 系统的行为异常分析包括两类:基于静态规那么以及基于统计和机器学习算法,下面将 重点对系统使用的统计类算法和机器学习类算法进行介绍。 (1)统计类算法 统计类算法常用于一维或二维的数据,计算本钱低,无需人工设置门限。适用于对重 要指标的行为异常报警。比方用户的商业文件下载量,服务器文件下载量等。 指数加权移动平均法(EWMA)是一种常用统计方法,对用户和实体行为的某个维度 数据,对其每天的聚合值分别给予不同的权数,按不同权数求得移动平均值,并以最后的 移动平均值为基础,确定预测值的方法。在EWMA中,各数值的加权系数随时间呈指数 式递减,越靠近当前时刻的数值加权系数就越大。 EWMA的表达式如下: (1) EWMAt = A匕 + (1 — QEWMA ji for t =...,n (2) sewma = T-?52Z-A (3) UCL = EWMA0 + ksewma其中: ・ EWMAt :为t时的指数加权移动平均值。 匕:t时刻的实际数据。 ・ k, A均为常量,其中0<七1决定历史数据对当前数据影 响程度。 ・ s: EWMA统计值的方差 .UCL:控制图的上限值 在实体行为分析系统中,指数加权移动平均法被用于单一维度的行为数据异常检测。 比方用户每天下载文件量,根据工作性质不同,会有较平稳的基线和浮动区间。如果某天 下载量远远大于UCL,那么可视为下载文件行为异常。 (2)机器学习类算法 实体行为分析系统使用孤独森林算法(iForest)和聚类算法(Clustering Algorithm)实现 用户组内外的行为异常分析。从而可以完成账号失陷分析和主机失陷分析功能。其基于的 假设:同组用户的行为方式具有更高相似性。其实现原理:通过比拟管理员提供的用户群 组信息,并基于聚类分析模块依据用户行为数据计算出的群组信息,从而找出那些偏离群 组的用户。 针对管理员输入的群组个数不同,聚类分析系统选择使用异常检测算法或者聚类算 法。如果管理员输入一个群组,那么系统选择异常检测算法,计算离群用户。如果管理员 输入两个或两个以上群组,系统将使用聚类算法对用户进行分组(群组数等于管理员输入 的群组数);然后将计算得到的群组关系与管理员输入的群组关系进行比照,从而得到离 群用户。 ①数据用户网络行为信息以天为计算单位,根据全息的特殊能力,这里的用户包括了同一个用户 使用的所有设备,所有应用及所有文件/数据的综合信息,而不是仅根据一个用户的某一 个应用或用户的某一台设备所提供的信息。 A.全局网络流量信息a)用户访问网络的流量 b)用户访问应用个数B.内部服务应用信息 a)用户访问某个应用服务的流量数b)用户访问某个应用服务的网页数 C.文件类型及敏感类型信息a )对于所有文件类型,用户使用的每种类型的文件个数 b )对于所有文件敏感类型,用户使用每种敏感类型的文件个数②异常检测算法 当管理员选择一个群组或网段时,使用异常检测算法计算出离群行为,目前应用孤独森林 算法。 孤独森林算法适用于发现分布稀疏且离密度高的群体较远的离群点。在特征空间里,分布 稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异 常的。 ③聚类算法当管理员选择N(N>=2 )个的群组或网段时,根据用户行为数据使用聚类算法计算出N 个新的群组。目前应用了 K-Mean ,分层聚类,混合高斯算法,系统默认选择K-Mean算 法。 ④群组关系比拟算法将聚类算法计算出的群组关系,与管理员选择的群组关系进行比照,从而得到哪些用户的 行为偏离原来的群组关系。 三、系统架构 实体行为分析系统(HoloML系统)采用Event-Driven架构,如图-3所示。管理员 通过HoloVision创立并管理分析任务。HoloML接受来自HoloVision的分析请求事件, 启动智能分析任务,并将分析结果保存在数据仓库里。在通过Pub/Sub通道通知HoloVision任务执行情况,HoloVision读取数据仓库中的分析结果,并展现给管理员。 !1! Publish Channel Message Bus Subscnbe Channei Data Warehouse Pub/Sub ,总结 HoloML Task Type 图・3实体行为分析系统架构图 传统的信息平安更多应用的是基于规那么的技术,比方防火墙,入侵检测以及DLP,SIEM。大数据以及云计算等技术广泛应用,需要引入人工智能技术来应对这些变革带来的 挑战。而人工智能技术的引入,需要我们考虑的场景,数据,算法,以及体验。主机失 陷、账号失陷、账号滥用,主机滥用等是人工智能应用成熟的场景。在平安事件溯源、调 查取证上,人工智能有更广泛的应用空间。目前以SIEM平台为基础的AI分析,因为数据 源的混乱和元数据的质量,缺乏内在关联性,garbage-in garbage-out,造成大量的误报。全息因为引入了全面精准的关联数据源,从而极大地降低了误报。但机器学习算法本 身引入的不确定性,需要在产品实现时,考虑产品的可用性。从而让平安管理员介入消除 这种误报的影响。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服