收藏 分销(赏)

文本指纹建模在数据安全管控中的应用研究.pdf

上传人:自信****多点 文档编号:730710 上传时间:2024-02-27 格式:PDF 页数:5 大小:1.28MB
下载 相关 举报
文本指纹建模在数据安全管控中的应用研究.pdf_第1页
第1页 / 共5页
文本指纹建模在数据安全管控中的应用研究.pdf_第2页
第2页 / 共5页
文本指纹建模在数据安全管控中的应用研究.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、随着数据时代到来,数据逐渐成为企业的无形资产,承载着大量的个人隐私及价值信息。IBM Security发布的2020年数据泄露成本报告中表明1,80%的数据泄露事件导致客户个人身份信息暴露,泄露给企业增加平均成本为386万美元,因此加强数据资产的安全管控是保证信息安全的重中之重。为了应对新型网络威胁下的敏感数据泄露,近年来数据安全领域的研究者提出了基于人工智能技术的敏感数据资产防泄漏系统设计方案2,并得到广泛应用。文档是数据存在的一种主要形式,数据价值蕴含在文档内容中,识文本指纹建模在数据安全管控中的应用研究在数据爆炸时代,数据安全问题引发广泛的关注。数据安全的核心在于发现并检测到敏感数据,进

2、一步采取脱敏、加密等一系列保护操作,防止或阻断数据泄露。文档作为一种主要的非结构化数据形式,提取其中的敏感内容信息、度量文本内容间的相似性是数据管理关键。由此,模仿生物指纹的特性,利用TF-IDF特征提取方法和simHash指纹算法,生成文本内容指纹。通过指纹快速度量文本内容间的相似度,并应用在数据安全管控过程中,根据匹配预设的敏感内容指纹库来发现管控对象。北京天融信网络安全技术有限公司付莉珺宋鹏举李方包英明别出包含敏感内容的文档并进行管控,是数据安全管控的核心。为识别文档中的敏感内容,引入文本指纹,对需要保护的敏感内容进行文本指纹建模。文本指纹如同生物指纹,承载着大量的文本信息,是一段文本内

3、容的识别代码。它应用在文本相似度检测领域,可以在海量数据中快速计算出多个文本内容之间的相似程度,广泛用于信息检索、社交媒体等文本聚类、重复网页过滤去重、学术论文抄袭查重追踪等3。文本指纹相当于一个高性能的哈希函数值,唯一标识一段文本数据,但传统的全文哈希仅适用于精准检测,即使微小的变化也会导致哈希值不同,这使得“伪装”的数据成为漏网之鱼。本文采用一种粗粒度的文本相似度检测方法,以表达一段文本数据主旨的特征词为计算对象,通过Simhash指纹算法生成文本内容指纹,并计算不同文本内容间的“距离”评估相似度。纵览相关文献发现,以英文为研究对象的文本挖掘成果更为成熟(比如利用经典的Levenshtei

4、n距离算法度量字符串的编辑距离4),导致差异的主要原因在于两种语言本身,英文词语以空格分隔,划分清晰,语法比较规范。相比之下,中文的语法语义更加复杂,不同语境中的词语语义千变CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合512022年11-12月 万化,由于词语间没有明显间隔,导致分词也常常出现歧义。因此,本文引入自然语言处理(Natural Language Processing,NLP)技术对中文数据进行预处理,利用TF-IDF模型提取文本的特征元素,以此作为文本指纹生成的计算基础。一、相关工作1.文本指纹生成技术文本指纹是对文本中某些特征标签

5、进行哈希计算而生成的,这些特征标签是文本处理后提取出来的。每个特征句子或段落都由哈希函数映射到唯一的整数值,生成的指纹序列用于表示文本内容,通过匹配指纹快速地度量文本间的相似度。文本指纹计算速度快,结果占用的存储资源小,适用于大规模的数据量计算,是目前普遍采用的信息处理方式之一,在抄袭查重、网页过滤等问题上的应用比较成熟。Manku等5提出一种识别相似英文网页的数据指纹,并将其成功应用于谷歌搜索引擎。Yuzhakov等6应用模糊查询算法和神经网络技术生成文本指纹。对于中文的处理,Pang等7基于知网(HowNet)中词语的语义信息进行文本相似度计算。Liang等8认为句子包含更丰富的信息,更能

6、表征文章含义,所以提出一种多聚合指纹(multi-aggregation fingerprint)技术,从句子角度生成文本指纹。2.敏感数据智能管控技术敏感数据识别框架如图1所示,整个流程主要包括3个环节:1)敏感数据指纹库建模,通过配置、收集敏感数据文件,经过指纹生成算法得到指纹,并统一存储到指纹库。2)敏感数据识别,对待检测文件通过指纹生成算法得到指纹,在敏感数据指纹库进行检索,得到敏感数据的匹配信息。3)实施管控措施,对识别到的敏感数据执行相应的保护策略防止数据泄露。将每个文本文件以段落为单位进开始人工准备敏感数据集敏感数据指纹库数据指纹配置预管控的数据资产信息创建资产扫描任务待测文本数

7、据指纹搜索是否匹配标记数据标签预设规则的类别级别执行安全的管控策略配置数据安全管控策略显示处理结果结束匹配图1敏感数据识别框架行细粒度分割,每个段落的文本内容根据文本指纹生成算法生成一个标识自己的指纹。将生成的指纹在指纹库中进行相似度匹配,从而达到细粒度、漏报率低、精确度更高的敏感内容检测。匹配过程使用支持海量数据快速近邻检索的高效数据结构VP-Tree9来进行敏感数据指纹库的建模和管理,以及待检指纹不匹配RONTIER DISCUSSION前沿探讨F52NOVEMBER-DECEMBER 2022在指纹库的快速检索。VP-Tree是一种基于距离的度量空间上的索引结构,是一棵静态的基于连续距离

8、函数的二叉平衡树,基本思想是将二分查找用于只有距离信息的多维度量空间中,主要用于提高邻近数据的搜索效率,VP-Tree的构造复杂度为O(nlogn),理想情况下搜索复杂度可以达到O(logn)。二、基于文本指纹的敏感数据识别1.文本预处理词作为构成文章段落的基本单位,文本分析的前提都要进行分词处理,同时过滤掉无意义的停用词、标点符号等,最后获得分词序列。目前常用的中文分词主要有三类:1)基于词典的分词法,将待分词文本与词典库进行比对,比对匹配过程遵循的规则分为最大正向匹配、最大逆向匹配、双向最大匹配等。该方法分词速度快,空间复杂度小,但准确度受词典的限制,对于超出词典范围的新兴词汇无法进行整理

9、。2)基于统计的分词方法,取决于字与字的组合在语料库中出现的频率,这种方法相对灵活,在一定程度上消除了分词歧义,但速度比基于词典的分词法慢。3)基于语义分词法,模拟人对文章的理解,借助语义分析和句法分析,利用句法信息和语义信息消除歧义,该方法分词结果更准确,但耗费时间长,对存储空间的要求高,不适用于大数据量的处理。向量化是把词转化为向量形式,也是把自然语言理解问题转化为数学计算问题。通常文本的篇幅长短不一,词汇量也非常多,如果把文本中所有词提取作为特征会导致计算维度很高,不仅计算量大,而且无关词语会干扰文章的主旨。相关研究表明,文本内容的2%-5%的词汇作为特征关键词较合适,能够有效避免“维数

10、爆炸”,减少噪声干扰。TF-IDF算法计算词频权重是经典的关键词提取法,计算分为词频TF和逆词频IDF两部分,其核心思想是:如果某些词语在一篇文章中频繁出现,说明这些词在很大程度上表达出文本特征;逆词频的意义在于频繁出现的词具有普遍语义,不能表征文档内容的独特之处,很难通过这些词来区别不同文档,所以TF-IDF定义为:上式中对IDF做了平滑处理,使语料库中没有出现的词也可以得到一个合适的IDF值,比如某个词在该文档中没有,IDF的分母也不为0。通过对指定的敏感数据集中所有文本文件进行TF-IDF算法处理,按照TopK排序,输出一个关键词权重词典,以供下文文本指纹生成SimHash算法使用。2.

11、文本指纹生成算法敏感数据指纹生成是敏感数据安全管控的关键,传统的数据安全智能管控系统中对敏感数据的识别检测通常采用以下几种技术:1)人工配置敏感词(或关键词),这一过程需要数据所有者(系统用户)参与,当涉及专业领域时,必须专业人员加入,又造成大量的人力投入。而且配置的策略是否有效完全依赖人为的判断,没有统一的评估标准,检测结果完全取决于敏感词的设定,导致误报率高,因此需要对结果进行长时间的验证并对策略进行调优。随着数据量增加,敏感词库也逐渐扩充,不断补充策略才能保证系统有效运行。2)对全部内容采用hash算法生成hash指纹(如MD5码),这种方法不具有灵活性,当机密文件被稍做修改或将敏感信息

12、混淆到其他文本中,该方法完全失效。3)预设敏感信息的正则表达式,不是所有的敏感数据都可以用正则表达式表示,这造成漏报率高,而且正则表达式的使用对专业性要求比较高,维护成本太高。数 据 指 纹 生 成 算 法:1)Shingling算法是基于相似指纹分类的代表性方法,Broder等10通过滑动 窗 口 选 择 连 续 的 词 语 序 列 集 合(shingles)来表示文档,对不同文章的词语集合计算Jaccard系数得到其之间的相似度;2)Theobald等11提出SpotSing算法,该方法对Shingling算法进行改进,以停用词开头的词语序列表示文章特征,但其性能受停用词集的限制。这种以词

13、语序列集合表征文章特点的方法消耗非常大的内存,并且文章之间两两进行比较产生巨大的计算开销,时间复杂度和空间复杂度都很高。通过上文分析敏感数据的识别检测技术的不足,本文提出使用文本指纹生成算法Simhash,对每个文本文件以段落为单位,分别计算每个段落内容的Simhash值。Simhash算法采用“降维”思想,把高维的自然语言文本映射成k位的二进制向量,实现海量文本相似度的快速检测。不同于MD5、SHA1等传统哈希算法,TFIDFTF(词频)IDF(逆文档词频)log()某词在文章中出现的次数语料库的文档总数文章的总词数包含该词的文档数+1CIVIL-MILITARY INTEGRATION O

14、N CYBERSPACE网信军民融合532022年11-12月 Simhash是一种局部敏感哈希,在保证低碰撞率的前提下将文本内容映射到不同的哈希空间中,而且在原始空间中相邻的文本经过映射后,在新的哈希空间中相邻的概率很大,并通过比特位的差异体现文本的不同。Simhash算法流程如图2所示,具体如下。1)先对文本进行段落分割,再对每个段落进行分词,在前文的关键词权重词典找到本段落每个关键词向量以及对应权重。2)对关键词通过Simhash算法散列为k位的hash值。3)将关键词的权重w与其对应的hash值进行计算,如果hash值为0,则这个hash位上的值变为-w,否则为w。4)对该段落所有的关

15、键词产生的向量相加,产生一个新的向量,如果该值为负数,置为0,否则置为1,最终生成该段落的文本指纹。Simhash相似度判定原理:两个段落的文本内容相似度与其距离呈负相关,距离越小相似度越高,反之相似度越低。本文利用Hamming距离度量两个文本的相似性,即按位比对文本指纹,设置阈值,如果不同位的个数超过这个阈值则判定为不相似,反之则判定为相似。3.文本指纹库的建模为了加速待检数据敏感内容的识别检索,以及保存所有配置的敏感数据指纹到一个本地或者分布式文件系统(如HDFS)永久性存储,对已知敏感数据集的文本指纹建库设计了一种VP-Tree的树形数据结构进行管理和永久性的保存。文本指纹库的建模流程

16、包括:1)人工准备好需要保护的包含敏感内ContentTF-IDF词典查找指职位呢库纹库特征提取featureweightw1wnw2100110w1110000w2001001wnhash,weightw1-w1-w1w1w1-w1w2w2-w2-w2-w2-w2-wn-wnwn-wn-wnwnadd13,108,-22,-5,-32,55sign110001fingerprint图2Simhash算法流程容的文本文件,并形成一个敏感数据集;2)通过指纹生成算法,生成每个敏感文本文件不同段落的指纹;3)将所有指纹及其包含元信息定义为一个数据节点,通过VP-Tree的数据结构进行节点的插入保存

17、;4)最终生成敏感数据指纹库永久性文件,以供待检数据做敏感内容相似度检索以及指纹节点的增加、删除管理。4.敏感内容相似度的度量检索敏感内容相似度的度量检索流程如图3所示。通过指定距离函数(如Hamming距离函数)以及相似度阈值,检索出符合条件的指纹,并输出这些指纹的元数据信息(比如指纹的敏感级别、标签、对应的原始文本内容、所属原文件的元数据信息等),形成告警或违规报告。三、数据安全智能管控系统1.敏感数据识别数据安全管控的一个重要应用是图3敏感内容相似度检测流程指纹不敏感指纹敏感指纹Hamming距离近邻搜索匹配失败成功指职位呢库纹库指纹库(VP-Tree)敏感级别 标签 原始文本内容 所属

18、原文件的文件名 所属原文件的元数据信息.数据元信息文本数据SimhashRONTIER DISCUSSION前沿探讨F54NOVEMBER-DECEMBER 2022敏感数据识别,对识别到的敏感数据采取相应的管控措施,达到保护敏感数据的目的。(1)数据发现要明确安全管控的目标数据,确定预管控的数据分布位置。配置扫描任务,对数据资产进行扫描,目前支持http、sftp、ftp、cifs、nfs、hdfs等文件传输协议。(2)数据敏感信息检测对扫描的数据资产进行敏感信息检测,在数据安全管控系统中,每个扫描的文本数据经过段落分割、分词、特征提取、simhash计算等操作生成一系列文本指纹与预置的敏感

19、数据指纹库进行Hamming距离近邻搜索,根据搜索结果来判断是否有匹配的敏感数据指纹。2.数据安全管控策略通过配置安全管控策略保护敏感数据,策略类型如下。(1)访问权限管控策略在数据访问过程中存在数据被非授权使用的安全风险,从而导致数据泄露、推导或恶意传播。因此,需要对数据访问权限加以控制和管理,基于数据被划定的标签类别/级别,给用户设定访问权限,权限包括可访问(或禁止访问)的类别/级别;对某些标签可执行(或禁止执行)的动作(打开、写入、删除、查询等)。(2)脱敏策略数据脱敏是对敏感信息通过脱敏规则进行数据的变形,实现对敏感隐私数据的可靠保护。对客户的安全数据或者一些商业性敏感数据(如身份证号

20、、手机号、卡号、客户号等个人信息),进行数据脱敏操作,以实现对真实数据的改造。在开发、测试和其他非生产环境以及外包环境中安全地使用脱敏后的真实数据集,以保证在数据的使用过程中不会对真实生产环境的数据进行操作,确保数据的安全性。(3)加/解密策略数据加密是确保数据安全的一种重要手段,依据数据标签,对某些高危数据进行加/解密操作,防止敏感数据被窃取。这是一种主动安全防御策略,用很小的代价保障数据安全。(4)数字水印策略数字水印是解决版权保护和防篡改问题的一种有效方法,将水印嵌入被保护的数据中,用于验证数据是否被修改、伪造或篡改,保证数据的完整性。四、结束语本文基于文本指纹技术,提出并设计一个敏感数据识别框架,通过敏感内容的指纹生成、建模、检索,有效解决了数据安全管控中的敏感内容识别问题。参考文献:1EB/OL.https:/ INTEGRATION ON CYBERSPACE网信军民融合552022年11-12月

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服