1、C o m m u n i c a t i o n&I n f o r m a t i o n T e c h n o l o g y N o.4.2 0 2 3通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)基于人工智能的网站内容安全策略研究李飘,曾君21.重庆信息通信研究院,重庆4 0 1 3 3 62.成渝(成都)信息通信研究院有限公司,四川成都6 1 0 2 9 9摘 要:针对网站内容安全,通过智能图像识别技术、目标检测技术、样例图片匹配技术、自然语义处理技术等分析网站内容安全事件,提出了人工智能深度学习策略,并通过建立多层卷积神经网络架构模型,设计了网站内容安全监测解决
2、方案。关键词:卷积神经网络;图像识别;目标检测;自然语义处理中图分类号:T N 9 1 5.6 3文献标识码:A文章编号:1 6 7 2-0 1 6 4(2 0 2 3)0 4-0 1 0 8-0 51 引言随着移动互联网的飞速发展,不法分子利用监管漏洞对外提供违规内容网站服务的行为屡见不鲜,网站存在不良信息时有发生,网站内容监管困难,越来越多的不良信息通过互联网网站快速传播。以上问题,严重危害未成年人身心健康,严重败坏社会风气,不仅影响业务正常运营,更牵涉到国家安全和社会稳定。网站内容安全监测系统,是针对互联网网站(企业网站、政府网站、综合门户、行业论坛、小说网站、视频网站、C D N、C
3、a c h e 等)内容安全进行高效管控的信息安全解决方案。该方案基于关键字匹配、自然语义处理、智能图像识别、图像目标检测、样例图片匹配、智能视频识别等技术手段,可以对网站内包含的低俗庸俗有害信息开展深入检测、精准定位、有效取证、处置管理。2 网站内容安全现状随着微博、微信公众号、自媒体等新技术新形态的出现,丰富了网民生活的同时,也出现了传播暴力恐怖、虚假谣言等危害国家安全、公共安全、社会秩序的信息,既违背了社会主义核心价值观,也给青少年身心健康带来不良影响。国家在对内容安全治理方面,制定了相关法律法规,虽然立法不断丰富完善,但是监管形势依然严峻。在海量纷繁的数据面前,传统依靠人力监管的弊端更
4、加明显,不仅给人带来巨大的心理压力,而且整体效率低,成本高且主观性强。相对人工审核而言,网站内容安全监测系统能排除主观意识的影响,通过深度学习算法,能更智能,更精准,更高效地对不良内容进行识别和监管。通过智能审核可以快速地发现违法违规信息,从而降低突发事件引起的舆情危机,为不明真相的网友在面对虚假、违法信息等信息提供辨别的能力,有利于保障网络清朗空间的建设。3 网站内容安全核心技术3.1 智能图像识别技术智能图像识别技术其技术核心是深度学习理论(D e e pL e a r n i n g)。深度学习的优势即应用非监督或者半监督式的特征学习等方法,获得所需求的算法,进而取代传统手工特征叫。卷积
5、神经网络,对大型图像而言有显著的优势。卷积神经网络主要是单一或者较多的卷积层,以及位于顶端的全连通层共同构成,而且其中也含有关联权重以及池化层。该结构让整个网络可更好地运用数据二维结构,和其他结构进行对比,其在图像以及语音内容的识别上,可获得更加理想的结果。依靠建立覆盖不同层次的卷积神经网络,借助R e L U 激活函数的灵活运用,可构建数以百万计算的权值,还有数以十亿计算的连接,最后达成对于图像的精确辨识。深度学习的核心优势,即能够依靠庞大的训练数据,在参与学习的进程中持续提升识别操作的精度;智能图像识别的重点内容,即在学习场景中持续提升辨识的精度,可以更精准的判定图片类型,同时可以基于特征
6、主动发现暴恐等图片。3.2 目标检测技术网络环境中的各类敏感目标物(旗帜等)有着显著的尺收稿日期:2 0 2 3 年2 月8 日;修回日期:2 0 2 3 年6 月1 6 日1 0 8人工智能基于人工智能的网站内容安全策略研究寸变动,摆放的具体角度以及姿态等较为多样化,而且还可能位于图片的任意位置,运用整体识别的方法有非常高的机率出现误报。系统采用目标检测技术对图片中出现的暴恐旗帜、L o g o 进行精准识别。目标检测方案,可在特定的图像内精准寻找到特定的位置,并且标记具体的种类信息。3.3 样例图片匹配技术通过事先建立已知非法信息图片样例库,系统提取样例图片的特征建立特征库,图片识别时提取
7、被识别图片特征和样例图片特征库进行比较从而发现被匹配的图像。样例库识别目前支持图片缩放、旋转、叠加文字、模糊、扭曲、颜色变化等图形变换。样例图像检测最核心的技术是特征提取方法和特征匹配方法,这也是决定样例检测性能的核心技术。基于大数据的维稳信息集中监控系统采用的样例图片匹配技术由以下模块组成:图像特征提取、高维索引的建立、样例匹配与检测,该技术在保证检索精度的同时,改善了传统方法中索引空间划分不均衡的问题,进一步提升了样例图像检测的准确度。样例图片匹配技术主要适用于无规律特征的政治类图片的识别,例如反动图片、敏感图片等,这类图片的发现的基础是事先需要建立相应的样例图片库;该操作取得的效果即时间
8、相对较长,样例库也会相对较全,最终的作用也会相对更大。3.4 自然语义处理技术系统文本识别除了传统的关键字匹配识别外,还具备基于深度学习的自然语义处理技术,能有效识别关键字策略之外的广告、辱骂等文本垃圾,提高日常维稳工作效率。深度学习用于文本识别的优点在于可以使用非监督数据训练字词向量,提升泛化能力,克服传统文本识别必须预先设置策略的缺点。结合实时社会新闻、舆情等信息,再利用深度学习算法自动获取特征表达能力,排除复杂的人工特征工程,可以实现端到端的有效处理,达成各类算法的高效更新,能够实现对各类维稳问题的有效监管。4 内容安全监测平台系统架构内容监测平台内分为接口层、处理层、控制层及展现层,平
9、台框架结构图如图1 所示。图1 所示,内容安全监测平台接口层主要通过接口获取待扫描的域名、u r l,对网站内容进行主动爬取。处理层负责对所有接受的数据进行处理,主要包括数据去重、文字(支持藏文)、图片、二维码内容检测,违规策略匹配,违规内容告警。展现层用户登录统计报表数据查询控制层系统日志情理运维管理监测数据管理状态监控在务行处理层接口层图1 平台框架结构图控制层的核心功能,即进行策略、权限等相关的管理工作,还包括审核、运维以及扫描等不同的构成部分。展现层则主要提供外部访问页面,实现用户登录、报表统计及数据查询等功能。4.1 平台基础功能描述4.1.1 网站内容采集功能系统支持对H T T
10、P 及H T T P S 网站内容进行主动数据爬取。(1)系统支持通过域名对网站数据进行主动爬扫,对网站包含的内容信息进行爬取供后续识别处理,需爬取扫描的信息包括:网站域名、网站I P、访问的u r l 链接地址、访问网页的时间、访问的U R L 页面内容、I P 地址省份标识、任务标识。(2)支持网站类型包含如下内容:a s p/a s p x 网站、p h p 网站、j s p 网站、h t m l/s h t m l 网站。(3)系统支持通过接口的方式获取U R L 链接。系统支持通过主动页面扫描的方式进行内容抓取。对采集获得的原始数据的处理,业务功能流程图如图2 所示。取扫招跳名和F说
11、面和围片有田分本地文件L B.文件u r l 文件U M aR e o c i v eu:l 文件索引数据库.方、香颊和视频m二级,三阀,暂接X.图片文作视财重可m l 文件面、围,而和L i n k c m w l e d本地文件(归档文件)L i n k M a p dD i s p a t c h业务功能流程图图2 业务功能流程图1 0 9通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)业务功能流程如图2 所示,具体步骤如下:程序L i n k m a p d R e c e i v e 通过W E B 平台获取需要扫描的域名和I P;L i n k m a p d R e
12、 c e i v e 程序将需要爬扫的U R L 存入本地U R L 文件中,同时将U R L 文件索引存入数据库中,接收L i n k c r a w l e r d 发出的二级、三级、四级等U R L 链接;程序L i n k m a p d D i s p a t c h 读取本地U R L 文件和U R L 文件索引,将页面内容下载任务分配给L i n k c r a w l e r d;程序L i n k c r a w l e r d 接收到页面下载任务后,下载U R L页面内容,以页面、图片和二维码的方式存在本地文件夹中,再将页面、图片文件索引存入数据库中,最后将二级、三级、四级
13、等U R L 发送给L i n k m a p d R e c e i v e 程序处理;通过系统的任务爬扫深度设置,系统通过循环最多下载到5 级U R L 链接便停止爬扫。4.1.2 数据去重由于互联网网站之间存在大量的关联信息,会产生大量的重复数据,为提高工作效率,需要采用去重机制减少大量的重复内容。实际构建数据仓库,或是在各类系统进行数据迁移的整个进程中,要求在各类数据源之中引入庞大的数据。其中含有一些录入错误的问题,或是相同对象在各类数据源之中,以多种方式进行表述等质量问题,其会极大影响到最终的服务质量。所以,关键任务即依靠清理处理,从而让庞大的数据转型成统一的形式,保障数据有符合要求
14、的正确性。数据清理的重点构成部分即数据映射、匹配以及合并等相关操作。依靠映射的操作,可以实现格式标准化的效果;依靠匹配的处理,可识别到存在重复问题的记录;依靠合并的处理,可存留或者获得完整记录。清理操作的重点,即对于近似数据的有效辨识。指代表现上有所区别,但是语义上一致的内容,基于狭义视角来分析,两条数据部分字段上的值一致或者非常接近,即可认定其构成近似重复,称为重复记录或重复数据(d u p l i c a t e s)。为了提高数据质量,必须要查找重复数据和删除重复数据。4.1.3 内容判定方式系统支持对互联网内容进行违规识别,对网页上的文字、图片、二维码信息进行策略识别,内容识别类型包括
15、:邪教迷信、群体事件、违禁品制售等不良信息类型。图片识别方式系统支持对互联网中传播的色情图片进行自动识别。由于色情图像有一个重要特征就是暴露身体部分较多,暴露越多,待识别图像是色情图像的可能性就越大。以肤色区域面积占整幅图像的比例作为识别特征,认为该比例大于设定的阈值,待识别图像为色情图像,否则不是色情图像 2。肤色模型即用于表述皮肤色彩的模型,该模型的构建和色度空间的具体选定有着非常紧密的关系,肤色建模常用的色度空间有R G B(红、绿、蓝三原色)、H I S(色调、饱和度、亮度)、Y I Q(N T S C 制式的光亮度和色度模型)、Y U V(P A L 制式的光亮度和色度模型)和Y C
16、 bC r(亮度分量、蓝色色度分量和红色色度分量模型)等 2 。由于Y C b C r 色度空间广泛用于图像和视频压缩标准,并且Y C b C r 色度空间是离散空间,易于实现聚类统计,本系统采用Y C b C r 色度空间对图片进行识别。图片识别上有着丰富的格式支持,常见的J P G 等格式都可以有效地兼容。文本识别方式系统支持基于预设的中英文和藏文关键字策略监测发现不良信息网站 链接,预设关键字策略支持或组合,且支持的关键字条数不低于3 0 0 0 0 条,并具备关键字策略监测效果跟踪分析能力。二维码识别方式通过系统爬取二维码图片,处理程序识别二维码数据中的U R L 链接,下载U R L
17、 链接中的文字和图片信息,并对文字和图片进行审计,生成违规内容告警。4.1.4 违规内容告警系统发现某监测范围内存在违规网站内容的时候,将对违规数据进行保存,并通过网页告警的方式提示系统使用人员对疑似违规数据进行人工审核确认,通过人工拨测方式甄别确认U R L 内容是否为不良信息。开展对业务范围内的网站I P 的网页、图片、二维码进行人工拨测、自动扫描等日常运营维护工作。对数据进行高级分析、定性,按时发布相应的报告,包括扫描数量,违规样本数、违规样本详情等,并提供相应优化解决方案和计划。利用爬虫技术,对网站的页面内容进行爬取,获得网站内容;通过后台自动化分析对比功能,发现不良内容。4.1.5
18、审核配置及统计报表(1)识别策略管理系统支持关键词、图片、二维码等类型的识别策略。支持关键字策略管理功能,支持关键字的分类/分级/权重管理,针对不同类别的关键字可制定不同的级别和权重。关键字管理支持批量导入、导出;支持对系统的关键词策略进行设置,关键词支持“与”“或”的组合方式,策略支持导入、导出、启停用。支持图片审计策略管理功能,提供图片审计策略配置,可由用户设定判断违规图片的阈值,作为违规图片识别的依据。二维码识别策略上,涉及关键字以及图片等不同的内容审核。(2)数据审核管理系统支持审核配置管理功能,系统通过关键字匹配、色情图片识别、二维码识别技术,提取出网站中疑似内容违规1 1 0人工智
19、能基于人工智能的网站内容安全策略研究信息,由人工对疑似违规数据进行确认审核。(3)统计报表管理系统支持按日、按周、按月提供统计报表功能,并提供报表的查看、e x c e l 格式下载。统计报表保存时间至少为9 0天。提供以下类型统计报表:监测网站统计报表,统计指标为监测网站数量统计。审计工作量统计报表,统计指标为账号使用数量、审核总数量、审核确认违规内容数量。网站违规信息统计报表支持不良信息监测结果自定义时长取证留存,监测结果取证留存的信息包括以下内容:发现时间、网站I P 地址、网站域名、网站归属地、不良信息详细U R L、不良信息格式、不良信息类型、不良信息原始取证文件等。跳转网站统计报表
20、,针对主域名发生跳转的情况进行统计,对产生跳转的域名和跳转后的域名信息进行记录。4.1.6 系统管理用户权限管理。系统需能提供完善的权限管理功能,包含角色管理和账号管理,并要求权限管理支持分域管理。拥有足够权限的管理员,能够对角色开展相应的增删查改处理,实际进行增添与修改操作的过程中,可对于角色设置相应的权限。相同角色的管理员有一致的权限。超级管理员和具备权限的用户,可对账户开展相应的增删查改等基础操作,各账户所记录的数据,应当有密码以及操作员等多个信息。操作日志管理。系统具备完善的日志管理功能,日志文件主要包括以下类型:用户登录日志、用户对系统的操作日志、系统发现的违规内容日志;系统能记录和
21、保存系统操作日志(主要是用户访问及策略更新日志),供管理员查看和导出。系统支持对日志的检索查询,各类日志的保存时间为1 8 0 天。4.2 外部接口描述平台外部接口功能描述如表1 所示:表1 外部接口描述接口名称接口描述I F-D:域名接口I F-D提供域名上传接口,对获取到的域名进行爬取;I F-U:U R L 接口I F-U提供U R L 上传接口,对上传的U R L 进行爬取;I F-F:文件接口I F-F 其中有对应的文件上传接口,可以对于文件开展基本的审核操作;4.3 系统性能描述平台满足以下性能指标:单台爬虫处理能力不低于6 0 u r l/秒;色情图片识别率(非样例特征库方式)不
22、低于8 0%;样例图片识别率不低于9 5%;关键字识别准确率1 0 0%;单台设备性能满足至少每日5 0 个网站深度监控或1 0万个U R L 监控。内容安全监测平台采用模块化设计,各模块独立运行,可以根据业务需求进行灵活的业务配置和部署;同时可根据接入能力进行灵活扩展图。5 内容安全监测平台应用场景(1)网站内容拨测。远程通过网页爬虫方式获取对应网页内容,可支持H T T P S 协议网站爬扫,通过爬扫拨测方式及时发现网站不良信息。(2)A P P 发布内容拨测。对于A P P 的内容开展截图、提取等基础的操作,运用文字与图片测定等方式来辨识相关违规数据。(3)微信公众号监测。通过访问微信公
23、众号数据查询接口,自动定时获取指定微信公众号发布的内容,并自动进行内容识别。(4)先审后发A P I 接口。业务系统通过对接私有云A P I审计接口,实现发布内容自动先审后发。6 内容安全监测平台功能(1)内容采集还原。网络爬虫采集,基于用户提交的网站域名或对象,对目标网站进行U R L 分析提取、网页源文件下载提取、网站图片、视频格式文件下载提取。(2)内容信息监测。文本内容监测,对网站数据中的文字内容进行敏感词匹配和自然语言处理监测,发现不良文字。智能图片监测,对网站数据中的图片内容进行智能图片识别监测,发现不良信息图片。样例图片监测,对网站数据中的图片内容进行样例图片匹配监测,发现违规样
24、例图片。智能视频监测,可以实现对于食品的有效辨识,察觉到实际存在的不良信息。样例视频监测,对网站数据中的视频内容进行样例视频匹配监测,发现违规样例视频。(3)内容集中管理。违规信息人工审核,支持对平台监测发现的网站违规内容信息进行人工审核,确保监测结果的准确性。监控结果集中展现,提供对平台监测发现的网站违规内容信息数据、报表集中展现。7 内容安全监测平台意义7.1 识别准确率高采用基于深度神经网络学习算法的图片识别算法,结合内置样例图片库,实现色情、暴恐、涉政等不良信息的智能识别,识别准确率 9 9.5 减少9 0?工审计工作量。7.2 识别规则多关键字匹配,基于预设的3 万+条不良信息关键字
25、策略1 1 1通信与信息技术2 0 2 3 年第4 期(总第2 6 4 期)(支持自定义),对获得的文本开展关键字匹配操作,确认所识别的内容是否存在不良内容。自然语言处理,基于深度学习的自然语言处理技术,通过使用不良监管数据训练字词向量,提升泛化能力,从而提高文本不良信息的检测发现率,弥补关键字匹配的预设策略不全的缺点,可有效识别预设关键字策略之外的文本不良信息。智能图像识别,采用智能图像识别技术,通过大量同类型图片数据持续训练、频繁迭代模拟形成人脑视觉认知对同类型/相似场景图片(如:色情、涉政、暴恐等)进行识别,从而发现图片不良信息。图像目标检测,采用目标检测技术对图片中出现的旗帜、L o
26、g o 进行精准识别。目标检测技术,可在特定的图像中精准辨识违规物体的所处区域,并且进行精准的分类,依靠该技术可实现对相关目标的有效识别(类似于违背规范的旗帜等)。样例图片匹配,基于思维积累的5 0 0 0+张涉政、暴恐样例图片(支持自定义)建立的特征库,将采集获取的被检测图片与样例特征库进行匹配,发现含有涉政、暴恐样例的不良信息图片。智能视频识别,以智能图像识别技术为基础,通过提取关键视频帧图片集进行识别,并综合考虑视频帧图片集识别结果发现不良信息视频。透明监控不影响业务,网络可达仅提供必要的基础数据即可实现内容安全检查,不影响被检测的互联网网站质量。7.3 满足监管互联网网站不良信息监测平
27、台针对网站内容安全管控需求,为客户提供全面完善的网站不良信息治理解决方案。该系统主要应用价值包括:通过网站不良信息监测平台积极管控客户网站中传播的不良信息,可满足“扫黄打非净网”专项行动要求。通过网站不良信息监测平台积极管控客户网站中传播的不良信息,本平台的设计与应用可符合公安部等机构办法的专项管理规范,符合技术规范的要求。通过网站不良信息监测平台积极管控客户网站中传播的不良信息,可满足政府及行业主管部门对违规信息管控的要求,防止信息内容安全隐患、规避社会及政治风险。能够帮助客户对自有网站业务中存在的违规内容信息,以及通过进行全面监控,准确定位网站违规内容对应的网站I P、域名、U R L、网
28、站归属地信息并进行违规内容有效取证。通过网站不良信息监测平台积极管控客户网站中传播的违规信息,有助于减少用户的投诉,提升客户对于品牌的信赖水平,实现满意度的增长。通过网站不良信息监测平台积极管控客户网站中传播的违规信息,可净化网络内容空间,提升网络服务“软质量”。参考文献 1 邱燕.基于生成对抗网络的音乐生成研究 D .四川成都:电子科技大学,2 0 1 9.2 任民宏,郭伟钢.基于肤色特征的色情图像识别算法 J .陕西理工学院学报(自然科学版),2 0 1 4,3 0(0 1):3 8-4 1.3 时镇军。互联网不良信息监控在电信运营商的研究与应用 J .江苏通信,2 0 2 0,3 6(0
29、 2):4 9-5 2.4 罗文亮.智慧校园安防系统的设计与实现 D .大连:大连海事大学,2 0 1 6.作者简介李飘(1 9 9 5 一),女,本科,工程师,主要研究方向:网络安全、数据安全、密码安全。R e s e a r c h o n w e b s i t e c o n t e n t s e c u r i t y s t r a t e g y b a s e d o n a r t i f i c i a l i n t e l l i g e n c eL I P i a o,Z E N G J u n1.C h o n g g i n g I n s t i t u t
30、 e o f T e l e c o m m u n i c a t i o n s,C h o n g q i n g 4 0 1 3 3 6,C h i n a2.C h e n g Y u A c a d e m y o f I n f o r m a t i o n a n d C o m m u n i c a t i o n s T e c h n o l o g y C o.,L t d.,C h e n g d u 6 1 0 2 9 9,C h i n aA b s t r a c t:A i m i n g a t w e b s i t e c o n t e n t s
31、 e c u r i t y,i n t e l i g e n t i m a g e r e c o g n i t i o n t e c h n o l o g y,t a r g e t d e t e c t i o n t e c h n o l o g y,s a m p l ep i c t u r e m a t c h i n g t e c h n o l o g y,n a t u r a l s e m a n t i c p r o c e s s i n g t e c h n o l o g y a n d s o o n a r e u s e d t o
32、a n a l y z e w e b s i t e c o n t e n t s e c u r i t y e v e n t s.I n t h i s p a p e r,a r t i f i c i a l i n t e l l i g e n c e d e e p l e a r n i n g s t r a t e g y i s p r o p o s e d,a n d a w e b s i t e c o n t e n t s e c u r i t y m o n i t o r i n g s o l u t i o n i s d e s i g n
33、e db y b u i l d i n g a m u l t i-l a y e r c o n v o l u t i o n a l n e u r a l n e t w o r k a r c h i t e c t u r e m o d e l.K e y w o r d s:C o n v o l u t i o n a l n e u r a l n e t w o r k,I m a g e I d e n t i f i c a t i o n,T a r g e t D e t e c t i o n,N a t u r a l S e m a n t i c P r o c e s s i n g1 1 2