1、联通“大数据”公安情报应用技术方案 中华人民共和国联通贵州省分公司11月目录第1章 概述51.1 项目背景51.2 项目建设目的51.3 项目建设内容6第2章 系统总体架构6第3章 系统网络及硬件环境7第4章 数据能力开发84.1 联通总部大数据平台能力简介84.2 数据采集94.2.1 实时数据采集94.2.2 定期数据采集94.2.3 网页数据(非构造化)数据采集94.3 实时数据加工和解决104.3.1 Spark平台104.3.2 Spark Streaming实时数据加工104.4 定期数据存储及加工114.4.1 数据存储方略114.4.2 Hadoop存储与加工124.4.3 O
2、racle数据呈现17第5章 应用功能开发185.1 数据查询185.1.1 号码位置查询185.1.2 详单查询模块195.1.3 号码轨迹查询模块205.1.4 基站信息查询215.1.5 机主信息查询模块225.2 数据推送235.2.1 顾客基本信息推送235.2.2 手机标记信息推送235.2.3 数据接口245.3 监控告警245.3.1 标记管理245.3.2 号码位置告警255.4 记录分析255.4.1 区域热力255.4.2 核心词热力265.5 数据分析275.5.1 号码碰撞分析275.5.2 联系人分析275.5.3 关系人分析285.5.4 外来人员分析295.5.
3、5 网上异动分析30第6章 项目实行316.1 人员组织安排316.2 项目实行环节326.2.1 平台搭建326.2.2 功能开发336.2.3 应用及优化336.3 项目投入估算34附件1.大数据平台有关技术原理阐明341.Hadoop基本平台341.1.HDFS341.2.Yarn361.3.Zookeeper372.Hbase高速即时查询382.1.Hbase基本组件382.2.Hbase封装组件403.Spark实时数据解决42附件2.可对外提供数据合伙数据431.顾客位置数据432.顾客特性数据(标签)443.网上搜索核心词数据46第1章 概述1.1 项目背景中华人民共和国联通集团
4、大数据平台建设完毕,平台具备个计算节点和20PB数据量,形成了全国性数据中心,可以基于全国顾客数据加工数据应用产品。贵州公安厅筹划将大数据应用在数据查询、预警分析、综合分析、治安管理、指挥调度等公安情报应用上。为此双方将联通公司大数据进行开发运用,为公安情报应用服务。1.2 项目建设目的建设联通“大数据”公安情报应用平台,服务贵州公安情报应用,详细涉及八类公安情报应用需求: 电子地图、人员布控:划定某一区域实时查询号码个数和明细,调取通话记录;当特定号码进出某一区域进行实时预警,并显示号码活动轨迹。 预警分析(涉恐类):设定敏感号码关注,对号码进入/离开预定区域进行预警;设定涉恐敏感词、网页、
5、APP,对发送、访问、使用涉恐敏感词、网页、APP号码进行预警。 预警分析(涉稳类):对号码进行标签管理,进入限定区域预警;群体性事件人员分别热力图;网上串联异动分析。 综合分析(案件侦查类):对前科人员号码进行标签管理,进入某个地市预警;查询犯罪嫌疑人上网数据、宽带数据、上网行为习惯、网上关系人等;对上网详单、短信详单文本进行核心字过滤;找出在逃人员各种关系人数据; 综合分析(个案分析):对人员和区域标记管理;号码位置查询、号码碰撞分析,目的号码进出固定区域告警;检索异常人群核心词;分析出目的号码使用新手机号码; 服务治安管理:区域内人员热力分布;外来人员信息获取。 服务指挥调度:警员手机号
6、定位,群发信息。 战略分析:长期上网行为分析;网上特定信息分析;全国话单调取服务;群体“迁徙”分析。1.3 项目建设内容运用中华人民共和国联通全国大数据优势,搭建联通“大数据”公安情报应用平台,服务贵州公安情报应用。 平台及网络环境搭建:建设大数据应用平台,具备数据计算与存储环境,打通与顾客单位网络连接。 数据采集:具备对移动网络信令、详单、业务日记等数据采集功能。 数据实时计算:开发对顾客位置和轨迹、区域热力、实时告警等功能数据加工解决能力。 数据定期加工存储:实现通信行为、通信内容、号码轨迹、顾客特性数据存储和高速查询;实现分析模型、记录汇总、应用模型开发;为应用功能加工所需数据。 应用功
7、能开发:开发数据查询、数据推送、监控告警、记录分析、数据分析应用功能。第2章 系统总体架构系统总体架构分为三层架构,硬件平台、数据能力、应用功能。系统硬件平台位于联通网络,服务器由X86服务构成,用于搭建Hadoop集群环境和Oracle数据环境。网络互换机统一采用万兆互换机。数据能力由数据采集、实时数据加工、定期数据存储加工构成。应用功能由数据查询、数据推送、监控告警、记录分析、数据分析五大模块构成。第3章 系统网络及硬件环境“大数据”公安情报应用平台位于联通网络,公安顾客通过专线访问大数据应用平台。(1)服务器统一由X86服务构成,X86服务器硬件如下: 2路*8核双线程CPU,内存128
8、G,硬盘16TB,网卡6千兆;(2)大数据应用平台硬件构成: Hadoop集群20台X86服务器; Speak实时计算平台8台X86服务器; 老式Oracle平台2台X86服务器; FTP接口机1台X86服务器; WEB应用服务2台X86服务器; ETL流程控制1台X86服务器; 万兆互换机3台;第4章 数据能力开发4.1 联通总部大数据平台能力简介(一)总部大数据系统每日采集并解决全国31省生产数据。数据量B/M域170多亿条,O域2700多亿条,其中涉及数据源: BSS域18个总部横向系统,涉及集中结算,集中渠道等; BSS域省经分系统将31个不同版本BSS系统按照统一接口规范加工上传总部
9、。 MSS域13个总部集中系统,涉及ERP核心系统等。(二)上线设备整体配备存储容量6.78PB,X86存储服务器共1301台,分别搭建了Greenplum和Hadoop环境。Oracle数据库:3*2节点RAC数据库。4.2 数据采集4.2.1 实时数据采集(一)采集内容采集内容涉及手机信令数据、手机短信日记。1、手机信令数据:MC口手机信令采集数据包括手机号码、基站LAC、基站CELLID、触发时间字段。2、手机短信日记:从短信平台手机短信发送日记采集数据包括手机号码、发送时间、被叫号码、短信内容字段。(二)采集方式1、手机信令数据:通过文献接口联机采集,即MC口系统将信令数据转为TXT文
10、本,每5分钟接口生成一次接口文献,FTP到接口机上。2、手机短信日记:通过文献接口联机采集。短信平台从短信发送日记中生成接口数据文献,FTP到接口机上。4.2.2 定期数据采集(一)采集内容1、详单数据:移动网语音详单、流量详单、短信详单。l 语音详单采集数据内容涉及电话号码、主/被叫号码、呼喊时间、呼喊时长、长途类型、漫游类型、基站LAC和ID。l 流量详单采集数据内容涉及电话号码、通信时间、通信时长、上行流量、下行流量、访问URL地址、基站LAC和ID。l 短信详单采集数据内容涉及电话号码、发送时间、接受号码。2、顾客信息:涉及顾客基本信息,顾客标签。l 顾客基本信息有顾客号码、姓名、证件
11、号码、联系地址、性别、年龄。l 顾客标签涉及顾客业务标签和互联网标签。4.2.3 网页数据(非构造化)数据采集网页数据通过网络爬虫采集数据。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定规则,自动抓取万维网信息程序或者脚本。爬虫系统有四个存储构造:待抓取 URL 库、原始网页库、链出 URL库和 xml库。这四个存储构造都是存在于 Hadoop分布式文献系统以 HDFS为载体。(1)待抓取 URL 库:存储当前层需要抓取 URL集合,事实上就是一种记录着待抓取 URL文本文献,其中 URL之间以“n”为分隔符。在第一层抓取之前,这个文本文献是顾客提交 URL种子集合伙为爬虫进入互联网
12、入口。(2)原始网页库:存储每一层抓取下来原始网页。这里网页是未通过任何解决 HTML 信息,其存储形式是 key值为 URL,value值为 URL相应网页 HTML信息。(3)链出 URL 库:存储每一层解析出来链出链接,其存储形式是 key值为 URL,value值为 URL相应网页包括链出链接集合。(4)xml库:存储所有层抓取下来网页通过转化 XML信息。这里转化相称于对 HTML信息预解决。其存储形式是 key值为 URL,value值为URL相应网页 XML信息。4.3 实时数据加工和解决4.3.1 Spark平台实时计算平台采用Spark组件替代HadoopMapReduce,
13、数据存在HDFS上,计算时读入内存进行运算,运算成果输出至HDFS。(1)信令数据,在HDFS上存储数据包括手机号码、基站LAC、基站CELLID、触发时间字段。存储方式是文本,压缩存储。(2)短信日记,在HDFS上存储数据包括手机号码、发送时间、被叫号码、短信内容字段。存储方式是文本,压缩存储。4.3.2 Spark Streaming实时数据加工Spark streaming是构建在spark上实时流计算框架,扩展了spark流式大数据解决能力。本项目中Spark streaming详细完毕工作如下:(一)基站下顾客信息查询(人数记录、号码明细提取)。1、基站与顾客相应关系口径:当顾客与该
14、基站发生信令交互时,顾客在此时归属该基站。如顾客未与其她基站发生信令交互,则始终归属该基站,直到顾客与另一种基站发生信令交互后,才归入另一种基站。2、基站顾客记录口径:先记录归属该基站联通顾客,并依照顾客来源地联通市场份额占比,反推出该位置全量人数。计算所涉及数据字段:顾客号码、顾客归属地市、基站LAC和ID、基站经纬度、全国各地市联通市场份额占比。(二)号码当前位置和号码今日轨迹。1、号码当前位置计算口径:按该号码近来一次交互基站位置作为号码当前位置。2、号码今日轨迹计算口径:从凌晨0时起,依照信令数据,按基站与顾客相应关系口径记录号码与基站发生交互变化顺序,号码与基站相应关系不重复记录。号
15、码轨迹记录字段涉及手机号码、日期、位置经纬度、进入时间、退出时间、停留时间。(三)区域热力(人流汇集分布)。1、区域热力计算。按5分钟一次时间间隔,依照基站顾客记录口径,汇总记录区域内基站顾客数,形成人流汇集区域热力图。2、区域热力动态计算。依照基站人流量变化趋势,计算区域内人员流向及动态,形成人员数量动态变化预判,并通过区域热力图告警实现。例如有100人正向区域中心汇集。计算所涉及数据字段:顾客号码、日期及时间、基站LAC和ID、基站经纬度。(四)实时告警。1、号码位置告警。已经标记号码进入或离开限定区域,系统实时告警。进入告警时间在标记号码进入限定区域内第一种基站范畴时产生。离开告警时间在
16、在标记号码进入限定区域外第一种基站范畴时产生。计算所涉及数据字段:顾客号码、日期及时间、基站LAC和ID、基站经纬度、限定区域经纬度。4.4 定期数据存储及加工4.4.1 数据存储方略依照数据重要性、访问频率、访问性能规定、数据量等指标对HDFS、Hive、HBase数据进行分类,并制定相应存储方略。考虑本项目实际状况,重要从数据周期、数据访问状况、数据粒度等几种方面考虑数据分级存储方略,其中数据周期作为管理重要关注点。在线级别采集来源数据 详单明细数据 分析及记录数据汇总数据(DM) 日 月 日月日月日月在线区 1个月 2个月 2个月6个月6个月12个月长期近线区 3-6个月7-12个月6-
17、12个月1-2年归档区 1-5年2-5年销 毁不不大于5年不不大于五年在线存储:在线存储又称工作级存储,存储设备和所存储数据时刻保持随时响应状态,可以实时读写,可满足计算平台对数据访问速度规定。近线存储:近线存储定位于在线存储和离线存储之间应用,对性能规定相对来说并不高,但又提供相对较好读取性能。归档存储:数据归档是将不再经常使用数据移到一种单独存储设备来进行长期保存过程,对涉及数据进行离线存储,以备非常规查询等。4.4.2 Hadoop存储与加工 基于Hadoop+Hbase大数据平台,可实现海量数据存储和高速数据查询。4.4.2.1 通信行为数据在贵州省内联通顾客(涉及贵州省本地顾客和外省
18、漫入顾客)产生通信行为数据,即O域预解决详单。1、语音详单数据。字段涉及电话号码、主/被叫号码、呼喊时间、呼喊时长、长途类型、漫游类型、基站LAC和ID。数据量1.5GB/天。2、流量详单数据。字段涉及电话号码、通信时间、通信时长、上行流量、下行流量、访问URL地址、基站LAC和ID。数据量3GB/天。3、短信详单数据。字段涉及电话号码、发送时间、接受号码。数据量0.5GB/天。4.4.2.2 通信内容数据1、短信日记。手机短信平台发送日记包括手机号码、发送时间、被叫号码、短信内容字段。数据量1GB/天。2、上网URL核心词。数据来源O域流量详单,字段涉及电话号码、通信时间、访问URL地址、基
19、站LAC和ID、URL核心词。数据量3GB/天。3、网页内容辨认。数据来源对互联网网页爬虫抓取,字段涉及网页URL、核心词。数据量10GB/天。4.4.2.3 号码轨迹数据1、手机信令(MC口)数据。字段涉及电话号码、通信时间、基站LAC和ID,数据量15GB/天。2、号码轨迹数据。从手机信令数据加工得到。字段涉及电话号码、到达时间、离开时间、位置经纬度、停留时间。数据量1GB/天。4.4.2.4 顾客特性数据1、基本信息。字段涉及顾客姓名、开户地、证件号、证件地址、性别、年龄、业务类型、品牌套餐等信息。数据量1GB/天。2、上网行为特性。数据内容涉及上网流量、重要上网地点、上网时间段、喜欢访
20、问网站排名。数据量1GB/天。3、活动轨迹特性。数据内容涉及重要活动地点(经纬度)、活动时间段;从早到晚重要活动轨迹。数据量1GB/天。4、朋友圈。手机号码交际圈,从长期(如三个月)语音详单中对手机号码主被号码分析,按叫呼喊时长和次数排序,拟定惯用联系人清单,即朋友圈。数据量1GB/天。5、标记信息。积极标记,通过用核心词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日记内容,积极匹配出发送或使用过有关核心词手机号码,并予以标记。被动标记,对涉稳人员、各类犯罪前科人员手机号码打标记。数据不大于1GB/天。4.4.2.5 分析模型数据1、交际圈分析模型。交际圈用于机主关系分析,手机号码之间交际紧密
21、限度和交际对象,如下图:交际圈分析按月从语音详单中对手机号码主被叫状况记录分析,无论主被叫都记为一次接触,并按接触进行排序。数据字段:手机号码、接触号码、接触次数、接触次数占比。数据量约2GB/月。2、呼喊指纹分析模型。呼喊指纹分析模型用于关系人分析,即分析出老手机号码顾客使用新手机号码。呼喊指纹分析通过目的号码语音呼喊范畴特性、上网行为特性判断相似目的号码。(1)语音呼喊范畴特性:l 主叫号码排序l 被叫号码排序(2)上网行为特性:l 访问网站排序l 使用APP排序(3)短信行为特性:l 主叫号码排序l 被叫号码排序数据字段:手机号码、关联手机号码、匹配度。数据字段:数据量约2GB/月。3、
22、号码碰撞分析模型。号码碰撞分析用于个案分析,依照号码活动轨迹,分析限定期段几种区域内或某个区域各种时段内,找出同步浮现手机号码频率。可配备条件按浮现次数进行过滤。数据字段:区域、日期时段,手机号码,浮现次数。数据量约1GB/月。4、外来人员分析模型。外来人员分析模型服务治安管理。对进入贵州省停留达30日外省手机号码进行标记为外来人员。将顾客信息推送到派出所开展暂住人口登记核查。停留地市按30天内手机号码停留最多地市进行计算。数据字段:手机号码、来源省份、停留地市。数据量约1GB/月。5、网上异动分析模型。网上异动分析用于涉稳预警。通过对目的号码流量大小和通话次数和范畴变化,判断异动行为。(1)
23、语音呼喊异动条件:l 主叫范畴突增300%;l 被叫范畴突增300%;l 主叫时长突增300%;l 被叫时长突增300%;(2)上网行为特性:l 访问特定网站流量突增;l 使用特定APP流量突增;(3)短信行为特性:l 主叫范畴突增300%;l 被叫范畴突增300%;数据字段:异动手机号码、异动时间、异动因素。数据量约1GB/月。4.4.2.6 记录汇总数据1、核心词热力数据。1)从手机上网内容URL中核心词进行汇总计算。数据字段:日期、核心词、手机号码数据量。手机号码数据量按联通市场占比进行推算,得出全量人数。数据量约1GB/月。2)设定核心词库,对微博等网页爬取数据,进行分词记录,获取对政
24、策评价。数据字段:日期、核心词、网上发布数量。数据量约30GB/月。2、区域热力数据。通过手机号码、基站ID和经纬度,计算出区域内号码个数。通过基站热力图反映区域内人流热度。计算频率为每5分钟按基站顾客记录口径,对全省基站进行一次汇总记录。数据字段:日期、时间、位置经纬度、人数。人数按联通市场占比进行推算,得出全量人数。数据量约10GB/月。4.4.2.7 应用模型数据1、标记计算模型。通过用核心词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日记内容,积极匹配出发送或使用过有关核心词手机号码,并予以标记。数据字段:异动手机号码、异动时间、异动因素。数据量约1GB/月。4.4.3 Oracle数
25、据呈现 4.4.3.1 告警信息及分发 1、标记管理数据。1)对特定人员进行标记,给手机号码打上标记(涉恐、涉稳等)。数据字段:手机号码、标记信息、标记时间。2)对特定区域进行标记,按经纬度给划定区域打上党政机关、加油站等标记。数据字段:区域、标记信息、标记时间。 3)对特定期间进行标记,按日期打上两会等标记,准时间打上上下班高峰等标记。数据字段:日期、标记信息、标记时间。数据字段:时间、标记信息、标记时间。2、号码位置告警数据。1)当标记特定号码进入特定区域后,系统自动报警。 数据字段:日期和时间、告警号码、告警位置、告警方式(进入特定区域)。2)当标记特定号码离开特定区域后,系统自动告知。
26、数据字段:日期和时间、告警号码、告警位置、告警方式(离开特定区域)。4.4.3.2 记录分析成果 记录分析成果数据是指在Hadoop平台加工完毕分析模型数据、记录汇总数据、应用模型数据等。记录分析成果数据直接用于界面呈现。4.4.3.3 配备与管理 1、核心词库配备数据针对涉案、涉毒、涉恐、涉稳等应用方向,配备和管理核心词及分类信息。2、手机号码标记管理数据(1)积极标记手机号码数据。即系统通过用核心词库(涉案、涉毒、涉恐)过滤上网流量详单和短信日记内容,自动匹配出发送或使用过有关核心词手机号码,并予以标记。(2)被动标记手机号码数据。即民警对涉稳人员、各类犯罪前科人员手机号码打标记。第5章
27、应用功能开发联通“大数据”公安情报应用平台功能涉及数据查询、数据推送、监控告警、记录分析、数据分析五个模块。5.1 数据查询5.1.1 号码位置查询【业务功能】1、划定一种位置(区域),查询其中电话号码。2、手机号码查询实时位置。【功能设计】1、通过手机实时信令数据中手机号码、基站ID并关联基站经纬度,计算出区域内号码个数。2、输入手机号码,通过手机实时信令数据手机号码、基站ID并关联基站经纬度,找出手机号码近来一次基站交互记录,将基站位置作为手机号码位置。【应用场景】1、基本功能(电子地图)。查询特定号码位置。2、综合分析(个案分析)。划定区域查询手机号和关于信息。3、服务指挥调度。警员手机
28、号定位。5.1.2 详单查询模块【业务功能】1、依照电话号码调取顾客通信详单; 2、对设定敏感词、网页、APP进行过滤,找出有关号码。【功能设计】1、通过手机号码调取详单。可用单个号码或各种号码批量查询;查询成果可以导出。 语音详单显示电话号码、主/被叫号码、呼喊时间、呼喊时长。 流量详单显示电话号码、通信时间、通信时长、上行流量、下行流量。2、依照已经设立核心词库,上网详单对URL中核心词进行敏感词过滤,依照网页URL库和APP库进行特点网页、小众APP过滤。【应用场景】1、基本功能(电子地图)。话单调取。2、预警分析(涉恐类)。对手机短信和上网数据涉恐敏感词过滤。3、综合分析(案件侦查类)
29、。上网、短信、社交软件涉毒品、涉案件分析。4、综合分析(个案分析)。检索异常人群核心词检索。5、战略分析。全国话单调取服务。5.1.3 号码轨迹查询模块【业务功能】1、查询手机号码位置轨迹;【功能设计】通过手机信令和基站数据,按天绘制手机号码活动位置轨迹。以一次基站切换表达一次位置移动,在电子地图上显示。号码轨迹显示内容涉及手机号码、日期、位置经纬度、进入时间、退出时间、停留时间。【应用场景】1、基本功能(人员布控),显示人员活动轨迹,。2、预警分析(涉恐类) ,特定号码活动轨迹展示。3、战略分析,群体“迁徙”分析。5.1.4 基站信息查询【业务功能】1、呈现基站位置图层,并可导出和进行叠加;
30、 【功能设计】基站数据(基站名称、经纬度、基站编号)在地图上呈现。点击可显示详细基站编号和名称。【应用场景】基本功能(电子地图),基站地图图层。5.1.5 机主信息查询模块【业务功能】1、单个或批量手机号码查询顾客信息;2、查询顾客上网行为习惯、交际圈、关系人等。【功能设计】1、通过输入手机号码(单个或各种)查询顾客资料,涉及顾客姓名、证件号、证件地址、性别、年龄等信息,并可扩展查询顾客特性刻画数据,如上网行为习惯、交际圈、关系人等。例如交际圈显示与目的号码有通信关系人际圈,并标记出互相之间联系频度,如下图。【应用场景】基本功能(电子地图),电话号码顾客信息批量查询。综合分析(案件侦查类),针
31、对犯罪嫌疑人数据分析。5.2 数据推送5.2.1 顾客基本信息推送【业务功能】1、通过数据接口,定期向公安内网提供顾客手机号、顾客基本信息;【功能设计】1)从数据平台获取顾客号码、姓名、证件号、地址、性别、年龄等信息,生成接口文献并推送至接口机。 2)接口方式采用FTP方式,使用FTP服务器,积极定期生成接口文献,由公安数据使用者下载。3)推送频率,每天1次全量数据。【应用场景】综合分析(个案分析),向公安内网提供顾客手机号、顾客基本信息。5.2.2 手机标记信息推送【业务功能】1、发送手机标记信息(使用敏感软件、发送过涉恐核心词等短信、访问涉恐音视频等);【功能设计】1)当大数据平台进行顾客
32、手机标记计算之后,从大数据平台获取顾客手机标记信息,生成接口文献并推送至接口机。推送手机标记信息涉及手机号码、标记信息、标记时间。2)接口方式采用FTP方式,使用FTP服务器,积极定期生成接口文献,由公安数据使用者下载。3)推送频率,每天1次全量数据。【应用场景】综合分析(个案分析),向公安内网提供顾客手机号、顾客基本信息。5.2.3 数据接口【业务功能】1、使用FTP服务器,积极定期生成接口文献,由公安数据使用者下载;【功能设计】由FTP文献接口机实现数据文献推送。【应用场景】综合分析(个案分析)。5.3 监控告警5.3.1 标记管理【业务功能】1、对特定人员进行标记,给手机号码打上标记(涉
33、恐、涉稳等); 2、对特定区域进行标记,按经纬度给划定区域打上党政机关、加油站等标记; 3、对特定期间进行标记,按日期打上两会等标记,准时间打上上下班高峰等标记; 【功能设计】对标记数据进行维护。手机号码标记、特定区域标记、日期和时间标记,由公安民警通过系统界面进行配备,数据实时生效。【应用场景】基本功能(人员布控)预警分析(涉恐类)预警分析(涉稳类)综合分析(案件侦查类)综合分析(个案分析)5.3.2 号码位置告警【业务功能】1、当标记特定号码进入特定区域后,系统自动报警; 2、当标记特定号码离开特定区域后,系统自动告知;【功能设计】1)手机信令和基站数据实时计算,通过手机号码、基站ID和经
34、纬度,实时得出号码经纬度。2)与标记信息进行比对后告警。告警内容涉及告警时间、告警区域/位置、手机号码、告警内容(进入/离开)。【应用场景】基本功能(人员布控),区域布控。预警分析(涉恐类),设定关注(敏感)区域号码入黔来对某区域人员进行关注。预警分析(涉稳类),涉稳人员预警。综合分析(案件侦查类),前科人员异动分析预警。综合分析(个案分析),目的号码进出固定区域告警。5.4 记录分析5.4.1 区域热力【业务功能】1、信号热度,记录一种区域内人数; 2、区域内号码查询;【功能设计】1)手机信令和基站数据实时计算。通过手机号码、基站ID和经纬度,计算出区域内号码个数。通过基站热力图反映区域内人
35、流热度。显示内容为区域内人数。2)通过区域内基站查找在基站下号码明细。点击基站显示当前在这个基站下号码明细。【应用场景】预警分析(涉稳类),群体性事件处置。服务治安管理,信号热度分布。5.4.2 核心词热力【业务功能】1、长期上网行为分析,对网上搜索景区、餐饮、购物、交通路线等进行分析汇总,提供数据参照; 2、政策出台前网上信息分析,对网上针对该政策反馈进行分析,提供数据参照;【功能设计】1)从手机上网记录URL中核心词进行汇总计算。可以对核心词进行分类,例如按地州市进行分类,显示一种地州市核心词排行,如下图,也可以按贵州省汇总显示。2)设定核心词库,对微博等网页爬取数据,进行分词记录,获取对
36、政策评价。【应用场景】战略分析,长期上网行为分析、网上信息分析。5.5 数据分析5.5.1 号码碰撞分析【业务功能】1、几种区域,某个区域各种时段号码进行碰撞分析,得出目的号码; 【功能设计】1)通过手机信令进行计算,碰撞出限定区域或时段内高频出号码信息。可以分析限定期段几种区域内或某个区域各种时段内,找出同步浮现手机号码频率。显示内容有区域、日期时段,手机号码,浮现次数。2)可配备条件按浮现次数进行过滤。【应用场景】综合分析(个案分析),固定区域固定期段查询目的号码。5.5.2 联系人分析【业务功能】1、分析出目的号码惯用联系人; 【功能设计】从手机语音详单,找出目的号码主被号码按叫呼喊时长
37、和次数排序,拟定惯用联系人。惯用联系人界面展示前8位顾客号码及接触次数占比,前1-3位距离近来;前4-6位距离适中;后7-8位距离最远,如下图:【应用场景】综合分析(案件侦查类),在逃人员及其关系人数据分析。综合分析(个案分析),生成朋友圈信息。5.5.3 关系人分析【业务功能】1、分析出目的号码新手机号码;【功能设计】1、通过目的号码语音呼喊范畴特性、上网行为特性判断相似目的号码,由数据分析模型加工计算。2、显示新号码与旧号码匹配限度(比例)。 【应用场景】综合分析(个案分析),分析出目的人员使用新手机号码。5.5.4 外来人员分析【业务功能】1、找出进入我省停留达30日外省人员; 【功能设
38、计】通过手机信令进行计算,找出停留30天外省号码。界面显示外省人员手机号码、来源省份、停留地市。【应用场景】服务治安管理,外来人员信息获取。5.5.5 网上异动分析【业务功能】1、对涉稳人员手机号码打标签,对串联行为进行分析和预警; 【功能设计】通过对目的号码流量大小和通话次数和范畴变化,判断异动行为。由数据分析模型加工计算,界面呈现分析成果。【应用场景】预警分析(涉稳类),网上串联异动分析。第6章 项目实行6.1 人员组织安排按照项目管理办法,采用自上而下,统一组织,分期实行,严格划分项目系统阶段目的,保证如期完毕,并保证先后系统无缝衔接,达到系统总体功能一致。在关于负责人领导下,成立项目领
39、导小组,直接指挥协调。项目组织机构可用下图表达:(一)项目领导小组项目领导小组为项目实行最高决策机构。职责:批准该系统总体设计方案和实行筹划,决定项目重大投资决策,认定系统实行中重要业务范畴和技术原则,协调工程实行过程中贵州省公安厅和承建方之间关系。运作方式:通过定期和不定期地协调会方式,即在项目进展每个阶段定期召开协调会,研究协调下一阶段工作和在项目实行过程中遇到要协调问题时召开领导成员参加协调会,产生协调会纪要,用纪要来指引项目建设。构成:项目领导小组由贵州省公安厅(或其领导机关人员)与承建方人员共同构成。(二)项目实行小组职责:按照项目设计指标、进度安排和协调会纪要规定,按期保质地完毕项
40、目建设。运作方式:实行项目经理负责制,项目经理技术规定和进度制定各阶段项目实行筹划和相应财务管理,监督项目各某些实行。构成:由承建方及关于产品供货商构成,下划三个功能小组:即专家组、开发组、测试组。1、专家组职责:提供专业征询意见,协助总体设计。人员构成:大数据技术专家、熟悉公安业务专家、对软件开发工程有丰富管理工作经验专家。2、软件开发组职责:详细承担信息系统开发任务。人员构成:数据开发员、数据分析员、程序员。3、测试组职责:对各种设备进行进货、安装、测试检查;对软件各子系统模式功能、可靠性进行测试,并写出测试报告。人员构成:熟悉公安业务工作人员、大数据技术专家、承建方关于技术人员。6.2
41、项目实行环节通过平台搭建、功能开发、应用及优化三个阶段逐渐完毕“大数据”公安情报应用平台建设,满足八类公安情报应用需求。6.2.1 平台搭建平台搭建重要工作内容是搭建平台网络及硬件环境,实现数据采集存储。(一)平台搭建 基于X86服务器实时计算平台搭建:完毕服务器硬件安装,建立好Speak计算平台软件环境。 Hadoop大数据集群环境搭建:完毕服务器硬件安装,完毕Hadoop集群软件安装,正常运营大数据集群。 完毕网络连接:完毕大数据集群网络环境,与接口机、WEB应用服务器网络连接。打通与贵州省公安厅专线网络连接。(二)数据采集存储 详单数据采集:实当前贵州省内联通顾客(涉及贵州省本地顾客和外
42、省漫入顾客)产生通信详单采集,即O域预解决详单采集。 信令和业务日记数据采集:实现移动网络MC口信令数据采集,实现短信日记数据采集。6.2.2 功能开发功能开发重要涉及开发数据加工解决能力开发和开发应用系统界面功能开发两个方方面。(一)数据加工、计算 实时数据加工和计算:开发实时数据加工程序,完毕区域热力、实时告警、位置轨迹等实时计算功能。 定期数据加工和计算:开发定期数据加工程序,完毕分析模型、记录分析、标记计算等数据加工和计算功能。(二)应用功能开发 开发数据查询、数据告警、数据推送功能界面。 开发记录分析、数据分析功能界面。6.2.3 应用及优化大数据应用功能优化重要工作内容是数据模型优
43、化和应用功能优化。(一)数据模型优化 积累历史数据:积累最新三个月数据,为数据计算和模型验证提供基本数据。 模型配备优化,模型效果评估:验证数据模型加工成果,重复调节模型参数,优化模型效果。(二)应用功能优化 选取试点单位,推广8类应用需求。 优化应用功能:依照试点单位试用成果,重复优化、完善界面功能。6.3 项目投入估算本期项目建设需投入X86服务器、互换机以及配套设施,应用软件开发。硬件资源投入涉及X86服务器、互换机以及配套设施。大数据机房及网络环境选取中华人民共和国联通贵安大数据基地。应用软件开发投入重要是联通“大数据”公安情报应用平台建设。附件1. 大数据平台有关技术原理阐明1. H
44、adoop基本平台1.1. HDFSHDFS概述Hadoop Distributed File System,简称HDFS。分布式文献系统,设计之初用来存储大文献,将大文献分散成诸多块存储至多台服务器。HDFS是整个Hadoop生态圈基本。技术原理HDFS服务角色分为Namenode和Datanode。Namenode:重要负责存储某些metadata信息,重要涉及文献目录、block和文献相应关系,以及block和datanote相应关系。Datanode:负责存储数据。 Block:大文献存储会被分割为各种block进行存储。默以为64MB,每一种block会在各种datanode上存储多
45、份副本,默以为3份,各种副本避免硬件故障带来文献丢失。HDFS 提供了一种高度容错性和高吞吐量海量数据存储解决方案。HDFS构造图:HDFS读流程构造图:HDFS写流程构造图:1.2. YarnYarn概述为了实现一种 Hadoop 集群集群共享、可伸缩性和可靠性。设计人员采用了一种分层集群框架办法。详细来讲,特定于 MapReduce 功能已替代为一组新守护程序,将该框架向新解决模型开放。回忆一下,由于限制了扩展以及网络开销所导致某些故障模式,MRv1 JobTracker 和 TaskTracker 办法曾是一种重要缺陷。这些守护程序也是 MapReduce 解决模型所独有。为了消除这一限制,JobTracker 和 TaskTracker 已从 YARN 中删除,取而代之是一组相应用程序不可知新守护程序。技术原理Yarn作为第二代计算架构,用ResourceManager将一代架构JobTracker 两个重要功能分离成单独组件,这两个功能是资源管理和任务调度 / 监控,即ApplicationManager和ResourceScheduler。ResourceManager负责作