1、文章编号:1009-6094(2023)06-2017-07恐怖袭击嫌疑组织预测模型研究姜旭初,吴沁珏(中南财经政法大学统计与数学学院,武汉 430073)摘 要:为预测恐怖袭击事件的嫌疑组织,选取全球恐怖主义数据库;基于恐怖袭击事件发生的时间特性,采用 20142016 年发生的恐怖袭击数据作为训练集,对 2017 年发生的恐怖袭击事件的发动组织进行分类预测。采用综合采样技术平衡训练集数据,运用双向循环神经网络学习数据集的时间特性,结合自注意力机制,构建基于自注意力机制的双向门控循环神经网络组合模型,对恐怖袭击事件的犯罪嫌疑组织进行分类预测,并将该模型与引入注意力机制的神经网络模型进行对比。
2、研究表明,该模型在预测恐怖袭击事件的犯罪嫌疑组织上具有更高的分类精度,能够为警方快速侦破恐怖袭击案件提供有价值的信息。关键词:公共安全;嫌疑组织预测;双向循环神经网络;自注意力机制;综合采样技术中图分类号:X959 文献标志码:ADOI:10.13637/j.issn.1009-6094.2021.1331收稿日期:20220101作者简介:姜旭初,副教授,博士,硕士生导师,从事大数据建模方法及应用研究,xuchujiang 。0 引 言恐怖袭击是指极端分子或组织人为制造的、针对但不仅限于平民及民用设施的、不符合国际道义的攻击行为。恐怖分子通过使用暴力、恐吓、毁灭性破坏等手段,肆意地践踏人权、
3、残害无辜生命、制造社会恐慌、危害公共安全。2014 年3 月1 日晚,云南省昆明火车站发生暴力恐怖案件,导致 29 人死亡、143 人受伤1。许多中东地区国家恐怖袭击事件频繁发生,美国 911 事件对美国国际政策产生了深刻影响。我国新疆地区暴力恐怖活动一度猖獗,2014 年,以新疆为主战场开展严打暴恐专项活动,建立新疆教培中心,开展反恐、去极端化教育,目前新疆已连续 4 a 未发生恐怖活动。机器学习和数据挖掘技术已广泛运用于银行、电子商务、医疗等领域,在犯罪研究领域,数据挖掘技术已应用于预测未来犯罪和寻找嫌犯等方面。近年来由于恐怖袭击事件泛滥,数据挖掘技术已应用于全球恐怖主义数据库研究方面。2
4、002 年,Arundhati2首次提出可以将数据挖掘的方法应用到对于恐怖袭击事件的研究中。Herb3提出了运用数据挖掘技术及数据库寻找嫌疑恐怖分子的方法。龚伟志等4在建立大数据分析模型综合评价恐怖袭击风险的基础上,融入多步时间序列来预测未来的恐怖袭击风险。郭璇等5通过无人机事件树分析和概率风险分析,对我国民航机场潜在恐怖袭击事件的人员伤亡损失概率、可能被袭击者的风险情况进行了量化评价与分析。李永群等6运用 K 最邻近分类算法对恐怖袭击事件的危害程度进行量化分级,并基于 K 均值聚类算法对恐怖事件的分类来确定恐怖袭击制造者。谢振东等7采用二阶段聚类方法计算最大分类次数,利用线性判别分析法预测罪
5、犯的嫌疑程度,分析了恐怖袭击事件的地域发生规律。李凯等8运用向量自回归模型对恐怖袭击事件的影响因素进行内生性关系分析,挖掘了恐怖袭击的潜在规律和恐怖袭击事件的未来发展态势。刘飞燕9运用随机森林模型选择恐怖袭击事件的特征属性,采用信息流计算评估每个指标权重,构建加权贝叶斯网络定量分析恐怖袭击事件造成的破坏。罗澜峻等10首先按照恐怖袭击事件特性选择特征属性,之后构建了长短时记忆神经网络模型(Long Short Term Memory,LSTM)来预测短期事件内何时会发生恐怖袭击事件。综上,现阶段对于全球恐怖主义数据库的研究主要是量化分析恐怖袭击事件的危害程度并分级,探究恐怖袭击事件发展的时间及空
6、间态势。但在预测恐怖袭击事件风险方面还有待改进,对恐怖袭击事件发生地点和制造者的预测也值得研究。本文以预测制造恐怖袭击事件的嫌疑组织为切入点,构建基于自注意力机制11的双向门控循环单元12神经网络组合模型(Bidirectional Gate Recurrent Unit baseon Self-Attention,BiGRUSA),以期为恐怖袭击事件破案提供借鉴。1 数据来源与研究方法1.1 数据来源本文采用的数据集来源于全球恐怖主义数据库13,包含每一起恐怖袭击事件的发生时间、地点、事件信息、攻击信息、武器信息、凶手信息、目标/受害者信息、事件造成的伤亡与后果等特征。考虑到恐怖袭击事件发生
7、的时间特性,选用 20142017 年发生的全球恐怖主义袭击事件进行研究。1.2 研究方法1.2.1 研究框架在恐怖袭击嫌疑组织预测分析中,选择 20147102第 23 卷第 6 期2023 年 6 月 安全 与 环 境 学 报Journal of Safety and Environment Vol.23 No.6Jun.,20232016 年全球发生的恐怖袭击事件数据作为训练集来对测试集,即 2017 年发生恐怖袭击事件的犯罪嫌疑人进行有监督分类预测。首先,对数据集进行缺失值处理以及特征工程等预处理工作。然后,采用合成少数类过采样技术14及边界相邻匹配15的综合 采 样 技 术(Synt
8、heticMinorityOversamplingTechnique and Tomek Link,SMOTET)平衡训练集。考虑到恐怖袭击事件的作案时间对于事件发生的犯罪嫌疑组织的预测有重要影响,根据恐怖袭击事件发生的时间顺序及该事件的特性,构建 BiGRUSA模型来预测全球恐怖袭击事件的犯罪嫌疑组织。整体研究框架见图 1。图 1 研究框架Fig.1 Research framework1.2.2 综合采样对于不平衡数据集的处理,一般采用过采样与欠采样的方法来改变数据分布,但欠采样方法会丢失一部分已有的样本信息,而过采样方法容易造成分类器过拟合,因此考虑采用 SMOTET,该方法结合了欠采样
9、和过采样的策略,使用 Tomek 链对可在一定程度上缓解过采样方法带来的样本重叠问题,其基本思想是:首先使用 SMOTE 构造一些新的少数类样本来扩大数据集,来平衡各类别的样本个数,之后删除数据集当中的噪声样本。SMOTE 算法是在创造新样本的时候随机选取一个相同类别的样本进行随机线性插值,该算法的基本计算步骤为:1)记少数类别样本为 xi,寻找其最近邻的 m 个少数类别的样本;2)从 m 个样本当中随机选取一个样本记作 xj;3)在 xi和 xj中间进行随机线性插值,构造新样本为新的少数类别样本。而对于有噪声的样本,针对 2 个类别不同的样本 xi和 xj,若 xi的最近邻是 xj,且 xj
10、的最近邻是 xi,则样本 xi和 xj为 Tomek 链对。1.2.3 神经网络模型1)门控循环单元网络。门控循环单元(Gate Recurrent Unit,GRU)神经网络为长短记忆型神经网络的一个变体,将输入门和遗忘门合并为更新门 u(t)来控制前一时刻的状态信息被带入当前状态中的程度。而重置门 r(t)用于控制忽略前一时刻的状态信息的程度,其单元结构见图 2。I(t)为 t 时刻的输入,C(t)、H(t)分别表示 t 时刻的候选隐含层状态和隐含层状态,u、r、c分别表示更新门、重置门、候选状态的权重,bu、br、bc分别表示更新门、重置门、候选状态的偏置,、tanh 为激活函数,表示哈
11、达玛积。图 2 GRU 单元结构Fig.2 GRU unit structureGRU 结构的前向传播计算方式为u(t)=uI(t),H(t-1)+bu(1)r(t)=rI(t),H(t-1)+br(2)C(t)=tanhcI(t),r(t)H(t-1)+bc(3)H(t)=u(t)H(t-1)+1-u(t)C(t)(4)GRU 单元并不会每次都把之前的变量拿过来计算,只会保存相关的信息,这使得梯度消失的问题能够得到解决。并且比起 LSTM 单元,GRU 单元所用的变量更少,计算更简便。BiGRU 模型即双向 GRU 模型,该模型在连接结构上为双向连接,包含了前向传播与后向传播 2 个GRU
12、模型,将前向输出与反向输出拼接得到最终输出状态,该模型比起单向的 GRU 模型一般具有更好的分类效果。2)自注意力机制。注意力机制是让模型能够学会关注数据中的重点信息,为其赋予更大的权重,而忽略其中的无关信息。该模型的实现过程如图 3 所示。8102 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期图 3 注意力机制实现过程Fig.3 Implementation process of attention machanism注意力机制是通过查询和键之间的相似度,计算得到权值,之后得到的权重是通过将权值进行归一化操作,最后将权重和进行加权求和得到注意力机制权值。注意力机制
13、更多地关注输入序列中影响输出结果的关键部分,以便更好地学习输入序列中的信息,可以有效地提高预测性能,对于序列学习任务具有重大的提升作用。自注意力机制不是指的目标和原数据之间的注意力机制,而是指发生在原数据内部元素之间或目标内部元素之间的注意力机制。该算法的具体计算过程与注意力机制相同,只是计算对象不同。对于循环神经网络、长短期记忆网络、门控循环单元,需要依次序列计算,而自注意力机制有助于解决远距离依赖特征间的距离问题,引入自注意力机制有助于捕获长距离的相互依赖特征。1.2.4 预测分类为对恐怖袭击嫌疑组织的预测分类,采用基于自注意力机制的双向门控循环神经网络模型,由于恐怖组织常常会在一段时间内
14、连续多次发动恐怖活动,恐怖袭击事件的发生与时间具有很强的关联性,并且为了根据前 3 a 的全球恐怖袭击情况来对后一年发生恐怖袭击的犯罪嫌疑人进行预测,时间对于预测模型的影响也较大,因此在构建嫌疑人预测模型时主要考虑到数据所具有的时间特性。运用 BiGRUSA 模型对平衡之后的训练集数据进行训练,再对测试集数据进行嫌疑人分类预测,并根据分类结果对该模型效果进行验证。BiGRUSA 模型的结构设计见图 4。通过在开源人工神经网络库中搭建函数化模型的方式,构建了如图 4 所示的 BiGRUSA 神经网络模型。1)输入层:将恐怖袭击事件数据转化成窗口大小为 1 的序列数据作为输入矩阵。2)隐含层:建立
15、 2 层 GRU 模型,将输入矩阵输入 GRU 模型并且每次的输出结果作为下一时刻GRU 模型的输入,建立 2 层双向的循环网络结构,图 4 BiGRUSA 模型结构Fig.4 BiGRUSA model structure在 2 层双向 GRU 单元的输出之后添加自注意力机制,并通过全连接层拼接输出结果,再加入激活函数及标准化层,带泄漏的修正线性单元是一种非线性激活函数,其表达式为L(x)=xx 0axx 0(5)式中 a 为泄漏值。该激活函数能在一定程度上解决梯度消失问题以及神经元不能被激活的问题,而标准化层能够将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较
16、敏感的区域,从而使梯度变大,加快学习收敛速度,避免了梯度消失的问题,并且为防止训练过程中出现过拟合的问题还加入了正则化层。3)输出层:最后的输出层采用了全连接的操作,设置训练目标的最小化损失函数,评价准则选择分类的精度,运用激活函数分类器输出得到 BiGRUSA 模型预测恐怖袭击犯罪嫌疑人各类别的概率向量,并且为预测的每一个嫌疑人类别概率都选择具有最高概率的标签作为最后的预测输出类别。9102 2023 年 6 月 姜旭初,等:恐怖袭击嫌疑组织预测模型研究 Jun.,20232 试验分析2.1 数据预处理1)特征选择。由于全球恐怖主义数据库中所记录的恐怖袭击事件相关特征指标较多,考虑根据相关文
17、献和报道以及相关的专业知识对变量进行人工筛选。首先数据库中所有特征指标可以分为标志号和日期、事件信息、事件发生的地点、攻击信息、武器信息、目标/受害者信息、凶手信息、伤亡和后果这 8 个大类,再从这 8 类中人工筛选出对于后续的分析具有意义的一些属性,并且构建恐怖袭击事件指标体系,见表 1。表 1 恐怖袭击事件指标体系Table 1 Terrorist attack event index system指标类型指标名称指标含义分类标志号和日期事件信息事件发生地点攻击信息武器信息目标/受害者信息该事件的持续时间是否超过 24 h该事件是否以实现政治、经济、宗教或社会目标为目的该事件是否意图胁迫、
18、恐吓或煽动更多的群众该事件是否超出国际人道主义法律范围该事件是否疑似恐怖主义事件该事件是否有相关联的其他攻击事件该事件发生地是否邻近城市该事件发生的地区该事件采用的攻击方法该事件攻击是否成功该事件是否为自杀式袭击该事件中攻击采用的武器类型该事件中的目标/受害者类型数值分类凶手信息伤亡和后果参与这一事件的恐怖分子总数这一事件中所有确认死亡的总人数这一事件中凶手的死亡总数这一事件中所有受伤总人数这一事件中人质或绑架受害者的总数是否有证据表明该事件造成财产损失这一事件造成的财产损耗程度2)缺失值处理。首先筛选出标签特征,即犯罪集团的名称缺失的样本数据,以及在上述指标体系中特征有未知缺失值的样本数据,
19、将这些记录从训练集和测试集中删去,得到训练集共 16 877 个样本,测试集共 4 817条样本数据。由于数据集当中许多嫌疑人的作案次数较少,样本过于稀少不利于进行分类,并且对于作案次数较少的嫌疑组织未来可能不会再继续作案,因此考虑将嫌疑人作案次数少于 350 的事件全部归为一类并命名为“其他”,则根据训练集可得到10 类。3)特征编码。由于数据集中攻击类型、武器类型、受害者类型、发生地区这些指标都为无序分类变量,无法直接将其编码为有序的数字并对其进行计算,因此考虑采用独热编码方式(One-hot),即将每个无序分类变量全部转化为 0、1 向量,从而将恐怖袭击事件风险指标评价体系当中选择的 2
20、0 个特征转化为 69 个新的数值型特征变量。4)数据平衡。由于所采用的数据集当中构造的“其他”一类0202 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期由多个嫌疑人类别合并产生,且其中多个嫌疑人作案次数相差较大,导致不同类别之间的样本数目有很大差异,因此存在严重的类别不均衡问题。数据分布不平衡对于后期分类模型的训练会造成较大的影响,并且在评价时可能会使得模型的准确率虚高,在使训练数据集当中每个类别的样本数量达到近似数据平衡的状态之后能够训练出更加具有鲁棒性的模型,能使得后续对于测试集的预测分类更加方便。通过采用 SMOTET 的综合采样方法对训练数据集进行均衡处理
21、,使得各类别样本数目相接近,最终得到共 73 202 条样本数据作为训练集。2.2 评价指标选取多分类预测的精度、宏查准率 P、宏查全率R 和宏 F1(P 与 R 的调和平均数)来衡量不同多分类模型的泛化能力,比较分类效果。精度是分类正确的样本占总样本数的比例,精度越高模型分类越准确。P 越高表示预测出来的嫌疑组织是真正罪犯的可能性越大;R 越高表示真正的罪犯能被预测出来的可能性越大;F1则能均衡 P 与 R 的重要程度。基于疑罪从无处置的原则,需要先找出恐怖袭击事件犯罪嫌疑较大的人再进行重点调查,因此 P 和 R对于嫌疑人预测的分类任务都很重要,F1为主要评价指标。由于“其他”类为其余嫌疑人
22、合并得到的类别,其分类预测效果对于找出嫌疑人没有意义,因此在计算 P、R 和 F1各项评价指标时不考虑“其他”类,只对其余 9 个类别的分类预测效果进行计算。2.3 试验参数设置由于超参数对于神经网络模型的预测效果会具有很大的影响,因此考虑采用 3 折交叉验证随机搜索的方法来确定该神经网络模型的超参数。训练过程中一次输入的样本个数在网格16,32,64,128,256中搜索选取,训练全部样本数据的次数在网格10,20,30,50,100中搜索选取,随即丢弃样本的概率在网格0.1,0.3,0.5,0.7中搜索选取,学习率在网格0.000 1,0.001,0.01中搜索选取,最终得到了 BiGRU
23、SA 模型的参数设置为:批尺寸为64,次数为 100,丢弃概率为 0.5,学习率为 0.01。2.4 试验设计2.4.1 预测分类试验结果采用 BiGRUSA 模型根据 20142016 年的全球恐怖袭击事件数据进行训练,并对 2017 年恐怖袭击事件的犯罪嫌疑组织进行分类预测。图 5 为在测试集上分类的混淆矩阵。由图 5 可以看出,该模型对于毛派、新人民军、塔利班这几个恐怖组织的犯罪特性具有较好的识别能力,能够较为准确地预测得到犯罪嫌疑人。从结果中也可以发现模型对于“其他”这一类较难识别,由于这一类别是由在 20142016 年犯罪次数较少的恐怖组织或恐怖分子合并而成,具有多种不同的犯罪行为
24、特性,因此对这一类做出准确的分类较为困难,容易将其他嫌疑人所作的案件误分到该类。对于一些作案次数较少的恐怖组织,没有足够的样本支撑,难以让模型学习到他们的行为特征,并且可能出现之前未犯罪的恐怖组织或恐怖分子发动的恐怖袭击事件,对于新出现的恐怖组织具有之前未出现的犯罪行为特征,也较可能会造成将该类样本误分到其他类别。图 5 BiGRUSA 预测结果混淆矩阵Fig.5 BiGRUSA prediction result confusion matrix2.4.2 对比试验为验证新提出的 BiGRUSA 模型的预测分类效果,设置了多个神经网络及其组合模型来进行对比试验。由于所采用的恐怖袭击事件数据具
25、有时间序列的特性,早期的案件会对以后发生的案件具有一定的影响,因此考虑采用循环神经网络(RecurrentNeural Network,RNN),LSTM 为 RNN 的变体,GRU为 LSTM 的变体,将这一系列循环神经网络进行对比能够体现出门控循环单元网络具有长期依赖并且能够减少过拟合的优势。逆向神经网络(BackPropagation,BP)为最简单的神经网络结构,网络的运行信息不会传递到下一个神经元当中,与循环神经网络进行对比能够体现出之前案件的信息对以后案件的影响。利用评价指标,根据各模型通过交叉验证法计算得到的模型评分,以及各模型在测试集上的分类评价指标值,最终得到的对比试验结果见
26、1202 2023 年 6 月 姜旭初,等:恐怖袭击嫌疑组织预测模型研究 Jun.,2023表 2。RNNA 为在循环神经网络的基础上连接注意力机制进行分类的模型;BiRNN 为运用双向循环神经网络进行分类的模型;BiRNNSA 为基于双向循环神经网络加入自注意力机制进行分类的模型;LSTMA 为在 LSTM 神经网络的基础上连接注意力机制进行分类的模型;BiLSTM 为运用双向 LSTM 神经网络进行分类的模型;BiLSTMSA 为基于双向LSTM 神经网络加入自注意力机制进行分类的模型;GRUA 为在 GRU 神经网络的基础上连接注意力机制进行分类的模型;BiGRU 为运用双向 GRU 神
27、经网络进行分类的模型。对比试验所有神经网络模型的超参数选择方法都与 BiGRUSA 模型一样。表 2 对比试验结果Table 2 Comparison test results对比试验模型模型评分精度/%宏查准率 P宏查全率 R宏 F1BP0.516 058.9444.6862.7450.00RNN0.609 558.2943.0059.5948.12RNNA0.638 759.8744.7658.6849.27BiRNN0.626 059.3544.2056.6248.18BiRNNSA0.641 458.4843.5663.4049.76LSTM0.630 759.7344.7956.90
28、48.64LSTMA0.627 558.5044.1257.9348.41BiLSTM0.641 259.2344.8456.2248.18BiLSTMSA 0.643 658.0443.2660.8248.88GRU0.631 359.0644.2061.4249.18GRUA0.657 958.9444.6856.6648.19BiGRU0.645 959.9845.2255.7548.29BiGRUSA0.666 760.6044.8359.2449.53从表 2 可以看出,BiGRUSA 模型对于恐怖袭击事件嫌疑人在测试集上的预测精度最高达到60.60%,并且模型在训练集上的交叉验证精
29、度也最高,虽然其宏 F1不是所有模型中最高的,但其宏 F1为 49.53%,位于所有模型中的第三位并且与最高的宏 F1值 50.00%相差较小,此外对比其他模型,该模型的宏查准率与宏查全率都较高并且两指标值最为平衡,因此结合训练集与测试集上结果综合考虑,最终认为 BiGRUSA 模型相比于其他神经网络模型对于恐怖袭击事件的犯罪嫌疑人预测具有更好的分类预测效果。3 结 论1)选取 20142016 年的全球恐怖袭击数据集为研究对象,采用 SMOTET 方法来平衡训练集数据,构建 BiGRUSA 神经网络组合模型对恐怖袭击事件的犯罪嫌疑组织进行分类。通过与其他神经网络的组合模型对比,新提出的 Bi
30、GRUSA 组合模型对于 嫌 疑 组 织 预 测 都 具 有 更 高 的 分 类 精 度(60.60%)。2)在具体的恐怖袭击案件调查中,通过过去几年发生的恐怖袭击事件数据来训练得到模型,并使用该模型来预测制造恐怖活动的嫌疑组织,能让警方重点调查组织,为恐怖袭击案件的侦破提供有价值的信息,加快警方的破案速度,对打击恐怖主义具有一定的意义。此外,本文亦存在一些不足,如无法对犯罪嫌疑人进行精准的预测只能预测犯罪频率较大的组织且具有一定的时效性,并且本文主要基于对全球所发生的恐怖袭击事件进行分析,然而由于恐怖活动与空间具有很强的关联性,在未来的研究中还应具体到对特定的地区、国家进行分析,能够使得模型
31、更具有实用性。参考文献(References):1 中华人民共和国最高人民检察院.“301”昆明火车站严重暴恐案当庭宣判 3 人被判处死刑EB/OL.20140915.https:/ SupremePeoplesProcuratorateofthePeoplesRepublic of China.“301”Three sentenced to death inKunming train station serious terrorist case in courtEB/OL.20140915.https:/ ARUNDHATIP.Undercoverdatamining J.Siliconin
32、dia,2002,1:5859.3HERB E.Using data mining to find terroristsJ.DataMining Review,2003,13(5):66.4龚伟志,刘增良,王烨,等.基于大数据分析恐怖袭击风险预测研究与仿真J.计算机仿真,2015,32(4):3033,398.GONG W Z,LIU Z L,WANG Y,et al.Research andsimulation of terrorist attack risk prediction based on bigdata analysisJ.Computer Simulation,2015,32(
33、4):3033,398.5 郭璇,吴文辉,肖治庭.基于事件树和 PRA 的民航机场恐怖袭击风险评估模型J.计算机应用研究,2017,34(6):18091811.GUO X,WU W H,XIAO Z T.Civil aviation airportterrorism risk assessment model based on event tree and2202 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期PRAJ.Application Research of Computers,2017,34(6):18091811.6李永群,应万明,袁飞,等.基于数据挖掘
34、的全球恐怖主义数据库数据分析J.经济数学,2019,36(2):9194.LI Y Q,YING W M,YUAN F,et al.Data analysis ofGTD based on data miningJ.Journal of QuantitativeEconomics,2019,36(2):9194.7谢振东,文帆,周子雅,等.对恐怖袭击事件的多元统计分析J.经济数学,2019,36(3):8994.XIE Z D,WEN F,ZHOU Z Y,et al.Multiple statisticalanalysis for terrorist attacksJ.Journal of
35、QuantitativeEconomics,2019,36(3):8994.8 李凯,康彤.对恐怖袭击事件记录数据的量化分析J.中国传媒大学学报(自然科学版),2020,27(1):1518.LI K,KANG T.Quantitative analysis of recorded data ofterrorist attacksJ.Journal of Communication Universityof China(Natural Science Edition),2020,27(1):1518.9 刘飞燕.基于改进的加权贝叶斯网络恐怖袭击危害性评估J.南宁师范大学学报(自然科学版),20
36、20,37(4):7078.LIU F Y.Harmfulness assessment of terrorist attacksbased on improved weighted bayesian network J.Journal of Nanning Normal University(Natural ScienceEdition),2020,37(4):7078.10 罗澜峻,祁超,王红卫,等.基于 LSTM 模型的恐怖袭击事件发生时间预测J.系统工程学报,2020,35(2):163172,243.LUO L J,QI C,WANG H W,et al.Prediction oft
37、errorist attack occurrence time based on LSTM modelJ.Journal of Systems Engineering,2020,35(2):163172,243.11 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you needC/Proceedings of the 31stInternationalConferenceonNeuralInformationProcessing Systems.Long Beach,USA:MIT Press,2017:60006010.12 CHO
38、 K,VAN MERRINBOER B,GULCEHRE C,etal.Learning phrase representations using RNN encoder-decoderforstatisticalmachinetranslation C /Proceedingsofthe2014ConferenceonEmpiricalMethods in Natural Language Processing.Doha,Qatar:Association for Computational Linguistics,2014:17241734.13 The National Consorti
39、um for the Study of Terrorism andResponses to Terrorism.Global terrorism databaseDB/OL.20160310.http:/www.start.umd.edu/gtd/.14 CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:syntheticminorityover-samplingtechniqueJ.Journal of Artificial Intelligence Research,2011,16(1):321357.15 ABDOULI N O A,AUNG Z,WO
40、ON W L,et al.Tackling class imbalance problem in binary classificationusing augmented neighborhood cleaning algorithmM/KIM K.Information science and applications.Berlin,Heidelberg:Springer,2015:827834.Research on prediction model ofterrorist suspected organizationsJIANG Xuchu,WU Qinjue(School of Sta
41、tistics and Mathematics,Zhongnan University ofEconomics and Law,Wuhan 430073,China)Abstract:Terrorist attacks occur frequently all over the world,which give rise to great harm to the public,and the anti-terrorismsituation is extremely urgent.Against this backdrop,it isincreasingly vital to track dow
42、n a criminal quickly and carry outimmediate action.With the method of data mining,this paperfocuses on exploring the characteristics of terrorist activities andpredicting suspected criminal organizations,which can assist thepolice in tracking down the criminal much quicker.The dataused in this paper
43、 come from the GTD database of global terroristattacks,ranging from 1970 to 2017.Additionally,based on thetime characteristics of terrorist attacks,the terrorist attack datafrom 2014 to 2016 are used as the training set to classify andpredict the launching organizations of terrorist attacks in 2017.
44、First,this paper constructs a terrorist attack index system byselecting variables and processing thedataset,includingremoving missing values and feature coding.Then,due to thelarge difference in the number of samples of different terroristorganizations in the data set,to address this problem,acompre
45、hensivesamplingmethod(SyntheticMinorityOversampling Technique and Tomek Link,SMOTET)isapplied to balance the training set.After that,combined with theself-attention mechanism,the Bidirectional Gated Recurrent Unit(BiGRU)is used to learn the time characteristics of the dataset,and the three-fold cros
46、s-validation random search method isused to determine the parameters of the network.The BiGRUbaseonSelf-Attention(BiGRUSA)neuralnetworkcombination model is constructed to classify and predict thesuspected criminal organizations of terrorist attacks.Finally,themodel is compared with other models intr
47、oducing an attentionmechanism(BP,RNN,LSTM,GRU).The results show thatthe prediction accuracy and macro F1on the testing set of theBiGRUSA model proposed in this paper are 60.60%and49.53%,respectively,whichisbetterinpredictingthesuspected criminal organizations of terrorist attacks than othermodels.Key words:public safety;suspected organization prediction;bidirectional recurrent neural network;self-attentionmechanism;integrated sampling technology3202 2023 年 6 月 姜旭初,等:恐怖袭击嫌疑组织预测模型研究 Jun.,2023