混合特征的涉诈类APP分析模型的构建与研究.pdf

资源描述

1、Computer Era No.12 20230 引言随着智能手机在我国普及，人们上网的方式也随之发生变化。据第 50次中国互联网络发况统计报告，截至2022年6月，我国网民规模为10.51亿，其中手机网民规模有10.47亿，占比高达99.6%。在此形势下，电信诈骗的主战场从主机端迁移到了手机端，智能手机应用程序（以下简称APP）中披着“正常”外衣的恶意软件层出不穷，大量隐私泄露和滥用权限的现象在Android 平台广泛存在1，个人信息安全左支右绌。用户在享受应用软件所带来便利的同时，涉诈类APP悄无声息地成为诈骗的踏板，帮助涉诈分子引诱用户上钩，逐渐成为犯罪分子实施电信诈骗的主要工具。着眼

2、于恶意 APP 分辨难的问题，本文重点选取Dalvik字节码与权限作为研究特征，通过降维的方法将选取的两类特征合成一种新的特征码，运用聚类算法实现涉诈APP的分类。1 背景研究互联网信息时代来临，安卓手机应用程序（Android application package，简称APK）日趋智能化、多样化，同时，涉诈类APP也不断更新。如何对涉诈APP分类，对其犯罪行为给予精确打击，是本文研究的方向。通过大量文献研究发现，Ahmed Mumtaz2等将恶意软件签名建模为二维图像，发现InceptionV3的迁移学习方法在测试数据集上的分类准确率较高；刘新宇3等提出一种基

3、于启发式学习的机器学习检测方法对应用特征进行提取，重点将恶意与正常APK的界限进行了区分，在一定程度上改善了传统验证方式误报率较高的问题；韩晓光4等提出一种基于图像识别的指纹框架识别方法，提升了检测相同族类恶意APK 的效率；张景莲5等对病毒反编译文件及其灰度图进行特征提取,融合恶意代码特征与RF算法实现恶意代码家族的有效分类；卢建赟6提出在特征中加入类型区分度较高的安全漏洞，扩充了Android恶意应用DOI:10.16644/33-1094/tp.2023.12.018混合特征的涉诈类APP分析模型的构建与研究夏艺丹，李乔宇，施俊帆(浙江警察学院，浙江杭州 310000)摘要：针对涉诈类

4、APP分类难的问题，通过N-gram、主成分分析法等方法对Dalvik字节码与权限特征形成的特征码进行降维，利用K-Means+聚类算法构建APK涉诈家族分析模型，实现对涉诈类APP进行分类的目的。关键词：涉诈类APP；Dalvik字节码；权限；K-Means+中图分类号：TP391.4文献标识码：A文章编号：1006-8228(2023)12-81-04Research on analysis model of fraud-related APP based on mixed featuresXia Yidan,Li Qiaoyu,Shi Junfan（Zhejiang Police Col

5、lege,Hangzhou,Zhejiang 310000,China）Abstract：Aiming at the problem of difficult classification of fraud-related APPs,N-gram,principal component analysis and othermethods are used to reduce the dimension of the feature codes formed by Dalvik bytecode and permission features,and K-Means+clustering alg

6、orithm is used to construct the analysis model of APK fraud-related family,so as to achieve the purpose ofclassifying fraud-related APPs.Key words：fraud-related APP;Dalvik bytecode;permission;K-Means+收稿日期：2023-09-27作者简介：夏艺丹（2002-），女，浙江衢州人，大学本科在读，主要研究方向：计算机网络与算法应用。81计算机时代 2023年第12期检测相关工作的方法。综上，现有文献表

7、明，目前APK 的逆向分析主要从权限、图像、安全漏洞、恶意代码族类分析等维度出发，解决了误报率高、恶意代码变种检测难的问题，但仍存在针对特定族类 APK检测和分类的准确率低等不足。同时，现有研究大多是针对恶意程序，即对手机具有明显破坏性的APK，而针对隐蔽性高、破坏性低，作为诈骗桥梁的涉诈型服务流APK，现有分类方式和研究成果较少，值得深入探索。本文针对APK特征提取过于冗杂、零散的特点，采用 N-gram、人工筛选、主成分分析法等方法对Dalvik字节码与权限特征进行降维处理，形成新的特征码，择优选择K-Means+算法，从而构建APK涉诈家族分析模型，实现了通过聚类模型对涉诈APK进行分类

8、的目的。2 特征提取APK内包含的信息十分丰富，通过反编译等手段可以获取到APK的权限信息、字节码特征、图标、签名7等特征信息。其中 APK 的字节码特征可较好识别APK的不同功能，对于涉诈APK分类的影响较大；同时，APK 权限特征是基于 APK 用途而产生的，对于APK按作用分类具有重大意义。因此，本文将Dalvik字节码与权限特征作为研究重心。2.1 Dalvik字节码降维APK文件格式通常都包含一个classes.dex文件，该DEX（Davilk executableformat）文件8由dex header、string_ids等多个结构体构建而成，封装了可被Davilk虚拟机执行

9、的全部字节码。本文利用APKtool对APK文件进行反编译，提取Davilk操作码进行抽象，并将其简化为指令符号9。为方便对APK进行进一步理解，本文通过自然语言处理领域常用的 N-gram 算法，对 Dalvik 指令符号进行N-gram编码，以实现序列特征的精准分析。经过大量实验对比发现，针对本文选取的 APK样本，将文本内容按照字节进行大小为5的滑动窗口操作，形成长度为 5的字节片段序列，更利于后续的分析。5-gram特征频率的统计表如表1所示。表15-gram特征频率的统计示例表APK SetBNPcompassFnacTVVMV3723201100VVMVM144719443229I

10、IVMG411871MVVMV150412293565TVMIT1808115924502.2 权限筛选阈值权限用来描述APK拥有做某件事的权力，当犯罪嫌疑人涉诈意图不同时，作为工具的APK所需权限也不尽相同。因此，权限作为描述 APK 作用的重要内容，可以反映其是否涉诈，本文将此作为研究的必要指标之一。筛选权限的阈值会影响本文整个聚类模型对涉诈APK的类别判断，经大量实验数据分析，当某种权限仅被 20%的涉诈 APK 拥有时，说明该权限对涉诈APK整体而言影响较小，因此，权限筛选阈值设定为20%。2.3 主成分分析法PCA为简化庞杂的数据集，本文利用主成分分析法将经N-gram算法降维后的D

11、alvik 字节码与人工降维过的权限信息融合成全新的特征码，作为后续进行聚类操作的样本集，融合后的实验样本主成分分析结果如表2所示。表2主成分分析结果成分序号特征值比例成分171350.74成分28150.08成分34510.04成分42910.03表2样本数据按占比大小将其降序排序，清晰发现，成分1-4已占总比的89%，涵盖绝大部分的信息，其余每一成分所占比例均极小可以忽略。因此，本文选定前四种成分作为主成分，样本数据随之确定为四维。为确定每种主成分中的关键影响因素和基本构成，本文运用主成分因子载荷识别确定每种影响因素在每种主成分中的影响程度，如表3所示。表3主成分因子荷载矩阵成分1成分4权

12、限权重指标权重访问网络-1.0131访问网络5.0867读取权限-1.3400读取权限-1.8127读取电话状态-5.4107读取电话状态1.3105IIRMM1.6280IIRMM4.4777IPGGP1.3930IPGGP8.47363 模型建立3.1 K-means+聚类算法聚类算法可较好自动实现涉诈APK分类的目的，本文通过主成分分析法，将Dalvik字节码与权限特征融合成全新的特征码作为聚类算法的样本集进行研究。82Computer Era No.12 2023为找到最适合的聚类算法，搭建最为合适、高效的聚类算法模型，通过大量文献的阅读，本文利用轮廓系数（silhouette_sco

13、re）、戴维森堡丁系数（davies_bouldin_score）、CH分数（calinski_harabasz_score）三个内部评价指标对聚类算法进行评分筛选，如表4所示。表4聚类算法评价得分聚类方法评价指标K-Means+DBSCANBIRCHsilhouette_score0.684-0.3350.622davies_bouldin_score0.4101.3470.672calinski_harabasz_score1128.42015.104946.856由此可见，确定 K-Means+算法的聚类效果最好，更适合被选取为搭建本文的聚类算法模型的支撑算法，实现对涉诈APK的聚类分析

14、。因此，本文最终选择K-Means+算法作为涉诈特征的聚类方式。为验证K-Means+算法对涉诈APK的聚类效果，本文将涉诈情况已知的样本提取特征作为测试集，将其进行研究分析。3.1.1 运用K-Means+聚类算法选择初始化的 k 个样本作为初始聚类中心a=a1,a2,ak 针对数据集中每个样本xi,计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；针对每个类别aj，重新计算它的聚类中心aj=1|cix cix（即属于该类的所有样本的质心）；重复上面两步操作，直到达到某个中止条件（迭代次数、最小误差变化等）。3.1.2 应用K-Means+聚类算法本文分别将3578个AP

15、K样本进行Dalvik字节码的N-gram处理及权限的主成分分析处理后的数据集作为分类变量，按照前文的所述的步骤，实施 K-Means+聚类算法。3.2 具体建立过程3.2.1 确定聚类数量肘部法是跟据数据的改变程度而绘制的图，本文可以根据其平均畸变程度下降的程度来确定最佳聚类数量。如图1所示，从k值变化带来的畸变程度来看，当k=3的时候，肘部图的畸变程度变化最小，线段坡度最为平缓。说明此时每个样本与同簇的其他样本距离最小，聚类数量为3时分类效果最佳。因此本文选择将样本集聚成三类。图1肘部法确定最佳K值3.2.2 聚类结果通过K-Means+聚类算法将APK样本聚成三类，最终聚类结果如表5所示

16、。表5主成分因子荷载矩阵类别123成分1831072成分2346723成分31421733成分4456663.2.3 敏感性分析本文对低于阈值的权限进行舍弃，此阈值通过更改N值大小测试聚类的准确率得出。3578个混合的诈骗样本作为本文的研究对象，阈值对准确率的影响结果如表6所示。表6阈值对准确率的影响数据表设置的阈值赌博样本的数量赌博样本的准确率15%33366.86%19%36673.49%20%38978.11%21%37374.90%通过上表数据的可知，在本文随机样本条件下，以赌博类型样本为例，当阈值为20%时，其准确率最高，高达78.11%。4 结果检验本测试集中，共有涉及赌博诈骗的样

17、本 498个，诈骗样本总数为3578，代入上文建立的K-Means+聚类模型，分类结果如表7所示。表7混合样本检验结果APK名称类别51创业1.京.东.金.融.2.招.联.好.期.2得利1抖赚183计算机时代 2023年第12期经过K-Means+聚类，形成三类涉诈APK。经过分析，类别1判定为涉及赌博诈骗类样本，同时精准聚入此类样本的为389个，聚类准确率为78.11%。由此可见，本文利用APK的字节码及权限特征浓缩而成的新的特征码作为APK 聚类依据搭建的K-Means+聚类模型准确率较高，可较好地实现本文研究目的。5 总结调研相关文献发现，目前恶意APK检测研究较多，涉诈型服务流APK

18、检测分类方法少。本文针对涉诈APK的Dalvik 字节码与权限特征进行特征分析，并降维融合成全新的特征码进行聚类研究，以轮廓系数（silhouette_score）、戴维森堡丁系数（davies_bouldin_score）、CH 分数（calinski_harabasz_score）三个内部评价指标作为分析聚类算法优劣的重要依据，得出K-Means+算法的聚类效果相较DBSCAN、BIRCH算法，对涉诈型服务流APK的分类效果最好的结果，是对涉诈APK分类的一个补充。同时，根据数据验证所得，K-Means+算法针对指定类型的涉诈 APK 分类准确率可达78.11%，能较好实现涉诈APK家族分

19、类的目的。本文聚类模型在一定程度上解决了涉诈型服务流 APK 检测分类难的问题，是检测方式上的一种创新，但也存在缺陷，需后续改进。下一步改进方向主要包括如下二个方面：采用 K-Means+聚类算法，其不同的初始聚类中心可能导致不同的聚类结果，具有一定的不稳定性，选取初始中心聚类的时候应遵循初始的聚类中心之间距离应尽可能远的原则，以增强算法的全局稳定性；对涉诈APK类型判断的依据应该更加全面，本文特征提取仅考虑了 Dalvik 字节码与权限特征，之后应将动、静态提取技术相结合，多方位考虑涉诈APK的相关信息，对其进行分析。参考文献(References):1 曹勇,李军虎,陈晓升.基于静态分析的

20、APK安全检测系统的设计与实现J.计算机与数字工程,2018,46(10):2146-2150.2 Ahmed Mumtaz,Afreen Neda,Ahmed Muneeb,SameerMustafa,Ahamed Jameel.An inception V3 approachfor malware classification using machine learning andtransfer learningJ.International Journal of IntelligentNetworks,2023,4.3 刘新宇,翁健,张悦,等.基于APK签名信息反馈的Android恶意应

21、用检测J.通信学报,2017,38(5):190-198.4 韩晓光,曲武,姚宣霞,等.基于纹理指纹的恶意代码变种检测方法研究J.通信学报,2014,35(8):125-136.5 张景莲,彭艳兵.基于特征融合的恶意代码分类研究J.计算机工程,2019,45(08):281-286,295.6 卢建赟.Android恶意应用自动检测方法的研究与实现D.北京:北京邮电大学,2021.7 翟福龙.一种涉诈APP分析方法J.网络安全技术与应用,2022(4):135-138.8 杨益敏,陈铁明.基于字节码图像的Android恶意代码家族分类方法J.网络与信息安全学报,2016,2(6):38-43.

22、9 陈铁明,杨益敏,陈波.Maldetect:基于 Dalvik 指令抽象的Android恶意代码检测系统J.计算机研究与发展,2016,53(10):2299-2306.10 张家旺,李燕伟.基于N-gram算法的恶意程序检测系统研究与设计J.信息网络安全,2016,188(8):74-80.11 郭继东,郑可晗,张晶,等.基于主成分分析的学习效果因素调查分析研究J.机电工程技术,2022,51(5):165-169.12 FAHAD A，ALSHATRI N，TARI Z，et al.A survey ofclusteringalgo-rithmsforbigdata:taxonomyandempirical analysisJ.IEEE Transac-tions on EmergingTopics in Computing,2014,2(3):267-279.13 郝钰蓉.基于改进BIRCH算法的AD患者rs-fMRI数据的脑功能分区D.保定:河北大学,2020.14 刘磊.基于Spark平台的大数据聚类算法研究及其应用D.南京:南京邮电大学,2018.15 刘欢,李富年,颜永逸,等.DBSCAN 和 GRU 算法在桥梁监测系统的研究_刘欢J.现代电子技术,2022,45(20):114-118.CE84

展开阅读全文