您的位置 首页 分销

模块化免疫神经网络模型在计算机病毒分类检测中的使用

0 引言随着信息技术的发展和互联网应用的普及,计算机系统受到计算机病毒的威胁。计算机病毒分类检测,指将可疑文件作为输入,执行某病毒检测算法后输出结果(无毒、带毒/带何种毒)的过程,实质上是对文件的分类

0 导言

跟着信息技能的开展和互联网运用的遍及,计算机体系遭到计算机病毒的要挟。计算机病毒分类检测,指将可疑文件作为输入,履行某病毒检测算法后输出成果(无毒、带毒/带何种毒)的进程,实质上是对文件的分类。病毒分类检测应归于模式辨认范畴。由于单一的技能无法有效地对立计算机病毒,技能的交融并用及智能化,将是未来计算机病毒检测的趋势。故选用免疫算法和神经网络的新式网络模型,对计算机病毒分类检测进行研讨。

1 模块化免疫神经网络模型的提出

人工神经网络和人工免疫体系都是受生物学的启示开展而来的理论和技能,两者在生物学原理和人工原理上各有异同。研讨标明,免疫原理能够运用到神经网络中,以进步神经网络的功用;反之,神经网络理论也能够运用到人工免疫体系中,然后发生一个相互之间能够获益的研讨范畴。

图1中,抗原(Ag)表明神经网络中输入神经元到输出神经元的权向量Wk(由抗体Ab和自体库集S一起作用后,根本调理好的权向量),依据计算机病毒的侵略检测中,代表一类网络数据包,以二进制串表明。抗体(Ab)表明神经网络中的输入样本。S代表自体库调集。权值及输入样本和输出单元都运用二进制,即只运用0和1表明,如图2。

首要抗体库中的向量都会和白体库的向量进行辨认。假如抗体库中的向量一旦和自体库中的向量匹配,则会进行剪枝操作。

沿袭传统的抗体网络特征,规矩ξj表明网络中抗体j的抗原浓度,即抗体j所能辨认的抗原个数。1个抗体细胞k与某种抗原细胞的亲和力,由权向量与该抗体的汉明间隔(Hamming)决议,可由式(1)得到与Ag可能性的最大状况序列δ:

亲和力δ越大,阐明这种抗体能够对此抗原进行较好的应对,保存。相反,经过剪枝的办法,从网络中删掉。把不与本身反响的抗体保存,进行对立原的辨认,进行后续的作业。

否定挑选后的抗体与抗原进行神经网络的作用,规矩如上,假如抗体不匹配,依照已有的神经网络的权值算法的改进进程进行权值的调整,以到达在给定抗体空间中具有最大的解空间度,即2个抗体之间有最大的不相同度。

更新抗体种群,经过若干次的叠代运算,把抗体种群练习收敛于一个较安稳的调集,即学习进程结束。学习完成后,能够用于计算机病毒检测中。

2 模型规划思路

整个网络的竞赛学习进程分为2部分:

第1部分:首要从抗体库里依据概率密度P(Ab)挑选出1个抗体进行输入。并和自体库S进行运算,并设定阈值ε,当满意式(2)时:

抗体经过了自体耐受,变为老练的检测器,且不与自体发生免疫应对,是合格的检测器。假如超越阈值ε,则从网络中删除此抗体节点。抗体Ab1和自体集S中的S1发生了免疫应对。

第2部分:经过自体耐受的抗体别离和某个抗原Agk进行作用,在抗体内部设定1个ξi,一旦抗原的权向量和抗体的汉明间隔超越阈值ε,ξj添加1,假如ξj长期等于0,将此抗体从网络中删去。当ξj添加到1个常值M时,不再持续添加,发动1个计时器,按必定的间隔时刻t递减ξj,避免了长期未发生应对的抗体持续残留在抗体库中。新模型中的神经网络处理单元如图3。

在该模型中,每个神经元的根本性质相同,但详细方式不同。因而,每个神经元的激活函数被规划成可变方式,也便是说,激活函数的根本性质坚持不变,但详细的方式应该能够经过调整函数的参数来改动,任一神经元i的激活函数可规划成:

3 抗体自体库的树立

随机获取一组输入向量抗原X,依照式(1)发生与X最匹配的中心序列k,把k添加到抗体群中。由于计算机病毒侵略检测中在某段时刻呈现相同的侵略行为的概率较高,可依据网络运用情况,进行最快速度的匹配运算,而不需求进行学习功用。

抗体自体库主要由挑选抗体集、穿插抗体集和变异抗体集组成。

1)挑选抗体集的规划:是确保免疫算法种群优胜劣汰的重要抗体集,且有较多的完成。

2)穿插抗体集的规划:穿插便是把2个父个别的部分结构加替换重组而生成新个别的操作,其意图是能在下一代发生新的优化抗体集。

3)变异抗体集的规划:因免疫算法中变异抗体集以辅佐手法呈现,故选用本位变异的办法即可。

4 仿真试验

其练习办法如图4。

4.1 仿真练习初始数据的搜集

现在世界上许多研讨机构和研讨人员致力于计算机病毒侵略检测方面的研讨和体系开发,供给了一些测验材料调集,包括网络材料、依据主机的审计材料和体系调用序列。

网络传输协议/网络协议(TCP/IP)对需求安排传输的材料包进行打包。TCP层在包中加入了头信息如:源埠、意图埠、序列号、ACK承认号、偏移量、SYN、FIN、窗口和紧迫指针等。含有TCP头信息的包被送到IP层,加IP材料包头如:包头长度、服务类型、材料包长度、分段偏移量、生存期、协议类型、源地址和方针地址等。而正常和反常的数据包都在网上传输,其特征是有不同的。

为测验改进后的网络在病毒侵略检测运用中的作用,选用了具有30万条数据记载的测验数据集,每条数据包括了网络数据包的包头信息、网络连接信息和数据信息等,每条数据包括96位的二进制代码。其间前32位二进制为源IP地址,32-64位二进制为方针IP地址,64-96位二进制表明了一些数据信息,每个数据被标记为反常或许正常。该数据源由MATLAB运用random()函数发生一组随机的小数,由于考虑到是二进制运算,规矩:

这样随机发生的二进制串96个为一组,模仿的IP数据包,总共发生96万个二进制串组合。

4.2 抗体自体库仿真练习(自体库的树立)

运用这1万条数据进行自体库的树立和神经网络的学习。在不断调整抗体自体库的一起,使自体库的解空间在最大程度上得到进步,最终趋近与一个安稳的自体库接调集。运用树立好的抗体检测库检测不知道的29万条数据纪录。仿真试验算法如下:

4.3 病毒侵略检测算法的仿真练习

树立起自体库后,进行病毒侵略检测算法的仿真试验,进程如下:

首要,引进新的一组数据向量,与自体库也便是所谓的回忆细胞匹配,假如在必定的阈值规模内匹配度很高,则以为该向量为侵略行为,并把匹配度进步1;相反,假如匹配度不高,则找出回忆细胞里与之亲和力较大的进行权值的调整,到达两者之间的最优匹配度,然后把新的向量作为抗体调集加入到回忆细胞,重复操作,完成后计算成果。

检测算法仿真程序如下:

4.4 试验成果计算

在模式辨认范畴中,Receiver OperatingCharacteristics(ROC)曲线用于比较不同分类检测算法的功用。曲线下的面积越大,则算法分类检测功用越好越安稳。图5为该模型与遗传算法模型以及传统抗体模型的依据MATLAB环境下的仿真测验ROC图。可见,集成新式抗体模型网络ROC曲线下方的面积要大于其它2个网络模型的面积。阐明依据模块化免疫神经网络模型的计算机病毒检测模型功用要优于其它2个,正好支撑了文献[2]的定论。文献[2]对依据n-gram的恶意代码检测取得了很好的作用,总共测验了8种分类器,成果如图5、图6,其间Boosted J48功用最优。

剖析以上试验数据,可得到以下成果:

1)由表1可知,自体库选得过小,会形成单抗体的高扰动率,频频更新抗体群,缺少抗体的多样性,掩盖规模减小。

2)自体库过大,会形成练习网络的时刻增多。拟选用200条为自体库巨细,对这30万条数据记载经过新模型进行检测,并与单免疫算法模型和传统的抗体网络模型进行比照,如表2。尽管此网络模型在时刻上略逊于其他两种已知算法模型,但在准确率上却有显着的进步。

5 小结

由试验可知,依据免疫算法和神经网络的新式网络模型降低了传统的病毒侵略检测模型的误报率和漏报率,进步了免疫体系的学习功率和体系的智能化程度,在体系的容错性上也有较大的改进,对进步体系的检测才能具有重要意义。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/bandaoti/fenxiao/284797.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部