(图片来源网络,侵删)
文丨五年宝编辑丨五年宝前言互联网极大地改变了人们沟通、工作、创业和日常生活的方式,随着网络连接和网络服务数量的不断增加,网络攻击已成为人类社会面临的重大挑战根据诺顿2021年发布的年度安全报告,全球每39秒就会发生一次网络攻击,从攻击形式来看,网络攻击可以分为主动攻击和被动攻击主动攻击会对系统可用性产生很大影响,最典型的例子就是拒绝服务攻击,被动攻击旨在捕获计算机系统中的重要信息入侵检测系统的变化和升级为了减轻不同类型攻击的风险,已经开发了入侵检测系统来检测网络中的恶意行为,早期的入侵检测系统由Denning于1987年提出他描述了一种基于审计记录和统计方法的模型来识别系统异常,现代入侵检测系统主要分为三类,即基于签名的、异常的和混合的根据署名的IDS将不同类型的攻击与预先指定的签名数据库相匹配,其缺点之一是,由于零日攻击和过时的数据库,无法有效检测未知攻击基于异常的IDS通过学习正常和异常的网络行为来检测攻击,对未知攻击具有更好的检测能力但侵检测数据集中存在冗余特征和类别不平衡的问题,异常的IDS已被证明会导致误报,而混合IDS结合了基于签名和基于异常的方法近年来,随着新的网络攻击的不断出现和网络数据流量的增加,网络入侵检测任务变得更加复杂因此机器学习因其能够通过统计方法和先进算法,从复杂数据中学习和识别模式而被广泛应用于入侵检测系统基于机器学习的入侵检测方法可以分为两类:监督学习和无监督学习,在监督学习中,决策树和随机森林等机器学习方法通过从标记数据中学习来对网络行为进行分类means和隐马尔可夫模型等无监督入侵检测方法主要关注聚类问题对网络行为进行分组,深度学习是机器学习的一个主要分支,基于具有至少两个隐藏层的神经网络深度学习更适合从大数据集中自动学习和提取特征,并显示出有希望的性能,尽管具有这些优势,当面对高维结构化数据时,特征工程仍然在深度学习模型中发挥着重要作用而高维、冗余、不相关的特征可能会使模型在学习过程中过拟合,导致真实网络环境中误报率较高已经有广泛的研究应用不同的特征选择方法来协助入侵检测系统(IDS)提高性能并降低误报率单一特征选择方法是基于重要性指标的假设来消除不重要的特征,比如说信息增益利用特征和标签之间的信息熵作为特征重要性指标而随机森林则基于多棵决策树来判断特征的重要性,为了避免特征重要性指标出现偏差,使用混合特征选择方法可以组合不同的指标以防止删除重要特征一些研究人员还指出,混合特征选择方法将比单一特征选择方法获得更稳定的性能,而研究的目的是提出一种混合特征选择方法从而可以帮助提高UNSW-NB15数据集上入侵检测系统的多分类性能,对此研究人员还提出了一种名为IGRF-RFE的混合特征选择方法该方法结合了过滤器和包装器方法,可以减少特征子集搜索空间并消除冗余特征一些提倡的方法根据研究人员提出的模型的概述和混合特征选择法,UNSW-NB15数据集包含39个数值特征和3个分类特征,并提供训练集和测试集由于它不能直接在MLP模型中使用,因此应用数据预处理来对数据集进行编码,在数据预处理过程中,研究人员执行了数据清理、少数去除、过采样、编码和数据集标准化等技术经过数据预处理后,他们又将数据集分为训练集、验证集和测试集,训练集和验证集用于特征选择和训练过程,而测试集用于验证模型的最终性能后来研究人员提出的方法有两个步骤,第一步是应用基于信息增益和随机森林重要性的集成特征选择方法来过滤重要特征然后他们会对减少的特征进行递归特征消除,以进一步优化特征子集,在特征选择后,使用获得的最优特征子集来训练MLP模型测试集的最终性能证明了他们提出的模型的有效性,而当模型建立和训练成功后,会出现更多的信息,面对信息激增的情况下,研究人员又探索了信息增益的选择方法信息增益信息增益(IG)是一种基于信息熵的单变量滤波器特征选择方法,研究人员]提出的信息论中的一个概念,通常用于衡量变量的不确定性在处理高维数据集时,可能存在高度倾斜或包含很少信息的特征,这会影响机器学习的性能,在分类问题中,IG特征选择通过计算每个特征的信息熵,以信息量作为重要性度量正如方程式中所定义,在某个特征的信息增益等于类标签的熵减去该特征下类标签的条件熵,类特征熵和条件类熵的公式在已经正式的定义中集成特征选择具有信息增益(IG)和随机森林(RF),其重要性的集成特征选择是研究人员特征选择方法的第一步,在这一步中,集成特征选择方法仅应用于39个数值特征,并保留3个类别特征这样可以避免丢失重要信息,它首先对输入训练集进行预处理以去除重复数据,而重复数据可能会降低结果的普遍性,因为所选特征可能会过度拟合具有更多重复的类或实例在这之后,它分别使用信息增益和随机森林计算每个特征的重要性,重要性分数被归一化为0到1之间的值再通过对重要性分数进行排序和可视化,选择阈值来区分明显不重要的特征和其他特征,如果某个特征的重要性大于阈值,则保留该特征相反,如果其重要性低于阈值,则删除该特征,这就要假设基IG和RF度量选择的两个缩减特征子集中都可能存在重要特征因此它们的并集用于进一步的特征优化,还有递归特征消除递归特征消除递归特征消除(RFE)是研究人员特征选择方法的第二步,RFE是一种包装特征选择方法,它可以通过递归消除每个特征来基于机器学习性能迭代地评估特征的重要性RFE在每次迭代中删除最不重要的特征,直到获得最佳性能或达到指定数量的特征,在他们的RFE算法中,输入训练集和验证集仅包含第一阶段减少的数字特征和所有分类特征这种算法的其他输入包括,正整数患者p和包含第一阶段所选特征的列表病人,p在它特点引入是为了在多次迭代中无法获得更好的性能时及时停止RFE从而可以用来减少RFE的搜索空间,也不需要从所有特征开始,但在递归特征消除之前,必须初始化变量为了表示初始特征的数量,它决定了最坏情况下RFE的迭代次数,这用于记录RFE期间的最佳性能,存储RFE每次迭代后选择的特征,存储最佳性能的特征子集在递归特征消除的过程中,每次迭代开始时都会初始化一个空字典Performance,这将会用于存储消除每个特征后MLP的验证性能而在评估消除函数中,通过对10个不同实验(每个实验设置不同的随机种子)的准确度进行平均来计算分数在这之后,患者p决定是否继续RFE,如果患者p大于0,则执行一次RFE迭代,并获得该迭代的局部最佳性能再比较局部最佳性能和全局最佳性能后,更新全局最佳性能和选定的特征,这也是为了入侵系统的检测UNSW-NB15数据集对于机器学习方法的入侵检测系统,数据集在抵御未知攻击的有效性、测试性能和通用性方面发挥着至关重要的作用而IDS数据集,需要包含足够数量的不同类型的攻击并反映真实的攻击场景,其中一个著名的IDS数据集是KDDCup99,它在之前的许多研究中得到了广泛的应用KDDCup99是根据麻省理工学院林肯实验室的网络攻击模拟实验创建的数据集,用于帮助构建用于入侵检测的机器学习分类器而NSL-KDD是作为KDDCup99的清理版本创建的,删除了KDD99中的重复数据,并重建了训练和测试数据但是这两个数据集因缺乏现代攻击类型、训练集和测试集分布不平衡以及缺乏对一些常见网络协议的支持而受到批评,认为它们不符合当今的网络安全要求针对KDDCup和NSL-KDD的缺点,Moustafa和Slay创建了一个更复杂的入侵检测数据集,名为UNSW-NB15,以反映更好的现代攻击和协议UNSW-NB15是澳大利亚网络安全中心(ACCS)的研究人员,使用IXIA工具从100GB正常和现代攻击流量中提取的数据集完整的UNSW-NB15数据集包含250万条数据记录,涵盖1个正常类别和9个攻击类别,分别是分析、后门、DoS、漏洞利用、模糊器、通用、侦察、Shellcode和蠕虫原始数据由49个特征组成,可分为六组:流特征、基本特征、内容特征、时间特征、附加生成特征和标记特征这个数据集的创建者还提供了一个10%分区的数据集,分为训练集(175,341条记录)和测试集(82,332条记录)训练集和测试集样本的统计分布已被验证为高度相关,这意味着机器学习模型的划分是可靠的,还有一些少数类别:分析类、后门类、Shellcode类和蠕虫类,其比例不到2%但在10%的数据集中,去除了一些无意义的特征,特征数量减少到42个,包括38个数值特征和3个分类特征,而在这次研究中,研究人员使用10%数据集进行分类训练、验证和测试集准备在一些研究结果完成以后,研究人员将PCA应用于UNSW-NB15提供的原始训练和测试集,将它们减少到三个维度,并可视化它们的分布在PCA潜在空间的可视化中可以看到不同类别的分布,这增加了数据的可解释性,虽然PCA可视化不能表示数据的所有维度但可以发现在三维空间中,不同类型的攻击和正常类别之间存在大量重叠,如果从另一方面来看单是训练集和测试集的3维可视化可以看出,训练集和测试集在某些区域的空间分布并不相同机器学习通常会划分数据集以用于不同的目的,而训练集用于拟合模型,验证集用于估计训练中的损失,测试集用于验证模型的性能这三组假设包含单独的数据样本,以避免数据泄漏导致的性能偏差,UNSW-NB15数据集不提供单独的验证集,因此大多数先前的研究都保留了训练集中的验证集然而,在PCA可视化中,可以明显观察到原始训练集和测试集在3维空间中具有不同的分布,因此基于训练集拟合的模型可能无法反映测试集的性能在这种情况下,模型可能会过度拟合训练集的特殊分布,并且不能很好地泛化,研究人员验证集通常需要与测试集具有相同的分布,才能正确估计模型的训练损失这也导致了他们在研究中,将原始测试集拆分以构建新的验证集和测试集,而新的验证集和测试集具有相同的分布,以帮助模型避免过度拟合结论在使用IG和RF进行集成特征选择之前,研究人员删除了训练集中的重复样本,以避免过度拟合特征在这之后,他们在训练集上应用信息增益和具有1000棵树的随机森林分类器,以获得39个数字特征的重要性排名而IG排名和RF重要性排名中存在一些低重要性特征,这可能会降低模型的性能,他们分别选择0.25和0.02作为两种特征选择方法的阈值来过滤重要特征所以在IG排序中,重要性得分大于0.25的特征被保留,而在RF重要性排序中,重要性得分大于0.02的特征被保留在分别从出这两个指标中不重要的特征后,得到两个特征子集,之后通过IG特征选择保留了22个特征,又通过RF重要性特征选择重新训练了19个特征
0 评论