关键词:
异常检测
随机森林
特征选择
深度学习
TabNet
摘要:
在复杂网络环境下,处理传统的烟草系统网络流量数据往往会面临数据量大,特征维度高,特征相关性复杂度高,模型检测效率低等问题,本文使用了一种基于随机森林(Random Forest,RF)和TabNet网络模型结合的流量异常识别与检测方法。首先使用随机森林算法计算高维特征的特征权重,根据权重对特征进行降维处理,筛选出高权重特征,剔除低权重特征,再使用TabNet模型对特征进行高效的分类。为了评估模型的有效性与优越性,本文使用准确率和损失进行模型评价,并与其他网络流量异常检测模型Tabular model、LSTM、CNN+LSTM、XGBoost进行对比。使用公开数据集CIC-IDS-2018进行实验,结果表明,使用原始高维数据训练易使模型过拟合,使用降维后的数据,本文提出的模型在多分类任务和二分类任务中的识别准确率分别达96.82%和98.75%。该方法与其他深度学习算法相比,泛化能力强,在处理网络流量异常检测问题上具有良好的灵活性和有效性。