网络机器人吧社区

基于机器学习的恶意网页分析与应用研究

电子商务电子支付国家工程实验室 2018-12-05 16:29:25


作者:电子商务与电子支付国家工程实验室

                          狴犴安全团队


团队使命:

通过加强电子商务、电子支付安全研究,实现对重要领域的掌控力。通过研究成果在实际生产中的应用,为相关产品提供安全保障,增强其安全态势感知和处置能力,及时发现分析受攻击情况,降低攻击危害。

通过联合与带动产业链各方,在支付安全研究和攻防实践方面形成“合作研究、共享成果、联合防御”的工作机制,消除支付业务链条安全的明显短板,提升全行业的整体安全水平。



摘要


随着互联网的快速发展,网页成为人们发布与获取信息的重要途径。然而网络中大量的恶意网页已成为用户的主要安全威胁,恶意代码在用户打开网页时会自动运行且不易被察觉,从而破坏用户主机或者泄露用户隐私。近年来,网页恶意代码的不断发展与变种,使得传统的黑白名单检测方式不仅需要庞大的数据库支持,而且无法应对短周期变化的恶意网页,很容易造成了代码检测的漏检和误检。

为此,本文提出了一种基于机器学习分类器的网页恶意源码的分析方法。通过对训练样本的特征工程,训练学习,建立分类模型,根据测试结果优化模型,以完成恶意网页检测。实验表明,本方法能够有效的检测出大部分的仿冒网页、网页后门与网页篡改等恶意网页。最后,本文总结了本次研究的重要意义,实现了对大数据安全的首先实践,形成了安全智能的雏形,以及于整体架构的应用价值。

一、研究背景



随着电子商务和互联网金融的兴起,我国网络安全形势日益严峻。其中,恶意网页由于其传播途径广、内容伪装难辨识、识别难度大的特点,已成为了互联网安全中的一个重要威胁。据2017年中国互联网安全应急响应中心的报告,2016年监测发现约 17.8 万个针对我国境内网页的仿冒页面,约4万个IP地址对我国境内8.2万余个网页植入后门,约1.7万个网页被篡改。由于金融行业与金钱紧密相关,成为了恶意网页的重灾区,根据中国反钓鱼网站联盟统计,金融证券类钓鱼网站数量排行第一,一度占到了月处理总量的60%以上。因此,快速准确的识别恶意网页对保障持卡人资金有重要意义


二、研究现状



恶意网页主要包括仿冒网页、网页后门、网页篡改等。仿冒网页又称“钓鱼网页”,指通过一定方式发布在互联网上,吸引用户访问、输入,窃取用户的个人隐私信息,并进行网络敲诈活动;网页后门指运行在服务端的一段代码,通过渗透、提权获得服务器的控制权;网页篡改指攻击者通过在正常的页面中插入一段代码,以执行攻击者的代码达到相应目的。

恶意网页威胁具有传播途径广、内容伪装难辨识、防范难度大,技术门槛低等特点。攻击者可通过恶意网页收集到的用户信息,进行非法的银行转账、个人信息买卖、盗刷信用卡、游戏帐户充值甚至直接敲诈用户等活动。

目前主流的安全软件采用的防护技术是建立恶意网页URL数据库,采用黑白名单的方式,在数据库中进行查找并判断用户访问的网页地址的安全性。这种数据库查找的方式识别较为准确,但需要大量样本更新数据库才能保证其安全性而且,恶意网页的生存周期极短,无法实时对最新的恶意网页进行判别

基于机器学习的恶意网页分析,从原理上克服了这种缺陷,通过专业安全人员的分析提取恶意网页在网页代码层面的一些特征,观察特征并得到每个网页的特征向量,再选取机器学习算法对其分类,来判断该网页是否属于恶意网页。基于机器学习的恶意网页分析不仅可实时识别,且无需庞大的URL数据库节省存储资源。鉴于此,本应用研究提出一种基于机器学习的恶意网页识别方法对恶意网页进行分析识别与判断,并对模型调优,提高其识别的准确率与召回率。

三、研究过程


基于机器学习的恶意网页分析由两个部分组成,第一部分是对网页数据的特征工程,对数据进行一系列的操作,得到每一个网页数据的特征向量。第二部分是选取合适的机器学习算法,对其每一个特征向量进行训练,对模型进行调优并得到最佳分类效果。

3.1、特征工程

恶意网页分析的特征工程框架如图3-1所示:

首先获取恶意网页的数据源,包括URL以及网页内容的源码。其次,通过一定的编码方式得到语义解析内容,对URL进行参数解析。然后,根据安全经验,根据恶意网页的特征,选取合适的特征值,提取网页的特征向量。最后,对特征向量实现降维与归一化,以获取最优的恶意网页识别效果。

1)数据源

恶意网页的数据源包含两部分,分别是URL与网页内容中的源码,示例数据分别如图3-2与图3-3所示。URL网址给的数据包含了四部分:数据编号、恶意网页标识、URL编码、URL网址。网页内容的数据则是网页内容的源代码数据。


3-2 URL示例列表


3-3 网页内容的源码示例



2)数据清洗与预处理

为了得到Hash后的URL路径以及经过编码后的请求参数,经分析后,通过Base64编码、URL编码及两种方式混合编码等方式,将URL参数解析成明文Key:Value的形式,使得数据有较强的可读性。

3)关键特征向量提取

根据研究院先前在网页安全上的研究经验积累,并结合业界同行的安全共识,对URL与网页内容做如下特征提取。

4)降维与归一化

在特征提取后,为了加快训练数据的收敛性,提高算法识别的精确性。对所遇到的具体问题与处理方式如下:

  • 不同量纲:对于不同特征的范围与规格差异,采用归一标准化,区间缩放等方法进行了无量纲化处理。

  • 空间变换:对于某些无需具体数值的定量特征,为其包含的有效信息进行区间划分。例如端口号、IP地址等,采用二值化处理。

  • 无关信息与冗余信息:利用低方差滤波与高相关滤波的降维方法,去除部分特征列,降低对机器学习算法的干扰。

  • 定性特征转换:由于某些机器学习算法和模型只能接受定量特征的输入,故需将定性特征转换为定量特征。本次研究采用哑编码的方式将定性特征转换为定量特征:即假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0。对于线性模型来说,使用哑编码后的特征可达到非线性的效果。

  • 信息利用率低:不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码可以达到非线性的效果。类似地,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。

3.2、数据训练与模型调优

经过对恶意网页的特征工程后,利用机器学习,对数据集进行下一步的训练,并对模型进行适当的调优。

首先,将所有的数据集分成训练集、验证集、测试集三个部分。训练集用于估计模型,验证集用于确定特征及控制模型复杂程度的参数,而测试集则检验最终测试模型的效果。通常来说,训练集占总样本的50%,而其它各占25%,三部分均从样本中随机抽样。

本次研究采用成熟的机器学习开源库,以达到应用分析的效果。目前常见的分类器有朴素贝叶斯、逻辑回归、决策树、支持向量机等。经分析与对比,支持向量机有较高的分类正确率,对过拟合也有很好的理论保证,同时在高维度的文本分类效果最佳,最终选用SVM算法来处理恶意网页分类问题。在核函数的选取问题上,由于恶意网页识别线性不可分、参数众多的特点,选取RBF核函数。

如图3-4的测试效果所示,经过初步的数据处理后发现,由于网页数据集中恶意网页只占1%左右,在总体样本中占比极低,会导致算法倾向于“忽略”恶意网页。为解决数据集不平衡的问题,采用交叉验证,将网页数据均分成K份,轮流选择其中1份正常网页进行测试和K-1份异常网页进行训练,剩余的做验证。计算预测误差平方和,最后把K次的预测误差平方和再做平均,作为选择最优模型结构的依据。如图3-5所示,为当K=10时的一组测试效果。

3-4 初步处理后的效果

3-5 模型优化后的效果

对比发现,异常网页的准确率与召回率均得到了大幅提升。然后,通过对误判数据的分析,进一步对特征算法进行了一定调整,例如将域名国籍作为特征增量,调整了区间划分的阈值。并且,调整交叉验证中得分最高的K/2个训练集作为分类器,若判别为1的分类器识别率之和除以所有分类器识别率之和大于0.5,则认为该样本判别结果为1经检验,模型优化后的识别率较之前的方法又提高了20%

四、总结


通过本次基于机器学习算法的恶意网页分析与应用研究,国家工程实验室狴犴安全团队进行如下的总结:

1、大数据安全的首次试水

人工智能以机器学习为核心,通过研究计算机模拟智能行为并不断进行新的尝试与突围,电子支付研究院首次开展对人工智能在互联网安全应用的尝试,从理论上经由实践进行证明此方法的可行性,并不断进行解析与探究。

2、形成人工智能安全的雏形

本次研究,从技术角度,成功建立并应用了恶意网页识别模型,从大数据的角度实现了对钓鱼网页、仿冒网页、篡改网页的有效识别,构建起人工智能安全架构的雏形。

3、具有较广阔的应用价值

本次研究,从应用角度,可合理地将类似地技术运用于未知威胁发现、网络行为分析、网络安全预警等安全威胁感知方面,建立智能安全的整体应用架构。

电子商务与电子支付国家工程实验室

ID:gjgcsys

长按二维码关注我们

Copyright © 网络机器人吧社区@2017