*** 攻防技术的研究与应用 毕业论文
1, *** 攻防的概况(需求和形式)2,你所选的方向,也就是具体技术在整体环境中的地位(更好具体到一个很小的技术上,这样的论文好过,这样阐述起来比较简单)3,详细阐述你选择的方向4,结尾,总结一下
*** 安全攻防演练?
我觉得这是非常有必要的,因为我们现在的社会有太多的不安全了,所以有安全隐患意识是非常重要的。
基于随机博弈与改进WolF-PHC的 *** 防御决策 ***
基于随机博弈与改进WolF-PHC的 *** 防御决策 *** 杨俊楠
问题:实际 *** 攻防中很难达到完全理性的要求,使得现有 *** 的准确性和指导价值有所降低。状态爆炸。
思路:从 *** 攻防对抗实际出发,分析有限理性对攻防随机博弈的影响,在有限理性约束下构建攻防随机博弈模型。针对 *** 状态爆炸的问题,提出一种基于攻防图的 *** 状态与攻防动作提取 *** ,有效压缩了博弈状态空间。在此基础上引入了强化学习中的WoLF-PHC算法进行分析,并设计了具有在线学习能力的防御决策算法,通过引入资格迹改进WoLF-PHC算法,进一步提高了防御者的学习速度。
所得策略在有限理性下优于现有攻防随机博弈模型的纳什均衡策略。
本文贡献:
(1)提出一种以主机为中心的攻防图模型并设计了攻防图生成算法,有效压缩了博弈状态空间。
(2)本文将强化学习引入到随机博弈中,使随机博弈由完全理性拓展到有限理性领域。现有有限博弈大多采用生物进化机制进行学习,以群体为研究对象,与其相比,本文所提 *** 降低了博弈参与人之间的信息交换,更适用于指导个体防御决策。
(3)基于资格迹对WoLF-PHC算法进行了改进,加快了防御者的学习速度,减少了算法对数据的依赖并通过实验证明了 *** 的有效性。
强化学习:一种经典的在线学习 *** ,其参与人通过环境的反馈进行独立学习,相比生物进化 *** ,强化学习更适于指导个体的决策。
基于随机博弈的攻防对抗建模
问题描述与分析
有限理性下的攻防随机博弈学习机制需满足2点需求:
1)学习算法的收敛性。
2)学习过程不需要过多攻击者信息。
WoLF-PHC算法是一种典型的策略梯度强化学习 *** ,使防御者通过 *** 反馈进行学习,不需要与攻击者之间过多的信息交换。
WoLF机制的引入保证了WoLF-PHC算法的收敛性:在攻击者通过学习采用纳什均衡策略后,WoLF机制使得防御者能够收敛到对应的纳什均衡策略;在攻击者尚未学习到纳什均衡策略时,WoLF机制使得防御者能够收敛到对应的更优防御策略。
攻防随机博弈模型
对每个状态下博弈所需的“信息”和“行动顺序”2个关键要素进行假定。
(1)“信息”。受有限理性的约束,将攻击者历史动作和攻击者的收益函数设定为攻击者的私有信息。 *** 状态为双方的共同知识。
(2)“行动顺序”。由于攻防双方的非合作行,双方只能通过检测 *** 来观察对方的行动,这会比动作的执行时间至少延迟一个时间片,所以在每个时间片攻防双方是同时行动的,这里的“同时”是一个信息概念而非时间概念,即尽管从时间概念上攻防双方的选择可能不在同一时刻,但由于攻防双方在选择行动时不知道对方的选择则认为是同时行动。
为了增强模型的通用性将转移概率设定为攻防双方的未知信息。
定义1.攻防随机博弈模型(attack defense stochastic game model,AD-SGM)是一个六元组AD-SGM=(N,S,DR,Q, ),其中:
①N=(attacker,defender)为参与博弈的2个剧中人,分别代表 *** 攻击者和防御者;
②S=( , ,···, )为随机博弈状态 *** ,由 *** 状态组成;
③D=( , ,···, )为防御者动作 *** ,其中 ={ , ,···, }为防御者在博弈状态 的动作 *** ;
④ ( ,d, )为防御者状态转移后的立即回报
⑤ ( ,d)为防御者的状态-动作收益函数,指期望收益
⑥ 为防御者在状态 的防御策略
基于攻防图的 *** 状态与攻防动作提取 ***
随即博弈模型重要组成部分—— *** 状态与攻防动作
关键点是对两者的提取
每个 *** 状态包含当前 *** 所有节点的安全要素, *** 状态的数量是安全要素的幂集,会产生“状态爆炸”。为此提出了以主机为中心的攻防图模型,每个状态节点仅描述主机状态,可以有效压缩状态节点规模。利用此攻防图提取的 *** 状态及攻防动作更有利于进行 *** 攻防对抗分析。
定义2.攻防图是一个二元组G=(S,E)。其中S={ , ,····, }是节点安全状态 *** , =host,privilege,其中host是节点的唯一标识,privilege={none,user,root}分别标识不具有任何权限、具有普通用户权限、具有管理员权限。E=( , )为有向边,标识攻击动作或防御动作的发生引起节点状态的转移, =( ,v/d, ),k=a,d,其中 为源结点, 为目标结点。
攻防随机博弈模型的状态 *** 由攻防图节点提取,防御动作 *** 由攻防图的边提取。
1) *** 安全要素
*** 安全要素NSE由 *** 连接关系矩阵C 、 节点脆弱性信息V 、 节点服务信息F 、 节点访问权限P 组成。其中C=host host port描述节点之间的连接关系,矩阵的行表示源节点shost,矩阵的列表示dhost,矩阵元素表示shost到dhost的端口port访问关系,当port= 时表示shost与dhost之间不存在连接关系;V=host,service,cveid表示节点host上的服务service存在脆弱性cveid,包括系统软件、应用软件存在的安全漏洞和配置不当或配置错误引起的安全漏洞;F=host,service表示节点host上开启服务service;P=host,privilege表示攻击者在节点host上拥有privilege访问权限。
2)攻击模板
攻击模板AM时对脆弱性利用的描述:AM=tid,prec,postc。其中tid是攻击模式标识;prec=P,V,C,F描述攻击者利用一个脆弱性所需具备的前提条件 *** ,包括攻击者在源节点shost上具有的初始访问权限privilege、目标节点的脆弱性信息cveid、 *** 节点关系C、节点运行服务F,只有满足该条件 *** ,攻击者才能成功利用该脆弱性;postc=P,C,sd描述攻击者成功利用一个脆弱性而产生的后果,包括攻击者在目标节点上获得权限的提升、 *** 连接关系的变化以及服务破坏等。
3)防御模块
防御模板DM是防御者在预测或者识别攻击后采取的相应措施:DM=tid,dset,tid是攻击标识,dset={ ,post , ,post ,····, ,post }是应对特定攻击的防御策略集。其中, 是防御策略标识;post =F,V,P,C描述防御策略对 *** 安全要素的影响,包括对节点服务信息、节点漏洞信息、攻击者权限信息、节点连接关系等的影响。
攻防图生成算法
基于WoLF-PHC的博弈分析与策略选取
将强化学习机制引入到有限理性随机博弈中,采用WoLF-PHC算法在AD-SGM基础上进行防御策略选取。
WoLF-PHC算法原理
Q-learning算法
Q-learining是WoLF-PHC算法的基础,是一种典型的免模型强化学习算法,
Q-learning中Agent通过与环境的交互获得回报和环境状态转移的只是,知识用收益 来表示,通过更新 来进行学习。其收益函数 为
Q-learning的策略为
PHC算法
爬山策略算法是一种适用于混合策略的简单实用的梯度下降学习算法,是对Q-learning的改进。PHC的状态-动作收益函数 与Q-learning相同,但不再沿用Q-learning的策略更新方式,而是通过执行爬山算法对混合策略 进行更新, 为策略学习率。
WoLF-PHC算法
狼爬山策略算法是对PHC算法的改进。通过引入WoLF机制,使防御者具有2种不同的策略学习率,当获胜时采用低策略学习率 ,当失败时采用高策略学习率 .
2个学习率使得防御者在比与其表现差时能快速适应攻击者的策略,比预期表现差时能快速适应攻击者的策略,比与其表现好时能谨慎学习。最重要的时WoLF机制的引入,保证了算法的收敛性。WoLF-PHC算法采用平均策略作为胜利和失败的判断标准
基于资格迹的改进WoLF-PHC及防御策略算法
为提高WoLF-PHC算法的学习速度,减少算法对数据量的依赖程度,引入资格迹对WoLF-PHC进行改进。资格迹能跟踪最近访问的特定状态-动作轨迹,然后将当前回报分配给最近访问的状态-动作。
对WoLF-PHC进行改进。定义,每个状态-动作的资格迹为e(s,a)设定当前 *** 状态为 ,资格迹更新:
算法2 防御决策算法
实验分析
利用工具对实验 *** 进行扫描
构建实验场景的AD-SGM
①N=(attacker,defender)为参与博弈的局中人,分别代表 *** 攻击者和防御者。
②随机博弈状态 *** S=(s0,s1,s2,s3,s4,s5,s6),随机博弈状态由 *** 状态组成,从攻击图与防御图种的节点提取。
测试与分析
实验的目的:1)测试不同参数设置对算法的影响,从而找出适用于本场景的实验参数
2)将本文的 *** 与现有典型 *** 进行比较,验证本文 *** 的先进性;
3)测试基于资格迹对WoLF-PHC算法改进的有效性。
1)
2)
之一组实验:
[12]随即博弈 [16]演化博弈
[12]防御策略为 =0.7, =0.3
[16]演化稳定均衡的防御策略为 =0.8, =0.2
第二组实验:
可知,当面对学习能力较弱的攻击者时,本文 *** 由于文献[12]和文献[16]的 *** 。当面对学习能力较强的攻击者时,如果攻击者尚未通过学习得到纳什均衡,此时本文的 *** 仍然优秀;如果攻击者通过学习得到了纳什均衡策略,取得与文献[12]相同的效果,并优于文献[16]。
有无资格迹的对比测试
每1000次的平均收益变化对比
统计有、无资格迹下前3000次防御收益的平均值,各统计10次。
0条大神的评论