*** 攻防的原理_ *** 攻防博弈中攻防双方

hacker|
105

基于随机博弈与改进WolF-PHC的 *** 防御决策 ***

基于随机博弈与改进WolF-PHC的 *** 防御决策 ***       杨俊楠

问题:实际 *** 攻防中很难达到完全理性的要求,使得现有 *** 的准确性和指导价值有所降低。状态爆炸。

思路:从 *** 攻防对抗实际出发,分析有限理性对攻防随机博弈的影响,在有限理性约束下构建攻防随机博弈模型。针对 *** 状态爆炸的问题,提出一种基于攻防图的 *** 状态与攻防动作提取 *** ,有效压缩了博弈状态空间。在此基础上引入了强化学习中的WoLF-PHC算法进行分析,并设计了具有在线学习能力的防御决策算法,通过引入资格迹改进WoLF-PHC算法,进一步提高了防御者的学习速度。

所得策略在有限理性下优于现有攻防随机博弈模型的纳什均衡策略。

本文贡献:

(1)提出一种以主机为中心的攻防图模型并设计了攻防图生成算法,有效压缩了博弈状态空间。

(2)本文将强化学习引入到随机博弈中,使随机博弈由完全理性拓展到有限理性领域。现有有限博弈大多采用生物进化机制进行学习,以群体为研究对象,与其相比,本文所提 *** 降低了博弈参与人之间的信息交换,更适用于指导个体防御决策。

(3)基于资格迹对WoLF-PHC算法进行了改进,加快了防御者的学习速度,减少了算法对数据的依赖并通过实验证明了 *** 的有效性。

强化学习:一种经典的在线学习 *** ,其参与人通过环境的反馈进行独立学习,相比生物进化 *** ,强化学习更适于指导个体的决策。

基于随机博弈的攻防对抗建模

问题描述与分析

有限理性下的攻防随机博弈学习机制需满足2点需求:

1)学习算法的收敛性。

2)学习过程不需要过多攻击者信息。

WoLF-PHC算法是一种典型的策略梯度强化学习 *** ,使防御者通过 *** 反馈进行学习,不需要与攻击者之间过多的信息交换。

WoLF机制的引入保证了WoLF-PHC算法的收敛性:在攻击者通过学习采用纳什均衡策略后,WoLF机制使得防御者能够收敛到对应的纳什均衡策略;在攻击者尚未学习到纳什均衡策略时,WoLF机制使得防御者能够收敛到对应的更优防御策略。

攻防随机博弈模型

对每个状态下博弈所需的“信息”和“行动顺序”2个关键要素进行假定。

(1)“信息”。受有限理性的约束,将攻击者历史动作和攻击者的收益函数设定为攻击者的私有信息。 *** 状态为双方的共同知识。

(2)“行动顺序”。由于攻防双方的非合作行,双方只能通过检测 *** 来观察对方的行动,这会比动作的执行时间至少延迟一个时间片,所以在每个时间片攻防双方是同时行动的,这里的“同时”是一个信息概念而非时间概念,即尽管从时间概念上攻防双方的选择可能不在同一时刻,但由于攻防双方在选择行动时不知道对方的选择则认为是同时行动。

为了增强模型的通用性将转移概率设定为攻防双方的未知信息。

定义1.攻防随机博弈模型(attack defense stochastic game model,AD-SGM)是一个六元组AD-SGM=(N,S,DR,Q, ),其中:

①N=(attacker,defender)为参与博弈的2个剧中人,分别代表 *** 攻击者和防御者;

②S=( , ,···, )为随机博弈状态 *** ,由 *** 状态组成;

③D=( , ,···, )为防御者动作 *** ,其中 ={ , ,···, }为防御者在博弈状态 的动作 *** ;

④ ( ,d, )为防御者状态转移后的立即回报

⑤ ( ,d)为防御者的状态-动作收益函数,指期望收益

⑥ 为防御者在状态 的防御策略

基于攻防图的 *** 状态与攻防动作提取 ***

随即博弈模型重要组成部分—— *** 状态与攻防动作

关键点是对两者的提取

每个 *** 状态包含当前 *** 所有节点的安全要素, *** 状态的数量是安全要素的幂集,会产生“状态爆炸”。为此提出了以主机为中心的攻防图模型,每个状态节点仅描述主机状态,可以有效压缩状态节点规模。利用此攻防图提取的 *** 状态及攻防动作更有利于进行 *** 攻防对抗分析。

定义2.攻防图是一个二元组G=(S,E)。其中S={ , ,····, }是节点安全状态 *** , =host,privilege,其中host是节点的唯一标识,privilege={none,user,root}分别标识不具有任何权限、具有普通用户权限、具有管理员权限。E=( , )为有向边,标识攻击动作或防御动作的发生引起节点状态的转移, =( ,v/d, ),k=a,d,其中 为源结点, 为目标结点。

攻防随机博弈模型的状态 *** 由攻防图节点提取,防御动作 *** 由攻防图的边提取。

1) *** 安全要素

*** 安全要素NSE由 *** 连接关系矩阵C 、 节点脆弱性信息V 、 节点服务信息F 、 节点访问权限P 组成。其中C=host host port描述节点之间的连接关系,矩阵的行表示源节点shost,矩阵的列表示dhost,矩阵元素表示shost到dhost的端口port访问关系,当port= 时表示shost与dhost之间不存在连接关系;V=host,service,cveid表示节点host上的服务service存在脆弱性cveid,包括系统软件、应用软件存在的安全漏洞和配置不当或配置错误引起的安全漏洞;F=host,service表示节点host上开启服务service;P=host,privilege表示攻击者在节点host上拥有privilege访问权限。

2)攻击模板

攻击模板AM时对脆弱性利用的描述:AM=tid,prec,postc。其中tid是攻击模式标识;prec=P,V,C,F描述攻击者利用一个脆弱性所需具备的前提条件 *** ,包括攻击者在源节点shost上具有的初始访问权限privilege、目标节点的脆弱性信息cveid、 *** 节点关系C、节点运行服务F,只有满足该条件 *** ,攻击者才能成功利用该脆弱性;postc=P,C,sd描述攻击者成功利用一个脆弱性而产生的后果,包括攻击者在目标节点上获得权限的提升、 *** 连接关系的变化以及服务破坏等。

3)防御模块

防御模板DM是防御者在预测或者识别攻击后采取的相应措施:DM=tid,dset,tid是攻击标识,dset={ ,post , ,post ,····, ,post }是应对特定攻击的防御策略集。其中, 是防御策略标识;post =F,V,P,C描述防御策略对 *** 安全要素的影响,包括对节点服务信息、节点漏洞信息、攻击者权限信息、节点连接关系等的影响。

攻防图生成算法

基于WoLF-PHC的博弈分析与策略选取

将强化学习机制引入到有限理性随机博弈中,采用WoLF-PHC算法在AD-SGM基础上进行防御策略选取。

WoLF-PHC算法原理

Q-learning算法

Q-learining是WoLF-PHC算法的基础,是一种典型的免模型强化学习算法,

Q-learning中Agent通过与环境的交互获得回报和环境状态转移的只是,知识用收益 来表示,通过更新 来进行学习。其收益函数 为

Q-learning的策略为

PHC算法

爬山策略算法是一种适用于混合策略的简单实用的梯度下降学习算法,是对Q-learning的改进。PHC的状态-动作收益函数 与Q-learning相同,但不再沿用Q-learning的策略更新方式,而是通过执行爬山算法对混合策略 进行更新, 为策略学习率。

WoLF-PHC算法

狼爬山策略算法是对PHC算法的改进。通过引入WoLF机制,使防御者具有2种不同的策略学习率,当获胜时采用低策略学习率 ,当失败时采用高策略学习率 .

2个学习率使得防御者在比与其表现差时能快速适应攻击者的策略,比预期表现差时能快速适应攻击者的策略,比与其表现好时能谨慎学习。最重要的时WoLF机制的引入,保证了算法的收敛性。WoLF-PHC算法采用平均策略作为胜利和失败的判断标准

基于资格迹的改进WoLF-PHC及防御策略算法

为提高WoLF-PHC算法的学习速度,减少算法对数据量的依赖程度,引入资格迹对WoLF-PHC进行改进。资格迹能跟踪最近访问的特定状态-动作轨迹,然后将当前回报分配给最近访问的状态-动作。

对WoLF-PHC进行改进。定义,每个状态-动作的资格迹为e(s,a)设定当前 *** 状态为 ,资格迹更新:

算法2 防御决策算法

实验分析

利用工具对实验 *** 进行扫描

构建实验场景的AD-SGM

①N=(attacker,defender)为参与博弈的局中人,分别代表 *** 攻击者和防御者。

②随机博弈状态 *** S=(s0,s1,s2,s3,s4,s5,s6),随机博弈状态由 *** 状态组成,从攻击图与防御图种的节点提取。

测试与分析

实验的目的:1)测试不同参数设置对算法的影响,从而找出适用于本场景的实验参数

                      2)将本文的 *** 与现有典型 *** 进行比较,验证本文 *** 的先进性;

                      3)测试基于资格迹对WoLF-PHC算法改进的有效性。

1)

2)

之一组实验:

[12]随即博弈 [16]演化博弈

[12]防御策略为 =0.7, =0.3

[16]演化稳定均衡的防御策略为 =0.8, =0.2

第二组实验:

可知,当面对学习能力较弱的攻击者时,本文 *** 由于文献[12]和文献[16]的 *** 。当面对学习能力较强的攻击者时,如果攻击者尚未通过学习得到纳什均衡,此时本文的 *** 仍然优秀;如果攻击者通过学习得到了纳什均衡策略,取得与文献[12]相同的效果,并优于文献[16]。

有无资格迹的对比测试

每1000次的平均收益变化对比

统计有、无资格迹下前3000次防御收益的平均值,各统计10次。

*** 对抗可能涉及哪些重要活动

*** 对抗不仅涉及通信、雷达、光电、隐身、导航等 *** 系统,而且遍及空间、空中、地面、水面和水下,覆盖了战场所有领域,具有不可估量的作战“效费比”。

*** 信息对抗的“秘密”武器是智能信息武器,它是计算机病毒计算机病毒、抗计算机病毒程序及对 *** 实施攻击的程序的总称。

作为一种新型的电子战武器,它的攻击目标就是 *** 上敌方电子系统的处理器。终极目的就是在一定控 *** 用下,攻击对方系统中的资源(数据、程序等),造成敌方系统灾难性的破坏,从而赢得战争的胜利。

*** 对抗中存在的问题

实际的小规模 *** 攻防中,攻击对象不乏有使用1day,甚至是0day的攻击手段,在某些特定对象和场景中,也可能会遇到APT攻击。面对这些攻击时,一味地进行被动防御,即使不断提高防御手段,往往只是增加资源投入和成本,并不能起到更好的效果。

主动防御或机动防御理念,是在入侵成功之前通过精确预警,有针对性、机动地集中资源重点防御并伺机进行反击。在 *** 安全领域,目前其 *** 论和技术方案尚不成熟。

在小规模对抗中,攻击者可能来自于任何地方,但具备攻击能力的人群总数是有限的,对有生力量的精力和时间的打击和消耗,以及进行可能的自然人溯源,是目前我认为的主动防御思想的核心。

军事理论考试里 *** 战,解释概念

在发展至目前的 *** 战中,这些基本的判断还仍然存在吗?

审视 *** 攻击特点,树立“ *** 积极防御”作战思想

由于 *** 作战的瞬时性、交互性、脆弱性和复杂性等, *** 攻击也具有着自己的鲜明特点。

一是作战行动的无时空限制性。 *** 战几乎不受自然时间和天候的影响,具有全天候、全时域等特性,使得 *** 攻击更加主动、突然,只要能进入对方 *** 并发出指令,哪怕万里之遥,也能一击中的。此外, *** 及其空间的大小随计算机 *** 的延伸而拓展,只要计算机 *** 可及的地方,就是 *** 作战空间的延伸之处。

二是作战手段的多样性。计算机 *** 系统的复杂性,使得 *** 攻击的作战手段还具有超越 *** 的多样性。既可以利用电磁压制、病毒攻击、木马植入、 *** 渗透、拒绝服务等进行“软瘫痪”,也可以利用电子武器攻击、特种兵力破坏、火力打击等实施“硬摧毁”。

三是作战的效费比畸高。 *** 攻击的范围广、速度快、破坏力强,攻击本身的成本却相对较低:研制一种新型病毒进行 *** 攻击,费用远比研制其它高技术武器装备低得多。

当前 *** 战中普遍存在的“重攻轻防”思想,可能也主要是基于 *** 攻击的这些特点而产生的。这样的考虑也许有一定道理,但其偏颇之处也在于过分夸大了主动 *** 攻击的可操作性。

之一,无法确保己方能够首先对对方实施 *** 攻击作战。通常,主动的 *** 攻击应基于“敌对双方明确开战”这一条件,但历史上不宣而战的战例比比皆是,谁能保证对方也不会不宣而战呢?即便是敌对双方同时宣战,由于 *** 战的瞬时性等特点,谁又能保证己方的 *** 攻击一定会比对方早那么“一个瞬间”呢?

第二,即便占有先机,也难以确保对方不会进行有效的反击。如果对方的 *** 防御能力稍强,己方的首次 *** 攻击便未必能全部摧毁对方的 *** 反击能力,因而也就无法确保对方不会进行有效的反击并被一击“致命”。

所以,“进攻是更好的防御”这一经典论断,在 *** 战中的合理表述就应修改为:当对方还没有发动 *** 进攻时,己方的 *** 进攻可能是更好的防御。之所以只是“可能”,是因为当己方之一波次 *** 攻击完毕或在己方发起之一波次 *** 攻击的同时,对方就可以凭借稍强的防御能力启动应急方案施以精确反击;此时,如果己方自身的 *** 防御能力跟不上,则必会遭受对方的 *** 反击而损失较大。因此,任何时候都不能因为 *** 防御太难就忽视防御,更不能因为 *** 防御的建设成本较高就将 *** 作战主要寄望于进攻,只有积极防御下的进攻才可能真正握有主动。

所以,越是在 *** 防御很难的情况下,越要加大对 *** 防御的研究,建设和保持一支符合足够原则的 *** 战反击力量,保证在遭受对方首次 *** 攻击时仍能实时进行 *** 反击,这正是积极防御的 *** 战作战思想,即必须强调在 *** 总体防御的态势下,寓攻于防,攻防结合,以积极的攻势作战达成防御目的,使 *** 战在开局上是防御,但在作战过程中却又不局限于防御。

创新理论研究,加强系统建设,追求新的攻防平衡

除少数强国的军队之外,当前的 *** 防御作战研究,还大多徘徊在重技术、轻管理,重平时建设、轻实战运用的初始阶段;对 *** 防御作战的指挥控制、战法谋略、训练保障等一系列重要问题,还没有一套科学实用的理论指导。随着 *** 技术的迅猛发展和信息化战争对 *** 依存度的飞速提高,必须适时地提出“ *** 防御作战”概念,深刻认识并把握计算机 *** 防御作战的发展规律。

*** 防御作战是以积极防御的作战思想为指导,为保护和增强己方实时、准确、可靠的收集、处理及利用信息的能力,而采取的一系列连续性军事行动。 *** 防御作战应可分为评估侦查、拟制计划、应急处置和精确反制等必须的阶段。作为从实战视角提出的 *** 防御作战,其研究内容除了应科学地界定 *** 防御作战的概念、系统地分析 *** 防御作战的特点、合理地提出 *** 防御作战的指导思想和作战原则、实用地区分 *** 防御作战的作战阶段,更应系统地研究 *** 防御作战的指挥活动,有效牵引 *** 防御作战的技术开发,不断创新 *** 防御作战的战法和谋略,积极探索 *** 防御作战的训练模式和保障思路。

尽管目前 *** 防御作战方面的研究还很不成熟,但随着 *** 战能力和社会对 *** 依存度的不断提高,已经出现了一定程度的 *** 战威慑。消除信息 *** 霸权国家的 *** 战威慑,不仅要注意提高 *** 战攻击作战能力,更要注重提高 *** 战的防御作战能力。因为按照一般的理论推断,只有 *** 防御作战能力的提高, *** 攻防作战能力大致相对平衡,才有可能带来 *** 攻防双方的相互遏制。因此,在“无网不在”的信息社会,只有扎实地搞好积极防御,才能确保在 *** 战中赢得主动。而从 *** 技术和系统建设及相应的 *** 防御作战研究和应用上不懈地追求先机,才有可能尽快实现 *** 战攻防的新的平衡态势,创造信息社会的新的相对和平。

在 *** 攻防战中战争双方将可能采用什么和什么软杀伤相结合的方式

在 *** 攻防战中,战争双方将可能采用硬摧毁和软杀伤相结合的方式夺取 *** 控制权。在未来的战争中,武器仍然十分重要,尤其是作战。它可以用来对抗对方的武器,破坏对方的指挥控制中心、通信手段以及摧毁对方的有生力量等。我们一般把这种打击方式称为“硬摧毁”。

另一方面,所有的通信联络、计算机运行都要靠很多操作系统和应用程序来实现。这些系统、程序、步骤通常称为“软件”,而计算机和各种设备本身则称为“硬件”。利用“计算机病毒”、强电磁波压制等手段破坏对方的软件可以使其C4KISR系统全部或部分瘫痪、不能工作或“胡乱工作”。这就是所谓的"软杀伤"。

现代战争的“硬摧毁”和“软杀伤”的防护

在现代战争中不但要对付“硬摧毁”,还要千方百计保护自己的C4KISR系统,保护自己的武器系统的“计算机核心”,防止对方的“软杀伤”。

如果一体化的互联 *** 遭到破坏,那么作战系统中的各种作战平台是不能正常的工作的。高科技武器装备在一定的条件下也是很容易受伤的,其生存能力并不比常规的装备好。

0条大神的评论

发表评论