复杂网络免疫研究与应用

复杂网络免疫研究与应用 刘大有杨博吉林大学计算机科学与技术学院，吉林长春 130012 2010.11.25 浙大

主要内容 1.复杂网络研究背景 1.1 网络普遍存在 1.2 复杂网络的概念 1.3 复杂网络研究简史 1.4 复杂网络研究的里程碑工作 1.5 多学科交叉研究领域 1.6 主要研究内容 2.项目组有关复杂网络的研究介绍 3. 复杂网络免疫研究及应用 3.1 问题提出 3.2 实例分析 3.3 复杂网络传播模型与免疫方法 2

1.1 网络普遍存在 一、复杂网络的研究背景 We are caught in an inescapable network of mutuality. ... Whatever affects one directly, affects all indirectly. —Martin Luther King Jr. 3

1.2什么是复杂网络 In the context of network theory, a complex network is a network (graph) with non-trivial topological features that do not occur in simple networks such as lattices or random graphs. ------- Wikipedia “复杂”的含义： • 结构是“非平凡的（non-trivial）” • 功能是“非线性的（non-linear）” 复杂网络的主要研究目标 • 科学上：揭示支配自然界中形形色色网络系统运行的普适规律 • 工程上：基于发现的规律，为建造或优化人造网络系统提供理论基础和技术手段 5

图论1736，Euler 1.3复杂网络研究简史随机图1960，Erdos & Renyi 小世界网络 1998，Watts & Strogatz 无标度网络 1999，Barabasi & Albert 6

1.4 复杂网络研究的里程碑工作 7

PageRankTM (The order of the web is brought by random!) Larry Page, Sergey Brin, 1998 • Good authorities should be pointed by good authorities • Random walk on the web graph • pick a page at random • with probability d jump to a random page • with probability 1-dfollow a random outgoing link • Rank according to the stationary distribution PageRank is the principal eigenvector of a Markov transition probability matrix. 8

authorities hubs HITS (Hyperlink-Induced Topic Search) Jon Kleinberg 1998 • Authority is not necessarily transferred directly between authorities • Pages have double identity • hub identity • authority identity • Good hubs point to good authorities • Good authorities are pointed by goodhubs ht = AATht-1 at = ATAat-1 Hub and authority are the principal eigenvectors of two special adjacency matrices. 9

1.5多学科交叉研究领域 从20世纪末开始，复杂网络的研究激发了多个领域研究者的兴趣，其研究和应用正逐步渗透到信息、数学、物理、生命和社会学等众多不同的领域，研究结果多次在Nature、Science Cell、 PNAS、PRL、PLOS 等不同领域的学术杂志报道，成为多学科交叉的前沿研究领域，甚至被称为“21世纪的网络新科学”. Physics Mathematics 不同的研究视角： Computer science Sociology System biology 10

networks Holism/System Macroscopic Behavior Hierarchy of communities Mesoscopic Behavior Mapping function? communities motifs nodes Naïve reductionism Microscopic Behavior complex network tool 复杂网络是研究微观与宏观联系的一种理论工具 11

Science 对复杂网络研究的回顾与展望 12

1.6 复杂网络的主要研究内容 网络结构分析(the structure of networks) Network modeling (Random network/Small world/ Scale-free) Centralities (degree/ betweenness/ closeness/ eigen/ PageRank) Fractal (self-similarity) Modularity (Community) detection Motif mining Assortative and disassortative analysis Extracting the backbones of networks Network visualization Link prediction Learning networks from data … … 网络动力性分析(the dynamics of networks) Network immunization Network search Epidemical dynamics Social dynamics Cascading in networks Dynamic network analysis Controlling an synchronization in networks Percolation in networks Resilience (Robutsness ) of networks … … 13

2. 项目组有关复杂网络的研究 • 复杂网络社区挖掘方法（Complex network community mining） • 基于马尔科夫链亚稳性的复杂网络簇结构识别理论及新方法研究（国家基金2009-2011） • 复杂网络社区挖掘的谱方法 • 面向超大规模复杂网络的可扩展社区挖掘方法 • 符号社会网络社区挖掘方法 • Web社区挖掘方法 • 分布、动态复杂网络社区挖掘方法 • …… • 面向图挖掘的统计关系学习(Graph mining & Statistical relational learning) • 结构化机器学习若干关键问题研究（国家基金 2010-2012） • 面向图挖掘的推理与学习深度结合方法 • 链接预测 • 协作分类（Collective classification） • 基于时间序列的复杂网络结构学习 • …… 14

近期我们在复杂网络挖掘方面发表的主要论文 On the Spectral Characterization and Scalable Mining of Network Communities. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2010 An autonomy-oriented computing approach to community mining in distributed and dynamic networks. Autonomous Agents and Multi-Agent Systems(JAAMAS), 2010. Discovering Global Network Communities Based on Local Centralities.ACM Transactions on the Web(TWEB), 2008. Community Mining from Signed Social Networks. IEEE Transactions on Knowledge and Data Engineering (TKDE),2007. 15

Discovering Communities from Social Networks: Methodologies and Applications. Handbook of Social Networks: Technologies and Applications, Springer-Verlag Press, 2010 • A Heuristic Clustering Algorithm for Mining Communities in Signed Networks. Journal of Computer Science and Technology (JCST), 2007, 22(2): 320-328. • Force-based Incremental Algorithm for Mining Community Structure in Dynamic Network. Journal of Computer Science and Technology (JCST), 2006, 21(3): 393-400. • 复杂网络聚类方法. 软件学报. 2009, 20(1):54-66. • 局部搜索与遗传算法结合的大规模复杂网络社区探测. 自动化学报, 2010 • 复杂网络社区挖掘 — 基于聚类融合的遗传算法. 自动化学报, 2010 16

3.复杂网络免疫研究及应用 3.1问题提出 • 如何建立鲁棒的公共卫生体系与安全的计算机网络，从而避免层出不穷的传染病和计算机病毒在人类社会与互联网上大肆流行？如何帮助政府建立舆论监控系统，最大化政府言论的影响力，最小化负面言论的传播？ • 上述问题可建模为不同现象（如传染病、计算机病毒、言论、信息等）在不同类型网络上（如社会网、因特网、万维网等）的传播过程，因而可借助复杂网络动力性理论加以研究和探索。 17

3.2实例分析(1)---网络免疫问题 为控制疾病或病毒传播，目前主要采用的策略是：个体接种疫苗或者安装防病毒软件 典型的随机免疫策略。理论研究表明：在大规模无标度网络中(人类社会网和Internet都呈现无标度性)，随机免疫的临界值接近 1(Phys. Rev. E, 2001)。实证分析表明，采用随机免疫策略，需对大约 80% 的个体接种，才能保证最终的感染率控制在个体总数的1%。例如，截止2009年底甲流高峰期，全国已有 1900多万人接种甲流疫苗，占全国人口的 1.41%，占全世界人口的 0.33%，远远小于 80% 的理论临界值！结论：现有的随机免疫策略不能从根本上防控疾病或计算机病毒的爆发与传播！ 18

3.2 实例分析(1)---网络免疫问题 此外，疫苗研制的延迟、成本、无法防范新病毒（世界卫生组织警告：变种甲流可能第二波来袭）和副作用（据报道，2010年3月广州一学生接种甲流疫苗后无法站立和行走）等问题都从根本上降低了随机免疫策略的有效性。相比随机免疫，网络免疫策略更能从根本上控制疾病或病毒的传播（Science, 2009, 325(5939):425 - 428）例如在无标度网络中, 采用目标免疫策略,仅需要对大约 16.3%的个体接种，就能最终消除疾病的传播。尽管网络免疫在理论上比随机免疫更有效，但在实现上却存在各种困难。因此，研究具有低免疫临界值且容易实施的新型网络免疫方法具有重大的理论和应用价值。 19

复杂网络免疫关键问题的突破将产生十分显著的社会和经济效益。复杂网络免疫关键问题的突破将产生十分显著的社会和经济效益。如何针对目前网络免疫存在的理论难题，提出相应的解决方法是复杂网络研究面临的主要挑战之一。 22

3.3 复杂网络传播模型与免疫方法 复杂网络上的传播模型 • 传染病传播模型 • 网络传播模型的临界值理论复杂网络的免疫策略 • 随机免疫 • 目标免疫 • 局部免疫问题与分析 23

传染病传播模型(1) 医学和生物学对传染病的研究有较长历史,提出多种传染病模型, 最具代表性的是SIR 模型和 SIS 模型这两种模型的基本假设是：种群内的个体在某个时刻唯一和确定的属于下列三个状态之一: • 易染状态S处于易染状态的个体不会传染其它个体，但有可能被其它患病个体传染； • 被感染状态 I处于被感染状态的个体已患病且具有传染性； • 免疫状态 R处于免疫状态的个体患病后被治愈并获得了免疫力，不具有传染性，也不会再次被感染。 24

传染病传播模型(2) • 不同的传染病模型对应不同的状态转换过程。 • SIR模型对应的转换过程是：易染群体被感染，然后恢复健康并具有免疫性。 • SIS模型对应的转换过程是：易染群体被感染，治愈后又返回到易染状态。 • 若把种群中的个体用节点表示，个体间的接触用边表示，当一个易感节点的邻居是患病节点时，该节点会以一定概率被感染，也会以一定概率恢复到免疫状态或易感状态。可把基本的SIR和SIS模型推广到网络传播模型。 25

传染病传播模型(3) • 除了基本的SIR和SIS模型外，针对不同传染病的特点，提出了其它传染病模型。例如： • 免疫期有限的SIRS模型 • 引入潜伏状态的扩展SIR和SIS模型 • 这些模型也可被扩展到网络上，得到相应的网络传播模型。 • 特别是，因具有基本相同的传播特性和感染机制，针对传染病提出的SIR和SIS等模型也适合计算机病毒、谣言、广告效应和交通阻塞等传播过程的建模与分析。 26

网络传播模型的临界值理论 • 将从S (易染状态)转换到I (被感染状态)的概率除以从I转换到 S的概率定义为传播率。 • 临界值理论主要研究:传播率和传播过程稳定时网络中的被感染个体密度的函数关系。 • 临界值可看作传播过程中相变的临界点。在传播率低于临界值时，网络中被感染个体密度为0，否则将以一定密度存在。网络传播模型的临界值越低，则说明其对应的网络关于传染病或计算机病毒、谣言等的传播能力就越强，换言之，即使是较小的传播率也会导致网络中部分个体被感染。由此可见，临界值分析是网络传播模型研究的重要的问题。 27

均匀网络的临界值理论 (1) • 临界值不仅与传染病模型有关，还与网络的结构有关现有工作大都致力于SIR和SIS网络传播模型作用在不同类型网络上的临界值分析.派斯特(Pastor)等人在临界值分析方面做了大量工作. 2001年,他们研究了SIS模型在均匀网络中的传播临界值（Phys. Rev. E , 2001） • 他们基于平均场理论给出了SIS模型传播过程的稳态方程，进而得到了稳态感染密度和传播率的函数关系，以及一个形式非常整齐的临界值解析解1/<k> (度期望的倒数) • 该工作发现了在均匀网络中的传播规律：存在一个正的传播临界值c，如果传播率大于c，感染个体能将病毒传播扩散，并使整个网络感染个数最终处于稳定状态；如果传播率低于c，则感染个体数则呈指数衰减，最终为零。 28

均匀网络的临界值理论(2)—临界值分析理论  = 感染率/恢复率 = 传播率 :稳态时的感染密度 Mean field functions: 29

均匀网络的临界值理论(3): 代表性工作 • 2001年，库珀曼(Kuperman)等给出SIR模型在WS小世界网络中传播临界值分析（Phys. Rev. Lett., 2001） • 2002年，Newman等研究了SIR模型在NW小世界网络中的临界值问题(Phys.Rev.E,2002)。 • 基于上述，2003年阿吉扎(Agiza)等在小世界网络上分析了多个传播模型的临界值，并讨论了相变行为(Int.J.Mod.Phys.C，2003) 30

无标度(非均匀)网络的临界值理论(1) • 从上述研究工作可见，均匀网络中的传播过程存在正的临界值。根据均匀网络中疾病的传播范围与传播率正相关的假定可得出：若传播率大于临界值则疾病持久存在，并逐渐波及大量个体。 • 实证研究表明，麻疹和某些计算机病毒一般仅感染少数个体但却能长期存在。由此可见疾病和计算机病毒等所依赖的传播媒介并不是均匀网络。 • 1999年，Barabassi等人揭示了包括人类社会网和因特网在内的很多实际网络都是无标度网络，其度分布满足幂率分布，而不是泊淞分布(Science，1999)。 31

无标度(非均匀)网络的临界值理论(2) • 无标度网络的出现极大推动了复杂网络各子域的研究，传播和免疫也不例外。至此，重心转到了无标度网络上模型的传播规律研究。 • 2001年，帕斯特(Pastor)等利用平均场方法给出了SIS模型在无标度网络上传播的临界值<k>/<k2>(度期望除以度平方期望) (Phys.Rev.E,2001). 当网络规模趋于无穷时，<k2>亦趋于无穷，因此临界值趋于零。结论：无标度网络不存在正临界点，只要传播率大于0，病毒就传播并最终达到一个平衡状态，持久存在；并且，若传播率较小，则整个网络只能达到一个非常低的感染程度。 32

无标度(非均匀)网络的临界值理论(3) 临界值分析 Mean field functions: 33

Scale free vs. small world 34

关联网络的临界值理论 • 2002年，Boguna等给出了SIS模型在关联网络(连接节点的度不是相互独立的)中传播的临界值是1/Λ(邻接矩阵最大特征值的倒数) (Phys.Rev.E,2002) 。 • 2003年，Boguna等进一步证明了，当<k2>发散时，Λ趋于无穷，即在无标度网络中，无论关联还是非关联网络，都不存在正的临界值(Phys. Rev.Lett, 2003)。 35

临界值理论的一些结论 • 临界值的研究表明：与均匀网络相比，无标度网络在病毒攻击面前显得非常脆弱，即使是传染强度很低的病毒也能感染部分个体，并长期存在。 • 不幸的是，包括因特网和社会网在内的很多实际网络都是无标度网络，由此可见，为这些网络设计有效的免疫策略至关重要。 36

网络传播动力性研究的一些新进展(1) • 上述工作研究了网络传播的理论模型，然而疾病和病毒在实际网络上的传播往往受到诸多因素影响，更为复杂多变，这也向网络传播研究提出了更大的挑战。 • Viboud等人(Science, 2006)对美国1972到2002年间每周流感死亡率的实证分析表明，流感在人类社会中的传播与年龄、交通方式、地理位置、人口多少等诸多因素有关. • 韦斯皮尼亚尼(Vespignani)等人(Science，2009)指出在由人类和技术共同构成的“技术-社会系统”里，疾病的传播存在“多尺度”特性，各尺度间不是相互独立的，每个尺度上的行为都是所有尺度上行为共同作用的结果。此外，每个尺度上的传播方式不同，因而无法用一致方式建模。 37

网络传播动力性研究的一些新进展(2) • 主体的移动是疾病和计算机病毒传播的重要途径，如何将移动性引入现有的传播模型中，或提出全新的网络传播模型是目前的研究热点和难点. 科利扎(Colizza)等(Nature physics, 2007)的研究工作是这方面的代表。他们将图灵提出的反应-扩散过程(reaction-diffusion process,Turing,1952)推广到非均匀网络上，进而基于元群体模型(metapopulation models)研究了移动过程对传播过程的影响，及相应的临界值理论。 • 现有的研究大都仅考虑在一个网络上的传播过程，布尔德列夫(Buldyrev)等(Nature，2010)研究了耦合网络(由两个相互影响的网络构成)上的传播过程。研究结果表明，传播过程的影响在耦合网络中能通过正反馈迅速放大，直至波及整个网络。该研究还得出了与现有结果不同的结论：即使每个网络都是无标度的，由它们构成的耦合网络对疾病或病毒的随机攻击也十分脆弱。 38

网络传播动力性研究的应用(3) 2009年，Barabasi研究组基于无标度网络(Science 2009)，关于手机病毒建立了通过蓝牙和多媒体消息两种方式的传播模型，为手机通信运营商控制和防范病毒传播提供了一种参考手段。 39

随机免疫 目标免疫工作机制熟人免疫免疫策略图覆盖免疫全局免疫所需信息局部免疫复杂网络的免疫策略 • 网络免疫策略是目前最常用和最有效抑制病毒传播的方法。它通过寻找并保护网络中一些关键节点，以切断病毒传播路径的方式来保护网络。 40

随机免疫(1) • 机制随机选取网络中的一部分节点进行保护。由于随机选取，它对度大的节点（被感染风险和感染其它个体风险高）和度小的节点不予区分。 • 优点及应用随机免疫是最常用的免疫策略，医学领域采用的个体接种疫苗和计算机领域采用的安装防病毒软件都是随机免疫策略。随机免疫的优点是简单、便于实施。 41

随机免疫(2) • 2002年，Pastor等计算出大规模无标度网络上随机免疫的临界值（被选免疫节点占网络节点总数的百分比）接近1 (Phys.Rev.E，2002)。这表明：如果对于大规模的无标度网络采用随机免疫策略，则需要对网络中几乎全部节点都实施免疫才能确保最终消灭病毒传播。 • 由上可见，随机免疫策略的实施成本太高，采用该策略无望从根本上保护网络不受病毒的攻击。它的另一个严重不足是：无法防范新病毒的攻击。每当出现新的流行病或计算机病毒时，必须要求所有个体接种新的疫苗，或者更新杀毒软件，始终处于被动防守的劣势。此外，疫苗可能带来的副作用（据报道2010年3月广州一学生接种甲流疫苗后无法站立和行走）也会导致个体反对接种疫苗，从而阻碍随机免疫策略的实施。 42

目标免疫(1) • 目标免疫策略(Phys.Rev.E, 2002)作为一种全局性策略，有针对性的、选取少量的个体进行免疫，以期克服随机免疫的缺点，取得最好的保护效果。 • 如何选取好的目标节点是该策略的关键，从效率和成本上考虑，对选取目标节点的基本要求是：免疫临界值尽可能小，即仅对少量被选择的节点进行免疫就可保护整个网络。 43

目标免疫(2) • 2002年，Pastor等提出了“度最大”的目标选择策略(Phys.Rev.E，2002)，理论分析表明在无标度网络中该目标选择策略的免疫临界值远低于随机免疫策略。 • 进一步他们通过实证分析发现：对同等规模的网络，采用随机免疫策略需要免疫80%以上的节点才能使整个网络得到免疫，而采用“度最大”的目标选择策略只需免疫16%的个体就能有效保护整个网络。 44

目标免疫(3) • 2002年，德兹索(Dezso)和Barabasi针对无标度网络，提出了一种更广义的目标选择策略—“比例优先免疫”策略(Phys.Rev.E，2002) • 在该策略中，不是直接选择度大的节点，而是以一定的概率选择，即：个体被选中接种疫苗的概率与节点的度的次幂成正比。调节参数可控制节点被选择的概率与度之间的比例关系，当0时，退化成随机免疫策略，当1时退化到“度最大”目标选择策略。他们分析了不同值下的免疫临界值，试图找到一个更好的免疫策略。 45

目标免疫(4) • 目标免疫策略有非常低的免疫临界值，是目前最有效的免疫策略。但该策略难以应用，因为事先无法知道网络的全局信息，因而也就无法准确的找到“度最大”的节点. • 例如，很难统计某个体会与多少其它个体接触，从而很难算出个体在真实社会中的度，尤其在动态变化的环境中。互联网是一个全球性网络，没有一个机构在集中管理这样一个庞大的网络，也没有任何人能实时知道网络中的所有路由器和计算机是如何联结的，很难寻找出“度最大”的节点。因此，目标免疫往往被当做一个比较的基准，去检验新策略的有效性。 46

局部免疫(1) 局部免疫策略使用网络的局部信息而不是全局信息选择免疫节点，其免疫临界值仍远低于随机免疫，但由于仅使用了局部信息，其免疫临界值会高于目标选择策略。但由于避免了使用难以获得的全局信息，局部免疫策略已经在实际应用中显示出较好的效果。 47

局部免疫(2) • 2003年，Cohen等首先提出了基于局部信息的熟人免疫策略(Phys.Rev.E , 2003)。该策略首先随机选出一些“种子”节点，然后根据这些种子的局部邻居信息进一步选择熟人作为免疫节点。熟人可从种子节点周围随机选择K个邻居作为免疫节点(Europhys.Lett , 2004)，也可选择其周围度最大的K 个邻居作为免疫节点(Phys.Rev.E , 2007) 。 • 在无标度网络中，由于度大的节点具有更多的链接，其作为熟人被选中的概率要远大于度小的节点，从而熟人免疫策略能以很低的计算成本取得远好于随机免疫策略的效果；熟人免疫策略只需要了解“种子”节点的邻居信息，因此有效避免了目标免疫中需要了解全局网络信息的瓶颈。 48

局部免疫(3) • 仅选取直接邻居的策略使熟人免疫的实际效果受到一定制约。针对该问题，2002年戈麦斯(Gomez)等提出图覆盖免疫策略(Eur.Phys.J.B，2002)。2005年他们又对其进行了扩展(Phys.Rev.E，2005) 。他们将免疫过程转换为图覆盖问题，以随机选取的种子节点为中心，免疫 d 步长范围内度最大的节点。由于该策略比熟人免疫使用了更多的局部信息（不再局限于种子的直接邻居），因此其免疫临界值比熟人免疫更接近目标选择策略。 • 2006年，Hu等提出了基于随机游走的免疫策略(Chinese. Phys)，其基本思想是：网络中马尔科夫随机游走过程的极限概率分布和节点的度成正比，经过足够长的步骤后，随机游走倾向走到度比较大的节点。 49

局部免疫(4) • 局部免疫策略是随机免疫和目标免疫的一种折中，利用远少于全局信息的局部信息，以期获得较低的免疫临界值。 • 熟人免疫策略的选择行为固定，受网络拓扑结构(特别是社团结构）的影响很大，常陷入局部最优解(Europhys.Lett,2005)。基于距离覆盖的免疫策略考虑了更多的局部信息，具有一定的跳出局部最优解的能力，但该策略的计算复杂性随覆盖距离增大而指数增加，并且在实际应用中，获得间接邻居的信息是比较困难的。 50

关于免疫策略的问题与分析 尽管已有多种免疫策略，但无论是人类社会还是计算机网络为何还都经常遭受瘟疫和病毒的大规模侵袭呢？其主要原因在于：现有的免疫策略大都建立在理想的网络模型上，而现实世界中的网络模型具有更高的复杂性，主要表现在以下两个方面。 51

关于免疫策略的问题与分析(1-1) • 问题1：“选择最大度节点”的目标免疫是目前最有效的免疫策略（具有最小的临界值），但该策略仅适用于无标度网络，不适合随机网络和小世界网络等均匀网络，而现实世界中的很多网络都属后两者类型.能否设计出不受网络拓扑结构限制的有效目标选择策略？ 52

复杂网络免疫研究与应用

复杂网络免疫研究与应用

Presentation Transcript

Sea Ice

Sea Ice