预测疫情的数学模型是如何建立的？|疫情|流行病|新冠肺炎_新浪科技

新冠病毒（蓝色）的电镜扫描照片（图片来源：NIAID-RML）

　　来源 | Nature自然科研（ID：Nature-Research）

　　Neil Ferguson（帝国理工学院的数学流行病学家）没想到的是，当初前往英国政府核心所在地伦敦唐宁街时，他和COVID-19之间的距离竟那么近。3月中，Ferguson向政府官员简要陈述了其团队最新的计算机模型结果，这些模型对新冠病毒SARS-CoV-2在英国人口中的快速传播进行了模拟。不到36小时后，他在推特上称自己开始发热咳嗽；之后，病毒检测呈阳性。至此，这位追踪新冠肺炎疫情进展的科学家成了他自己项目中的一个数据点。

　　在这次疫情中，很多知名科学家都在利用数学模型预测病毒传播，分析政府行动可以如何改变疫情走向，Ferguson便是其中之一。Ferguson说：“过去的几个月强度很大，让人精疲力尽。”Ferguson的症状相对较轻，在此期间他并没有停止工作。“ 1月中旬以来，我基本一天都没休息过。”

　　科研与政策之间的关系很少能超越这一次。帝国理工团队模型[1]的更新数据显示，英国的医疗系统很快会因COVID-19而不堪重负，如果英国政府不采取任何行动，英国可能会面临50万以上的死亡人数，为此，英国首相鲍里斯·约翰逊几乎立刻宣布了对民众活动采取新的严格管控措施。同一模型还显示，如果不加干预，美国可能会面临220万的死亡人数；英国与美国白宫分享了模型信息，随后新的控制社交距离指南发布出来。

来源：参考文献 1

　　全球各地的政府都依赖数学模型预测来指导应对疫情。Ferguson指出，计算机模拟只占到建模团队对此次疫情数据分析的一小部分，但却对政策制定越来越重要。不过，他和其他建模师警告称，SARS-CoV-2的传播方式还有很多未知的地方，只能靠估计或假设，这限制了预测的准确性。比如，帝国理工的一个较早期的模型估计，SARS-CoV-2在感染者必须收治入院的严重程度方面与流感相当。而现在看来，这个估计是不准确的。

　　此次疫情中的模型表现可能要等到几个月或几年以后才能逐渐明朗。不过，要理解COVID-19模型的价值，就必须了解建模的方式，以及模型所基于的假设。Ferguson说：“我们构建的是简化的现实表示。模型不是水晶球。”

　　新冠病毒模型：基本要素

　　许多模拟疾病传播方式的模型，对于开发了很多年的研究团队来说都是独一无二的。但它们背后的数学原理是相似的。它们都基于掌握人群如何在三个主要状态之间变化：个体可以分为对病毒易感（S，susceptible）、已经受到了感染（I，infected）、感染后痊愈（R，recover）或死亡。R组被假定对病毒免疫，也就是不具备感染他人的能力。有天然免疫力的人也属于R组。

　　最简易的SIR模型采用最基本的假设，比如感染者感染所有人的几率是一样的，因为人群分布非常均匀，所有感染者在去世或痊愈前的传染力也是一样的。比这更先进的模型会进行量化预测，这也是决策者在新发传染病出现时需要的预测。量化预测会把人群按年龄、性别、健康状况、就业状况、接触次数等分成更小的组——设定好他们在何时何处遇见过谁。

　　利用关于人口规模和密度、人群年龄、交通网络、社交网络规模、卫生护理资源的详细数据，建模师就能通过不同公式控制人群组在时空中的移动和互动，构建一个城市、地区乃至整个国家的虚拟复本。随后，研究人员会在这个世界“种”下一种传染病，观察事态发展。

　　但这种建模反过来也需要有在疫情发展初期只能大致估计的信息，比如感染者的死亡比例、基本再生数R0——一名感染者平均能感染的人数。举例来说，帝国理工的建模师在3月16日的报告[1]中估计，COVID-19感染者的死亡比例是0.9%（该数据根据英国的特定人口统计学进行了调整）；R0在2-2.6之间；SARS-CoV-2在感染者体内的潜伏期为5.1天。作者还假设，无症状感染者在感染后的4.6天仍可传播病毒；其余感染者可以在症状出现前12小时就开始传播病毒；后者比前者的传播力要高50%。这些数据来自其他模型：流行病学家尝试从疫情早期不同国家的不完整信息中拼凑出病毒的基本特性，再做出大概估计。

　　有一些参数必须完全基于假设。比如，帝国理工团队只能推断认为：既然没有人对COVID-19有天然免疫力，那么整个人群一开始都是易感群体，而且COVID-19痊愈的人在短期内不会再次感染。

　　使用这类参数运行的模拟一般会给出相同的预测结果。但是被称为“随机模型”（stochastic model）的模拟会加入一些随机性——就好比掷一个虚拟骰子看看I组里的某个人在接触S组某个人后是否能致其感染。当模型经过多次运行后，这种方法就能给出可能性的大致范围。

　　此外，建模师还要从不同方面模拟人们的活动。在“基于方程”（equation-based）的模型中，个体按人口划分成组。这些组会再分为更小、更有代表性的社会亚组，以便更好地反映现实，但这也会让模型更复杂。另一个方法是利用“基于主体”（agent-based）的模型：每个个体都能到处移动，并根据自己的特定规则行动——有点像电子游戏《模拟人生》（The Sims）中的模拟人物。

　　“你有好几行代码，这些代码决定了你的主体会如何行动，每天干些什么。”都柏林科技大学研究疾病传播模型的Elizabeth Hunter说。

　　基于主体的模型构建出的虚拟世界与基于方程的模型相同，但模型中的每个人都可以在同一天或同一个场景中做出不一样的行为。“这类非常明确的模型需要大量数据。”伦敦卫生与热带医学院（LSHTM）的流行病学家Kathleen O‘Reilly说，“你需要采集家庭信息，每个人如何去上班，以及他们周末如何活动的信息。”LSHTM、帝国理工学院和英国剑桥大学的研究人员采集了英国国家广播公司BBC的一个市民科学项目的逾3.6万名志愿者的社交接触数据。一些协助英国政府的建模师采用了这个数据集，这些数据在2月份以预印本的形式发布出来[2]。

　　怎么选模型？

　　帝国理工的团队在此次疫情中既使用了基于主体的模型，也用了基于方程的模型。为指导英国政府的抗疫对策，该团队在3月16日运行的模拟中，使用了一个2005年构建的基于主体的模型，这个模型当时是为了研究H5N1禽流感如果变异成容易人传人的版本，会对泰国造成哪些影响[3]。（2006年，这个模型也被用来分析英美两国如何缓解致命流感大流行的影响[4]。）Ferguson在2005年告诉《自然》，收集泰国人口的详细数据比给模型编代码还要难。在他团队首次公开对新冠病毒大流行的预测时，这些代码并没有公布；不过，团队正在和微软合作整理代码并公开，Ferguson说。

英国流行病学家Neil Ferguson。来源：帝国理工学院

　　3月26日，Ferguson和他的团队发布了关于COVID-19影响的全球性预测，此次利用的是更简单的基于方程的方法[5]。团队将人群分为四组：S组、E组、I组和R组，E组指的是有过暴露，但尚未感染的人。“它们得出的总体数字大体上相似。”该团队的流行病学家Azra Ghani说。比如，全球性预测显示，如果美国对病毒不采取任何行动，就会面临218万的死亡人数。与之相比，之前基于主体的模拟用的是相同的死亡率和再生数的假设，估计的全美死亡人数为220万[1]。

　　不同的模型各有利弊，“取决于你想问的问题。”法国皮埃尔·路易流行病学与公共卫生研究所建模师Vittoria Colizza说，她也在向法国政府提供关于疫情的建议。

　　一个差别在于建模师预计会有相同反应的人数。如果能把一组人归入基于方程模型的一个分室中，就能让事情更简单，也更快捷——因为这样模型就不用把每个人都看作个体，进行高分辨率的运行了。比如，当Colizza和她的团队想要研究强制法国大多数人居家办公对传染率的影响时，她使用的是基于方程的模型。“我们不需要独立追踪每个个体，了解他们什么时间在单位或在学校。”她说。

　　虽然不同的方法不太会让预测结果大相径庭，但人们不禁好奇这些模拟结果的可靠性如何。可惜的是，在大流行期间，很难获取能评判模型预测能力的数据，比如传染率的数据。

　　“你可以预测未来，再和实际情况比较。但问题是，我们的监测体系确实挺烂的。”LSHTM的建模师John Edmunds说，“通报的确诊病例数准确吗？不。有哪里是准确的吗？没有。”

　　Edmunds和他的团队去年发表了一篇论文[6]，对2014-2015年塞拉利昂暴发埃博拉病毒期间的预测表现进行了评估，文中指出，“疫情暴发期间的预测准确性很少会在事件发生时或过后进行评估，而预测者直到最近才开始公开结果、代码、模型和数据以供回顾性分析使用。”团队发现，要提前一到两周准确判定疫情走向是可以做到的，但再提前就不行了，这在于其固有的不确定性和我们缺乏对疫情的了解。

　　为了将数据不完整和假设不准确的影响降至最低，建模师通常需要运行模型几百次，每次对输入的参数进行微调。这种“灵敏性分析”是为了让模型在单个输入发生改变时，输出不会发生翻天覆地的变化。同时，为了避免过度依赖某一个模型，Ferguson说，英国政府听取了许多建模团队的意见，包括帝国理工和LSHTM（见参考文献7）的团队。“我们得出的结论都差不多。”他说。

　　更新模拟

　　根据媒体的报道，帝国理工团队3月初对模型进行的更新，是促使英国政府改变其抗疫政策的一个关键因素。研究人员最初预计15%的住院患者需要进入ICU，但之后更新到30%，这个数据也出现在了他们3月16日首次公开发表的报告中。该模型显示，只有4000多张ICU床位的英国卫生服务体系将不负重荷。

　　英国的政府官员之前曾大肆宣扬一种理论，提出在保护好老年群体的同时让疾病扩散，由于大部分感染者会自行痊愈，这种方法可以让其他人拥有群体免疫。但是，他们在看到最新数据后改变了这种政策，宣布将采取控制社交距离的措施。有批评者问，为何之前没有讨论控制社交距离的策略，为何不落实大范围检测，为何建模师会选择15%这一数据——1月份的一篇论文已经显示，在中国当时的少数COVID-19感染者中，有超过30%的人需要进入ICU救治[8]。

　　Ferguson认为模型更新的意义可能被夸大了。他说在更新前，模型已经发现如果完全不加干预，COVID-19可能会在这一年中导致多达50万的英国公民死亡，ICU的容纳能力也将超过极限。顾问团队曾讨论过利用控制社交距离的方法来抑制疫情发展，但有官员担心，这种做法只会让下半年发生更大规模的二次暴发。韩国开展的大规模检测虽然不在考虑范围内，但Ferguson说，部分原因在于英国的卫生部已经向政府顾问坦承并不具备快速扩大检测范围的能力。

　　当时，临床医生也看了中国的ICU数据，他们注意到似乎只有半数病例需要有创机械呼吸机，其余使用的是高压氧，这些人可能并不需要ICU床位。基于这些信息以及治疗病毒性肺炎的经验，临床医生也向建模师建议说15%是更合适的假设数据。

　　关键的更新出现在Ferguson向唐宁街政府官员进行介绍的前一周。与意大利那边感到恐慌的同事有过交流的医生表示，高压氧的效果并不好，30%的重症住院患者都需要ICU的有创呼吸机。Ferguson说，更新后的死亡率预测并没有很大的变化，因为很多预计的死亡病例可能会发生在社区内，而不是医院内。不过，考虑到卫生服务可能发生的资源挤兑，以及意大利的经验，所有人的“注意力突然集中了”，他说：政府官员很快转向了控制社交距离的措施。

来源：参考文献 9

　　亟需检测

　　随着研究人员对病毒的了解不断深入，他们也在更新许多其他关键变量。帝国理工团队在3月26日发表的一份关于COVID-19全球影响的报告[5]中，修改了3月16日R0的估值——从2.4上调至3.3；在3月30日[9]关于新冠病毒在11个欧洲国家传播的报告中，研究团队认为R0在3-4.7之间。

　　但是，建模师依然缺少一些关键信息。对建模师来说，如果能准确检测出哪些人在感染后没有出现症状，就能把这些人从易感组转移到痊愈组，这将重塑整个模型，并极大地改变疫情轨迹的预测，Edmunds说。

　　为了强调对这类检测的需求，牛津大学理论流行病学家Sunetra Gupta领导的一支团队指出，英国记录的死亡病例模式适用于一系列SIR模型，包括一个假设已经有数百万无症状感染者的模型[10]。只有检测出这些已发生的感染，才能反映真实情况。

　　还有一个重要的未知点：人们对于强制性的行为改变会持哪种态度，以及这些改变导致的传染性接触减少是否一如科学家的预期。例如，中国的调查显示，在政府采取控制社交距离措施期间，武汉和上海市民表示自己与他人的日常接触减少了7-9次[11]。意大利Bruno Kessler基金会研究传染病的Marco Ajelli共同领导了这项研究，他认为帝国理工[1]和LSHTM7的模型貌似已经假设了日常接触的变化，与中国观察到的情况在同一个范围内，虽然建模报告没有明确说明。

　　帝国理工团队表示，如果所有国家都采取严格的控制社交距离、检测和隔离感染者的策略，直到每周死亡率降至每10万人0.2，那么COVID-19的全球死亡人数到年底有望控制在190万以下。Ferguson在3月25日表示，英国的响应措施让他“有理由相信”英国的总死亡数会控制在2万以下。

　　Ferguson说，和预期的一样，整个欧洲的全国封锁措施已经显现出遏制SARS-CoV-2传播的效果。但对于担心经济发展和被禁足民众身心健康的国家来说，接下来的大问题是，这些控制社交距离的措施还要实施多久。帝国理工的一个模型[1]显示，控制社交距离可以减少新冠病毒的传播，但解除这些措施可能会在下半年或明年掀起第二轮大流行。