流行病学(Epidemiology)是在人群水平研究健康和疾病模式的一门学科。传统流行病学(Classical epidemiology)相比较于遗传流行病学(Genetic epidemiology)它不涉及遗传信息的应用。在流行病学领域有一个根本的问题,那就是相关性(correlation)和因果关系(causation)的区别。想要探究因果关系,最佳的方法是选择合适的研究设计,比如前瞻性的随机试验。
1 遗传流行病学的兴起
遗传流行病学主要研究遗传因素在人群中对于疾病和健康的作用。随着对人类基因组认识的不断深入,对疾病遗传决定因素的研究已从单基因疾病(由单一突变基因引起的疾病,如镰状细胞癌)扩展到多基因疾病(疾病负担不是由单一基因引起的,而是由多基因与生活方式和环境因素共同引起的)。这些疾病,如癌症、糖尿病和冠心病,往往在家庭中聚集,但也取决于可改变的风险因素,如饮食和血压。随着全基因组关联研究(genome-wide association studies, GWAS)的广泛应用,人们发现了一些与这些疾病相关的遗传因素。GWAS检测了数十万甚至数百万个基因变异与疾病结局的关联。在某些情况下,这些发现增加了对疾病过程的科学理解和预测个人疾病风险的能力。然而,从临床角度来看,它们的直接利益有限,因为个人的基因组目前无法改变。然而,遗传发现为孟德尔随机化提供了机会: 一种基于观察数据,利用遗传数据评估和估计非遗传暴露的因果影响的技术。
2 举个例子:炎症假说
为了理解孟德尔随机化,先举一个关于炎症假说(The inflammation hypothesis)的例子。炎症假说被认为是心血管疾病重要的发病机制。炎症是身体对有害刺激的反应机制之一。它的特征是红肿、发热、疼痛和受影响身体部位的功能丧失。可以分为急性炎症和慢性炎症。
心血管疾病包括一系列的疾病,包括冠心病(尤其是心肌梗死或“心脏病发作”)和中风。目前,它是世界上最大的死亡原因。炎症假说认为,在炎症反应机制中有一些方面导致了心血管疾病事件,而干预这一途径将减少心血管疾病的发生。
2.1 C反应蛋白和冠心病
炎症过程中,机体会产生急性期蛋白(acute phase proteins),它代表着机体抵御感染和损伤的第一道防线。其中C反应蛋白(C-reactive protein, CRP)水平的升高在冠心?。–HD)发病风险中的作用受到广泛关注。在观察性研究中,CRP与冠心病的发病风险相关,但是在大量的孟德尔随机化研究证实之前,没有证据证明这种相关性具有因果关系。我们想探究长期CRP的升高是否会导致更高的冠心病发病风险。
2.2 关于相关性的其他解释
有很多因素可以同时影响CRP以及CHD的发病风险,这些因素被称为混杂因素(confounders),可以被例如多因素回归这些统计方法来测量和解释。然而相关的混杂因素不可能全部被确定。同时CRP的升高可能是一些亚临床疾病导致的,这就使得观察到的相关性可能是由于反向因果关系(reverse causation)导致的。
其中一个特别有趣的潜在混杂因素是纤维蛋白原(fibrinogen),它是一种可溶性血浆糖蛋白,可以使血液凝固。它也是炎症途径的一部分。虽然CRP在观察上与冠心病风险呈正相关,但在调整各种常规风险因素(如年龄、性别、体重指数和糖尿病状况)后,这种相关性降低,并在进一步调整纤维蛋白原后减弱至几乎为零。评估CRP水平升高是否与纤维蛋白原的变化有因果关系是很重要的,因为如果是这样,校正CRP- CHD与纤维蛋白原的关系就等于是过度校正,这将减弱真正的因果效应。
2.3 工具变量(Instrumental Variables)
为了解决传统流行病学中混杂和反向因果关系的问题,我们引入了工具变量的概念。工具变量是与所关注的暴露相关,但与作为结局混杂因素的任何其他竞争风险因素无关的可测量量。它不会直接影响结局,但可以通过研究中的暴露,通过假设的因果途径间接影响结局。
2.4 遗传变异(genetic variants)作为工具变量
遗传变异(genetic variants)是个体之间不同遗传密码的一部分。在孟德尔随机化中,将遗传变异作为工具变量。群体中的不同个体可以根据他们的遗传变异分为不同亚组。假设遗传变异可以被视为随机分布在群体中(我们认为遗传变异独立于环境和其他变量),那么遗传亚组在这些变量上没有系统差异。此外,因为遗传密码在个体出生前就已经确定,所以在成熟个体中测量的变量不可能先于遗传变异。回到我们的例子中来,如果我们可以找到一个与CRP水平相关的合适的遗传变异,然后我们可以将根据遗传变异分出的具有低水平CRP的亚组与高水平CRP的亚组进行比较。实际上我们是在人群中进行一个自然界的实验,自然界随机的给予个体一个可以升高其CRP水平的遗传水平的处理。如果具有与CRP水平升高相关并且满足工具变量假设条件的遗传变异的个体呈现出更高水平CRP发病率,那么我们可以得出CRP是导致CHD的危险因素,降低CRP可能降低CHD的发病率。在进一步假设CRP和CHD相关的统计模型下,可以获得因果关系的具体参数。尽管孟德尔随机化使用遗传变异去回答因果关联的问题,但重点不在于回答遗传学的问题,而是重点关注可变的暴露(exposures),比如CRP,以及它们对于结局的因果效应。
2.5 违反工具变量假设
根据观察性研究的数据是不可能得出两个变量间的因果关系的。所有通过必然性做出因果推断的经验性理论都依赖于不可验证的假设。工具变量理论也不例外。举个例子,如果在孟德尔随机化分析中与CRP水平相关的遗传变异与血压也独立相关,遗传亚组间的比较就不能是对于CRP影响CHD发病率的因果假设的有效检验。工具变量假设的有效性对于孟德尔随机化研究的理解至关重要。后续会深入讨论。