1-相关性和因果性
因果关系的核心:X会影响Y吗?X是如何影响Y的?
相关性:存在相关性关系,两者并不独立。
相关性和因果性的区别:相关不一定存在因果关系,比如身高和体重存在相关关系,但不是因果关系;而因果关系一定存在相关性。
2-辛普森悖论
辛普森悖论(Simpson's Paradox)是探究相关性和因果性的一个典型实例,是一种统计学中的悖论,描述了在整体数据和细分数据之间出现的矛盾情况。具体来说,当我们将数据分成几个子组或细分数据时,一个趋势或关系可能在每个子组中都呈现,但当我们将这些子组合并为一个整体时,这个趋势或关系却发生了反转。
这个悖论最早由英国统计学家Edward H. Simpson于1951年提出,因此得名为辛普森悖论。辛普森悖论的出现通常与混淆变量(confounding variable)或未考虑的因素有关。这意味着在细分数据中,存在某些影响结果的变量,但当我们将这些子组合并为一个整体时,这些变量的影响可能被掩盖或反转。
一个经典的例子是关于医疗治疗效果的案例。假设有一个药物被测试在两个不同的疾病患者群体上,结果显示每个疾病群体内的治疗组比对照组都表现更好。然而,当将这两个群体合并并考虑总体效果时,治疗组的效果可能变差。这种情况可能是因为在两个疾病群体中存在不同的基线风险或其他相关因素,这些因素在细分数据中的影响与整体数据中的影响相互抵消。
辛普森悖论的出现提醒我们在数据分析和解释时要谨慎。仅仅依赖整体数据可能掩盖了细分数据中的重要趋势或关系。了解和控制潜在的混淆变量是避免辛普森悖论的关键,以确保我们对数据的解读和决策是准确和可靠的。
3- 变量关键路径图
可以使用一种称为"变量关系图"或"变量关系路径图"的可视化工具来表示不同变量之间的关系。
变量关系路径图是一种图形化表示,用于显示变量之间的相互作用和依赖关系。它通常使用节点和连接线的方式来表示变量和它们之间的关系。每个节点代表一个变量,而连接线表示变量之间的关系。在变量关系路径图中,节点上通常标注着变量的名称或标识符。连接线可以具有不同的属性或标签,以表示变量之间的不同关系,例如因果关系、相关性、依赖性等。这样的图可以帮助我们理解和分析变量之间的复杂关系,发现变量之间的模式和趋势,以及预测一个变量如何受其他变量的影响。
变量关系路径图可以应用于多个领域,包括数据分析、系统分析、社会网络分析等。它们可以帮助我们识别关键变量、发现潜在的影响因素、优化系统设计,并支持决策制定过程。
需要注意的是,变量关系路径图是根据特定领域或问题的需求而创建的,因此在绘制变量关系路径图之前,需要明确定义变量、确定它们之间的关系和目标。这样的图可以是简单的二维图形,也可以是复杂的网络图或拓扑图,取决于问题的复杂性和需求的深度。
二、路径分类
路径可分为三类:
-
因果路径(链状路径)
-
交叉路径(混淆路径)
-
对撞路径(反交叉路径)
4-因果关系估计偏差来源
4-1 混淆偏差
混淆偏差是指解释变量和被解释变量之间存在未截断的混淆路径造成解释变量和被解释变量之间的相关性不仅包含因果,还包含非因果关系。
但是值得注意的是,如果混淆边浪我们观测不到,那就没有办法截断,比如说“竞争意识”这组概念就是观测不到,但是它可以影响教育和收入
4-2 过度控制偏差
过度控制偏差是指控制了因果路径上的变量造成的偏差,导致部分间接因果关系没有被解释,而只揭示了直接因果路径。
4-3 内生选择偏差
内生选择偏差是指两个本不相关的变量之间在控制被解释变量的结果时产生了相关关系。
4-4 Summary
5- 其他
因果关系可以直接定义为解释变量X导致被解释变量Y的变化,也可以通过潜在结果模型定义为处置效应
-
在理想状态下,如果关注的某个解释变量是通过随机分配给不同个体的,我们可以认为这个解释变量就与任何其他可能的混淆变量都不相关。这种情况下,解释变量与被解释变量直接就不会存在混淆路径,二者的相关性能够直接反映因果关系。
- 但是通过“控制实验”达到随机分配的效果可能存在伦理问题,并且操作成本和难度较高,因此通过控制实验的方法来研究因果关系比较少见。然而在一些特殊情况下,即使没有控制实验,数据也达到了随机分配的效果。例如高考分数线是60,大于等于60和刚好低于60具有局部随机性,通过比较高考得分在60分左右比较收入差异估计大学教育对于这部分人收入的英国影响,
断点回归方法
就是使用局部随机分配特点的数据达到估计因果关系的。
- 但是通过“控制实验”达到随机分配的效果可能存在伦理问题,并且操作成本和难度较高,因此通过控制实验的方法来研究因果关系比较少见。然而在一些特殊情况下,即使没有控制实验,数据也达到了随机分配的效果。例如高考分数线是60,大于等于60和刚好低于60具有局部随机性,通过比较高考得分在60分左右比较收入差异估计大学教育对于这部分人收入的英国影响,
实际研究中,通常面对的是观测数据,数据产生不具备随机安排并且是隔日自行选择产生,如服药与身体健康数据包含了个人根据自身情况选择服药与否的因素。
-
- 若不是混淆变量,则其因果路径图如(a),阶段混淆变量即可实现避免混淆偏差
- 若是混淆变量,则其因果路径图如(b),此时要阶段混淆变量需要识别e,将其分为可随时间变化和不随时间变化的两个部分,和,此时方程式变为:
内生选择偏差一般是由于样本不是从总体中挑选出来才产生的偏差