跳至正文

【喜乐君书摘】相关性或因果关系:基于空间的流行病学案例

本文来自于《业务可视化分析:从问题到图形的 Tableau 方法》(2024年第三次印刷)第十一章。点击链接,可以购买。

11.8  相关性或因果关系:基于空间的流行病学案例

在本章的尾声,还需要特别补充的是,相关性关系不同于因果关系。

在《大数据时代》一书中,作者舍恩·伯格认为大数据的重要特征之一就是“相关性胜于因果关系”。数据变量太多,要证明A和B的因果关系,就需要严格的环境以排除干扰;在业务分析与业务决策中,相关性及其关联程度就是决策的基础。

当然,在很多情况下,因果关系很重要,它通常与责任归因紧密相连,比如要论证“利润大幅下滑是由过度打折导致的”,除了证明二者是正相关的,还需要排除单价波动、成本上涨、费用增加等各种其他变量。就像一个人骑电动自行车与汽车相撞,想要证明汽车方全责(“因果关系”),就要排除电动自行车方面的各种可能原因(刹车失灵、违章、酒驾等),还要证明电动自行车方不是过错方(违反指示灯、超速等),毕竟,电动自行车撞上了停车场的汽车是不能要求对方赔偿的。

可见,因果关系和相关性关系的关键差异在于因果关系是直接的,相关性关系则存在更多的“潜在变量”。在《统计学的世界》一书中,作者用图11-43解释了相关性关系的多种场景。

图11-43  相关性关系与因果关系

可以把因果关系分析视为相关性分析的特殊情形,而把空间分析视为分布分析的特殊情形。

接下来介绍一个“因果关系”与“空间分析”相结合的绝佳案例,进一步说明相关性关系与因果关系的差异,这也是学习第12章中地理空间分析的基础。

在150年前的欧洲,霍乱与天花、鼠疫并列为三大传染病。

由于霍乱普遍存在于脏乱差的地区,因此人们普遍认为霍乱的传播途径是空气(相关性)。但是一位年轻的医生John Snow认为,霍乱的传播与空气无关,水源才是真正的传播媒介(正相关性)。

为此,Snow调查了在1849年8月的霍乱传播中,两家自来水公司所覆盖房屋的居民死亡率,如表11-1所示。Southwark&Vauxhall自来水公司覆盖房屋的居民死亡率约是Lambeth自来水公司的10倍,究其原因,是因为前者位于泰晤士河的下游,水质被污染的概率明显更高(当年伦敦是世界最大城市,城市公共系统尚不成熟)。

表11-1  两家自来水公司所覆盖房屋的居民死亡率

自来水公司覆盖的房屋数霍乱死亡人数死 亡率备    注
Southwark&Vauxhall40,0461,2633.15%泰晤士河的下游,
水被污染的可能性的确会更大一些
Lambeth26,107980.38% 

Snow在他的论文中,试图证明霍乱不是通过空气而是通过水源传播的(因果关系),同时建议当局加强公共卫生管理。可惜,在早期,这个建议并未被重视。

转折点出现在1854年发生的另一次大规模霍乱事件中。

1854年8月31日,伦敦的苏豪(Soho)区的宽街附近爆发了霍乱,第一天就有56人死亡,第二天死亡人数猛增到143人,第三天为178人……短短几天就累计616人丧生。在苏豪区开诊所的Snow没有逃离,而是逆行到霍乱中心挨家挨户做“流行学统计”,于是就有了这种被称为“死亡地图”的霍乱分布地图,如图11-44所示。

在这张地图中,Snow用短线代表死亡病例,高度代表这个位置的累计死亡人数(可以视为柱状图),圆点代表水井。Snow发现死亡人数最高的位置紧挨着一口公共水井,死亡人数与距它的距离为正相关(相关性)。因此,Snow推测这个被污染的水井才是霍乱的真正原因(因果关系早期推断)。

图11-44  John Snow于1854年绘制的霍乱分布地图

当然,仅仅这样就写论文、提意见,显然有失学者的严谨态度。因此,在这张地图之外,Snow又搜集了大量证据,来进一步证伪空气不是传播途径,证实水源才是罪魁祸首,从而从相关性关系提升到因果关系,具体如下。

  • 距离霍乱中心非常近的啤酒厂安然无恙!因为他们喝免费啤酒,不喝这里的水——那会不会是啤酒有保护作用
  • 不远处的监狱也安然无恙!虽然他们不喝啤酒,但是有自己的水井和自来水公司提供的水——不仅排除了“啤酒保护假设”,而且进一步证明被污染的水是直接诱因。
  • 距离霍乱中心非常遥远的地方也有病例!有位妇女怀念老家的水,每天让仆人从霍乱中心的水井打一瓶水,她患病之前的最后一瓶水来自霍乱的爆发日——排除了空气是原因,进一步证实水源才是真正的原因。

据此,Snow发表了自己的研究报告[1],并建议当局关闭这个公共水井。

于是,霍乱爆发的第8天,政府卸下了水井上面水泵的把手,很快,霍乱消失了!这最终证实了Snow推断的因果关系。

你看,相关性容易推断,因果假设的建立却非常困难,需要反复地假设验证和证伪、证实,才可能通往因果关系的终点。

即便如此,依然有很多人坚持“空气才是霍乱的传播途径”,不相信这位医生的结论。这时,如果有人能追溯到这次霍乱的源头(查找“零号病人”),就能进一步证实或者证伪上面的假设了。

幸好,一位圣卢克教堂的牧师亨利·怀特黑德花了几个月的时间,追溯到“零号病人”:一名5个月的女婴。她的母亲把洗尿布的水倒在了距离水井很近的污水池里,因为污水池损害,污染了水井(当年还没有尿不湿)。亨利·怀特黑德把调查分析发布到当时的专业杂志上,这进一步帮助民众建立了“水源才是霍乱的真正传播途径”的因果关联,也进一步避免了席卷欧洲的大霍乱。

多年之后,科学实验又提供了更多佐证。生物学家巴斯德发现细菌,后来罗伯特·科赫从水源中分离了霍乱弧菌。可惜,此时的John Snow已经病逝,他虽然喝蒸馏水躲过了霍乱,却死于中风。

因此,John Snow被称为“现代流行病学之父”,他绘制的“死亡地图”也是早期有代表性的可视化作品之一。

如今,借助Tableau方便、快捷的可视化技术,Panoptical 的 Tim Deak重新研究 John Snow 为 1854 年伦敦霍乱瘟疫制作的经典地图[2]。如图11-45所示,红色圆圈大小代表当前位置的死亡人数多少,水滴形状代表水井。

图11-45  Panoptical 的 Tim Deak为 1854 年伦敦霍乱瘟疫制作的经典地图(1)

霍乱区域外围有大量水井,但是没有引起霍乱。中心的水井被大量的圆圈遮挡,可以通过图11-46进一步查看放大后的霍乱中心。

图11-46  Panoptical 的 Tim Deak为 1854 年伦敦霍乱瘟疫制作的经典地图(2)

借助Tableau的故事讲述方法,可以把整个过程的相关性与前因后果结合起来,结合Snow论文中的啤酒厂、监狱等的进一步佐证,就是完美的统计学案例。

如今,新型冠状病毒肺炎在全世界肆虐,Tableau为联合国、美国白宫、霍普金斯大学,还有国内某些知名机构等提供了敏捷的疫情分析工具。通过Tableau官方网站的COVID页面,全世界众多用户也可以直接获得疫情资讯。


[1]  On the Mode of Communication of Cholera,作者John Snow,最初由 C.F 出版于1854 年。Cheffins,Lith,Southhampton Buildings,伦敦,英国。

[2]  引用自Tim Deak的Tableau Public主页,视图入选Tableau Viz of Day。

《【喜乐君书摘】相关性或因果关系:基于空间的流行病学案例》有1个想法

  1. Pingback: 【第九章】指标与文本表的优势、 使用场景-喜乐君-敏捷BI布道师

评论已关闭。

了解 喜乐君 的更多信息

立即订阅以继续阅读并访问完整档案。

Continue reading