医学上,通常我们知道开头和结尾,但不知道中间发生什么事。这时候,就是“因果中介模型”登场的时候了。

文|研之有物

从统计找因果关系

人体中,有一些奇妙的因果关系。例如:小时候家里穷,为什么长大较胖?喝酒容易脸红,因此易罹肝癌吗?中研院统计所的黄彦棕副研究员说明,透过“因果中介模型”,可以找出中间究竟发生什么事,藉此提供可能的医疗对策。


就读医学院、专攻生物统计的黄彦棕,与我们分享基础的统计观念。请放心,本篇没有困难的数学算式。
图片|研之有物 提供

您毕业于医学院,为什么没当医师,而是研究统计?

我读大四的时候,人类基因被解码出来,大家就在讨论下一个世代的医学和生物研究要做什么。当基因的资料量变大,就不太可能用传统一个分子、一个基因的方法来看,那时候觉得“量化”的训练可能是我以后需要的,而且我本身也对数学有兴趣。

其实,医学存在大量的“不确定性”,例如,同样的医师看病,给 A 病人吃这个药可以康复,但 B 病人吃同样的药却不会好。换句话说:

医学体现了不确定性,而统计学是用来研究不确定性。

之后我加入陈建仁老师的实验室,研究 B 肝病毒和 C 肝病毒对于肝脏的交互作用,这跟我后来跨入“因果中介模型”的领域有关。那时候杨怀壹学长带着我,从最基础怎么写程式,手把手教我慢慢做。

后来我们发现 B 肝病毒和 C 肝病毒呈现竞争关系,它们都想占领肝脏,通常是 B 肝病毒因为母子垂直传染先抵达,而 C 肝病毒后到。两个病毒交互作用,这个中介过程造成的结果很有趣——反而是肝癌机率会变低。(注一)

在陈老师实验室研究的这个题目,对于我的学术生涯有很大的影响,包括后来到哈佛大学攻读流行病学和生物统计,以及投入因果中介模型的研究,都是受到这个题目的启蒙。

研究生物统计,要特别注意什么?

要注意“相关性”和“因果关系”不能混淆。举个例子,如果有人发现“吃冰淇淋”和“被鲨鱼攻击”的次数呈现正相关,如下图所示:


“吃冰淇淋”和“被鲨鱼攻击”的次数变化,呈现高度正相关。(举例)
图片|研之有物 提供

可能有人看了这个资料,会下一个结论:吃冰淇淋会导致你容易被鲨鱼攻击。但真的是这样吗?其实影响这两者的原因是“夏天”。因为夏天人们喜欢吃冰淇淋,而夏天人们也喜欢去海边,导致被鲨鱼攻击的次数提高。

这个例子可以用常识判断,但生物和医学研究不太能只靠常识。如果没有区别“因果关系”和“相关性”的差别,有时会产生一些严重的后果,关系到病人的生存。

如何确认“因”和“果”的关系?

以医学来说,疾病都会有一个病程,通常我们知道开头和结尾,但不知道中间发生什么事。

举个例子,若我们要研究“抽菸”透过改变身体什么机制导致“肺癌”,就能藉由因果中介模型解释因和果中间的机制,找出肺部的肿瘤是如何发生。(注二)


“因果中介模型”在于找出因和果“中间”发生什么事。例如:抽菸到肺部产生肿瘤的过程中,是因为香菸所含物质,导致细胞基因发生甲基化。
图片|研之有物 提供

疾病的过程常常是一个黑盒子。站在医生的角度,通常只知道疾病的因和果,但若疾病的“因”是没办法被改变的,这样对病人一点帮助也没有。这种情况下,我们若能找出“中介因子”,就能透过追踪或调节中介因子,来避免或降低疾病“结果”发生的可能性。

像是“肥胖”也能找出中介因子吗?

肥胖的原因有很多,其中一个是:在美国已经知道“小时候家里社经地位低”和“长大后过胖”这两者的关系是确立的,但不知道中间的机制。我们用因果中介模型分析发现,其实这中间可能是受到基因甲基化的影响。

基因是与生俱来的,一般来说基因序列不会改变,可是每个基因的表现量会不一样。就像钢琴键盘顺序不会变,但各个琴键可以弹出不一样的大小声。而甲基化的意思,就是环境因子会影响基因表现量。推荐阅读:《52天的健康约定》:从细胞开始年轻化的饮食法

我们从受试者的臀部,以 FNA(细针抽取细胞检查)抽取脂肪细胞,作为分析基因的资料。的确发现,脂肪细胞里一些基因的甲基化,参与中间的间接作用。也就是说,家里社会经济地位低,会导致脂肪细胞某一些基因甲基化的程度不太一样;这些不太一样的程度,可能进而导致成年时候肥胖。(注三)


童年的外在环境,如何影响成年肥胖?以美国受试者的资料来分析,是因为家里吃得不健康,使得脂肪细胞一些基因甲基化。
图片|研之有物 提供

穷困家庭能吃饱就不容易,很难注重健康。家里大人如果吃得不健康,小孩也会跟着吃,这个环境因素会影响下一代。因为吃的东西,会记忆在基因里面,透过改变脂肪细胞一些基因的甲基化程度,造成长大后容易肥胖。不过,这些是以美国人为受试对象的研究,我们需要台湾族群的研究,来了解目前台湾人口肥胖的问题。

还有一个常见的因果关系:喝酒容易脸红,易罹肝癌吗?

喝酒容易脸红的人,是因为肝脏代谢乙醛的基因有缺陷,导致身体缺乏解酒酵素(ALDH2)。这个基因缺陷,通常会让这个人变得比较不喜欢喝酒,因为会脸红、起酒疹、不舒服。不喝酒的话,“间接作用”就会保护肝脏。

可是另一方面,不容易代谢乙醛的基因,影响的不只是喝酒的行为,也会造成肝脏代谢毒物的效用不佳。你带着一个有缺陷的基因,导致毒物无法代谢、累积在肝脏,这“直接作用”会对肝脏产生危险性。延伸阅读:饮酒与乳癌有什么关系?

与陈建仁老师和杨怀壹老师合作,我们用因果中介模型,来看这两个机制的交互作用,发现最后对肝脏的正负作用会相互抵消。也就是说,喝酒容易脸红的人,透过“不喝酒/肝脏易累积毒物”这两个机制并存、相抵,不会对肝脏造成显着的罹癌风险。(注四)

代谢乙醛的基因有缺陷,会造成人们不喜欢喝酒(间接作用),但肝脏也会容易累积毒物(直接作用)。两个作用相抵,对于肝脏其实不会造成显着的罹癌风险。(编注:2019/3/19 将甲醛更正为乙醛)
图片|研之有物 提供

研究过程中,有没有遇到什么困难?

就是⋯⋯数学算式推导不出来,呵呵呵。有时候回到家会跟太太说:“我今天又把一个题目做死了。”统计学和其它领域一样,学术研究大部分的时间都是在面对挫折。

想要特别说明的是,很多人认为因果推论是发展一个统计模型,证明 A 和 B 是因果关系。其实这是误解,我们做因果推论,其实花很多时间在探讨什么“不是”因果关系。生活上常常要用消去法,因果推论也是。

研究上常有的合作模式是,我们先把“因果中介模型”推导出来,合作对象读了论文再来找我们,希望用这个统计模型回答他们的问题,找出影响病程的中介因子。我们也会和医师合作,运用去识别化的病历和健保资料来分析。

如果物理学家真的发明时光机,我可能就失业了。

如果人生可以重来,就能比较同一个人这辈子有抽菸、另一辈子没有抽菸,导致肺部肿瘤的过程机制。但因为时光机还没被发明出来,我就可以继续做这门统计研究。