收集科学数据的速度正在迅速增加,从而产生了巨大且非常复杂的数据库,这被称为 “大数据革命”。研究人员采用统计技术来压缩和简化数据,同时保留大部分重要信息,以使数据更易于管理。主成分分析(Principal Component Analysis,PCA)可能是使用最广泛的方法。将PCA想象成一个烤箱,面粉、糖和鸡蛋作为输入数据。烤箱可能总是执行同样的事情,但最终的结果,即蛋糕,在很大程度上取决于成分的比例和它们的混合方式。
“人们期望这种方法会给出正确的结果,因为它是如此频繁地被使用。但它既不能保证可靠性,也不能产生统计学上的稳健结论,”隆德大学分子细胞生物学副教授Eran Elhaik博士说。
根据Elhaik的说法,该方法促成了关于种族和民族的古老信念的发展。它在制造关于人们来自谁和哪里的历史故事中发挥了作用,不仅科学界如此,商业性的祖先公司也是如此。一个众所周知的例子是,在2020年总统竞选前,一位著名的美国政治家利用血统测试来支持他们的祖先主张。另一个例子是在PCA结果的驱动下,将阿什肯纳兹犹太人误认为是一个孤立的群体或种族。
【资料图】
“这项研究表明,这些结果是不可靠的,”Eran Elhaik 说。
PCA被用于许多科学领域,但Elhaik的研究侧重于它在人口遗传学中的使用,在人口遗传学中,数据集规模的爆炸性增长尤为突出,这是由DNA测序的成本降低所推动的。
在古基因组学领域,我们想了解古代民族和个人,如铜器时代的欧洲人,严重依赖PCA。PCA被用来创建一个遗传图谱,将未知样本与已知参考样本放在一起。到目前为止,未知样本被认为与它们在地图上重合或最接近的参考人群有关。
然而, Elhaik发现,仅仅通过改变参考样本的数量和类型,就可以使未知样本接近任何参考群体,产生几乎无穷无尽的历史版本,所有数学上的"正确",但只有一个可能是生物学上的正确。
在这项研究中,Elhaik研究了PCA的12种最常见的群体遗传学应用。他使用了模拟和真实的遗传数据来显示PCA的结果是多么的灵活。根据Elhaik的说法,这种灵活性意味着基于PCA的结论是不可信的,因为参考或测试样本的任何变化都会产生不同的结果。
仅在遗传学方面就有32000到21.6万篇科学文章采用了PCA来探索和可视化个体和种群之间的相似性和差异,并根据这些结果得出结论。
“我认为必须对这些结果进行重新评估,”Elhaik 说。
他希望新的研究能够开发出一种更好的质疑结果的方法,从而有助于使科学更加可靠。他在过去十年中花了很大一部分时间来开创此类方法,如用于从DNA预测生物地理的地理种群结构和用于改善基因测试和药物试验中使用的病例对照匹配的配对器。
“提供这种灵活性的技术鼓励了不良的科学,在一个有强烈的出版压力的世界里,这种技术特别危险。如果一个研究人员多次运行PCA,那么他总是会选择能产生最佳故事的输出。”剑桥大学的William Amos教授补充说,他没有参与这项研究。