该研究使用公开可用的数据集--涉及总共近5万名参与者--来分析一系列的样本量,并发现:
全脑关联研究需要数以千计的个体来实现更高的可重复性。典型的全脑关联研究只招募了几十个人。
所谓的“统计效力过低的”研究很容易在偶然的情况下发现强烈但误导性的关联,而遗漏真正但较弱的关联。
常规的“统计效力过低的”的全脑关联研究导致了过多的强烈但不可重复的发现。
全脑关联研究的新参数为更好地利用研究结果来改善临床实践和精神保健提供了方向。
“几十年来,我们一直在强调MRI在临床护理方面的潜力--包括诊断、风险、对治疗的反应等--对于心理健康疾病和神经系统疾病。然而,这种潜力并没有完全实现,”资深作者、明尼苏达大学共济会大脑发育研究所(MIDB)的红叶捐赠主任Damien Fair说。“我们现在知道了我们的错误做法,并且正在重新定义所需的参数,即所谓的'特殊酱汁',以便有效地向前推进。”
为了确定全脑关联研究的问题,研究小组首先访问了三个最大的神经影像数据集:青少年大脑认知发展研究(11874名参与者)、人类连接组项目(1200名参与者)和英国生物库(35375名参与者)。然后,他们利用不同规模的子集,分析了这些数据集的大脑特征与一系列人口统计、认知、心理健康和行为措施之间的相关性。使用单独的子集,他们试图复制任何确定的相关性。在MIDB信息学小组和明尼苏达州超级计算研究所的强大计算资源的支持下,他们总共进行了数十亿次分析。
研究人员发现,使用25个样本量--已发表论文中的中位样本量--确定的大脑行为相关性通常无法在单独的样本中复制。随着样本量增加到数千,相关关系变得更有可能被复制。强大的可重复性对今天的临床研究至关重要。
高级作者、华盛顿大学神经学副教授 Nico Dosenbach博士说,这些研究结果反映了一个系统性的结构问题,这些研究旨在寻找两种复杂事物之间的相关性,如大脑和行为。
“这不是任何个别研究人员或研究的问题。这甚至不是神经影像学独有的问题,”Dosenbach说。“大约十年前,基因组学领域发现了一个与基因组数据类似的问题,他们采取了措施来解决这个问题。美国国立卫生研究院开始资助更大规模的数据收集工作,并规定数据必须公开共享,这减少了偏见,因此,基因组科学已经变得更好。有时你只需要改变研究范式。基因组学已经为我们指明了方向。”
神经影像学研究是昂贵和耗时的--仅仅在核磁共振机器上的一个小时就可以花费1000美元。Dosenbach说,如果把来自多个小型研究的所有数据汇集在一起进行分析,包括统计学上不显著的结果和微不足道的效应大小,其结果可能会接近正确的答案。
“该领域的未来现在是光明的,在于开放科学、数据共享和跨机构的资源共享,以便向任何想要使用它们的科学家提供大型数据集。这篇论文就是一个了不起的例子,”Fair说。“在MIDB,我们正在努力为来自各行各业的科学界提供必要的资源,以最佳方式开展工作。”
通过MIDB信息学小组,参与这项研究的明尼苏达大学其他部门包括神经成像基因组学数据资源和明尼苏达超级计算研究所。