上世纪90年代末出现的微阵列技术,2000年代中期出现的大规模并行核苷酸测序技术,以及现在仍然不断发展的质谱分析和成像技术,使我们在生物学领域的研究方式发生着翻天覆地的变化。这些新技术所产生的复杂且庞大的数据集反过来又会推动数据科学各个领域的巨大进步。现在,我们还可以针对特定的数据集量身定制一些统计计算方法和软件工具来对它们进行处理、解析和压缩,从而协助研究人员建立并测试新的假说,并挖掘出一些颇具价值的研究方向。0平
但是,方法和工具的多样化也会带来一些问题。对于同一个问题,不同的视角会用到不同的工具。在用不同的工具进行数据预处理或分析的过程中,即便是细微的差别也会大大影响后续的生物学结论,有时甚至会产生自相矛盾的结果。因此,面对快速发展的生物技术和数据科学,迷茫也产生了:到底该选用哪些合适的技术和数据分析方法/工具来解决某个特定的科学问题呢?与之相伴的是,在这个实验难以重复、科学怀疑论和假新闻的报道满天飞的时代,民众也对科学产生了怀疑。
Genome Biology 本期专辑的初心是用严格且详尽的基准测试有效解决这些问题。由于不是每个方法和工具都能经得住时间的考验,因此只在原始论文中进行论证是远远不够的。基准测试的目的是以透明的方式进行检验,并强调方法学中的以及实施过程中的差距。当然,要想对方法和工具进行适当的基准测试并取得可信的结论,就需要攻克一些方法学上的难题,而Genome Biology 一直是这方面的先行者。随着这期专辑文章的陆续发表,有关基准测试的一些已知的和新出现的方法学难题也随之进入大家的视线。