未来,也许只需要一口唾沫,你就能够未卜先知,将潜在的疾病扼杀在发病之前;只需要一块皮下组织,你就能够克隆出新的器官并替换损伤的器官,从而极大地延长自己的生命。而这些,都依赖于科学家去发现人类基因背后的奥秘。
这就需要对人类的基因组进行测序和分析,才能找出其中的规律。但是,这在过去几乎是不可能完成的任务,因为基因组的数量是如此之大,大到了超越目前的计算能力。一个小小真菌,比如酵母的基因组总量就有10Mb,而一个人的全基因组则是3Gb(3000Mb),也就是30亿个碱基,如果将全部测序数据打成文字排成书,这本书的厚度将超过100米。此外,由于受到技术和方法学的限制,每个人至少要测100Gb也就是基因组的30倍以上,才能得到相对准确的全基因组数据。
为了完成一个人的全基因组测序,需要花费多少时间、多少金钱?1987年初,“人类基因组”计划开始立项,1990年,项目正式启动。经过美、英、日、法、德、中多国科学家的努力,终于在2003年4月完成了全部工作。当时,华大基因牵头,国家基因组南方中心、北方中心共同参与,承担了其中1%的基因组测序及分析工作。总共算下来,“人类基因组”花费了16年的时间和30亿美元,才完成了第一个白种人的全基因组图谱绘制工作。
不过,当华大基因在2007年10月11日完成第一个黄种人的全基因组图谱绘制(该项目也被称为“炎黄一号”)的时候,才不过花了一年的时间和区区1000万人民币。
这要得益于第二代基因测序技术的出现。与第一代基因测序技术相比,第二代最显著的特征是高通量,一次能对几十万到几百万条DNA分子进行序列测序,从而大大地提升了测序速度和通量,从而极大地降低了成本。不过,第二代基因测序技术需要更高速的计算能力配合。在生物技术特别是基因组技术的发展进程中,是计算能力而不是测序技术成为了瓶颈。
早在参加“人类基因组”项目的时候,华大基因就已经洞悉了这个“秘密”。从那个时候开始,华大基因开始采购小型机以提升自身的计算能力,其采购的服务器也从SGIO2升级到了曙光2000/3000。有了强大的计算能力,华大基因得以在2002年顺利完成水稻基因组的测序和组装工作,只用了不到一年的时间,而日本同行却用了8年的时间,花费也是华大基因的7倍以上。
从2005年开始,华大基因发现仅仅采购小型机已经不能够满足基因测序的饕餮胃口了,于是尝试购买X86通用服务器,自己搭建分布式集群计算系统。据华大基因副院长方林回忆,当时他们先用办公室里的几台PC搭建了一个集群系统,用了感觉比较成熟之后才开始大规模地采购X86通用服务器。在这个过程中,他们参考了曙光4000的技术标准,也做了不小的改进。例如,当时的曙光4000没有硬盘,而华大基因的计算对于交换分区的性能要求比较高,于是专门给服务器配了硬盘。
如今,华大基因已经建立起了2000多台服务器的分布式集群计算系统,技术架构也从过去传统的分布式计算转向了Hadoop等云计算架构。华大基因的集群计算能力达到了200万亿次/秒,能够进入2013年全球高性能计算的前100名。强大的计算能力与测序能力一起,使得华大基因超越美国的Broad、英国的Sanger等海外知名的测序中心,成为全球最大的基因组学研究机构。
依托强大的计算能力,华大基因正在雄心勃勃地启动“百万人基因组”项目,它计划同时完成百万数量级的人类基因组、蛋白质组、代谢组、表型组等一系列数据收集分析工作。据华大基因估计,由此需要收集的数据量将高达10EB(1EB等于10的18次方个字节),数据的参数规模将达到1-10亿。要知道,目前国内的BAT三大互联网公司拥有的数据量也不过只有EB级别,数据的参数规模则只有千万级别。无论从哪个方面来看,这都是不折不扣、名副其实的大数据计划。
显然,仅仅依靠华大基因自己的计算资源,已经无法搞定这件事情了,好在还有已经建成的国家队——天河超级计算机。目前,华大基因已经分别与天津超级计算机中心(计算能力4700万亿次/秒)、广州超级计算机中心(目前计算能力已达5亿亿次/秒,总设计能力将达11亿亿次/秒)达成了合作,将利用这两大中心超强的计算能力,早日完成“百万人基因组”项目。由于需要的计算量是如此之大,以至于当项目启动之后,将占用天津超级计算机中心10%、广州超级计算机中心30%的计算资源!
2013年3月,华大基因完成了收购美国基因测序公司CompleteGenomics的壮举。这次收购一方面将降低华大基因对上游仪器生产商的依赖,另一方面也将深远影响世界基因测序竞争格局,大大降低基因测序的服务成本。随着超高通量测序技术和超级计算能力的完美结合,华大基因有望在两年后将个人全基因组测序成本降低到数千人民币甚至更低。
看来,BT(生物技术)要取得进一步的发展,仍然离不开老冀一直关注的IT(信息技术),离不开包括大数据和超级计算在内的“最强大脑”。