第一份黄种人基因图谱的绘制完成,为从更大的尺度上来了解和应对疾病提供了新的可能性或者说契机
文/于达维
坐落在深圳市北山道边的深圳华大基因研究院,是深圳高新技术梦想的承载者之一。在这栋“北山工业区综合楼”里,10月10日,该研究院和生物信息系统国家工程研究中心、中国科学院北京基因组研究所的科学家一起,完成了第一份黄种人基因图谱的绘制工作。 “这不仅是全球第一个中国人的基因组图谱,也是世界上超过20亿人口的黄种人的第一份基因组图谱。”深圳华大基因研究院副院长王俊博士在新闻发布会上强调。在此之前,已有两个白种人的基因图谱问世。 这一进展,对于主要分布在亚洲地区的黄种人整个群体来说,影响深远。 “同样的基因,对于不同的环境和人群,都有可能产生不同的作用;因此,对西方人的研究并不一定就适合中国人,这正是绘制出中国人自己的基因组图谱的意义所在。”这一项目的总负责人、中国科学院基因组信息学中心暨北京华大基因研究中心主任杨焕明教授解释说。 四个“字母”的革命 早在上世纪50年代,科学家就发现,人体细胞中双螺旋形状的DNA(脱氧核糖核酸),包括了几乎所有的遗传信息。这些遗传信息,具体体现在DNA大分子的一个个特殊的片段上,我们将这些携带遗传信息的片段称为基因(gene);所有这些基因,就构成了人体的基因组(genome)。 从化学构成来看,每个基因,就是一段核苷酸序列;因为碱基的不同,这些核苷酸又可以分为腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种。通常一个基因上,有几千个甚至上万个核苷酸。这样,一个人的基因组,即一个人的所有遗传信息,就是由大约30亿个这样的“字母”构成的序列。 1985年,诺贝尔奖获得者雷纳托杜尔贝科(RenatoDulbecco)在美国《科学》杂志上第一次提出了“人类基因组计划”(HumanGenomicProject,简称HGP),呼吁进行人类全基因组测序(genomesequence),即给这30亿个“字母”排排队,希望能够由此揭开生命的奥秘。 1990年10月,美国政府决定出资30亿美元,正式启动“人类基因组计划”。原本预期在2005年完成的人体全部基因序列工作,在2003年就提前完成。 其中,1999年7月在国际人类基因组组织注册后,北京华大基因研究中心也承接了该项目中的人类3号染色体短臂上一个约3000万个核苷酸序列的测序任务,约占人类整个基因组的1%。 当时基因测序所使用的技术,是英国桑格研究所创立人弗雷德里克桑格(FrederickSanger)发明的双脱氧终止法。即根据核苷酸在某一固定的点开始生长,在某一个特定的碱基处终止,不同的核苷酸长成不同的长度,在凝胶上电泳进行检测,从而获得DNA序列。1980年,他因此获得诺贝尔化学奖。 这一技术虽然帮助人类开始了“基因革命”,但无论是在速度、成本还是准确度上,都存在相当的缺陷。正因如此,从上世纪90年代末开始,科学家开始不断开发新一代的自动测序技术,以提高测序效率。 在过去短短数年中,基因测序领域的技术革新无疑是惊人的。 2007年5月,“454生命科学公司”与贝勒(Baylor)医学院合作,完成了对DNA双螺旋结构发明人之一詹姆斯沃森(JamesWatson)的基因组测序。只用了两个月的时间,花费不到100万美元;速度比原来提高了上百倍,成本下降了上百倍。 就以此次深圳华大基因研究院所使用的五台美国solexa公司出品的自动测序仪为例,从开始准备到完成第一个黄种人的基因组测序,也只用了三个月的时间;不仅如此,测序的准确度,也提高了5到10倍。 “包括药品、机器折旧和人工在内的成本,大约为四五百万元人民币。”深圳华大基因研究院副院长李松岗教授对《财经》记者表示。 华盛顿大学基因组学系教授、美国科学院院士梅纳德奥尔森(MaynardOlson)在接受《财经》记者采访时指出,随着仪器的进步,已经正式开启了对个人进行基因组测序的空间:虽然现在成本对于普通人而言依然很高,但对于许多研究机构来说,已经可以接受了。 迄今为止,全球完成个人全基因组测序的人只有三个,都是在2007年完成的。除了最新的这个不知名的中国人和上面提到的詹姆斯沃森,还有一个则是塞雷拉基因组学公司(CeleraGenomics,纽约交易所代码:CRA)的总裁克莱格文特(CraigVenter)。 从1到100 在奥尔森教授看来,单独一个人的数据,科学上的研究意义相当有限。但他对《财经》记者指出,中国人完成黄种人的基因图谱绘制,表明“中国已经成为基因组学这一国际科学界最活跃的领域中的一个主要参与者”。 测序的过程,包括了采血、提取DNA、将DNA打碎加接头固定制成文库、上机器测序以及后续的数据分析等。 在实验室中,李松岗教授小心翼翼地拿出一片已经完成测序的样品给《财经》记者看。透明的玻璃片上,有八条道黑色的条纹。 “每条道是测序的最小单位,每条道上可以测量几百万个小序列。”李松岗说。每个序列在道上是一个点,显微镜上的照相机用四种不同颜色的滤光片沿着道照相。 理论上讲,每条道上有三四百万个点,一次运行大概有1到1.5G的数据,而一个人是3G的数据,用两到三片就可以完成测定了。但实际上,在实验中要测很多片才能保证获得精确的基因组序列。 根据目前的人种学研究,人类分为四种,包括白种人、黑种人、黄种人和澳大利亚土著人。从生物学上看,白种人和黄种人比较接近,同黑种人差异较大。到目前为止,科学家发现,具备编码功能的基因,仅占人类基因组的不到10%;任何两个人之间基因上的差异,都不到0.01%。但也正是这0.01%看上去有些微不足道的差异,却带来了不同人种间身高、体型、肤色等各方面的差异。 因此,尽管黄种人在生物学上与白种人比较接近,在国际上已经有了白人基因图谱之后,通过绘制黄种人的基因组图谱,来寻找哪怕是最细微之处的差别,仍十分重要。然而,选择什么样的个体作为黄种人的代表,来进行基因组测序,这是个问题。 在李松岗看来,第一个人的选择其实并不难。虽然他不愿意透露其具体身份,但有几个先决条件是肯定的,即这个人起码在血统上是中国人,几代内都没有混血,而且没有明显的疾病,大致是个正常人。 困难的是如何选择随后的99个人,以获得一个合理的小样本,来反映不同人种间的差异性。 通常认为,只有获得上百人的基因组数据之后,才可能归纳总结得到不同人种间带有共性的差异。因为这100人的选择,必须要考虑到整个黄种人族群的特点,包括各个民族之间的差异等;而且,从现有的人类学知识来看,有时不同民族之间的生物学差异,甚至还不如地域上的差异大。 中南大学生物技术学院一位不愿透露姓名的负责人对《财经》记者表示,以中国人的生物学特征为例,明显地以长江为界分为南北两派;这种遗传上的差异,应该是漫长的历史中天然阻隔产生的聚集效应反映在进化上的结果。 除了南北差异,中国还有不少少数民族形成隔离人群,他们和其他人群的交互很少,往往也会形成自身的遗传特异性。 因此,在各种复杂的因素中间,如何根据一定的比例分配样本量,选择最能代表黄种人的99个人,还需要进一步的精心设计。 另外一个问题是,根据目前的普遍认识,疾病的发生,往往不仅取决于遗传,也取决于环境;根据肤色或者说人种,来对基因组进行全面研究,到底能在多大程度上帮助人类对抗疾病? 在奥尔森看来,利用肤色来区分遗传特异性,将极大地增进人类对疾病的了解,从而提高应对疾病的能力。 不同人种之间在疾病上的差别,不仅表现在疾病的易感性上——比如中国人鼻咽癌患病率就相对较高,其中以广东等地为最,即使移民到美国也一样——同时,也表现在对药物的反应上。例如,从总体上看,黄种人两种主要的药物代谢酶CYP2D6和CYP2C19的活性就低于白种人,因此使用某些心血管药物的时候,所用的剂量就应该略微低一些。 因此,一旦了解各个人种在遗传上的特异性,虽然还无法回避环境的影响,仍可以帮助人类更有针对性地采取预防疾病,甚至治疗疾病。 实际上,深圳华大基因研究院的“炎黄100计划”,也是与英国桑格基因组研究院合作进行的全球千人个体基因组多态性研究的一部分。 进行这一项研究的目的,就是以新一代测序设备和高性能计算机技术为支撑,通过对白、黄、黑三大人种进行大样本的全基因组测序和序列比较,从而全面地探索人类基因组在不同人群中的多态性分布和变化规律。 解码第一步 根据华大基因研究院的设想,也许就在十年之内,仅仅花费1000美元左右,每个人就可以得到自己的基因图谱;从而发现自己容易得什么病,应该采取什么针对性的治疗手段,以延长自己的寿命,并且提高生命质量。 但奥尔森教授提醒说,从技术上说,十年内测序技术提高到普通人都可以接受的程度,是有可能的;不过,即使得到了基因序列,也仅仅是“万里长征”的第一步。要真正读懂这本“天书”,要走的路还很长很长。 要读懂基因图谱,不仅需要先进的仪器,更需要在经验、技能和分析能力上都兼备的研究人员。这样的人在全世界范围内也屈指可数。 “我们甚至现在都不知道,读懂它到底会有多么难。”他对《财经》记者补充说。 哈佛医学院基因组研究中心主任乔治丘奇(GeorgeM.Church)在接受《财经》记者采访时也强调,要真正了解人类遗传物质的多样性,不仅需要得到许多人的基因序列,可能还需要了解上百万人的遗传背景数据。只有这样,个性化的医疗或许才有可能。 在基因序列内的碱基序列的改变,往往会使得以其为蓝本进行“翻译”的蛋白质序列发生改变,从而影响了蛋白质的功能。 这种改变,被认为是导致生物性状改变的直接原因。所以,找到这些改变的地点并全部进行标记,将是比排列全基因组更繁重的工作。 或许,短期之内,对于普通人而言,针对某种特定疾病进行检测的“单核苷酸多态性”(SNP)检测,也许更加现实可行一些。 在几千、上万个核苷酸构成的基因上,只要出现一个核苷酸的变化,其表现形式就大不一样。科学上,将这种变化称为“单核苷酸多态性”。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。平均每500至1000个碱基对中就有一个SNP,估计其总数可达300万个。 深圳微芯生物科技有限公司总裁鲁先平对《财经》记者指出,通过SNP分析,不仅可以进行疾病易感基因定位,也可揭示人群中不同个体对不同药物的敏感性差异,甚至可以用于罪犯身份的鉴别、亲子鉴定以及器官移植中供体和受体间的配对选择等方面。 然而,在上海翼和应用生物技术有限公司技术负责人陆炯看来,虽然现在有很多方法可以测定人对不同疾病和不同药物的反应,但全面了解人类基因组的状况仍是十分必要的。更何况,目前SNP测定的应用还局限在已知位点的疾病上,对不知道在哪里的疾病只能寄希望于全部测序。 “从长远来说,充分了解基因组序列肯定会给人类提供更多的帮助;收集的信息越多,能发现的问题也就越多。”他对《财经》记者表示。 因此,从这种意义上讲,完成黄种人的全基因组测序,其意义不仅在于可以帮助人们预测是否会得心脏病、糖尿病;虽然深圳华大基因研究院王俊博士已经透露,在得到100个人基因图谱后,将初步选择高血压、高血糖、血脂异常、骨质疏松四种高发多基因复杂疾病,通过疾病和正常个体的比较,识别出疾病表型强关联性遗传多态性位点组合,以用于这些疾病的预测,并为大规模检查黄种人特异性疾病做准备。 更重要的是,它为我们打开了一本写着人体“遗传密码”的大书,哪怕现在还仅仅是扉页。