吴言 本报记者 刘志伟
生物前沿
“打个比喻,如果我们的遗传信息是一座山,遗传学家知道这山里面有金子,但他们用的是锄头。我们的工作就是给他们打造‘挖矿机’,帮他们把这些金子更快地挖出来;并把我们已经挖到的东西展现出来,构建成资源库,方便他们使用。”华中农业大学信息学院、生物医学与健康学院教授龚静这样解释他们的研究。
龚静的团队最近在英国《核酸研究》杂志先后发表3篇文章。他们通过对多种癌症中遗传变异的功能进行深入分析,发现了大量可调控非编码核糖核苷酸(ncRNA)和可选择性多聚腺苷酸化(APA)的遗传变异位点,构建了在线数据库,并开放给全球的研究者共享。
“其中一个数据库上线1个多月,就已经有22个国家1446次的访问了!”龚静接受科技日报记者采访时表示,她为自己的这一项研究能收获世界各地的粉丝而感到欣慰。
从“垃圾基因”里面“挖”宝
龚静对其中一项研究进行了详细的解释,她说:“表达数量性状座位(eQTL)是指基因组上可以影响基因表达的遗传变异位点。eQTL分析是解析遗传功能和寻找致病基因的重要方法之一,已广泛用于遗传研究中。”
基因分为编码基因和非编码基因。然而,目前大部分研究专注于编码基因相关的eQTL鉴定, 非编码相关的eQTL系统分析非常少。龚静表示,非编码比编码基因数据更庞大。十年前大家觉得不重要,甚至有人把它称为“垃圾基因”,但现在大家发现它有越来越多的功能,甚至参与到癌症的发生发展过程。
从事生物信息技术研究多年的龚静,一年前正是看到了非编码相关eQTL系统分析的欠缺,决定带领团队来填补这一空白。他们使用癌症基因组图谱(TCGA)近1万多个样本的基因组和非编码表达量信息,系统分析了33种癌症中遗传变异与非编码表达量之间的关系。
通过大样本、多组学分析,在33种癌症中,他们一共鉴定得到与长非编码相关的600多万种顺式eQTLs和70多万种反式eQTLs。他们进一步将已鉴定的eQTLs和癌症病人生存信息关联并分析后,确定了与患者总生存时间相关的8235个长非编码RNA-eQTLs和116个microRNA-eQTLs。
在此基础上,他们构建了一个在线数据库。在这个网站上,其他研究者可以方便地浏览及查询多种癌症相关的eQTL数据。
这些eQTL数据,将有助于理解遗传风险等位基因如何促进肿瘤的发生和发展,帮助遗传学家更好地认识非编码基因在癌症进展中的作用和生物学机理,为潜在的癌症靶标的开发提供新思路。
还可以扩展到动物和植物
本科学医和博士选择生物信息学的背景,让龚静有了更多的跨学科思维。她认为,生物信息学家的一个重要责任就是为生物学家和遗传学家,以及临床工作者提供更方便的工具和数据资源。
龚静说:“因为非编码相关的eQTL研究很少,这也就意味着能供我们参考的研究方法也比较少,所以方法的选择、数据的收集分析、相关数据库的构建等需要我们知难而进。为了提高我们研究的可信度和可行度,我们使用的都是来自专业癌症数据库的表型样本和存活信息,这些都是经过业界认证的可靠数据。”
在数据库建设方面,怎样体现专业科学的同时又让用户易用易懂?这花费了他们大量的时间。他们更迭了多个版本,从配色、排版和内容的填充都经过多次讨论,目的就是给其他科研人员提供一个直观的数据库,尽最大努力呈现一个专业数据库应有的特征。
他们的遗传研究方法不仅可以用于癌症还可以扩展到其他的疾病。同时,还可以扩展到对动物和植物的研究。近期,他们通过广泛收集动物的基因组测序数据并进行处理,构建了13个物种的基因组参考面板,打造了一个用于动物遗传数据填补的数据库。这个数据库可以广泛应用到动物遗传育种及品质改良等研究中。数据库中的数据及提供的工具可以极大地节省研究的成本和时间,大大提高科研效率。
龚静说,后期他们将继续维护并持续更新这些数据库,希望能让更多研究者受益。另外,他们也考虑根据已开发的数据库和已鉴定的有潜在功能的遗传位点,将他们的研究进一步深化。
具体来说,就是将生物信息方法得到的结果与人群分子流行病学、分子生物学相结合,深入挖掘遗传位点的功能,希望通过多维度的分析寻找并鉴定某种癌症相关的生物标志物或者药物靶标,真正实现产学研结合,推动临床生物医学实践,以此造福大众。