我校教授发现隐藏的蛋白质组:大量“非编码基因”可以表达蛋白质

7月24日,我校生命科学技术学院何庆瑜教授、张弓教授、王通教授团队在Nucleic Acids Research上发表论文,发现了约4700个人类“非编码基因”实际上可能翻译成蛋白质,并提供了其中314个由长链非编码RNA (lncRNA) 表达的蛋白质证据。这些蛋白质不是小肽,而是含50个氨基酸以上的蛋白质,它们能稳定存在,并可以在癌症等病变中发挥重要作用。由于这些蛋白质长期以来被人们认为不会存在,所以被称为“隐藏的蛋白质组”(Hidden Proteome)。

人类基因组上已知大约有5万个基因,其中约2万个被标注为可以表达蛋白质的 “编码基因”,而另外3万个基因被标注为“非编码基因”(non-coding genes)。已有的报道中,除了部分非编码基因可以表达为小肽行使调控功能外,也有个别lncRNA被发现实际上能翻译成>50氨基酸的蛋白质,例如CLUU1, ESRG等,问题是,如果这种情况不是个案而是普遍存在的现象,则确实存在部分“编码基因”被错误地标注成了“非编码基因”,这将意味着人基因组需要被系统性地重新注释。

事实上,早在2013年,半岛(中国)体育·官方网站-登录入口团队便利用自主建立的翻译组测序技术(RNC-seq),在肺癌细胞中发现了1397个有可能被翻译的“非编码RNA”(Nucleic Acids Research 2013, 41, 4743)。经过6年的继续探索,他们从9株人细胞系中共鉴定到约4700种lncRNA正在被翻译,且可能以经典翻译起始方式翻译出>50氨基酸的蛋白质。利用目前公认的验证标准,他们提供了其中314个新蛋白质的证据。这些蛋白质是稳定存在的,并且有着明确的细胞定位,功能实验也证实它们以蛋白质形式(而非RNA形式)行使着明确的生物学功能。

为何这些“新蛋白”长期以来一直被认为不存在?这是因为人类基因组的注释本来就是算法预测的结果,而任何算法预测都不会完全准确。通常来说,编码基因都有多个外显子,而且在进化上相对保守,于是算法就根据这两个“经验”进行判定。但此次半岛(中国)体育·官方网站-登录入口团队发现的新蛋白,大部分只有一个外显子,而且进化上出现得非常晚,大量新蛋白只在灵长目才出现,连小鼠基因组中都没有。因此,算法可能错误地将这些编码基因归为了“非编码基因”。当然,这些新蛋白在转录、翻译、蛋白质各水平上表达量都较低,理化性质也比较特殊,因此也增加了检测的难度。

此项工作揭示了一个隐藏的蛋白质组,发现了大批以往不为人所知的新蛋白质,为人类基因组的可能注释错误提供了大规模的校正;这些新蛋白质可能含有与人类生理病理相关的重要分子,因而打开了一个新的人类蛋白质的宝库,开辟新的研究领域。该文的共同第一作者为我校生命科学技术学院的卢少华博士、张静博士和连新磊博士。

该研究工作受到国家基金委(基金号:31570828,81372135,81322028,31300649)的资助。

原文:https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014