前言
缘由
网络上随处可见“某物种与人类的基因相似度高达x%”的说法。刚来P公司的时候F博曾问起过此事,初闻摸不着头脑,因为根本就不清楚说的是哪方面的相似性,讨论后一致认为这样的说法不合理。前几天需要制作一个宣传视频,F博又找我谈起了斑马鱼和人类基因的关系,为了严谨,我去查了发表斑马鱼基因组的原文,发现文中所用的描述根本就不是相似性
。责任心治好了我的懒病,不如写一篇短文来澄清一下这种说法。
认识同源性和一致性
要掰扯清楚所谓的这个相似性,需要搞明白两个概念:同源性
和一致性
。二者均指的是基因之间的比较。
同源性:同源性是指在进化过程中源于同一祖先的分支之间的关系,包括直系同源和旁系同源。直系同源基因指的是在不同物种中来自于共同祖先的基因(就是老祖宗传下来的,给到了不同的物种),而旁系同源基因指的是在同一物种内由于基因复制而产生的同源基因(基因复制现象常有)。同源性只能谈有无,不能说高低,它是质
而不是量
。举个简单的例子,在做blast序列比对的时候,两条序列比对上了,且coverage比较高,我们就认为二者之间有同源性。我们通常会用一些软件对多个基因组进行同源蛋白家族聚类,说的就是这个同源性。
一致性:最常被翻译成相似性,blast比对的出来的identity
描述的就是一致性,可以评判两个基因之间的序列相似性。
为何不能直接说“两个基因组的相似性”?
不论是同物种还是异种比较,实际上我们比较的是基因,而非把整个染色体拿来比(共线性分析不在此讨论)。对于两个物种而言,部分基因仅存在于物种A中,部分基因仅存在于物种B中。这两部分基因是没有办法做比较的。
如要比较两个基因组的相似性,我们通常会用平均核苷酸一致性(ANI)或平均氨基酸一致性(AAI)来评估,ANI和AAI的计算方法很简单,可以去网上查。注意,这里只计算两个基因组都含有的基因。实际上不适合于物种跨度大的对象之间的比较,因为它们之间本就没有多少同源基因。
实际上网传的动物与人基因组的相似性指的是同源基因占所有基因数量的比例
。即人类基因组中有x%的基因在某某动物中存在同源基因,至于这些同源基因的ANI是多少需要另外计算。
几个例子
小鼠 vs. 人
文献:Initial sequencing and comparative analysis of the mouse genome
杂志:2002年12月5日,《Nature》
Over 90% of the mouse and human genomes can be partitioned into corresponding regions of conserved synteny, reflecting segments in which the gene order in the most recent common ancestor has been conserved in both species.
超过90%的小鼠和人类基因组可以划分为保守共生的对应区域,反映了最近共同祖先的基因顺序在两个物种中都保守的片段。
At the nucleotide level, approximately 40% of the human genome can be aligned to the mouse genome. These sequences seem to represent most of the orthologous sequences that remain in both lineages from the common ancestor, with the rest likely to have been deleted in one or both genomes.
在核苷酸水平上,大约40%的人类基因组可以比对到小鼠的基因组。这些序列似乎代表了来自共同祖先的两个谱系中保留的大部分直系同源序列,其余的可能在一个或两个基因组中被删除。
The proportion of mouse genes with a single identifiable orthologue in the human genome seems to be approximately 80%. The proportion of mouse genes without any homologue currently detectable in the human genome (and vice versa) seems to be less than 1%.
大约80%的小鼠基因在人类基因组中具有单个可识别直系同源基因。目前小鼠中可检测到的在人类基因组中没有任何同源物的基因似乎不到1%。
黑猩猩 vs. 人
文献:Initial sequence of the chimpanzee genome and comparison with the human genome
杂志:2005年9月1日,《Nature》
Orthologous proteins in human and chimpanzee are extremely similar, with ∼29% being identical and the typical orthologue differing by only two amino acids, one per lineage.
人类和黑猩猩的直系同源蛋白非常相似,约29%是相同的,典型的直系同源蛋白仅相差两个氨基酸,每个谱系一个。
斑马鱼 vs. 人
文献:The zebrafish reference genome sequence and its relationship to the human genome
杂志:2013年4月25日,《Nature》
Detailed automatic and manual annotation provides evidence of more than 26,000 protein-coding genes, the largest gene set of any vertebrate so far sequenced. Comparison to the human reference genome shows that approximately 70% of human genes have at least one obvious zebrafish orthologue.
在斑马鱼中注释到了超过26,000个蛋白质编码基因,这是迄今为止(2013年)测序的任何脊椎动物中最大的基因集。与人类参考基因组的比较表明,大约70%的人类基因至少有一个明显的斑马鱼直系同源物。
小结
从上述几个例子可以看出,原文描述的都是同源基因数量,而不是所谓的相似性。所以,以后再提及基因组之间的比较,一定要擦亮眼睛,看看彼得到底是什么。
关注我
关注公众号“生信之巅”。