1、重复序列、杂合度、GC含量、外源DNA污染对复杂基因组测序组装的影响如下所示:(1)重复序列影响:由于复杂基因组重复序列含量高,并且分布在基因组的不同位置,在测序组装时容易产生缺口、错误组装和串联重复的压缩,进而会使得组装出的基因组小于该物种的实际基因组。
2、(2)杂合度影响:当物种基因组杂合度高时,针对杂合区域,会将两条染色单体都组装出来,进而使得组装出来的基因组大于该物种的实际基因组。以F锾攒揉敫alcon为例,针对杂合区域,其组装结果既包含Primary序列,还包括bubble序列,会造成组装结果大于实际基因组。此外,多个物种的测序经验表明,随着杂合度的升高,组装算法的指标(Contig N50)也会显著下降。
3、(3)GC含量的影响:由于NGS测序具有GC偏好性,当用二代测序为主要测序手段时,高含量的GC会导致基因组组装碎片化,从而影响组装结果的完整性。而以PacBio为代表的三代长读长技术,不存在GC偏好性,因此GC含量对其测序组装的基因组影响较小。
4、(4)外源DNA污染的影响:当某个物种与其他物种存在共生、寄生关系,此外种的基因组往往会受到外源DNA的污染,在测序时会降低reads的覆盖度,这在藻类植物中尤其明显。