
二 杜仲基因组测序主要研究成果
(一)突破了复杂基因组测序策略和组装方法
根据重复序列比例和杂合度不同,复杂基因组细分为高杂合基因组(杂合率>0.8%,重复序列<50%)、微杂合基因组(杂合率为0.5%~0.8%,重复序列<50%)以及高重复基因组(杂合率<0.5%,重复序列>50%)等。而杜仲基因组在基因组大小、杂合度和重复序列比例上都远远超过了复杂基因组的定义范围,基因组大小约1.02G,杂合率高于1%(见表1),重复序列在66%以上,属于高杂合、高重复的复杂基因组。因此,杜仲基因组的组装技术遇到了前所未有的困难。
表1 基于17-mer数据分析的杜仲基因组
Table 1 Estimation of Eucommia genome size based on 17-mer statistics

通常,第二代测序组装对于解决复杂基因组组装存在一定的瓶颈,一般会导致Scaffold N50小于300Kb,达不到组装要求。因此,在杜仲基因组测序策略上,我们采用了全基因组鸟枪法(Whole genome shotgun, WGS),构建了不同长度的DNA插入片段文库,采用第二代测序技术(Illumina HiSeq 2000 and MiSeq)和第三代测序技术(PacBio)有机结合,完成了杜仲复杂基因组测序工作,获得了99.85G数据(见表2)。
表2 杜仲基因组数据量
Table 2 Whole-genome shotgun(WGS)reads used in the sequencing of Eucommia genome

在复杂基因组组装方法上,利用第三代数据读长较长的优势,跨过基因组中大量的、短的重复序列区域(这些区域对第二代组装技术来说是一个瓶颈)和杂合区域,通过开发新的拼接流程,克服了第三代测序技术读序错误率较高的弊端,并与第二代数据一起混合组装,使得Scaffold N50达932Kb(见表3),突破了高度复杂基因组组装指标。
表3 杜仲基因组组装统计
Table 3 Statistics for the final assembly of Eucommia genome

与真核生物保守的248个基因比对发现,75%以上的完整基因元件以及90%以上的部分元件能比对上(见表4),说明保守性基因比较完整。
表4 CEGMA预测基因完整性
Table 4 Gene region coverage assessed by CEGMA

利用Blat将杜仲果实转录组Unigene序列(果实、叶及两者混合数据)与组装出来的基因组比对,检查覆盖度水平可以看出,分别有99.67%、99.86%、99.66%能比对上,比对率达到90%的Unigene序列分别有96.46%、97.07%、96.16%,比对率达到50%的Unigene序列分别有99.47%、99.70%、99.42%(见表5)。这说明组装出来的杜仲基因组序列覆盖了比较完整的Unigene序列。
表5 杜仲转录组数据覆盖率
Table 5 Assessment of the quality of Eucommia genome assembly using transcriptome data of fruit and leaf

另外,利用Tophat将转录组测序的Reads比对到组装的序列中,平均有87.07%~95.09%的Reads能比对到基因组上去(见表6),这也说明组装出来的杜仲基因组序列覆盖了比较完整的转录组数据。
表6 测序所得转录组数据覆盖率
Table 6 Assessment of the quality of Eucommia genome assembly using transcriptome data

测序之前预测的GC含量为34.7%~37.1%(见表7),与测序后实际的GC含量(34.8%~37.2%)较一致(见图2、图3),说明测序组装结果可靠。
表7 各文库GC含量统计
Table 7 GC content of different libriaries


图2 基因组GC含量分布
Fig.2 Distribution of GC content

图3 基因组GC散点分布
Fig.3 Dot plot of GC content
杜仲全基因组测序以及重测序的完成将会给杜仲研究带来革命性的变化,使得科研工作者可以深层次了解杜仲这个古老物种,为从分子水平上研究杜仲活性成分和杜仲橡胶的代谢途径以及杜仲的分子育种提供了重要基础。同时杜仲在分类学上多有争议,与其较近的物种尚无全基因组序列,杜仲全基因测序的完成能够为其近缘物种分子方面的研究提供参考序列。杜仲也是为数不多进行全基因组测序的孑遗树种,为进化分析提供了大量的资料。
与猴面花、番茄、水稻、马铃薯、拟南芥、葡萄相比,杜仲基因最长(见图4), CDS 和外显子也较长(见图5、图6、图7),而内含子的数量最少,长度最短(见图8、图9)。从以上可看出,杜仲基因结构的特点是外显子长,内含子短而少,从另一个角度说明了杜仲基因组的复杂性。

图4 基因长度分布
Fig.4 Distribution of gene length

图5 CDS长度分布
Fig.5 Distribution of CDS

图6 外显子长度分布
Fig.6 Distribution of exon length

图7 外显子数量分布
Fig.7 Distribution of exon number

图8 内含子长度分布
Fig.8 Distribution of intron length

图9 内含子数量分布
Fig.9 Distribution of intron number