ThruPLEX Tag-seq Kit是用于以cell-free DNA和片段化的双链DNA起始制备Illumina NGS的DNA文库试剂盒。ThruPLEX Tag-seq能够生成高GC覆盖的多种文库,1~50 ng DNA起始可以得到再现性好的测序结果。
ThruPLEX Tag-seq Kit包含特别设计的ThruPLEX Stem-Loop 接头,该接头中含有能够识别各起始DNA片段的分子标签UMT。每个试剂盒包含超过1,600万种以上的分子标签,用于在扩增前标记每条DNA片段,可以在文库制备、目标富集和数据分析过程中追踪DNA片段,从而能够高灵敏度且高特异性的检测低频变异。
ThruPLEX Tag-seq文库的制备过程中,为标记识别起始的DNA片段,在连接步骤中加入分子标签(UMT)。具有不同UMT的测序reads代表不同的原始分子,具有相同UMT的测序reads是相同原始分子经PCR扩增的结果。后续进行数据处理时将带有相同UMT的测序reads分为一组,每一组称为一个扩增家族,比较各扩增家族内部的reads能够去除扩增错误和测序错误,得到共有序列后能够进一步提高变异检出的准确度。
通过ThruPLEX Stem-Loop adaptor的连接,在每个ThruPLEX Tag-seq文库DNA片段的两端添加6碱基的随机序列。每个6碱基的随机序列有46(4,096)个组合。DNA片段两端的6碱基序列组合后,能够得到1,600万(4,096 × 4,096)个分子标签,通过这些分子标签能够识别Input DNA分子。
为实现所需的检测灵敏度,需要制备含有足够变异体拷贝数的文库,此时适当的DNA起始量非常重要。 通常情况下等位基因存在的频率越低,所需的起始DNA量就越多。例如,假设10 ng的DNA样品,含有足够检出1%等位基因所需的拷贝数。详细请见ThruPLEX Tag-seq Kit操作说明书的C.III部分及下述表格。由于在文库制备及靶标富集时DNA有损失,因此能够检出的拷贝数低于下表所列的数值。
|
利用ThruPLEX Tag-seq文库的分子标签构建共有序列,需要足够的覆盖度。通常情况下等位基因存在的频率越低,检出所需的测序深度越高。例如,目的峰扩增家族大小为每1分子10个reads,为确定变异最少需要3个分子的情况下,读取等位基因频率为5%的变异体至少需要600x的测序深度。同样,等位基因变异频率为1%突变体的确定至少需要3000x,等位基因变异频率为0.5%则需要6000x的覆盖度。详细内容请参考ThruPLEX Tag-seq Kit操作说明书的C.III部分及下表。
关于所需reads相关的内容请见下述链接
https://www.takarabio.com/learning-centers/next-generation-sequencing/technology-and-application-overviews/sequencing-depth-for-smarter-thruplex-tag-seq
|
有,ThruPLEX Tag-seq kit可与Agilent SureSelect、Roche NimbleGen SeqCap EZ、IDT xGen等主要的靶标富集制品搭配使用。靶标富集的protocol请见以下链接内容:
https://www.takarabio.com/learning-centers/next-generation-sequencing/dna-seq-protocols
可以,ThruPLEX Tag-seq文库,可在同一个lane中与其他Illumina NGS用文库一起测序。但是,需要在各样品中预先加入不同的index,同时需要注意测序的覆盖度要充足。利用分子标签(UMT),ThruPLEX Tag-seq文库经靶标富集后通常需要使用较高的深度测序。
通过使用分子标签(UMT)得到的ThruPLEX Tag-seq文库的测序数据,首先要按照每个扩增家族分成组, 然后构建共有序列。针对于ThruPLEX Tag-seq文库的数据处理推荐使用以下2个专用数据分析的平台:
·Curio
Curio是由Curio Genomics提供的基于云计算平台。使用时,可简单的将ThruPLEX Tag-seq文库的测序数据上传、处理及可视化。该平台具有快速、用户友好的界面和高效的alignment viewer。同时该平台还配有模拟变异体检出、分析及可视化过程的模型。详细请见以下链接www.curiogenomics.com
·Connor
在GitHub(https://github.com/umich-brcf-bioinf/Connor)上有Connor版块,是可以处理ThruPLEX Tag-seq文库数据的开放型生物信息分析工具。输入alignment之后的BAM文件,处理UMT信息,之后生成含有共有序列的BAM输出文件。输出的BAM文件可用于如FreeBayes、VarScan2及GATK HaplotypeCaller等的variant caller工具。
由于每个Pipeline均不相同,因此推荐使用ThruPLEX Tag-seq文库处理用的开放型生物信息分析工具-Connor。如果想改变您现有的Pipeline,下述信息可能会对您有帮助。ThruPLEX Tag-seq文库的两端各带有6碱基的识别用分子标签(UMT)。UMT无论是从Read 1开始还是从Read 2开始读取都是最初的碱基,然后是8~11个碱基的Stem序列,接下来是template DNA序列。文库构造的详细信息请参考ThruPLEX Tag-seq Kit操作说明书。