当前位置: 首页 > news >正文

使用Trinity进行转录组组装

v

Trinity是Broad Institute和Hebrew University of Jerusalem开发的RNA-Seq数据 转录组组装工具,包括三个模块,

  • Inchworn(尺蠖): 将RNA-seq数据组装成单个转录本,通常是主要转录亚型的全长转录本
  • Chrysalis(蛹): 这一步将上一步得到contig进行聚类,对于每个聚类构建完整的德布罗意图(de Bruijin graph)。每个转录本表示的是给定基因或者一组有着共同序列的基因的全部转录组成。 之后会根据图中不相交的点对全部短读数据进行拆分
  • Butterfly(蝴蝶): 并行处理各个图(graph), 追踪每个图中的短读和配对短读的路径,最后报告可变剪切亚型的全长转录本,并且区分出旁系同源基因的转录本

如果不能理解上面这段话,就尝试理解下面这张图吧

流程图

当然如果示意图也让你不好理解的话,那就直接用软件吧,反正这些流程图的目标就是想告诉你,“用我,没毛病”

软件安装用bioconda就行了。

 

conda create -n Trinity trinity -y
source activate Trinity

运行流程

当你在命令行敲出Trinity后,他就会输出一大堆信息。那么多信息分成3个部分:

  • 必须参数:包括--seqType表示输入序列类型,--max_memory允许使用最大内存(一般64G),还有输入数据的所在位置
  • 可选参数:包括链特异性测序参数--SS_lib_type, 线程数--CPU, 允许的最低组装contig长度--min_contig_length, 是否标准化--no_normalize_reads
  • 常见用法说明

 

Trinity --seqType fq --max_memory 50G  \
         --left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \
         --right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \
         --CPU 6  
# 有基因组引导组装
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \
                --genome_guided_max_intron 10000 --CPU 6

在常见用法中,Trinity提供了两种使用方式,一种是没有参考基因组进行组装,另一种则是先将序列回帖到参考基因组上,然后再进行组装。

前者很好理解,至于后者,大家可能会有疑问,这和TopHat2+Cufflink或HISAT2+StringTie的组合组装策略有什么区别呢?

Cufflinks和StringTie是根据参考基因组位置组装出转录本,基于原来的基因组返回GFF3文件,而Trinity只利用了参考基因组的位置信息,将同一个位置的read从头组装。这样的好处是在于,如果一个基因组存在多个旁系同源基因,无参考基因组组装可能会将这些基因的转录本组装成一个。但是如果原来的组装N50质量过差,片段化明显,就还是推荐使用无参考组装策略。

在运行中过程中,需要注意以下几点

  1. 质量控制(Quality control)。Trinity的--trimmomatic参数会调用Trimmomatic对数据进行过滤,这一步可以用其他软件完成。目前的RNA-seq质量也不需要过多的过滤。
  2. Trinity中有一个"In silico Read Normalization",用于对read进行标准化,适用于超过300M的数据,默认开启,可以用--no_normalize_reads关闭。标准化的原因是,由于某些高表达基因会被检测到很多次,但是对于组装没有帮助,所以可以提前剔除。
  3. 如果基因组中基因密度大(比如说真菌),一些转录本可能会在UTR区域有重叠。那么为了尽可能降低转录本的错误融合,需要用到--jaccard_clip。对于植物和脊椎动物,就不需要考虑这一步。

其他参数:

  • normalize_max_read_cov: 某些基因的表达量特别高,可以通过限制覆盖度的策略提高组装效率

输出解读

运行结束后,最后的结果是trinity_out_dirTrinity.fasta.Trinity将含有相同序列的转录本进行聚类,这种聚类可以被粗粗的被认为成一个基因的多个转录本。举个例子

 

 >TRINITY_DN1000|c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
 AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
 ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
 AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
 CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
 TAAAGCA

"TRINITY_DN1000|c115" 是Trinity 聚类编号,“g5”是基因编号,“i1”是转录亚型编号

评估组装质量

有如下几种方法可以评估组装的质量

  1. 使用Bowtie/BWA将RNA-seq回贴到组装的转录组上,有80%以上的回帖率就行了。
  2. 用全长重构蛋白编码基因去搜索已知蛋白序列,见representation of full-length reconstructed protein-coding genes,
  3. 使用BUSCO根据保守同源基因进行评估
  4. 计算E90N50,
  5. 计算DETONATE得分
  6. 使用TransRate评估转录组组装

转录本定量

直接根据转录本进行基因表达丰度定量工具根据是否比对分为两类

  • alignment-based: RSEM, eXpress
  • alignment-free: salmon, kallisto

估计转录本丰度

Trinity提供了align_and_estimate_abundance.pl脚本用于调用不同的程序进行表达量定量。

RSEM相对于salmon或kallisto提供了更多的信息,但是速度明显地慢于salmon和kallsito。如果仅需要每个转录本的count, TPM和FPKM,那么更推荐用salmon。如果你为了更多的信息,愿意等待的话,那么你可以选择用RSEM.



作者:xuzhougeng
链接:https://www.jianshu.com/p/8518a23255f8
来源:简书
 

相关文章:

  • linux ssh连接交换机_【交换机】交换机如何配置ssh管理
  • python股票分析入门_学习用Python分析股票数据(入门)
  • Aspera 下载_SRA原始数据下载
  • keil5怎么配置程序风格_分享一个在Keil开发环境中配置代码格式化工具Astyle(美化代码风格)...
  • 01-rna-seq从头开始 卖萌哥
  • bc伐木机器人_BC教程之自动合成_我的世界BCmod教程 BCmod怎么玩__ 单机攻略_跑跑车单机游戏网...
  • FastQC或Trimmomatic去接头,低质量碱基
  • python中raise抛出异常_一文教你读懂Python中的异常信息
  • xargs 管道命令
  • android显示布局边界的边距_Android UI之布局
  • 变速恒频风电机组的优缺点_风电轴承的那些事
  • 开发工评价程师自我_房地产项目开发报建-简历范文,【工作经历+项目经验+自我评价】怎么写...
  • efi分区能不能删除 win10_一篇干货!手机上的英文名文件夹为什么不能是中文?它们能删除吗...
  • 切换分支 如何判断 是否完成_如何考察判断红酒加盟品牌是否优质?
  • 更改图片位置_还不会用Word批量修改图片的大小?赶紧试试2个方法吧!
  • ES6简单总结(搭配简单的讲解和小案例)
  • express如何解决request entity too large问题
  • js操作时间(持续更新)
  • MySQL QA
  • nodejs实现webservice问题总结
  • Python代码面试必读 - Data Structures and Algorithms in Python
  • 分布式熔断降级平台aegis
  • 关于使用markdown的方法(引自CSDN教程)
  • 今年的LC3大会没了?
  • 聊聊spring cloud的LoadBalancerAutoConfiguration
  • 使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集
  • 手写一个CommonJS打包工具(一)
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • 关于Kubernetes Dashboard漏洞CVE-2018-18264的修复公告
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法 ...
  • #define 用法
  • (Java)【深基9.例1】选举学生会
  • (java版)排序算法----【冒泡,选择,插入,希尔,快速排序,归并排序,基数排序】超详细~~
  • (二十四)Flask之flask-session组件
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (生成器)yield与(迭代器)generator
  • (使用vite搭建vue3项目(vite + vue3 + vue router + pinia + element plus))
  • (转)全文检索技术学习(三)——Lucene支持中文分词
  • (最简单,详细,直接上手)uniapp/vue中英文多语言切换
  • *Django中的Ajax 纯js的书写样式1
  • .equal()和==的区别 怎样判断字符串为空问题: Illegal invoke-super to void nio.file.AccessDeniedException
  • .Net 8.0 新的变化
  • .NET 将多个程序集合并成单一程序集的 4+3 种方法
  • .net 开发怎么实现前后端分离_前后端分离:分离式开发和一体式发布
  • .NET 同步与异步 之 原子操作和自旋锁(Interlocked、SpinLock)(九)
  • .net6使用Sejil可视化日志
  • .Net多线程总结
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .Net接口调试与案例
  • .NET上SQLite的连接
  • /var/lib/dpkg/lock 锁定问题
  • [ linux ] linux 命令英文全称及解释
  • [ 转载 ] SharePoint 资料
  • [20161101]rman备份与数据文件变化7.txt
  • [AAuto]给百宝箱增加娱乐功能