当前位置: 首页 > news >正文

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

1. Wgsim(Whole genome simulation)简介

wgsim是可用于高通量数据模拟的软件,可以模拟出illumina测序数据,并且可以自由调整测序reads的读长,插入片段大小以及错误率等, 是开发BWA等大牛Li heng编写的基因组转短序列的模拟软件。

2. Wgsim安装

# linxux git github
git clone  https://github.com/lh3/wgsim.git# 编译,成功后会生成名为wgsim的程序
gcc -g -O2 -Wall -o wgsim wgsim.c -lz -lm# 查看帮助
wgsim -h

wgsim帮助信息

3. Wgsim生成双端(PE) fastq模拟数据

需要注意软件模拟出的reads质量值相同,且不支持Mate-pair文库。

# 参数说明:
# -e 碱基错误率,默认0.02  
# -d reads两头的距离,即插入片段长度,默认250bp 
# -s 插入片段的偏差,默认是50,即±50bp,插入片段长度并不是固定的 
# -N 是测序的reads对的数量,默认1000000
# -1 reads1长度,默认70bp  
# -2 reads2长度,默认70bp  
# -r 突变率, 默认0.001
# -R indels的占比,默认0.15
# -X indels扩展的概率,默认0.3
# -A 模糊碱基百分比高于该数值则丢弃,默认0.05
# -h 设置为单倍体模式# 150bp PE reads生成
wgsim -N 10000000 -1 150 -2 150 -d 500 -s 50 \
hg19.fa reads_150bp_1.fq reads_150bp_2.fq > /dev/null# 150bp PE reads生成 + 碱基错误率和突变率参数
wgsim -N 10000000 -e 0.02 -r 0.001 -1 150 -2 150 -d 500 -s 50 \
hg19.fa reads_150bp_1.fq reads_150bp_2.fq > /dev/null

生成示意图

生成文件 3.3GB:

生成文件

# 查看文件
less -S reads_150bp_1.fq

模拟fastq数据

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • vue3+ts项目import导入路径用@/报错找不到模块“@/components/也没有快捷提示
  • 使用Python通过字节串或字节数组加载和保存PDF文档
  • 2. 卷积神经网络(CNN):图像识别的核心技术
  • 姨m纸(Java支付)技术与AI应用市场功能详解【AI项目】
  • 数据库MySQL基础
  • Android调整第三方库PickerView宽高--回忆录
  • 算法篇_C语言实现霍夫曼编码算法
  • Hive SQL基础语法及查询实践
  • python画图|垂线标记系列
  • PDF样本图册转换为一个链接,随时打开无需印刷
  • 在嵌入式板子上搭建和自定义live555服务器---编译问题和方法整理
  • windows python的jupyter的安装教程
  • s3c2440---ADC模数转换器
  • 微信小程序路由跳转之间的区别
  • 【知识图谱】4、LLM大模型结合neo4j图数据库实现AI问答的功能
  • canvas 五子棋游戏
  • CSS3 聊天气泡框以及 inherit、currentColor 关键字
  • ES6系列(二)变量的解构赋值
  • JavaScript HTML DOM
  • java正则表式的使用
  • 将回调地狱按在地上摩擦的Promise
  • 小程序button引导用户授权
  • 在Mac OS X上安装 Ruby运行环境
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 函数计算新功能-----支持C#函数
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • ###项目技术发展史
  • (2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
  • (ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类
  • (Note)C++中的继承方式
  • (ZT) 理解系统底层的概念是多么重要(by趋势科技邹飞)
  • (附源码)springboot教学评价 毕业设计 641310
  • (官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell
  • (三)Pytorch快速搭建卷积神经网络模型实现手写数字识别(代码+详细注解)
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (学习日记)2024.01.09
  • (转载)微软数据挖掘算法:Microsoft 时序算法(5)
  • .NET MVC第五章、模型绑定获取表单数据
  • .Net Remoting常用部署结构
  • .Net 执行Linux下多行shell命令方法
  • /etc/skel 目录作用
  • @KafkaListener注解详解(一)| 常用参数详解
  • @Pointcut 使用
  • [ element-ui:table ] 设置table中某些行数据禁止被选中,通过selectable 定义方法解决
  • [ 网络通信基础 ]——网络的传输介质(双绞线,光纤,标准,线序)
  • [20170705]diff比较执行结果的内容.txt
  • [Android Pro] listView和GridView的item设置的高度和宽度不起作用
  • [C][数据结构][树]详细讲解
  • [C++内存管理]new,delete,operator new,opreator delete
  • [CR]厚云填补_多云条件下土地覆盖分割的多模态多任务学习
  • [FBCTF2019]RCEService1
  • [GXYCTF2019]BabySQli1
  • [IE技巧] 使IE8以单进程的模式运行
  • [ios]准备好app后使用xcode发布ios操作
  • [Java] IDEA Scala环境搭建