当前位置: 首页 > news >正文

ChIP-seq数据处理流程(附赠长达5小时的视频指导)

本次给学徒讲解的文章是 : Brookes, E. et al. Polycomb associates genome-wide with a specific RNA polymerase II variant, and regulates metabolic genes in ESCs. Cell Stem Cell 10, 157–170 (2012).

查看文章发现数据是: Polycomb associates genome-wide with a specific RNA polymerase II variant, and regulates metabolic genes in ES cells (ChIP-Seq) https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE34518 总共是9个样本。

但是很多样本都分开在多个lane测序的,所以每个样本其实是有多个sra文件,多个fastq文件。

在SRA数据库可以下载 :https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP009883 包括:Examination of 4 different RNAPII modifications (S5p, S7p, 8WG16, S2p), and the histone modifications H2Aub1 and H3K36me3 in mouse ES cells 这里需要警觉了,参考基因组应该是鼠。

我这里 : Use prefetch to download them all, then transform those SRA files to fastq files by **sra-toolkits **, then align them to mm10, and call peaks.

作者并没有给peaks文件,要想利用这个数据,只能自己重新处理,这就是为什么需要学会ChIP-seq数据处理的原因。不过作者给了bw文件,所以可以勉强跟自己的结果相互验证。

这里作者使用的是 Illumina Genome Analyzer II 测序仪,有点过时了,测序策略是 se50。

从文章找到数据的ID: https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP009883 把下面的内容保存到文件,命名为 srr.list 就可以使用prefetch这个函数来下载。

SRR391032
SRR391033
SRR391034
SRR391035
SRR391036
SRR391037
SRR391038
SRR391039
SRR391040
SRR391041
SRR391042
SRR391043
SRR391044
SRR391045
SRR391046
SRR391047
SRR391048
SRR391049
SRR391050
安装必备软件:
#!/bin/bash

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes

conda create -n chipseq python=2 bwa
conda info --envs
source activate chipseq

可以用search先进行检索

conda search trim_galore

保证所有的软件都是安装在 wes 这个环境下面

conda install -y sra-tools
conda install -y trim-galore samtools
conda install -y deeptools homer meme
conda install -y macs2 bowtie bowtie2

R

还需要安装必备R包:

options(“repos” = c(CRAN=“https://mirrors.tuna.tsinghua.edu.cn/CRAN/”))
install.packages(“devtools”,
repos=“https://mirrors.tuna.tsinghua.edu.cn/CRAN/”)
library(devtools)
source(“https://bioconductor.org/biocLite.R”)
options(BioC_mirror=“https://mirrors.ustc.edu.cn/bioc/”)
BiocInstaller::biocLite(c(‘airway’,‘DESeq2’,‘edgeR’,‘limma’))
BiocInstaller::biocLite(c(‘ChIPpeakAnno’,‘ChIPseeker’))
BiocInstaller::biocLite(‘TxDb.Hsapiens.UCSC.hg19.knownGene’,
ask=F,suppressUpdates=T)
BiocInstaller::biocLite(‘TxDb.Hsapiens.UCSC.hg38.knownGene’,
ask=F,suppressUpdates=T)
BiocInstaller::biocLite(‘TxDb.Mmusculus.UCSC.mm10.knownGene’,
ask=F,suppressUpdates=T)

值得注意的是Y叔的包检查会有版本的问题,包括 ChIPseeker

library(TxDb.Hsapiens.UCSC.hg19.knownGene)
library(TxDb.Mmusculus.UCSC.mm10.knownGene)
library(TxDb.Hsapiens.UCSC.hg38.knownGene)
library(ChIPpeakAnno)
library(ChIPseeker)
下载sra并且转换为fastq
使用下面的代码,指定好自己的 prefetch 软件命令即可。

prefetch=/home/jianmingzeng/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch
source activate chipseq
prefetch=prefetch

cat srr.list |while read id;do (nohup $prefetch $id -X 100G & );done

mkdir -p ~/project/epi/
cd ~/project/epi/
mkdir {sra,raw,clean,align,peaks,motif,qc}
cd sra

vim 或者cat命令创建 srr.list 文件。

cat srr.list |while read id;do ( nohup $prefetch $id & );done

默认下载目录:~/ncbi/public/sra/

ls -lh ~/ncbi/public/sra/

下载耗时,自行解决,学员使用现成数据:/public/project/epi/Chipseq-OS25_Esc/OS25_Esc/sra

假如提前下载好了数据。

cd ~/project/epi/
ln -s /public/project/epi/Chipseq-OS25_Esc/OS25_Esc/sra sra
第一步需要制作配置文件,代码是:

直接用excel制作config文件,或者写代码

cut -f 4,7 sra.table |cut -d":" -f 2 |sed ‘s/ChIPSeq//g’ | sed ‘s/MockIP//g’|sed ‘s/^ //’ |tr ’ ’ ‘_’ |perl -alne ‘{KaTeX parse error: Expected '}', got 'EOF' at end of input: h{F[0]}++ if exists KaTeX parse error: Expected '}', got 'EOF' at end of input: h{F[0]}; KaTeX parse error: Expected '}', got 'EOF' at end of input: h{F[0]}=1 unless exists KaTeX parse error: Expected '}', got 'EOF' at end of input: h{F[0]};print “ F [ 0 ] F[0] F[0]h{KaTeX parse error: Expected 'EOF', got '}' at position 5: F[0]}̲\tF[1]”}’ > config
得到内容如下:

RNAPII_S5P_1 SRR391032
RNAPII_S5P_2 SRR391033
RNAPII_S2P_1 SRR391034
RNAPII_S7P_1 SRR391035
RNAPII_8WG16_1 SRR391036
RNAPII_8WG16_2 SRR391037
RNAPII_S2P_2 SRR391038
RNAPII_S2P_3 SRR391039
RNAPII_S7P_2 SRR391040
H2Aub1_1 SRR391041
H2Aub1_2 SRR391042
H3K36me3_1 SRR391043
H3K36me3_2 SRR391044
Control_1 SRR391045
Control_2 SRR391046
Ring1B_1 SRR391047
Ring1B_2 SRR391048
Ring1B_3 SRR391049
RNAPII_S5PRepeat_1 SRR391050
有了上面的配置文件就可以批量sra转fq文件:

下面需要用循环

cd ~/project/epi/
source activate chipseq
dump=’/home/jianmingzeng/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/fastq-dump’
dump=fastq-dump
analysis_dir=raw

下面用到的 config 文件,就是上面自行制作的。

cat config|while read id;
do echo i d a r r = ( id arr=( idarr=(id)
srr= a r r [ 1 ] s a m p l e = {arr[1]} sample= arr[1]sample={arr[0]}

单端测序数据的sra转fasq

nohup $dump -A $sample -O a n a l y s i s d i r − − g z i p − − s p l i t − 3 s r a / analysis_dir --gzip --split-3 sra/ analysisdirgzipsplit3sra/srr.sra &
done
下载的sra文件如下:

-rw-rw-r-- 1 jianmingzeng jianmingzeng 474M Mar 23 14:29 SRR391032.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 473M Mar 23 14:30 SRR391033.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 406M Mar 23 14:30 SRR391034.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 346M Mar 23 14:31 SRR391035.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 324M Mar 23 14:31 SRR391036.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 393M Mar 23 14:32 SRR391037.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 191M Mar 23 14:32 SRR391038.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 304M Mar 23 14:34 SRR391039.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 234M Mar 23 14:34 SRR391040.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 322M Mar 23 14:35 SRR391041.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 548M Mar 23 14:36 SRR391042.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 597M Mar 23 14:37 SRR391043.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 537M Mar 23 14:37 SRR391044.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 255M Mar 23 14:38 SRR391045.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 342M Mar 23 14:38 SRR391046.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 159M Mar 23 14:39 SRR391047.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 164M Mar 23 14:39 SRR391048.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 438M Mar 23 14:40 SRR391049.sra
-rw-rw-r-- 1 jianmingzeng jianmingzeng 165M Mar 23 14:40 SRR391050.sra
得到的fastq测序数据如下:

427M Jul 28 15:25 Control_1.fastq.gz
527M Jul 28 15:26 Control_2.fastq.gz
507M Jul 28 15:26 H2Aub1_1.fastq.gz
843M Jul 28 15:28 H2Aub1_2.fastq.gz
881M Jul 28 15:28 H3K36me3_1.fastq.gz
858M Jul 28 15:29 RNAPII_S2P_1.fastq.gz
326M Jul 28 15:25 RNAPII_S2P_2.fastq.gz
489M Jul 28 15:26 RNAPII_S2P_3.fastq.gz
283M Jul 28 15:25 RNAPII_S5PRepeat_1.fastq.gz
745M Jul 28 15:27 RNAPII_S5P_2.fastq.gz
533M Jul 28 15:26 RNAPII_S7P_1.fastq.gz
393M Jul 28 15:25 RNAPII_S7P_2.fastq.gz
266M Jul 28 15:25 Ring1B_1.fastq.gz
274M Jul 28 15:25 Ring1B_2.fastq.gz

使用trim_galore软件进行质控
这个时候选择trim_galore软件进行过滤,单端测序数据的代码如下;

cd ~/project/epi/clean
analysis_dir=/home/jmzeng/project/epi
bin_trim_galore=“trim_galore”
ls …/raw/*gz | while read fq1;
do
nohup $bin_trim_galore -q 25 --phred33 --length 25 -e 0.1 --stringency 4 -o $analysis_dir/clean $fq1 &
done
过滤后的文件如下:

356M Jul 28 15:46 Control_1_trimmed.fq.gz
438M Jul 28 15:46 Control_2_trimmed.fq.gz
456M Jul 28 15:46 H2Aub1_1_trimmed.fq.gz
693M Jul 28 15:47 H2Aub1_2_trimmed.fq.gz
773M Jul 28 15:47 H3K36me3_1_trimmed.fq.gz
824M Jul 28 15:48 RNAPII_S2P_1_trimmed.fq.gz
282M Jul 28 15:45 RNAPII_S2P_2_trimmed.fq.gz
458M Jul 28 15:46 RNAPII_S2P_3_trimmed.fq.gz
210M Jul 28 15:45 RNAPII_S5PRepeat_1_trimmed.fq.gz
626M Jul 28 15:47 RNAPII_S5P_2_trimmed.fq.gz
405M Jul 28 15:46 RNAPII_S7P_1_trimmed.fq.gz
306M Jul 28 15:46 RNAPII_S7P_2_trimmed.fq.gz
218M Jul 28 15:45 Ring1B_1_trimmed.fq.gz
218M Jul 28 15:45 Ring1B_2_trimmed.fq.gz
很明显,QC应该走一波

cd ~/project/epi/qc

相对目录需要理解

ls …/raw/*gz|xargs fastqc -t 10 -o ./
ls …/clean/*gz|xargs fastqc -t 10 -o ./
使用bowtie2进行比对
然后直接用bowtie2进行比对和统计比对率, 需要提前下载参考基因组然后使用命令构建索引,或者直接就下载索引文件:

下载小鼠参考基因组的索引和注释文件, 这里用常用的mm10

索引大小为3.2GB, 不建议自己下载基因组构建,可以直接下载索引文件,代码如下:

mkdir referece && cd reference
wget -4 -q ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
单端测序数据的比对代码如下:

cd ~/project/epi/align

相对目录需要理解

bin_bowtie2=’/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2’
bin_bowtie2=bowtie2
bowtie2_index="/home/jianmingzeng/reference/index/bowtie/mm10"
bowtie2_index=/public/reference/index/bowtie/mm10

一定要搞清楚自己的bowtie2软件安装在哪里,以及自己的索引文件在什么地方!!!

ls …/clean/gz |while read id;
do
file=$(basename i d ) s a m p l e = id ) sample= id)sample={file%%.
}
echo $file $sample

比对过程3分钟一个样本

$bin_bowtie2 -p 5 -x $bowtie2_index -U $id | samtools sort -O bam -@ 5 -o - > ${sample}.bam
done
得到的文件如下:

374M Jul 28 16:50 Control_1_trimmed.bam
469M Jul 28 16:50 Control_2_trimmed.bam
502M Jul 28 16:50 H2Aub1_1_trimmed.bam
767M Jul 28 16:50 H2Aub1_2_trimmed.bam
834M Jul 28 16:50 H3K36me3_1_trimmed.bam
731M Jul 28 16:28 RNAPII_S2P_1_trimmed.bam
302M Jul 28 16:29 RNAPII_S2P_2_trimmed.bam
483M Jul 28 16:32 RNAPII_S2P_3_trimmed.bam
218M Jul 28 16:33 RNAPII_S5PRepeat_1_trimmed.bam
609M Jul 28 16:36 RNAPII_S5P_2_trimmed.bam
416M Jul 28 16:38 RNAPII_S7P_1_trimmed.bam
309M Jul 28 16:39 RNAPII_S7P_2_trimmed.bam
238M Jul 28 16:40 Ring1B_1_trimmed.bam
239M Jul 28 16:41 Ring1B_2_trimmed.bam
对bam文件进行QC

cd ~/project/epi/align
ls *.bam |xargs -i samtools index {}
ls *.bam | while read id ;do (nohup samtools flagstat $id > $(basename $id “.bam”).stat & );done
比对成功率都挺好的:

Control_1_trimmed.stat:7438540 + 0 mapped (88.03% : N/A)
Control_2_trimmed.stat:7221781 + 0 mapped (86.40% : N/A)
H2Aub1_1_trimmed.stat:8969578 + 0 mapped (97.40% : N/A)
H2Aub1_2_trimmed.stat:13229916 + 0 mapped (97.53% : N/A)
H3K36me3_1_trimmed.stat:11737310 + 0 mapped (98.89% : N/A)
Ring1B_1_trimmed.stat:4634240 + 0 mapped (93.59% : N/A)
Ring1B_2_trimmed.stat:4646919 + 0 mapped (93.85% : N/A)
RNAPII_S2P_1_trimmed.stat:25018794 + 0 mapped (97.26% : N/A)
RNAPII_S2P_2_trimmed.stat:6112834 + 0 mapped (95.00% : N/A)
RNAPII_S2P_3_trimmed.stat:8675514 + 0 mapped (96.99% : N/A)
RNAPII_S5P_2_trimmed.stat:12182274 + 0 mapped (98.17% : N/A)
RNAPII_S5PRepeat_1_trimmed.stat:4163763 + 0 mapped (82.81% : N/A)
RNAPII_S7P_1_trimmed.stat:6386269 + 0 mapped (80.90% : N/A)
RNAPII_S7P_2_trimmed.stat:5971178 + 0 mapped (82.66% : N/A)
合并bam文件
因为一个样品分成了多个lane进行测序,所以在进行peaks calling的时候,需要把bam进行合并。

如果不用循环:

samtools merge control.merge.bam Control_1_trimmed.bam Control_2_trimmed.bam

通常我们用批处理。

cd ~/project/epi/
mkdir mergeBam
source activate chipseq
cd ~/project/epi/align
ls .bam|sed ‘s/_[0-9]_trimmed.bam//g’ |sort -u |while read id;do samtools merge …/mergeBam/$id.merge.bam $id.bam ;done
得到全新的bam文件如下:

847M Jul 28 17:05 Control.merge.bam
1.3G Jul 28 17:06 H2Aub1.merge.bam
834M Jul 28 17:06 H3K36me3.merge.bam
1.5G Jul 28 17:08 RNAPII_S2P.merge.bam
831M Jul 28 17:09 RNAPII_S5P.merge.bam
218M Jul 28 17:09 RNAPII_S5PRepeat.merge.bam
722M Jul 28 17:09 RNAPII_S7P.merge.bam
472M Jul 28 17:10 Ring1B.merge.bam
14个fq测序数据只剩下8个样本啦。(我下载的时候漏掉了2个sra文件,也就是漏掉了一个样本。)

假如需要去除PCR重复
cd ~/project/epi/mergeBam
source activate chipseq
ls *merge.bam | while read id ;do (nohup samtools markdup -r $id $(basename $id “.bam”).rmdup.bam & );done
ls *.rmdup.bam |xargs -i samtools index {}
ls *.rmdup.bam | while read id ;do (nohup samtools flagstat $id > $(basename $id “.bam”).stat & );done
去除PCR重复前后比较:

847M Jul 28 17:05 Control.merge.bam
753M Jul 28 17:11 Control.merge.rmdup.bam
1.3G Jul 28 17:06 H2Aub1.merge.bam
1.1G Jul 28 17:12 H2Aub1.merge.rmdup.bam
834M Jul 28 17:06 H3K36me3.merge.bam
793M Jul 28 17:11 H3K36me3.merge.rmdup.bam
1.5G Jul 28 17:08 RNAPII_S2P.merge.bam
1.2G Jul 28 17:12 RNAPII_S2P.merge.rmdup.bam
831M Jul 28 17:09 RNAPII_S5P.merge.bam
568M Jul 28 17:11 RNAPII_S5P.merge.rmdup.bam
218M Jul 28 17:09 RNAPII_S5PRepeat.merge.bam
212M Jul 28 17:11 RNAPII_S5PRepeat.merge.rmdup.bam
722M Jul 28 17:09 RNAPII_S7P.merge.bam
618M Jul 28 17:11 RNAPII_S7P.merge.rmdup.bam
472M Jul 28 17:10 Ring1B.merge.bam
427M Jul 28 17:11 Ring1B.merge.rmdup.bam
使用macs2进行找peaks
macs2包含一系列的子命令,其中最主要的就是callpeak, 官方提供了使用实例

macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
一般而言,我们照葫芦画瓢,按照这个实例替换对应部分就行了,介绍一下各个参数的意义

-t: 实验组的输出结果

-c: 对照组的输出结果

-f: -t和-c提供文件的格式,可以是”ELAND”, “BED”, “ELANDMULTI”, “ELANDEXPORT”, “ELANDMULTIPET” (for pair-end tags), “SAM”, “BAM”, “BOWTIE”, “BAMPE” “BEDPE” 任意一个。如果不提供这项,就是自动检测选择。

-g: 基因组大小, 默认提供了hs, mm, ce, dm选项, 不在其中的话,比如说拟南芥,就需要自己提供了。

-n: 输出文件的前缀名

-B: 会保存更多的信息在bedGraph文件中,如fragment pileup, control lambda, -log10pvalue and -log10qvalue scores

-q: q值,也就是最小的PDR阈值, 默认是0.05。q值是根据p值利用BH计算,也就是多重试验矫正后的结果。

-p: 这个是p值,指定p值后MACS2就不会用q值了。

-m: 和MFOLD有关,而MFOLD和MACS预构建模型有关,默认是5:50,MACS会先寻找100多个peak区构建模型,一般不用改,因为你很大概率上不会懂。

所以我这里给学徒讲解的实战代码是:

cd ~/project/epi/mergeBam
source activate chipseq
ls *merge.bam |cut -d"." -f 1 |while read id;
do
if [ ! -s ${id}_summits.bed ];
then
echo $id
nohup macs2 callpeak -c Control.merge.bam -t $id.merge.bam -f BAM -B -g mm -n $id --outdir …/peaks 2> $id.log &
fi
done

mkdir dup
mv rmdup dup/
cd dup/

ls *.merge.rmdup.bam |cut -d"." -f 1 |while read id;
do
if [ ! -s ${id}_rmdup_summits.bed ];
then
echo $id
nohup macs2 callpeak -c Control.merge.rmdup.bam -t $id.merge.rmdup.bam -f BAM -B -g mm -n ${id}_rmdup --outdir …/peaks 2> $id.log &
fi
done
其实上面的-B 参数意义也不大,得到的bedgraph文件没啥用。

得到的bed格式的peaks文件的行数如下:

0 Control_summits.bed
1102 H2Aub1_summits.bed

89739 H3K36me3_summits.bed
27705 Ring1B_summits.bed
20043 RNAPII_S2P_summits.bed
38643 RNAPII_S5PRepeat_summits.bed
61805 RNAPII_S5P_summits.bed
72498 RNAPII_S7P_summits.bed

     0 Control_rmdup_summits.bed
1102 H2Aub1_rmdup_summits.bed

89739 H3K36me3_rmdup_summits.bed
27705 Ring1B_rmdup_summits.bed
20043 RNAPII_S2P_rmdup_summits.bed
38643 RNAPII_S5PRepeat_rmdup_summits.bed
61805 RNAPII_S5P_rmdup_summits.bed
72326 RNAPII_S7P_rmdup_summits.bed
因为MockIP是control,所以它自己跟自己比较,肯定是没有peaks的。

值得注意的是S5P并不是一个样本多个lane,而是本身样本有重复,其实是需要分开的。

而且可以看到是否去除PCR重复,对找到的peaks数量没有影响。

而且很有趣的是我前几个月处理这个数据集的时候使用的过滤低质量reads参数是短于 35bp的全部丢弃,现在是短于25bp的全部抛弃,导致了得到的peaks从数量上千差别不小。

使用deeptool是进行可视化
下面的文字摘抄自生信技能树论坛:https://vip.biotrainee.com/d/226 不过代码纯粹是我自己手打。

deeptools提供bamCoverage和bamCompare进行格式转换,为了能够比较不同的样本,需要对先将基因组分成等宽分箱(bin),统计每个分箱的read数,最后得到描述性统计值。对于两个样本,描述性统计值可以是两个样本的比率,或是比率的log2值,或者是差值。如果是单个样本,可以用SES方法进行标准化。

bamCoverage的基本用法

source activate chipseq
bamCoverage -e 170 -bs 10 -b ap2_chip_rep1_2_sorted.bam -o ap2_chip_rep1_2.bw

ap2_chip_rep1_2_sorted.bam是前期比对得到的BAM文件

得到的bw文件就可以送去IGV/Jbrowse进行可视化。 这里的参数仅使用了-e/–extendReads和-bs/–binSize即拓展了原来的read长度,且设置分箱的大小。其他参数还有

–filterRNAstrand {forward, reverse}: 仅统计指定正链或负链

–region/-r CHR:START:END: 选取某个区域统计

–smoothLength: 通过使用分箱附近的read对分箱进行平滑化

如果为了其他结果进行比较,还需要进行标准化,deeptools提供了如下参数:

–scaleFactor: 缩放系数

–normalizeUsingRPKMReads: Per Kilobase per Million mapped reads (RPKM)标准化

–normalizeTo1x: 按照1x测序深度(reads per genome coverage, RPGC)进行标准化

–ignoreForNormalization: 指定那些染色体不需要经过标准化

如果需要以100为分箱,并且标准化到1x,且仅统计某一条染色体区域的正链,输出格式为bedgraph,那么命令行可以这样写

bamCoverage -e 170 -bs 100 -of bedgraph -r Chr4:12985884:12997458 --normalizeTo1x 100000000 -b 02-read-alignment/ap2_chip_rep1_1_sorted.bam -o chip.bedgraph
bamCompare和bamCoverage类似,只不过需要提供两个样本,并且采用SES方法进行标准化,于是多了–ratio参数。

首先把bam文件转为bw文件,详情:http://www.bio-info-trainee.com/1815.html

cd ~/project/epi/mergeBam
source activate chipseq
ls *.bam |xargs -i samtools index {}
ls .bam |while read id;do
nohup bamCoverage --normalizeUsing CPM -b $id -o ${id%%.
}.bw &
done

cd dup
ls *.bam |xargs -i samtools index {}
ls .bam |while read id;do
nohup bamCoverage --normalizeUsing CPM -b $id -o ${id%%.
}.rm.bw &
done
查看TSS附件信号强度:

首先对单一样本绘图:

both -R and -S can accept multiple files

mkdir -p ~/project/epi/tss
cd ~/project/epi/tss
computeMatrix reference-point --referencePoint TSS -p 15
-b 10000 -a 10000
-R /public/annotation/CHIPseq/mm10/ucsc.refseq.bed
-S /home/jmzeng/project/epi/mergeBam/H2Aub1.bw
–skipZeros -o matrix1_test_TSS.gz
–outFileSortedRegions regions1_test_genes.bed

both plotHeatmap and plotProfile will use the output from computeMatrix

plotHeatmap -m matrix1_test_TSS.gz -out test_Heatmap.png
plotHeatmap -m matrix1_test_TSS.gz -out test_Heatmap.pdf --plotFileFormat pdf --dpi 720
plotProfile -m matrix1_test_TSS.gz -out test_Profile.png
plotProfile -m matrix1_test_TSS.gz -out test_Profile.pdf --plotFileFormat pdf --perGroup --dpi 720

如果要批处理 ,需要学习好linux命令。

首先画10K附近

bed=/public/annotation/CHIPseq/mm10/ucsc.refseq.bed
for id in /home/jmzeng/project/epi/mergeBam/bw ;
do
echo i d f i l e = id file= idfile=(basename i d ) s a m p l e = id ) sample= id)sample={file%%.
}
echo $sample

computeMatrix reference-point --referencePoint TSS -p 15
-b 10000 -a 10000
-R $bed
-S KaTeX parse error: Undefined control sequence: \ at position 5: id \̲ ̲--skipZeros -o…{sample}TSS_10K.gz
–outFileSortedRegions regions1
${sample}_TSS_10K.bed

输出的gz为文件用于plotHeatmap, plotProfile

both plotHeatmap and plotProfile will use the output from computeMatrix

plotHeatmap -m matrix1_${sample}_TSS_10K.gz -out KaTeX parse error: Expected group after '_' at position 48: …tmap -m matrix1_̲{sample}_TSS_10K.gz -out KaTeX parse error: Expected group after '_' at position 82: …file -m matrix1_̲{sample}_TSS_10K.gz -out KaTeX parse error: Expected group after '_' at position 48: …file -m matrix1_̲{sample}_TSS_10K.gz -out ${sample}_Profile_10K.pdf --plotFileFormat pdf --perGroup --dpi 720

done
使用命令批量提交:nohup bash 10k.sh 1>10k.log &

然后画2K的

bed=/public/annotation/CHIPseq/mm10/ucsc.refseq.bed
for id in /home/jmzeng/project/epi/mergeBam/bw ;
do
echo i d f i l e = id file= idfile=(basename i d ) s a m p l e = id ) sample= id)sample={file%%.
}
echo $sample

computeMatrix reference-point --referencePoint TSS -p 15
-b 2000 -a 2000
-R $bed
-S KaTeX parse error: Undefined control sequence: \ at position 5: id \̲ ̲--skipZeros -o…{sample}TSS_2K.gz
–outFileSortedRegions regions1
${sample}_TSS_2K.bed

both plotHeatmap and plotProfile will use the output from computeMatrix

plotHeatmap -m matrix1_${sample}_TSS_2K.gz -out KaTeX parse error: Expected group after '_' at position 47: …tmap -m matrix1_̲{sample}_TSS_2K.gz -out KaTeX parse error: Expected group after '_' at position 81: …file -m matrix1_̲{sample}_TSS_2K.gz -out KaTeX parse error: Expected group after '_' at position 47: …file -m matrix1_̲{sample}_TSS_2K.gz -out ${sample}_Profile_2K.pdf --plotFileFormat pdf --perGroup --dpi 720

done
使用命令批量提交:nohup bash 2k.sh 1>2k.log &

还可以给多个bed文件来绘图,还可以画genebody的图,因为原理一样,我就不做过多介绍啦。

上面的批量代码其实就是为了统计全基因组范围的peak在基因特征的分布情况,也就是需要用到computeMatrix计算,用plotHeatmap以热图的方式对覆盖进行可视化,用plotProfile以折线图的方式展示覆盖情况。

computeMatrix具有两个模式:scale-region和reference-point。前者用来信号在一个区域内分布,后者查看信号相对于某一个点的分布情况。无论是那个模式,都有有两个参数是必须的,-S是提供bigwig文件,-R是提供基因的注释信息。还有更多个性化的可视化选项。

使用R包对找到的peaks文件进行注释
bedPeaksFile = ‘8WG16_summits.bed’;
bedPeaksFile

loading packages

require(ChIPseeker)
require(TxDb.Mmusculus.UCSC.mm10.knownGene)
txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
require(clusterProfiler)
peak <- readPeakFile( bedPeaksFile )
keepChr= !grepl(’_’,seqlevels(peak))
seqlevels(peak, pruning.mode=“coarse”) <- seqlevels(peak)[keepChr]
peakAnno <- annotatePeak(peak, tssRegion=c(-3000, 3000),
TxDb=txdb, annoDb=“org.Mm.eg.db”)
peakAnno_df <- as.data.frame(peakAnno)
可以载入IGV看看效果,检测软件找到的peaks是否真的合理,还可以配合rmarkdown来出自动化报告。

也可以使用其它代码进行下游分析; https://github.com/jmzeng1314/NGS-pipeline/tree/master/CHIPseq

peaks相关基因集的注释
都是得到感兴趣基因集,然后注释,分析方法等同于GEO数据挖掘课程或者转录组下游分析: https://github.com/jmzeng1314/GEO (有配套视频,就不多说了这里)

homer软件来寻找motif
这个软件安装当初特别麻烦: https://github.com/jmzeng1314/NGS-pipeline/blob/master/CHIPseq/step8-Homer-findMotif.sh

但是现在有了conda,一句话搞定:conda install -c bioconda homer , 找到自己安装的homer,然后使用其附带的配置脚本来下载数据库咯。

perl ~/miniconda3/envs/chipseq/share/homer-4.9.1-5/configureHomer.pl -install mm10
ls -lh ~/miniconda3/envs/chipseq/share/homer-4.9.1-5/data/

我们上游分析是基于mm10找到的peaks文件

数据库下载取决于网速咯

下载成功后会多出 ~/miniconda3/envs/chipseq/share/homer-4.9.1-5/data/genomes/mm9/ 文件夹, 共 4.9G

这个文件夹取决于你把homer这个软件安装到了什么地方。

或者用下面代码安装:

cd ~/biosoft
mkdir homer && cd homer
wget http://homer.salk.edu/homer/configureHomer.pl
perl configureHomer.pl -install
perl configureHomer.pl -install hg19
homer软件找motif整合了两个方法,包括依赖于数据库的查询,和de novo的推断,都是读取ChIP-seq数据上游分析得到的bed格式的peaks文件。

运行homer软件

但是使用起来很简单:http://homer.ucsd.edu/homer/ngs/peakMotifs.html

cd ~/project/epi/motif
for id in /home/jmzeng/project/epi/peaks/.bed;
do
echo i d f i l e = id file= idfile=(basename i d ) s a m p l e = id ) sample= id)sample={file%%.
}
echo $sample
awk ‘{print $4"\t"$1"\t"$2"\t"$3"\t+"}’ $id >homer_peaks.tmp
findMotifsGenome.pl homer_peaks.tmp mm10 s a m p l e m o t i f D i r − l e n 8 , 10 , 12 a n n o t a t e P e a k s . p l h o m e r p e a k s . t m p m m 101 > {sample}_motifDir -len 8,10,12 annotatePeaks.pl homer_peaks.tmp mm10 1> samplemotifDirlen8,10,12annotatePeaks.plhomerpeaks.tmpmm101>{sample}.peakAnn.xls 2>${sample}.annLog.txt
done
把上面的代码保存为脚本runMotif.sh,然后运行:nohup bash runMotif.sh 1>motif.log &

不仅仅找了motif,还顺便把peaks注释了一下。得到的后缀为peakAnn.xls 的文件就可以看到和使用R包注释的结果是差不多的。

还可以使用meme来找motif,需要通过bed格式的peaks的坐标来获取fasta序列。MEME,链接:http://meme-suite.org/

其它高级分析
比如可以 比较不同的peaks文件,代码见:https://github.com/jmzeng1314/NGS-pipeline/blob/master/CHIPseq/step6-ChIPpeakAnno-Venn.R

当然了,本教程讲解的是单端测序数据的处理,如果是双端测序,里面的很多参数是需要修改的。

不过,只要你完整的看完了我前面的流程,掌握了linux和R,以及必备的基础生物信息学知识,我相信你肯定能hold住双端测序数据的学习啦。

本来以为我把ChIP-seq教程写完了: 一不小心就把ChIP-seq数据分析教程给写完了

结果忘记了还有视频这回事,赶紧录制了,同样的B站免费送给大家看,但是不提供售后,网易云课堂也有视频,点击下面的阅读原文直达!

相关文章:

  • java录制视频_java 屏幕录制
  • java 双线性插值算法_双线性插值
  • 查看当前linux系统位数
  • java 获取存储过程异常_oracle存储过程获取异常信息码和异常信息
  • java char utf 16_为什么Java char使用UTF-16?
  • ls用法大全
  • mv移动文件夹
  • js java map_JS实现 java的Map
  • find 与mv连用 移动文件
  • centos7子系统 win10_win10系统下下载安装Linux子系统
  • ChIP-seq分析流程(基于linux系统)
  • java一般项目提成多少_java编程题目,企业发放的奖金根据利润提成
  • 使用ChIPseeker进行peak注释
  • java 日期 几天后_java 日期计算(几天前后)
  • ChIPseeker入门到精通
  • 【跃迁之路】【733天】程序员高效学习方法论探索系列(实验阶段490-2019.2.23)...
  • 2017-09-12 前端日报
  • C语言笔记(第一章:C语言编程)
  • Date型的使用
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • JavaScript标准库系列——Math对象和Date对象(二)
  • JS学习笔记——闭包
  • Python学习之路13-记分
  • scrapy学习之路4(itemloder的使用)
  • spring boot下thymeleaf全局静态变量配置
  • Web Storage相关
  • 测试开发系类之接口自动化测试
  • 分布式任务队列Celery
  • 工作踩坑系列——https访问遇到“已阻止载入混合活动内容”
  • 数据可视化之下发图实践
  • # Java NIO(一)FileChannel
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • $(function(){})与(function($){....})(jQuery)的区别
  • (LeetCode 49)Anagrams
  • (react踩过的坑)antd 如何同时获取一个select 的value和 label值
  • (附源码)ssm基于jsp高校选课系统 毕业设计 291627
  • (十三)Flask之特殊装饰器详解
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • (转)四层和七层负载均衡的区别
  • .gitignore文件_Git:.gitignore
  • .NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑
  • .NET MVC、 WebAPI、 WebService【ws】、NVVM、WCF、Remoting
  • .NET 药厂业务系统 CPU爆高分析
  • .NET 中 GetHashCode 的哈希值有多大概率会相同(哈希碰撞)
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件
  • .net打印*三角形
  • .Net高阶异常处理第二篇~~ dump进阶之MiniDumpWriter
  • .net中我喜欢的两种验证码
  • /etc/shadow字段详解
  • @ConfigurationProperties注解对数据的自动封装
  • [【JSON2WEB】 13 基于REST2SQL 和 Amis 的 SQL 查询分析器
  • [Android]使用Git将项目提交到GitHub
  • [bzoj1038][ZJOI2008]瞭望塔
  • [C#]winform制作仪表盘好用的表盘控件和使用方法