SRA下载到分析
SRA下载到分析
SRA获取方式
你上面说的那么重要,怎么获取呢?
SRA数据你可以理解为测序fastq文件的压缩
测序fastq文件很大,至少也有5G左右,双端测序,加起来一个样本也要8G左右,SRA就是压缩这么大的文件至2~3G。下载速度越快获得数据越完整,心情越舒畅。("别废话,赶紧说下载!"~"好的“)
下载的东西哪里去找呢
https://www.ncbi.nlm.nih.gov/sra?term=SRP074349
你在GEO上面找到了你想要的高通量数据,按照下面的步骤你会得到你要的文件名称是啥~~~~
下载方式一:FTP下载 https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/
用任意浏览器,推荐火狐,打开这个网址,如图点击就自动下载了。
如果网速足够快,比如平时下个小电影速度是50~100Mbp/s,用这种方法就可以了,但记住得一个一个下。
上面的那种下载速度在国内不是普遍的,我们一般都是1~5Mbp/s这个级别的,
下载方式二:神器~Aspera Connect 浏览器插件
这个神器是IBM公司出品的一个免费的,不知道什么原理的神器,他能让下载速度保持在50~100Mbp/s。也就是说打破了带宽和地域的限制。
这里要说明一下,以前你可以下载Aspera connect软件。它能嵌入到浏览器中,当浏览带有高速下载内容网址直接点击就好了。
例如NCBI的
https://www.ncbi.nlm.nih.gov/projects/faspftp/1000genomes/
以前SRA还是能够从这里下载的,现在不知道为什么这个口被关了,可能是跟政府没钱了有关系吧。
下载方式三:神器Too~Aspera Connect
对的还是这个东西,只不过是在linux的系统中采用命令行的方法去下载。
所以, 首先你得有个带有Linux的电脑或者服务器
电脑么,去搞个虚拟机,装个linux
服务器么,去搞个云服务器,怎么搞看下面的教程
生信干货~搞定一台便宜的云服务器mp.weixin.qq.com
然后,安装与配置环境
下载:
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
解压:
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
安装
bash aspera-connect-3.7.4.147727-linux-64.sh
查看是否有.aspera文件夹
去根目录
ls -a #如果看到.aspera文件夹,代表安装成功
永久添加环境变量
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc source ~/.bashrc
查看帮助文档,验证是否可以调用
ascp --help
这样你的电脑或者服务器就可以开启神器了
下面是开启命令
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads
上面命令中SRR后面的数字就是下载文件的代号,大家应该能看懂规律吧。按照 中的Access list就能够一个一个的下载到你要的文件。
你可以看一下速度,