当前位置: 首页 > news >正文

1行代码提取6种TCGA表达矩阵和临床信息

本文首发于公众号:医学和生信笔记

医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐,导致很多新手会报错,于是我把前面的代码打包为一个脚本,1行代码就可以了!

脚本已上传到QQ群,需要的小伙伴加群下载即可~

只需要1行代码就可以获取分别获取mRNA和lncRNA的counts/fpkm/tpm总计6种类型类型的表达矩阵以及临床信息,表达矩阵是标准形式,行是基因,列是样本,行名是gene symbol。

使用这种方法有4个前提条件:

  • TCGAbiolinks包的版本必须要在2.25.1以上
  • 需要使用 TCGAbiolinks下载的数据或者按照这个教程下载的数据:可能是最适合初学者的TCGA下载教程
  • 必须按照这篇教程构建正确的路径:手动下载的TCGA数据也可以用TCGAbiolinks包整理
  • 脚本必须和 GDCdata放在一个路径下

使用方法

加载需要的R包:

library(TCGAbiolinks)
library(SummarizedExperiment)
library(tidyverse)

加载脚本"getTCGAexpr.r",这个脚本必须和GDCdata位于同一个位置。

脚本位置必须对!
脚本位置必须对!

加载这个脚本:

source("getTCGAexpr.r")

使用函数,需要提供TCGA的癌症简称,比如:TCGA-LUSC。

getTCGAexpr(project = "TCGA-LUSC")

##--------------------------------------
##o GDCquery: Searching in GDC database
##--------------------------------------
##Genome of reference: hg38
##--------------------------------------------
##oo Accessing GDC. This might take a while...
##--------------------------------------------
##ooo Project: TCGA-LUSC
##--------------------
##oo Filtering results
##--------------------
##ooo By data.type
##ooo By workflow.type
##----------------
##oo Checking data
##----------------
##ooo Checking if there are duplicated cases
##ooo Checking if there are results for the query
##-------------------
##o Preparing output
##-------------------
##|=====================================================|100%                      ##Completed after 16 s 
##Starting to add information to samples
## => Add clinical information to samples
## => Adding TCGA molecular information from marker papers
## => Information will have prefix 'paper_' 
##lusc subtype information from:doi:10.1038/nature11404
##Available assays in SummarizedExperiment : 
##  => unstranded
##  => stranded_first
##  => stranded_second
##  => tpm_unstrand
##  => fpkm_unstrand
##  => fpkm_uq_unstrand
##=> Saving file: output_expr/TCGA-LUSC_expr.rdata
##=> File saved

全程不到一分钟即可!

完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息:

完成后会多出一个文件夹
完成后会多出一个文件夹

output_expr文件夹里面就是提取好的信息:

提取好的表达矩阵和临床信息
提取好的表达矩阵和临床信息
  • TCGA-LUSC_expr.rdata:原始的se对象,所有信息都是从这里面提取的;
  • TCGA-LUSC_clinical.rdata:TCGA-LUSC的临床信息;
  • TCGA-LUSC_lncRNA_expr_counts.rdata:lncRNA的counts矩阵;
  • TCGA-LUSC_lncRNA_expr_fpkm.rdata:lncRNA的fpkm矩阵;
  • TCGA-LUSC_lncRNA_expr_tpm.rdata:lncRNA的tpm矩阵;
  • TCGA-LUSC_mRNA_expr_counts.rdata:mRNA的counts矩阵;
  • TCGA-LUSC_mRNA_expr_fpkm.rdata:mRNA的fpkm矩阵;
  • TCGA-LUSC_mRNA_expr_tpm.rdata:mRNA的tpm矩阵;

表达矩阵示例:

lncRNA的counts矩阵
lncRNA的counts矩阵
mRNA的counts矩阵
mRNA的counts矩阵
mRNA的tpm矩阵
mRNA的tpm矩阵
临床信息
临床信息

本文首发于公众号:医学和生信笔记

医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

本文由 mdnice 多平台发布

相关文章:

  • 直升飞机领衔、三百辆婚车开道,三十台巨型吊车,小伟婚礼超豪华
  • 【2023秋招面经】OPPO 前端 一面(40min)
  • Nifi05 Nifi单节点、集群部署以及迁移
  • SQL server发布订阅事务复制新增表的解决方案(不重新初始化)
  • Tableau2——折线图,饼图
  • 对话腾讯天琴赵伟峰:当音乐与科技结合,会碰撞出怎样的火花?
  • codePen前端编码神器
  • Android 10.0 系统settings系统属性控制一级菜单显示隐藏
  • Linux多路I/O复用入门必读 -- epoll实现原理以及使用方法
  • systemverilog中的bind
  • 【视频】逆变换抽样将数据标准化和R语言结构化转换:BOX-COX、凸规则变换方法
  • 数说故事×IDEA荣获语言与智能技术竞赛「视频语义理解赛题」季军
  • 30岁生日收到公司的生日礼物,一份裁员通知,有人从此一蹶不振,而我逆风翻盘,重获新生~
  • PIE-Engine APP:广东省生态遥感指数研究
  • 学好大数据能做什么工作?
  • [原]深入对比数据科学工具箱:Python和R 非结构化数据的结构化
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • ➹使用webpack配置多页面应用(MPA)
  • Angular 响应式表单 基础例子
  • es的写入过程
  • node-glob通配符
  • Object.assign方法不能实现深复制
  • PAT A1017 优先队列
  • Protobuf3语言指南
  • Shell编程
  • Spring核心 Bean的高级装配
  • 基于游标的分页接口实现
  • 将 Measurements 和 Units 应用到物理学
  • 紧急通知:《观止-微软》请在经管柜购买!
  • 一起来学SpringBoot | 第十篇:使用Spring Cache集成Redis
  • 源码安装memcached和php memcache扩展
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • 曾刷新两项世界纪录,腾讯优图人脸检测算法 DSFD 正式开源 ...
  • ​​​​​​​​​​​​​​Γ函数
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • # Java NIO(一)FileChannel
  • #每日一题合集#牛客JZ23-JZ33
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • (+4)2.2UML建模图
  • (1)Nginx简介和安装教程
  • (3)(3.2) MAVLink2数据包签名(安全)
  • (pojstep1.1.2)2654(直叙式模拟)
  • (二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布
  • (理论篇)httpmoudle和httphandler一览
  • .h头文件 .lib动态链接库文件 .dll 动态链接库
  • .Net 8.0 新的变化
  • .NET设计模式(2):单件模式(Singleton Pattern)
  • .NET委托:一个关于C#的睡前故事
  • ??javascript里的变量问题
  • [ C++ ] STL_vector -- 迭代器失效问题
  • [ vulhub漏洞复现篇 ] Django SQL注入漏洞复现 CVE-2021-35042
  • [20190401]关于semtimedop函数调用.txt
  • [AIGC] Nacos:一个简单 yet powerful 的配置中心和服务注册中心