张卓,江帅,李睿江,等.面向肿瘤精准医学的综合数据资源TCGA及其相关在线分析工具推荐[J].中华医学图书情报杂志,2018,27(3):5-9. DOI:10.3969/j. issn. 1671-3982.2018.03.002
•
专题
•
面向肿瘤精准医学的综合数据资源TCGA及其相关在线分析 工具推荐
张卓,江帅,李睿江,李宛莹,李昊,陈河兵,伯晓晨
[摘要]癌症基因组图谱(TCGA)是一个公共资助的项目,旨在编目和发现引起癌变的主要人类基因组变化,目标是创建癌症
基因组的全面“图谱”。TCGA数据库收录了多种癌症组学数据,包括转录组数据、表观遗传组学数据、基因突变数据和疾病样 本临床数据等,为认识肿瘤发生的相关知识提供了丰富的资源,可以帮助科研人员更好地学习和认识癌症相关领域知识并促 进肿瘤精准医学的实现。调查整理了 TCGA数据在线分析工具并对其进行筛选推荐,可以帮助研究人员方便地进行TCGA数 据分析。
[关键词]癌症;多组学数据;精准医学;分析工具;肿瘤;基因组[中图分类号]R730.2
[文献标志码]A
[文章编号]1671-3982(2018)03-0005-05
Comprehensive data resource TCGA for oncology precision medicine and its online analysis tools ZHANG Zhuo, JIANG Shuai, LI Rui-jiang, LI Wan-ying, LI Hao, CHEN He-bing, BO Xiao-chen(Institute of Radiation Medicine, Academy of Military Medical Sciences, Academy of Military Sciences, Beijing 100850, China)
Corresponding author:BO Xiao-chen
[Abstract] TCGA, a public-funded project, is aimed at cataloguing and discovering the major human genome
variations that induce canceration. Its goal is to establish a comprehensive cancer genome atlas. A variety of cancer genomics data are covered in TCGA database, including transcriptomics data, epigenomics data, gene mutation data, and disease sample clinical data, which provide a wealth of resources for understanding the knowledge in relation with tumorgenesis, and can thus help scientific researchers to effectively learn and understand cancer-related knowledge, and speed up the realization of oncology precision medicine. The online analysis tools of TCGA data were assessed in order to help scientific researchers to analyze the TCGA data.[Key words]Cancer; Multiomics data; Precision medicine; Analysis tools; Tumor; Genome
癌症是一种极为复杂的人类疾病,涉及基因组 的多种动态变化[1]。每种类型的癌症,发生的遗传
[基金项目]“精准医学研究”重点专项“精准医学大数据管理和共享
技术平台 ”(2016YFC0901600)
[作者单位]军事科学院军事医学研究院辐射医学研究所,北京
100850
[作者简介]张卓(1987-),男,山西临汾人,博士,工程师,主要从
事生物信息学研究。
[通讯作者]伯晓晨(1973-),男,天津市人,博士,研究员,主要从事
生物信息学研究。E-mail:boxc@ bmi. ac. cn
畸变都是独特的,包括体细胞突变、拷贝数变异、基 因表达谱差异和表观遗传改变。因此需要更好地理 解肿瘤的各种遗传变化,才能更好地对其进行诊断、 治疗和预防。全基因组测序和生物信息技术的发展 为癌症基因组研究提供了新的线索[2]。典型的综 合数据资源是癌症基因组图谱(The Cancer Genome
Atlas,TCGA)项目,它收集整理了大量癌症基因组 数据,并利用新的基因组分析技术以加速对癌症的 全面了解。
TCGA数据库的目标是完成一套完整的与所有
•
6
•
中华医学图书情报杂志2018年3月第27卷第3期 Chin J Med Libr Inf Sci,Vol.27 No.3 March,2018
癌症基因组改变相关的“图谱”,旨在获得癌症生物 学的新见解,从而有助于癌症的治疗。该项目是 2006年由美国国立卫生研究院牵头的一项大型癌 症基因组计划,自2008年开始有阶段性成果发 表[3] ,2009年继续投资2. 75亿美元,增加了多种类 型的癌症数据,到2014年已收集了 36类癌症数据, 包括临床数据、DNA、RNA、蛋白质等多层次的数据。 在数据生成方面,该项目取得了无可争议的成功。 随着样品采集、测序和分析技术的快速发展,TCGA 收录的肿瘤相关数据呈指数增长。目前,新成立的
对其发病机制亦不完全清楚。而TCGA数据已被用 于发现新的突变,确定内在的肿瘤类型,确定泛癌相 似性和差异性,同时收集肿瘤演变的证据。目前已 经开发了大量针对TCGA数据的生物信息学工具, 反映出TCGA数据资源的重要性。1 TCGA数据介绍
为了全面分析癌症基因组图谱,TCGA应用基 于微阵列和下一代测序方法的高通量技术,产生了 癌症的多种数据类型信息。
TCGA中的癌症数据通过各种标识符(ID)进行 识别和编目(表1 ),每种癌症类型都包括体细胞突 变、拷贝数、基因表达、miRNA表达、DNA甲基化、逆 转蛋白相位阵列(RPPA)和临床信息。除原始排序文 件外(表2),每种数据类型都包括可供公开下载的原 始数据和已处理的数据。
NCI Genomics Data Commons 将 TCGA 的数据整合在 该门户网站中,并且为基因组数据用户提供了交互 式支持和更清晰友好的界面。
我们可以用前所未有的微观视角来看待癌症, 但是还没有达到能够解释这种疾病的全貌的程度,
表1 TCGA数据库中的ID号
ID类型
File LLIDFile Submitted IDCase LLIDCase Submitted IDProject ID
TCGA中数据文件ID上传至TCGA的文件IDTCGA中的样本ID
上传至TCGA的样本ID,—般用来代表样本样本属于的项目ID
描述
示例
00a2364d-7385-4fa8-8562-b4f19548505a
147f470-7440-42b8-8e3a-4e28b654916e-beta-value942c0088-c9a0-428c-a879-e16f8c5bfdb8TCGA-CJ-4642TCGA-BRCA
表2
数据类型Aligned Reads
Raw Simple Somatic MutationAnnotated Somatic MutationAggregated Somatic MutationMasked Somatic MutationGene Expression QuantificationCopy Number SegmentMasked Copy Number SegmentMethylation Beta Value
Isoform Expression QuantificationmiRNA Expression QuantificationBiospecimen SupplementClinical Supplement
描述
数据类型和可获取水平
可访问级别
受限受限受限受限开放开放开放开放开放开放开放开放开放
原始测序数据原始突变信息数据注释突变信息数据聚合的突变信息数据转换后的突变信息数据基因表达数据拷贝数信息数据
转换后的拷贝数信息数据甲基化数据
城市microRNA表达数据microRNA 表达数据生物样本信息临床信息
中华医学图书情报杂志2018年3月第27卷第3期 Chin J Med Libr Inf Sci,Vol.27 No.3 March,2018
•
7
•
2 TCGA数据在线分析工具
目前TCGA数据分析很复杂,涉及多个步骤,为 获得有意义的生物学结果,需要仔细考虑分析每个 步骤,并将特定工具应用于某些实验模型。为现有 数据开发相关的探索工具,需要实验科学家和计算 科学家之间的协调。然而,实验科学家很难使用计 算科学家开发的计算工具,因为这些计算工具需要 数据准备以及安装和使用打包软件,而且某些软件 往往只适用于某些特定平台或操作系统。一些更高 级的计算工具往往难以理解或使用,从而限制了其 应用。不过有基于网络的工具可以提供方便的计算 解决方案,帮助实验科学家使用和分析复杂的癌症
基因组数据。这些工具帮助无生物信息学背景的生 物学家和医学家获得更多的生物学和医学见解,但 是选择适当的工具并不是一项简单的任务,对于没 有经验的用户来说尤其如此。
本文整理了一个基于网络的可用于分析TCGA 数据的公开工具列表,并将这些工具进行分类以便 更好地进行查询和使用。
表3显示了基于网络工具的32个在线分析资 源,它们代表了当前可用于分析TCGA数据的主要 资源。为了进一步区分和指导这些工具的选择,本 文将所有资源工具分为全局分析工具、目标分析工 具和辅助分析工具三大类。
表3
分类
全局分析工具(玉类)
工具名称
针对TCGA数据的在线分析资源
可视化类型
矩阵、直方图矩阵、网络图网络图、热图
矩阵、Circos、基因组坐标图、网络图矩阵、PCA图、分层聚类图热图热图、网络图矩阵、热图
直方图、线图/箱线图矩阵、热图、通路图、散点图矩阵、直方图矩阵
基因组坐标图、网络图、散点图/箱线图、三维结构图矩阵、热图、网络图
矩阵、条状图/箱线图/点线图矩阵、热图、直方图线图
基因组坐标图线图热图
矩阵、热图、直方图热图、箱线图、线图热图、散点图、直方图基因组坐标图、散点图矩阵、网络图图像图像矩阵、热图矩阵、箱线图通路图图像
矩阵、Circos、三维结构图、热图
下载是否是是是是是是是是是是是是是是是是是是是是是是否否否是是是是是
Broad GDAC FirehoseCancer Landscapes[4]canEvolve[5]Regulome Explorer⑷TCGA MbatchTCGA NG-CHM
tcpa[7]
全局分析工具(II类)MethHC[8]
oasispro[9]
OncoScape[l0]
TCGA Clinial Explorer[ll]TCGA SpliceSeq[12]
目标分析工具
Cancer3D[13]Cbioportal[14]
gepia[15]
IntOGen[16]KMplotter
mexpress[17]
PROGgeneV2[18]
tanric[19]
TCGA4L[20]
lalcan[21]
LCSC XenaWanderer[22]Zodiac[23]
辅助分析工具
bcmd[24]cdsa[25]cellx[26]gdisc[27]
PathwayMapper[28 ]
tcia[29]
V anno[ 30 ]
中华医学图书情报杂志2018年3月第27卷第3期 Chin J Med Libr Inf Sci,Vol.27 No.3 March,2018
全局分析工具能够检查癌症基因组的整体特 征,可以成为刚刚开始研究癌症基因组数据研究人 员的宝贵资源。全局分析工具有两种类型即I型和 域型,前者仅提供全局分析,后者则提供除全局分析 之外的选定目标分析。
目标分析工具是研究人员最常使用的基于网络 的公共工具。这些工具可以令研究人员深人分析具 体的基因或者基因集,甚至miRNA等研究对象,方 便使用者调查癌症数据中自己感兴趣的目标。
3.3差异分析
有12种在线工具(已『(版100八。尸^匕(狀,(沒打瓦-
volve,cbioportal,CELLX,GEPIA, MEXPRESS, OncoScape,TANRIC,TCGA4U,TCPA,UALCAN 和 Wanderer)可以进行差异分析,一般推荐使用分析基 因表达谱的工具GEPIA。差异分析是该工具的主要 分析功能,其在线分析界面简单易懂,非常易于理解 和使用。3.4通路分析
基于公共网络的辅助分析工具可以将TCGA数 据转换为易于访问、浏览和下载的在线资源。这些 数据可以帮助用户补充实验结果或者提供额外的证 据和解释,帮助研究人员更全面地分析自己的研究 和促进生物学发现。
3 TCGA数据在线分析工具推荐
首先可以由本文的分类区分不同工具的使用类 型,缩小选择范围;然后根据实际需要结合具体研究 (如数据来源、数据类型、分析方法、研究目的),选 择具体的工具进行进一步的分析。以下是对TCGA 数据进行不同分析时建议选择的一些工具,但这些 工具都不能完全取代先进的计算和统计方法,只是 为研究人员提供一些使用帮助,扩展他们癌症组学、 癌症复杂性和癌症网络等方面的相关知识。3.1突变分析
有 10 种在线工具(Broad GDAC Firehose,
Cancer3D, cbioportal, CELLX, IntOGen, TANRIC, TCGA Clinical Explorer,TCGA4U,UCSC Xena 和 Vanno)可以进行突变分析。一般来说,推荐使用 cbioportal,因其包含多种癌症类型和多种可视化分 析功能,功能强且易于使用。3.2
相关性分析
有 17 种在线工具(Broad GDAC Firehose,
Cancer Landscapes,canEvolve,cbioportal, CELLX, GDISC,GEPIA,MethHC,MEXPRESS,OASISPRO, Regulome Explorer,TANRIC,TCGA Clinical Explorer, TCGA NG-CHM,TCPA,Wanderer 和 Zodiac)可以进 行相关性分析。总的来说,推荐使用麻省理工学院 和哈佛大学Broad研究所研发的Broad GDAC Fire
hose, 因其有多种分析算法供用户使用,功能全面, 且包含多种分析工具。
有 8 种在线工具(Broad GDAC Firehose,Cancer
Landscapes,canEvolve,MethHC,OncoScape,Pathway- Mapper,Regulome Explorer 和 TCGA NG-CHM)可以 进行通路分析。推荐使用Broad GDAC Firehose和
OncoScape,前者分析方法丰富,后者简单直观。3.5 生存分析
有 16 种在线工具(Broad GDAC Firehose,
Cancer Landscapes,canEvolve,cbioportal,CELLX, GDISC,GEPIA,KMplotter,OASISPRO,PROGgeneV2, TANRIC,TCGA Clinical Explorer,TCGA4U,TCPA, UALCAN和UCSC Xena)可以进行生存分析。如果 仅想进行单一的生存分析,推荐使用PROGgeneV2, 因其具有广泛的数据来源和多种可选参数设置。3.6 泛癌分析
有 8 种在线工具(Broad GDAC Firehose,Cancer
Landscapes,cbioportal,IntOGen,Regulome Explorer, TCGANG-CHM,UCSC Xena 和 Zodiac)可以进行泛 癌症分析(pan-cancer analysis)。一般来说,推荐使 用 cbioportal 和 Cancer Landscapes,前者收集了来自 泛癌研究的大量样本且拥有强大的分析能力;后者 的癌症图谱模型中包含了泛癌模型,可以直接用于 分析。4
总结
科学家们开发出多种生物信息学工具进行数据 挖掘和分析,以便寻找新发现。不久的将来,新发现 将有助于诊断、治疗和预防癌症。TCGA提供的癌 症基因组学数据可以系统地揭示癌症分子生物学的 新图景。这些大量公开可用的数据,为世界各地的 研究人员提供了癌症遗传学的知识来源,结合多种 分析有助于开发个性化癌症药物。本文全面整理了 基于网络的公共可用的在线分析资源和工具,可以
中华医学图书情报杂志2018年3月第27卷第3期 Chin J Med Libr Inf Sci,Vol.27 No.3 March,2018
•
9
•
帮助研究人员方便地查找和使用合适的工具,增进 他们对癌症基因组学的理解。
[17]
mutations identifies cancer drivers across tumor types[J]. NatureMethods,2013,10(11) :1081-1082.
Koch A , De TM , Jeschke J , et al. MEXPRESS : visualizing expres- sion,DNA methylation and clinical TCGA data[J]. BMC Genom- ics,2015,16(1) :636.
【参考文献】
[1]
Hanahan D, Weinberg RA. The hallmarks of cancer [ J ]. Cell, 2000,100(1 ) :57-70.[2]
Stratton MR,Campbell PJ ,Futreal PA. The cancer genome[ J]. Na- ture,2009,458(7239) : 719-724.[3]
Cancer Genome Atlas Research Network. Comprehensive genomic- characterization defines human glioblastoma genes and core path- [20] [19] [18]
Goswami CP,Nakshatri H. PROGgeneV2: enhancements on the existing database[J]. BMC Cancer,2014,14:970.
Li J ,Han L , Roebuck P , et al. TANRIC : an interactive open platform to explore the function of lncRNAs in cancer [J]. Cancer Research,2015,75(18) :3728-3737.
Huang ZZ,Duan HL,Li HM. Identification of gene expression ways[J]. Nature,2008 ,455(7216) : 1061-1068.[4 ]
Kling T,Johansson P,Sanchez J ,et al. Efficient exploration of pancancer net^vorks by generalized covariance selection and interactive web content[ J ]. Nucleic Acids Research,2015 ,43 (15): e98.[5]
Samur M K,Yan Z, Wang X, et al. canEvolve: a web portal for integrative oncogenomics[J]. PLoS One,2013,8(2) :e56228.[6]
Madhava^i S ,Gusev Y ,Natarajan TG,et al. Genome-wide multi-omics profiling of colorectal cancer identifies immune determinants strongly associated with relapse[J].Frontiers Genetics,2013,4:236.[7]
Li J,Lu Y, Akbani R ,et al. TCPA : a resource for cancer functional proteomics data[J]. Nature Methods,2013,10(11) : 1046-1047.[8]
Huang W’_Y,Hsu SD,Huang HY, et al. MethHC: a database of DNA methylation and gene expression in human cancer[J]. Nucleic Acids Research,2015,43 (Database issue) :856-861.[9]
Yu KH,Fitzpatrick MR,Pappas L, et al. Omics AnalySIs System for PRecision Oncology (OASISPRO): a web-based omics analysis tool for clinical phenotype prediction[J]. Bioinformatics,2017, 34(2) :319-320.[10]
Andreas S,Magali M,Rubayte R, et al. OncoScape: exploring the cancer aberration landscape by genomic data fusion[J]. Scientific Reports ,2016,6(1) :28103.
[11]
Lee HJ ,Palm J ,Grimes SM,et al. The Cancer Genome Atlas Clinical Explorer: a web and mobile interface for identifying clinical-genomic driver associations[J]. Genome Medicine,2015,7(1) :1-14.
[12]
Ryan M,Wong WC,Brown R,et al. TCGASpliceSeq a compendium of alternative mRNA splicing in cancer [ J]. Nucleic Acids Research,2016,44(1) :
1018-1022.[13]
Porta-Pardo E,Hrabe T,Godzik A. Cancer3D: understanding cancer mutations through protein structures [J ]. Nucleic Acids Research,2015,43(1) :
968-973.[14]
Cerami E , Gao J , Dogrusoz L , et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data[J]. Cancer Discovery,2012,2(5):401-404.
[15]
Tang Z,Li C,Kang B,et al. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses[J]. Nucleic Acids Research,2017,45(1) : 98-102.
[16]
Gonzalez-Perez A,Perez-Llamas C,Deu-Pons J,et al. IntOGen-pattern related to breast cancer survival using integrated TCGA datasets and genomic tools [J]. Biomed Research International,2015(6) :878546.
[21] Chandrashekar DS,Bashel B,Balasubramanya SAH, et al. LAL- CAN: a portal for facilitating tumor subgroup gene expression and survival analyses [J]. N eoplasia ,2017,19(8) : 649 -658.[22] Diez-Villanueva A,Mallona I,Peinado MA. W....anderer,an interactive viewer to explore DNA methylation and gene expression data in human cancer[J]. Epigenetics Chromatin,2015,8(1) :1-8.[23] Zhu Y,Xu Y,Jr HD,et al. Zodiac: a comprehensive depiction of genetic interactions in cancer by integrating TCGA data[ J] . Journal of the National Cancer Insttitute,2015,107(8).
[24] Chang H,Han J,Borowsky A,et al. Invariant delineation of nuclear architecture in glioblastoma multiforme for clinical and molecular association[J]. IEEE Transactions Medical Imaging,2013 ,32(4) :670-682.
[25] Gutman DA, Cobb J , Somanna D, et al. Cancer Digital Slide Archive: an informatics resource to support integrated in silico analysis of TCGA pathology data[J]. Journal of American Medical Informatics Association Jamia,2013,20(6):1091-1098.
[26] Ching KA,W.....ang K,Kan Z,et al.Cell Index Database (CELLX): a web tool for cancer precision medicine[J]. Pacific Symposium on Biocomputing,2015:10-19.
[27] Spainhour J C G,Lim J,Qiu P. GDISC: a web portal for integrative analysis of gene-drug interaction for survival in cancer[ J] . Bioinformatics,2017,33(9) : 1426-1428.
[28] Bahceci I,Dogrusoz L ,La KC,et al. PathwayMapper: a collaborative visual web editor for cancer pathways and genomic data[J]. Bioinformatics,2017,33(14):2238-2240.
[29] Clark K, V endt B , Smith K, et al. The Cancer Imaging Archive (TCIA): maintaining and operating a public information reposi- tory[J]. Journal of Digittal Imaging,2013,26(6):1045-1057.[30] Huang PJ , Lee CC ,Tan BC ,et al. Vanno: a visualizationaided variant annotation tool [J]. Human Mutation ,2015,36 (2):167- 174.
[收稿日期:2018-02-01]
[本文编辑:黄思敏]
因篇幅问题不能全部显示,请点此查看更多更全内容