knitr::opts_chunk$set(echo = TRUE)
如果有任何问题出现,请点击[此处](http://shenxt.me/2017/09/09/2017-09-09-metdna-blog/)给我留言。留言要包括下面三个部分:
sample.info的两列列名必须是sample.name和group。
如果有正负离子模式数据,必须保证正负离子模式的样品名完全相同。
可以正负离子模式同时处理。
输出运行日志run.log。
换了logo。
MetDNA需要准备的数据包括一级数据peak table(csv格式),二级数据(mgf格式或者msp)和样品信息sample.info(csv格式)。点击下载[正离子demo数据](http://oxr5qv74w.bkt.clouddn.com/MetDNA.demo.data.POS.rar)和[负离子demo数据](http://oxr5qv74w.bkt.clouddn.com/MetDNA.demo.data.NEG.rar)。
如果正负离子模式数据都有,最后想使用正负离子模式的鉴定结果进行pathway分析,那么需要保证正负离子模式的样品名称保持一致,也就是同一个样品在正负离子模式数据中一样
Table 1: demo数据信息
组别 | 个数 | 含义 --------------- | ------------- | ------------ QC | 8 | QC W03 | 10 | 野生型3天 W30 | 10 | 野生型30天 E03 | 10 | 突变型E3天 E30 | 10 | 突变型E30天 P03 | 10 | 突变型P3天 P30 | 10 | 突变型P30天
一级数据可以是使用XCMS,MZmine,MS-DIAL或者其他软件处理之后的数据。第一列必须为代谢物峰的名字,"name",第二列为"mz",第三列为保留时间(RT),且单位必须为秒,其他为样品的峰强度,除此之外不需要其他任何信息,**且前三列命名必须为"name","mz", "rt"**。
二级质谱原始数据可以是使用样品采集的DDA,DIA或者targeted MS/MS数据。对于DDA数据来说,也可以是分段采集的二级数据。对于DDA和targeted MS/MS数据来说,需要将质谱原始二级数据使用ProteoWizard软件转为mgf格式,转换时参数设置参考下图。对于DIA数据来说,可以使用MS-DIAL处理之后,将其输出的msp格式文件直接拿来使用。
样品信息是样品的分组信息。第一列是样品名,命名为,"sample.name",第二列是样品的分组信息,命名为,"group"。样品信息为csv文件,命名为sample.info.csv。
如果是正离子数据,请建立一个新的文件夹,可以随意命名,如"POS",如果是负离子数据,请建立一个新的文件夹,可以随意命名,如"NEG",然后将一级数据**(可以随意命名,如data.csv)**,二级数据(mgf或者msp格式)和样品信息**(可以随意命名,如sample.info.csv)**放置于正离子或者负离子文件夹下。并将正离子数据和负离子数据的上一级路径,设置为工作路径。现在*MetDNA*部署在小服务器上,因此需要将数据放在小服务器中**(注意是labdata文件夹)**。
所有的步骤可以使用一个函数*MetDNA*全部完成。
#设置工作路径并加载MetDNA setwd("/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly") library(MetDNA)
MetDNA(ms1.data.pos = "data.csv", ms1.data.neg = "data.csv", sample.info.pos = "sample.info.csv", sample.info.neg = "sample.info.csv", pos.path = "/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly/POS", neg.path = "/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly/NEG", polarity = "positive", column = "hilic", ce = "30", use.default.md = TRUE, group = c("W03", "W30"), uni.test = "t", correct = TRUE, p.cutoff = 0.01, species = "dme", dn.analysis = FALSE, pathway.enrichment = TRUE)
参数含义如下:
ms1.data.pos:正离子数据MS1 data的名字,默认为"data.csv",如果只有负离子数据,则该参数不用关注。
ms1.data.neg:负离子数据MS1 data的名字,默认为"data.csv",如果只有正离子数据,则该参数不用关注。
sample.info.pos:正离子数据样品信息的名字,默认为"sample.info.csv",如果只有负离子数据,则该参数不用关注。
sample.info.neg:负离子数据样品信息的名字,默认为"sample.info.csv",如果只有正离子数据,则该参数不用关注。
pos.path:正离子数据的放置路径,注意,一定要是绝对路径。如果只有负离子数据,则该参数不用关注。
pos.path:负离子数据的放置路径,注意,一定要是绝对路径。如果只有正离子数据,则该参数不用关注。
polarity:数据采集极性,"positive","negative"或者"both"。
column:使用的柱子类型,"hilic"或者"rp"。
ce:二级采集的碰撞能量,支持"10","15","20","25","30","35","35,15" (35±15),"40", "45","50","55","60","65","70"。
use.default.md:进行保留时间预测模型建立时,是否使用默认的分子描述符,如果设置为FALSE,则会根据你的数据自动选择分子描述符。
group:要对哪些分组的样品进行分析,注意,计算fold change时,使用后面的样品除以前面的样品。
uni.test:单变量分析的方法,"t",Student t test;"wilcox",Wilcox test。
correct:是否需要对p值进行FDR校正。
p.cutoff:选择dysregulated peak时的p值cutoff。
species:所研究样品的物种来源,"dme",果蝇;"hsa",人类;"mmu",小鼠;"rat",大鼠,"bta",牛;"gga",Gallus gallus (鸡);"dre",Danio rerio (斑马鱼);"cel",Caenorharomyces elegans (线虫);"sce",Saccharomyces cerevisaiae (酵母); "ath",Arabidopsis thaliana (拟南芥);"smm",Schistosoma mansoni;"pfa",Plasmodum falciparum 3D7;"tbr",Trypanosoma brucei;"eco", Escherichia coli K-12 MG1655(大肠杆菌);"ppu",Pseudomonas putida KT2440;"syf",Synechococcus elongatus。
dn.analysis:是否进行紊乱网络分析,如果正负离子模式数据都有,那么需要将其设置为FALSE,如果只有一个模式的数据,那么设置为TRUE。
pathway.enrichment:是否使用差异代谢物对应的代谢物直接进行pathway enrichment analysis,现在默认的是如果polarity为"positive"或者"negative",则不进行分析,如果polarity为"both",则进行分析。
因为现在只能对两组数据进行比较,因此group参数只能写两个,如果有三组数据,如A,B和C组,那么需要分来两次处理,第一次先比较A和B,即将group设置为c("A", "B"),然后运行MetDNA,然后将已经得到的结果中的"Dysregulated_network_analysis_result","Pathway_enrichment_analysis_result"和"Analysis_report"重新命名,否则下次运行这两个文件夹中的内容会被覆盖掉,然后将group设置为c("A", "C"),然后再次运行MetDNA。
进行pathway enrichment分析时,可以自定义用于pathway分析的差异代谢物峰及其注释结果。在MetDNA中,默认是按照p值进行筛选差异代谢物峰,并使用差异代谢物峰的所有注释结果进行后续的通路分析,如果想自己按照其他方式筛选差异代谢物峰及其对应的注释,那么需要将自己筛选到的代谢物峰及其注释命名为"marker.csv",然后将其放置在"POS"或者"NEG"文件夹中,重新运行MetDNA函数即可。
*MetDNA*函数运行结束之后,所有的运行结果都存放在设置的路径中,包含二级谱图匹配鉴定结果,MRN注释结果,dysregulated network分析结果,pathway enrichment结果以及分析报告。如图5所示。[点击此处观察分析结果结构图](https://www.processon.com/view/link/59e71c36e4b040dc8507df21)。
ms2.match.annotation.result.csv:二级谱图匹配之后的结果,与MetAnalyzer处理之后的结果相同;
MS2_match_spectra:包含了所有二级谱图匹配结果图。
MRN.annotation.result.csv:基于MRN的每一个peak的注释结果(Figure 6)。
Seed_Neighbor_MS2_match_spectra:包含的是每个Seed和他neighbor之间的二级谱图匹配结果。
Annotation.type:该peak的该注释的类型,其中seed代表是从二级谱图鉴定得到的,isotopeAnnotation是指是同位素峰注释得到的,adductAnnotation是指加合物峰注释得到的,metAnnotation是指邻近代谢物注释得到的;
1) volcano.plot是选取差异代谢物峰的火山图。每个代谢物峰的p值和fold change值可以从DNA.module.annotation.result.pos.csv中得到,或者在intermediate_data文件夹中有两个R文件,分别是p.value和fold.change。
2) DNA.module.annotation.result.pos.csv是通过dysregulated modules对注释结果进行筛选以及KEGG database注释之后的注释结果。其中每列的含义可以参考**MRN.annotation.result.csv**的说明。
3) DNA_module_information:module的一些结果,该文件夹结果暂时用不到,可以不看。
4) DNA_function_annotation:紊乱网络的定性分析和定量分析结果。具体内容如下:
Cytoscape_data:dysregulated network用于cytoscape作图的文件。
Dysregulated_network_boxplot:每个pathway的定量信息box plot。
Dysregulated_network_heatmap:每个pathway的定量信息heatmap。
Dysregulated_network_heatmap:每个pathway的定量信息heatmap。
Quantitative_information:pathway的定量信息,以及每个代谢物对应的peak的信息。
DNA.pathway.enrichmetn.result.csv:dysregulated network通路富集结果。
1) volcano.plot是选取差异代谢物峰的火山图。
2) Pathway.enrichment.analysis.csv是使用差异代谢物峰对应的注释直接进行通路富集分析得到的富集结果。
3) Pathway.enrichment.MSEA.pdf是pathway富集分析的结果。
4) Pathway.enrichment.overview.pdf是pathway富集分析的结果的展示。
4) Pathway.heatmap.pdf是pathway定量结果的热图展示。
5) Boxplot文件夹:是每个通路的定量box plot展示。
6) Heatmap文件夹:是每个通路的定量heat map展示。
7) Quantitative_information:pathway的定量信息,以及每个代谢物对应的peak的信息。
Add the following code to your website.
For more information on customizing the embed code, read Embedding Snippets.