GSEA使用

时间：2019-11-05 16:57:30 阅读：1362 评论：0 收藏：0 [点我收藏+]

参考网址：http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html

GSEA的图如何理解？

技术分享图片

1. 图中下面灰色图的含义：http://software.broadinstitute.org/gsea/doc/GSEAUserGuideFrame.html?_Interpreting_GSEA_Results

图中的横坐标表示你输入的gene列表。

1）纵坐标含义：纵坐标表示“Ranked list metric”，GSEA官网对此的解释是ranking metric，即signal-to-noise ratio。

2）计算方法：

3）ranking metric的含义：它表示基因与表型(phenotype)的关系。即：这个基因与treat相关，还是与control相关，相关的度量值是多少。即ranking metric的含义。

　　　　　　　　　　　　　positive raning metric表示与phenotype1相关，negative ranking metric表示与phenotype2相关。

　　　　表型是什么？比如，我们对给药组(treat)和正常组(control)做RNA-seq，得到每个基因在给药组和正常组中的表达值。在GSEA中，treat和control就是表型。

使用：

准备输入文件：

1. Expression dataset：是RNA-seq(或chipsiq)得到的数据。

通常有这么几列：

例1：NAME　　DESCRIPTION　　AML1　　AML2　　AML3　　ALL1　　ALL2　　ALL3

TP53　　na　　 681.3 638.0 665.0 240.0 587.0 737.0

例2：

NAME　　DESCRIPTION　　G　　C

TP53　　na　　 681.3 638.0

注意：

1）必须用tab分隔；

2）第一行的名称必须是NAME和DESCRIPTION；

3）文件前两行必须是：

#1.2
53796（gene个数，即行数） 2（sample个数，不是phenotype数。如例1中phenotype数是2，sample数是6）　　参考网址：http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats

2. Phenotype labels文件：共三行。

2 2 1　　分别为：sample数，phenotype数，1
# G C　　phenotype的名称
G C　　phenotype的名称

术语说明：

GSEA文档中的Phenotype、sample、gene sets等的含义。

Phenotype：

sample：

gene sets：

问题：

1.error：“Read timed out！”

这个错误，gsea官网没有说明。自己查的解决方法，费劲...。

原因：Gene sets database中，我选的是website的dataset，比如：ftp/...。这样，程序运行时，去GSEA的ftp服务器寻找并使用该文件。我怀疑可能网络不好，导致读取超时。

解决：下载gene set到本地。其实，就是把MSigDB的数据文件（.gmt文件）下载到本地。下载地址：http://software.broadinstitute.org/gsea/downloads.jsp。

注意：load本地的gene set文件时，只能通过“Load Data”功能执行。我在gene set database打开的界面找了好久都没找到load文件的图标，最后，灵机一动，才想到如何load。浪费时间%>_<%

2. error：After pruning, none of the gene sets passed size thresholds.

这个错误，gsea官网有说明。

原因：下载的c5.all.v7.0.symbols.gmt文件中的gene symbol全是大写，而我提供的expression文件中的基因名是小写。

解决：将expression文件的基因名改为大写即可。

具体解决方法：awk ‘{print toupper($3)}’，使用shell脚本的toupper函数即可。

3.运行时间：

我输入两个sample，两种phenotype，共53000+个gene的数据，permutation选择默认值1000，选择一个bp.gmtwenjian，运行时间长，大约十几分钟。

GSEA使用

原文：https://www.cnblogs.com/zypiner/p/11777829.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)