GEO代码分析流程 - 2. 分组信息&探针注释

2022/9/10 6:24:33

本文主要是介绍GEO代码分析流程 - 2. 分组信息&探针注释,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

2. 分组信息&探针注释


#group_list(实验分组)和ids(芯片注释),每次都需要改
rm(list = ls())  
load(file = "step1output.Rdata")
library(stringr)

#1.group_list------------
#第一类,现成的某一列或在某列中包含(少见)
group_list = pd$title

#第二类,自己生成(样本少,排列整齐)
group_list = c(rep("control",times=3),rep("treat",times=3))
group_list

#第三类,ifelse(样本多,排列不整齐)
library(stringr)
group_list = ifelse(str_detect(pd$title,"Control"),"control","treat")
#设置参考水平,对照在前,处理在后
group_list = factor(group_list,
                    levels = c("control","treat"))        #若不指定level,则level以首字母进行排序


#2.ids-----------------
#方法1 BioconductorR包(推荐)
gpl 
#http://www.bio-info-trainee.com/1399.html                #在网站中查找GPL对应的BioconductorR包。
if(!require(hugene10sttranscriptcluster.db))BiocManager::install("hugene10sttranscriptcluster.db")
                                                          #判断式安装R包(前缀 + db),修改代码时使用"Ctrl + F"查找并全部替换。
library(hugene10sttranscriptcluster.db)                   #加载R包。
ls("package:hugene10sttranscriptcluster.db")              #查看R包里有哪些函数/数据。
ids <- toTable(hugene10sttranscriptclusterSYMBOL)         #使用“toTable”函数提取R包中的SYMBLE数据。
head(ids)                                                 #查看ids:探针id和基因symbol的对应关系。
                                                            #ids可能会比exp少,因为有些探针目前无法匹配到基因。
                                                            #一个探针对应多个基因 - 非特异性探针,注释文件中已去除,不需要管。
                                                            #多个探针对应一个基因:按照基因去重复(随机保留/求最大值/求平均值)。
                                                              #去重复代码:ids = ids[!duplicated(ids$symbol),]
                                                                #只保留第一次出现的基因。
                                                                #!duplicated(ids$symbol):第二次出现的基因返回的结果为FALSE。

# 方法2 读取gpl页面的soft文件,按列取子集                 #使用IDM
# 方法3 官网下载
# 方法4 自主注释 

save(exp,group_list,ids,file = "step2output.Rdata")

 http://www.bio-info-trainee.com/1399.html  用R获取芯片探针与基因的对应关系三部曲-bioconductor

GPL对应的BioconductorR包:

      gpl           organism                  bioc_package

1     GPL32       Mus musculus                        mgu74a 2     GPL33       Mus musculus                        mgu74b 3     GPL34       Mus musculus                        mgu74c 6     GPL74       Homo sapiens                        hcg110 7     GPL75       Mus musculus                     mu11ksuba 8     GPL76       Mus musculus                     mu11ksubb 9     GPL77       Mus musculus                     mu19ksuba 10    GPL78       Mus musculus                     mu19ksubb 11    GPL79       Mus musculus                     mu19ksubc 12    GPL80       Homo sapiens                        hu6800 13    GPL81       Mus musculus                      mgu74av2 14    GPL82       Mus musculus                      mgu74bv2 15    GPL83       Mus musculus                      mgu74cv2 16    GPL85  Rattus norvegicus                        rgu34a 17    GPL86  Rattus norvegicus                        rgu34b 18    GPL87  Rattus norvegicus                        rgu34c 19    GPL88  Rattus norvegicus                         rnu34 20    GPL89  Rattus norvegicus                         rtu34 22    GPL91       Homo sapiens                      hgu95av2 23    GPL92       Homo sapiens                        hgu95b 24    GPL93       Homo sapiens                        hgu95c 25    GPL94       Homo sapiens                        hgu95d 26    GPL95       Homo sapiens                        hgu95e 27    GPL96       Homo sapiens                       hgu133a 28    GPL97       Homo sapiens                       hgu133b 29    GPL98       Homo sapiens                     hu35ksuba 30    GPL99       Homo sapiens                     hu35ksubb 31   GPL100       Homo sapiens                     hu35ksubc 32   GPL101       Homo sapiens                     hu35ksubd 36   GPL201       Homo sapiens                       hgfocus 37   GPL339       Mus musculus                       moe430a 38   GPL340       Mus musculus                     mouse4302 39   GPL341  Rattus norvegicus                       rae230a 40   GPL342  Rattus norvegicus                       rae230b 41   GPL570       Homo sapiens                   hgu133plus2 42   GPL571       Homo sapiens                      hgu133a2 43   GPL886       Homo sapiens                     hgug4111a 44   GPL887       Homo sapiens                     hgug4110b 45  GPL1261       Mus musculus                    mouse430a2 49  GPL1352       Homo sapiens                       u133x3p 50  GPL1355  Rattus norvegicus                       rat2302 51  GPL1708       Homo sapiens                     hgug4112a 54  GPL2891       Homo sapiens                       h20kcod 55  GPL2898  Rattus norvegicus                     adme16cod 60  GPL3921       Homo sapiens                     hthgu133a 63  GPL4191       Homo sapiens                       h10kcod 64  GPL5689       Homo sapiens                     hgug4100a 65  GPL6097       Homo sapiens               illuminaHumanv1 66  GPL6102       Homo sapiens               illuminaHumanv2 67  GPL6244       Homo sapiens   hugene10sttranscriptcluster 68  GPL6947       Homo sapiens               illuminaHumanv3 69  GPL8300       Homo sapiens                      hgu95av2 70  GPL8490       Homo sapiens   IlluminaHumanMethylation27k 71 GPL10558       Homo sapiens               illuminaHumanv4 72 GPL11532       Homo sapiens   hugene11sttranscriptcluster 73 GPL13497       Homo sapiens         HsAgilentDesign026652 74 GPL13534       Homo sapiens  IlluminaHumanMethylation450k 75 GPL13667       Homo sapiens                        hgu219 76 GPL15380       Homo sapiens      GGHumanMethCancerPanelv1 77 GPL15396       Homo sapiens                     hthgu133b 78 GPL17897       Homo sapiens                     hthgu133a

这篇关于GEO代码分析流程 - 2. 分组信息&探针注释的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程