WGCNA
WGCNA 入门背景知识简介原理基本分析流程计算步骤
权重(weghted):基因之间不仅仅是相关与否,还记录着它们的相关性数值,数值就是基因之间的联系的权重(相关性)。
模块(module):表达模式相似的基因分为一类,这样的一类基因成为模块。
Eigengene:基因和样本构成的矩阵。
邻接矩阵(Adjacency Matrix):是图的一种存储形式,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵;在WGCNA分析里面指的是基因与基因之间的相关性系数矩阵。 如果用了阈值来判断基因相关与否,那么这个邻近矩阵就是0/1矩阵,只记录基因相关与否。但是WGCNA没有用阈值来卡基因的相关性,而是记录了所有基因之间的相关性。
拓扑重叠矩阵(TOM,Topological Overlap Matrix):WGNA认为基因之间的简单的相关性不足以计算共表达,所以它利用邻近矩阵,又计算了一个新的邻近矩阵。一般来说,TOM就是WGCNA分析的最终结果,后续的只是对TOM的下游注释。
WGCNA(Weighted Gene Co-expres ...
生物数据库基因ID
小苏碎碎念:
科研分析中经常会遇到各种各样的基因ID类型,了解各种命名的来源和规则有助于我们在不同的数据库之间进行转换和使用。同时因各种各样的数据库越来越多,本文档也会持续完善和更新~~~🍊。
背景知识
NCBI:National Center for Biotechnology Information, 即美国国家生物技术信息中心,是一个机构名称,不是数据库。
Entrez 是一个归属于 NCBI 的综合性的生物信息数据检索引擎系统,这个搜索引擎整合了包含核酸、蛋白质、基因、基因组、GEO 等在内的很多常用数据库。
HGNC: HUGO Gene Nomenclature Committee, 即人类基因命名委员会。人类大多基因的命名,是有HGNC完成的。
小鼠(mouse)的基因命名来源于MGNC;大鼠(rat)基因命名来源于RGNC;斑马鱼(zebrafish)基因命名来源于ZFIN
Ensembl 基因组数据库项目,是 1999 年启动的,来应对当时即将完成的人类基因组计划的一个科学项目,是科研人员用于检索基因组信息的最常用数据库之一。
refseq参考序列数据库,是NC ...
定量引物设计
查找基因进入NCBI官网
查找序列
查找基因ID
引物设计打开Prime-BLAST
根据需求填写参数
结果筛选
tidyverse:处理关系数据
文档使用数据源说明
文档中举例除了使用自建数据外,我们需要使用 nycflights13。这个数据包含了 2013 年从纽约市出发的所有 336 776次航班的信息。该数据来自于美国交通统计局, 可以使用?nycflights13 查看其说明文档。包括flights, airports, planes, weather, airline五个数据框。 文档中如出现此类数据对象,不再另行说明。flights: 包含航班信息airlines:可以根据航空公司的缩写码查到公司全名。airports:给出了每个机场的信息,通过 faa 机场编码进行标识。planes:给出了每架飞机的信息,通过 tailnum 进行标识。weather:给出了纽约机场每小时的天气状况。R包使用:12library(tidyverse)library(nycflights13)
相关概念
键:用于连接每对数据表对变量称为键,键是能唯一标识观测的变量(或变量集合)
主键:唯一标识其所在数据框的观测
外 ...
GEO数据库
GEO数据库 写在前面的话
GEO 数据库是 NCBI 网站下的子数据库,主要收录基于芯片和测序技术的数据,来源于全球众多研究者的上传数据。GEO数据库一直是进行生信挖掘的重要数据库,了解GEO数据库的数据形式,组织类型及下载方式进行数据挖掘的必备技能。
数据存储格式SOFT 格式SOFT (Simple Omnibus in Text Format)格式,是一种紧凑、简单、基于行的 ASCII(美国信息交换标准代码)文本格式, 包含实验数据和注释数据。
MINiML 格式MINiML (MIAME Notation in Markup Language, pronounced minimal)格式,与 SOFT 格式文件的包含信息完全相同,仅格式不同,为 XML 格式。 XML(eXtensible Markup Language)又称为可扩展标记语言,极其简单,使其易于在任何应用程序中读写数据。MIAME 和 MINSEQE 分别是芯片和测序数据上传的标准指南,指出上传的芯片或测序数据最起码应包含的数据内容。
Series Matrix filesSeries Matrix fil ...
R绘图-热图
差异基因热图绘制所需数据代码结果展示DESeq2或edgeR差异表达分析后数据12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879## Create heat map from a differential expression count table.## Load the library.suppressPackageStartupMessages(library(gplots))# The name of the file that contains the counts.count_file = "results.csv"# The name of the output file.output_file = "heatmap.pdf"# Inform the user.print("# ...
clusterProfiler包
分析简介GO富集分析KEGG富集分析
输入数据:富集分析基因列表输出数据:富集结果输出结果:go.RData1234567891011121314151617181920212223242526272829303132333435363738394041424344# load packages -----------------------------------------------------------library(clusterProfiler)library(org.Bt.eg.db)library(readxl)# load data ---------------------------------------------------------------rna <- read_xlsx("gene.xlsx")SYMBOL <- unique(rna$geneSymbol)rna <- data.frame(SYMBOL)# Id transition ------------------------------------ ...
基因ID转换
写在前面的话:
基因ID在不同的生信软件和数据库中有不同的命名规则。因此,将基因ID进行转换是必备的生信技能。此文章主要介绍几个常用的基因ID转换网站及R包转换工具
BioMart工具
BioMart 是 Ensembl 网站提供的一个 web 工具。他的主要功能是进行基因功能的注释和跨数据库注释,还有就是基因ID的转换。
选择数据库和数据集
输入ID类型及基因集
限制一次500个ID转换
选择输出基因ID类型
注:查看数据基因ID信息
输出结果
BioDBnet
biological DataBase network,一个集成了大量生物数据库的应用程序,比如Gene, UniProt, Ensembl, GO等,由ABCC进行维护。它实际上包括多个应用程序,如dbWork,dbFind等。主要功能包括基因ID转换,基因功能注释,基因信息查找,还可以将基因ID转换成其他物种的同源基因ID等。
选择输入和输出ID类型
输入物种Taxon ID
输入数据集并提交结果
结果查看
BioDBnet其他工具dbWalk
适用于需要转换为多种ID类型
dbFind
自动识别输 ...
conda管理生信软件
conda管理生信软件写在前面的话:
linux作为非图形化操作系统,软件下载及管理相对于windows更加复杂。对于生信分析,conda能够很好的解决大部分软件的下载、安装及管理。最重要的是conda能够解决不同软件间的环境冲突。(miniconda是anaconda的轻量级替代,足够我们使用)
conda下载
清华大学开源软件镜像站:miniconda安装包查找
根据不同的电脑系统选择所需要的版本(windows, linux, MacOSX)
下载最新的linux版本示例:
1wget -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda2-latest-Linux-x86_64.sh
miniconda安装安装最新版linux示例:
1bash Miniconda2-latest-Linux-x86_64.sh
12345678910111213141516171819202122232425262728293031安装过程中可能会遇到下面的提示:Please, press ENTER t ...