疑惑当铺
什么是有义链/反义链(sense/antisense)?
有义链是与mRNA具有相同序列的DNA链,又称编码链、有意义链。在转录过程中以反义链为模版,翻译成蛋白质。
什么是正链(forward stand; Plus strand)/负链(reverse strand; minus strand)?
人为规定的一条链,DNA的一条链被认为是正链,另一条链就是负链。
基因结构是什么样的?
转自知乎
核苷酸的歧义代码
123456789101112Y Pyrimidine (C or T) R Purine (A or G) W Weak (A or T)S Strong (G or C) K Keto (T or G) M Amino (C or A) D A, G, T (not C - remember as after C)V A, C, G (not T - remember as after T/U - We'll get to "U" soon) H ...
最新文章ggplot2包
准备 所需R包
{ggplot2}, part of the {tidyverse} package collection{tidyverse} package collection, namely{dplyr} for data wrangling{tibble} for modern data frames{tidyr} for data cleaning{forcats} for handling factors{corrr} for calculating correlation matrices{cowplot} for composing ggplots{ggforce} for sina plots and other cool stuff{ggrepel} for nice text labeling{ggridges} for ridge plots{ggsci} for nice color palettes{ggtext} for advanced text rendering{ggthemes} for ...
GOplot包
加载数据12345678910111213141516171819# Load the library. -------------------------------------------------------library(GOplot)# Load the dataset. --------------------------------------------------------data(EC)# Get the result from a functions analysis. -------------------------------head(EC$david)# Get a list of selected genes and their logFC. ---------------------------head(EC$genelist)# Generate the plotting object --------------------------------------------circ <- circle_dat(EC$david, EC$ge ...
基因功能富集分析
基因功能富集分析算法
ORA:过代表分析FCS:功能分类打分PT:通路拓扑结构分析NT:网络拓扑结构分析over-representation analysis: 先计数基因列表与基因功能集共同的基因,并利用2×2列联表,进行Fisher精确检验。根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集。
优点:
比较完备的统计学理论,输出结果比较稳健、可靠
缺点:
它仅仅使用了基因的数目信息,而没有利用基因表达水平或表达差异值
通常仅使用最显著的基因序列,而忽略差异不显著的基因, 导致检测灵敏性的降低
将每一个基因进行同等对待,它忽视了基因在通路内部生物学意义的不同,以及基因间复杂的相互作用
假设通路与通路间是独立的,但这个前提假设是不太准确的
GO/KEGG统计学方法详解
目前有很多工具和数据库提供ORA的使用,常见的就是GO富集分析和KEGG富集分析。我们通常通过处理二代测序和芯片测序得到的数据,进而设置一定对阈值,如差异倍数或P值,得到的一组我们感兴趣的基因,进而导入这个基因的ID,对这些基因进行注 ...
R语言绘图
热图差异基因热图绘制所需数据代码结果展示备注DESeq2或edgeR差异表达分析后数据12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879## Create heat map from a differential expression count table.## Load the library.suppressPackageStartupMessages(library(gplots))# The name of the file that contains the counts.count_file = "results.csv"# The name of the output file.output_file = "heatmap.pdf"# Inform the user.print(&quo ...
差异基因表法分析
DESeq2所需数据R代码输出数据备注原始Counts数据样本分组信息123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136# # Differential expression analysis with the DESeq2 package.# # https://bioconductor.org/packages/release/bioc/html/DESeq2.html## Load the library.suppressPackageSt ...
Mac终端:服务器与本地文件交互
从服务器下载文件到本地
打开Mac终端
使用scp命令下载文件
命令💻参数解释🗣️1scp -r xiaosu@10.10.140.xxx:~xiaosu/gorden /Users/xiaosu/Desktop
参数
说明
-r
如下载的是文件夹需使用此参数,如果是文件可不使用此参数
xiaosu@10.10.140.xxx
服务器地址
~xiaosu/gorden
输入服务器中要下载的文件路径
/Users/xiaosu/Desktop
输入本地地址,必须是全局路径
生信数据格式
FASTQ通过测序,一般拿到的数据是.fastq或者.fq的原始数据格式,该数据包含所有的reads信息,其中一条reads主要包含以下4行信息:
第一行主要储存序列测序时的坐标等信息,可用于区分来源;
第二行是测序得到的序列信息,一般用ATCGN来表示,其中N表示荧光信号干扰无法判断到底是哪个碱基;
第三行以“+”开始,可以储存一些附加信息,一般是空的;
第四行储存的是质量信息,与第2行的碱基序列是一一对应的,其中的每一个符号对应的ASCII值成为phred值,可以简单理解为对应位置碱基的质量值,越大说明测序的质量越好。不同的版本对应的不同。
RNA-Seq
RNA-Seq分析流程
比对和组装定量和标准化差异分析差异分析
基因表达量数据类型CountsRPM/CPMRPKMFPKM/FPKM-UQTPM
基因表达量数据转换
原始Counts数据
基因长度信息(外显子长度之和)
如按照protein-coding基因计算mapped reads计算,还需提供基因的分类信息
分子互作
蛋白-DNA
也称转录因子模式,所有转录因子都包含一段 DNA结合域,结构域能够识别和结合基因启动子特征DNA序列(motif) ,进而影响靶基因从 DNA 转录产生 RNA 的过程,效应结果是 RNA量的多少变化,如果这个RNA是可以编码蛋白的mRNA,那么最终就会造成靶基因蛋白量的上调或者下调。
转录因子上的氨基酸序列和结构结合的 DNA 序列是有一定规律的,这种规律是预测转录因子调控靶基因的理论基础。
启动子是一段DNA序列, 启动子里含有 RNA 聚合酶的特异性结合序列,同时可以跟转录因子结合控制基因的转录活性。
相关数据库
转录因子转录因子预测原理研究思路预测数据库转录因子验证实验纯生信:
根据测序结果筛选出的关键基因,探索能否找到潜在的转录因子调控这些基因
可以同时引入与转录因子和靶基因结合的非编码RNA,构建调节网络
或者识别出的差异表达基存在转录因子,可以以这个转录因子为中心,构建调节网络
基于转录因子本身的的表达水平、突变状态、甲基化水平、做转录因子与表型的生信分析
生信+实验:
基于序列保守性对互作关系进行预筛选,然后再通过EMSA、ChIP等实验验证 ...