疑惑当铺
什么是有义链/反义链(sense/antisense)?
有义链是与mRNA具有相同序列的DNA链,又称编码链、有意义链。在转录过程中以反义链为模版,翻译成蛋白质。
什么是正链(forward stand; Plus strand)/负链(reverse strand; minus strand)?
人为规定的一条链,DNA的一条链被认为是正链,另一条链就是负链。
基因结构是什么样的?
转自知乎
核苷酸的歧义代码
123456789101112Y Pyrimidine (C or T) R Purine (A or G) W Weak (A or T)S Strong (G or C) K Keto (T or G) M Amino (C or A) D A, G, T (not C - remember as after C)V A, C, G (not T - remember as after T/U - We'll get to "U" soon) H ...
Biostar workflows
Guide在各个数据库中有大量的数据,可以通过一些工具进行下载:
parallel当我们有一个文件如下所示:1234567sample,group,filecontrol1,control,sample_J1_ABCcontrol2,control,sample_K2_DEFcontrol3,control,sample_L3_GHIheatshock1,treatment,sample_Q1_JKLheatshock2,treatment,sample_Q2_MNOheatshock3,treatment,sample_Q3_PQR我们想根据列明名去提取变量,并在parallel中运行,我们可以使用--header :以及--colseo ,然后就可以实现以下功能:123456cat design.csv | parallel --header : --colsep , \ make -f snpcall.mk \ REF=refs/genome.fa \ R1=reads/{file ...
Makefile基本使用
Makefile简介Makefile 是一个文本文件(默认情况下使用名为 Makefile 的文件),其中列出了按所谓 “target”分组的命令,你可以将其视为应一起执行的命令组。我们用 TAB 缩进字符来表示属于某个目标的命令。默认情况下,make 会同时打印执行的命令和命令本身的结果。如果需要,你可以关闭这种行为,不过通常情况下,你确实希望看到被执行的内容。一开始,同时看到命令和输出结果可能会让人有点困惑,但你的眼睛很快就会习惯的。
Makefiles支持我们开发工作流,我们希望可以实现以下功能:
依赖管理—-跳过已经完成的步骤
重新进入—-从特定点重新启动工作流
自动化—-使用相同的代码并行运行多个相同的分析
一个Makefile文件的基本结构如下:
123456foo: echo Hello John!bar: echo Hello Jane! echo Hello Everyone!
执行全部代码:1make -f Makefile
执行指定代码:1make -f Makefile fooTip: 如果文件名字是Makefile,也可以直接省略-f参数 ...
Git使用
安装和初始化配置官网提供了各个电脑系统的安装教程,可按照具体需要进行安装。
安装完成之后,可查看版本信息:1git -v
配置用户名:1git config --global user.name "My Name"
配置邮箱:1git config --global user.email "mail@example.com"
配置默认分支名:12git config --global init.defaultBranch main# 一般我们设置main为默认主分支名
储存配置:1git config --global credential.helper store
查看配置信息:1git config --global --list
创建仓库本地创建:123git init [project-dir]#省略[project-dir]则在当前目录创建
克隆远程仓库:1git clone <url>
工作区域和文件状态工作区域
工作区(Working Directory): 就是你在电脑里能实际看到的目录。
暂存区(Stage/Inde ...
bookdown使用
bookdown初始文件生成在RStudio中通过project管理一个bookdown项目,因此需要我们初始化生成bookdown文件,具体步骤如下:
打开RStudio
File
New propject
New Directory
Book project using bookdown
命名文件夹
Create Project
新创建的 bookdown项目会包含一些必要的文件和演示文件。接下来我们将具体介绍每个文件的设置。
主要文件简介index.Rmd文件一本bookdown书, 一般都有一个index.Rmd文件, 这是最后生成的网站的主页的原始文件, 可以在这个文件中写一些书的说明, 并在开头的YAML元数据部分进行有关设置, 如标题、作者、日期等。一个示例如下:
123456789101112131415161718192021--- title: "PLAU Project Online Viewing and Collaboration"author: "苏总华"date: "`r Sys.Date()`&q ...
ggplot2包
准备 所需R包
{ggplot2}, part of the {tidyverse} package collection{tidyverse} package collection, namely{dplyr} for data wrangling{tibble} for modern data frames{tidyr} for data cleaning{forcats} for handling factors{corrr} for calculating correlation matrices{cowplot} for composing ggplots{ggforce} for sina plots and other cool stuff{ggrepel} for nice text labeling{ggridges} for ridge plots{ggsci} for nice color palettes{ggtext} for advanced text rendering{ggthemes} for ...
GOplot包
加载数据12345678910111213141516171819# Load the library. -------------------------------------------------------library(GOplot)# Load the dataset. --------------------------------------------------------data(EC)# Get the result from a functions analysis. -------------------------------head(EC$david)# Get a list of selected genes and their logFC. ---------------------------head(EC$genelist)# Generate the plotting object --------------------------------------------circ <- circle_dat(EC$david, EC$ge ...
基因功能富集分析
基因功能富集分析算法
ORA:过代表分析FCS:功能分类打分PT:通路拓扑结构分析NT:网络拓扑结构分析over-representation analysis: 先计数基因列表与基因功能集共同的基因,并利用2×2列联表,进行Fisher精确检验。根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集。
优点:
比较完备的统计学理论,输出结果比较稳健、可靠
缺点:
它仅仅使用了基因的数目信息,而没有利用基因表达水平或表达差异值
通常仅使用最显著的基因序列,而忽略差异不显著的基因, 导致检测灵敏性的降低
将每一个基因进行同等对待,它忽视了基因在通路内部生物学意义的不同,以及基因间复杂的相互作用
假设通路与通路间是独立的,但这个前提假设是不太准确的
GO/KEGG统计学方法详解
目前有很多工具和数据库提供ORA的使用,常见的就是GO富集分析和KEGG富集分析。我们通常通过处理二代测序和芯片测序得到的数据,进而设置一定对阈值,如差异倍数或P值,得到的一组我们感兴趣的基因,进而导入这个基因的ID,对这些基因进行注 ...
R语言绘图
热图差异基因热图绘制结果展示所需数据代码备注DESeq2或edgeR差异表达分析后数据12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879## Create heat map from a differential expression count table.## Load the library.suppressPackageStartupMessages(library(gplots))# The name of the file that contains the counts.count_file = "results.csv"# The name of the output file.output_file = "heatmap.pdf"# Inform the user.print(&quo ...