单细胞测序数据分析学习教程（1）

学习资源

学习基于芬兰CSC-IT科学中心、剑桥大学生物信息培训中心以及莱顿大学计算生物学中心(LeidenCBC)的单细胞测序课程。

芬兰CSC-IT科学中心：
学习链接：https://www.csc.fi/web/training/-/scrnaseq
GitHub：https://github.com/NBISweden/excelerate-scRNAseq
YouTube：https://www.youtube.com/playlist?list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN
中文跟练教程：【生信start_site】 https://www.jianshu.com/p/c04c4dc99e2b
剑桥大学生物信息培训中心
学习链接：https://scrnaseq-course.cog.sanger.ac.uk/website/index.html
GitHub：https://github.com/hemberg-lab/scRNA.seq.course
YouTube：https://www.youtube.com/watch?v=thHgPqQpkE4&feature=emb_err_woyt
https://www.youtube.com/watch?v=7dQ_pleDO2Y&feature=emb_err_woyt
中文跟练教程：【生信宝典】 https://www.jianshu.com/p/c04c4dc99e2b
LeidenCBC
GitHub：https://github.com/LeidenCBC/MGC-BioSB-SingleCellAnalysis2020

单细胞测序的介绍

scRNAseq技术的演变（Svensson et al. Nature Prorocols (2018)）

Single-cell RNA sequencing experiment workflow（Molecular Cell, 2015, 58, 615）

每个scRNA-seq实验都需要经历以下步骤：单个细胞的捕获和溶解 — 将mRNA逆转录成为cDNA — cDNA通过PCR或者体外转录得到扩增 — 文库制备和测序。其中，单个细胞捕获的方法有低通量（显微操作、激光捕获显微切割（LCM）、流式细胞荧光分离（FACS））和高通量单细胞分离方法（微液滴和微流控系统等）。

定量有两种类型—-全长型和标签型 (tag-based)。全长型力图捕获并均匀测序整条转录本，标签型只捕获转录本的5’或3’端。不同定量方式需要自己对应的计算分析方法。全长方案理论上可以对整个转录本进行均匀测序，但实际上总会有测序覆盖偏好性的存在。标签型的主要优点是可以与唯一的分子标识符(UMIs)结合进行更精确定量。其缺点是，测序限制在转录本的5’或3’端，可能会降低比对率，并且难以区分不同剪接体的表达。

捕获的策略决定了实验通量、细胞如何被选择和除测序外的哪些额外信息可获得。最常用的三种捕获方式是基于微孔- (microwell-)，微流- (microfluidic-)，液滴- (droplet-)，组合标签（Plate based）等。

Plate based：SMART-seq2, CEL-seq2, STRT-seq
Droplet based (Lecture from Susan and Miao)

液滴型方法是将单独的细胞和一个包含建库所学酶的珠粒 (bead)包裹在一个纳米级液滴里面。特殊地，每个珠粒(bead)包含一段独特的条形码序列 (barcode)，会加到所有来自于液滴里面这个细胞的序列上，用于区分不同细胞的转录本。因此所有的液滴可以混合在一起测序，然后再根据barcode序列确定其是否归属于同一细胞。液滴型平台通常有最高的通量，因为文库的准备成本很低，约为0.05美元/每个细胞。随之而来的，测序成本往往是其限制因素，通常测序深度比较低，只检测几千个转录本的表达。

本文讲着重介绍由10x genomics平台产出的数据进行分析的流程和方法。

10x genomics平台测序原理：利用微流控技术进行单个细胞分选，将带有条形码和引物的凝胶珠和单个细胞包裹在油滴中；在每个油滴内，凝胶珠溶解，细胞裂解释放mRNA，通过逆转录产生用于测序的带条形码的cDNA；液体油层破坏后，cDNA后续进行文库构建，使用Illumina测序平台对文库进行测序检测，即可一次性获得大量单细胞的基因表达数据，10min内自动完成多至80,000个细胞的捕获，从而达到在单细胞水平进行表达测序的目的。

10 x Chromium Single Cell Gene Expression Solution技术原理

目前单细胞分析用到的软件主要是FastQC、Cellranger和R包Seurat、monocle；数据库有相应物种的参考基因组、KEGG、GO；数据分析部分主要基于count矩阵和差异表达数据用R或者Python来做。

名词介绍

Barcoding：给每个细胞加上独一无二的DNA序列（就是条形码barcode，就是为了识别），然后测序时将相同的barcode序列归为同一个细胞来源
单细胞转录组可以在polyT引物5’端加上barcode。
Spike-in：每个细胞都是独特的，和普通的Bulk RNA-seq不同，材料不容易获得，不太好做重复，因此通过生物学重复来评价技术手段/数据质量的方法不靠谱。但是数据质量还是需要评价的，那么就通过向每个细胞裂解液中加入已知序列与一定数量的合成mRNA，例如 external RNA control consortium (ERCC，外源RNA对照联盟)开发的“内参”，可以根据RNA读数判断样本间差异。
UMI(Unique molecular identifier)：一段随机序列，每一个DNA分子都有自己的UMI序列。可以大大降低PCR误差（比如：原来两个样本中某基因表达量相同，但是由于两个样本扩增效率不同，样本1为99%，样本2只有95%，那么同时扩增40个循环，这同一个基因就有了0.99^40 / 0.95^40 = 5.2倍差异，因此本来没有差异也会因为外界因素扩增效率的影响而产生“假阳性”）。UMI只用在3’转录本测序的方法中，如CEL-seq2, Drop-seq, MARS-seq。
Dropout：基因在一个细胞中有表达，但在另一个细胞中未检测到（按照道理，每个基因应该都可以检测到，只是表达量多少）。可能源于RNA总量少导致扩增建库丢失或者 RNA表达随机性。

从reads到matrix

数据下载

本次要练手的数据来源于文章：Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA。文章解读见单细胞天地。共有两名患者：

在GSE数据库根据编号（GSE117988、GSE118056）进行搜索，拖到下方，点击SRA Run Selector

1 2	discovery/index patient: GSE117988 2586-4 六个样本 validation patient: GSE118056 9245-3 四个样本

选中需要的样本（全部）点击 Metadata和Accession List

下载SRA

for i in `cat SRR_Acc_List.txt` ;
do
  /disk/share/toolkits/enaBrowserTools-1.6/python3/enaDataGet -f sra -a $i -d ./sra
  # -f fastq可直接下载fastq文件，但只有一个，不满足后续cellranger需要三个文件的需求，故下载sra格式，后期用fastq-dump进行转化
  fastq-dump --gzip --split-files -A $i ./sra/$i/${i}.sra
done

解释fastq文件

10X单细胞数据比较特殊，它的测序文库中包括index、barcode、UMI和测序reads

引用

单细胞实战(一)数据下载

参考文章如引起任何侵权问题，可以与我联系，谢谢。

滴水穿石

single_cell_RNA_seq_learning1