学习资源
学习基于芬兰CSC-IT科学中心、剑桥大学生物信息培训中心以及莱顿大学计算生物学中心(LeidenCBC)的单细胞测序课程。
芬兰CSC-IT科学中心:
学习链接:https://www.csc.fi/web/training/-/scrnaseq
GitHub:https://github.com/NBISweden/excelerate-scRNAseq
YouTube:https://www.youtube.com/playlist?list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN
中文跟练教程:【生信start_site】 https://www.jianshu.com/p/c04c4dc99e2b剑桥大学生物信息培训中心
学习链接:https://scrnaseq-course.cog.sanger.ac.uk/website/index.html
GitHub:https://github.com/hemberg-lab/scRNA.seq.course
YouTube:https://www.youtube.com/watch?v=thHgPqQpkE4&feature=emb_err_woyt
https://www.youtube.com/watch?v=7dQ_pleDO2Y&feature=emb_err_woyt
中文跟练教程:【生信宝典】 https://www.jianshu.com/p/c04c4dc99e2bLeidenCBC
GitHub:https://github.com/LeidenCBC/MGC-BioSB-SingleCellAnalysis2020
单细胞测序的介绍
scRNAseq技术的演变(Svensson et al. Nature Prorocols (2018))
Single-cell RNA sequencing experiment workflow(Molecular Cell, 2015, 58, 615)
每个scRNA-seq实验都需要经历以下步骤:单个细胞的捕获和溶解 — 将mRNA逆转录成为cDNA — cDNA通过PCR或者体外转录得到扩增 — 文库制备和测序。其中,单个细胞捕获的方法有低通量( 显微操作、激光捕获显微切割(LCM)、流式细胞荧光分离(FACS))和高通量单细胞分离方法(微液滴和微流控系统等)。
定量有两种类型—-全长型和标签型 (tag-based)。全长型力图捕获并均匀测序整条转录本,标签型只捕获转录本的5’或3’端。不同定量方式需要自己对应的计算分析方法。全长方案理论上可以对整个转录本进行均匀测序,但实际上总会有测序覆盖偏好性的存在。标签型的主要优点是可以与唯一的分子标识符(UMIs)结合进行更精确定量。其缺点是,测序限制在转录本的5’或3’端,可能会降低比对率,并且难以区分不同剪接体的表达。
捕获的策略决定了实验通量、细胞如何被选择和除测序外的哪些额外信息可获得。最常用的三种捕获方式是基于微孔- (microwell-),微流- (microfluidic-),液滴- (droplet-),组合标签(Plate based)等。
- Plate based:SMART-seq2, CEL-seq2, STRT-seq
- Droplet based (Lecture from Susan and Miao)
液滴型方法是将单独的细胞和一个包含建库所学酶的珠粒 (bead)包裹在一个纳米级液滴里面。特殊地,每个珠粒(bead)包含一段独特的条形码序列 (barcode),会加到所有来自于液滴里面这个细胞的序列上,用于区分不同细胞的转录本。因此所有的液滴可以混合在一起测序,然后再根据barcode序列确定其是否归属于同一细胞。液滴型平台通常有最高的通量,因为文库的准备成本很低,约为0.05美元/每个细胞。随之而来的,测序成本往往是其限制因素,通常测序深度比较低,只检测几千个转录本的表达。
本文讲着重介绍由10x genomics平台产出的数据进行分析的流程和方法。
10x genomics平台测序原理:利用微流控技术进行单个细胞分选,将带有条形码和引物的凝胶珠和单个细胞包裹在油滴中;在每个油滴内,凝胶珠溶解,细胞裂解释放mRNA,通过逆转录产生用于测序的带条形码的cDNA;液体油层破坏后,cDNA后续进行文库构建,使用Illumina测序平台对文库进行测序检测,即可一次性获得大量单细胞的基因表达数据,10min内自动完成多至80,000个细胞的捕获,从而达到在单细胞水平进行表达测序的目的。
10 x Chromium Single Cell Gene Expression Solution技术原理
目前单细胞分析用到的软件主要是FastQC、Cellranger和R包Seurat、monocle;数据库有相应物种的参考基因组、KEGG、GO;数据分析部分主要基于count矩阵和差异表达数据用R或者Python来做。
名词介绍
Barcoding:给每个细胞加上独一无二的DNA序列(就是条形码barcode,就是为了识别),然后测序时将相同的barcode序列归为同一个细胞来源
单细胞转录组可以在polyT引物5’端加上barcode。Spike-in:每个细胞都是独特的,和普通的Bulk RNA-seq不同,材料不容易获得,不太好做重复,因此通过生物学重复来评价技术手段/数据质量的方法不靠谱。但是数据质量还是需要评价的,那么就通过向每个细胞裂解液中加入已知序列与一定数量的合成mRNA,例如 external RNA control consortium (ERCC,外源RNA对照联盟)开发的“内参”,可以根据RNA读数判断样本间差异。
UMI(Unique molecular identifier):一段随机序列,每一个DNA分子都有自己的UMI序列。可以大大降低PCR误差(比如:原来两个样本中某基因表达量相同,但是由于两个样本扩增效率不同,样本1为99%,样本2只有95%,那么同时扩增40个循环,这同一个基因就有了0.99^40 / 0.95^40 = 5.2倍差异,因此本来没有差异也会因为外界因素扩增效率的影响而产生“假阳性”)。UMI只用在3’转录本测序的方法中,如CEL-seq2, Drop-seq, MARS-seq。
Dropout:基因在一个细胞中有表达,但在另一个细胞中未检测到(按照道理,每个基因应该都可以检测到,只是表达量多少)。可能源于RNA总量少导致扩增建库丢失 或者 RNA表达随机性。
从reads到matrix
数据下载
本次要练手的数据来源于文章:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA。文章解读见 单细胞天地。共有两名患者:
在GSE数据库根据编号(GSE117988、GSE118056)进行搜索,拖到下方,点击
SRA Run Selector
1
2discovery/index patient: GSE117988 2586-4 六个样本
validation patient: GSE118056 9245-3 四个样本选中需要的样本(全部)点击
Metadata
和Accession List
下载SRA
1
2
3
4
5
6for i in `cat SRR_Acc_List.txt` ;
do
/disk/share/toolkits/enaBrowserTools-1.6/python3/enaDataGet -f sra -a $i -d ./sra
-f fastq可直接下载fastq文件,但只有一个,不满足后续cellranger需要三个文件的需求,故下载sra格式,后期用fastq-dump进行转化
fastq-dump --gzip --split-files -A $i ./sra/$i/${i}.sra
done
解释fastq文件
10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads
引用
参考文章如引起任何侵权问题,可以与我联系,谢谢。