滴水穿石

种一棵树最好的时间是十年前,其次是现在

0%

single_cell_RNA_seq_learning1

单细胞测序数据分析学习教程(1)

学习资源

学习基于芬兰CSC-IT科学中心剑桥大学生物信息培训中心以及莱顿大学计算生物学中心(LeidenCBC)的单细胞测序课程。

单细胞测序的介绍

​ scRNAseq技术的演变(Svensson et al. Nature Prorocols (2018))

​ Single-cell RNA sequencing experiment workflow(Molecular Cell, 2015, 58, 615)

每个scRNA-seq实验都需要经历以下步骤:单个细胞的捕获和溶解 — 将mRNA逆转录成为cDNA — cDNA通过PCR或者体外转录得到扩增 — 文库制备和测序。其中,单个细胞捕获的方法有低通量( 显微操作、激光捕获显微切割(LCM)、流式细胞荧光分离(FACS))和高通量单细胞分离方法(微液滴和微流控系统等)。

定量有两种类型—-全长型标签型 (tag-based)。全长型力图捕获并均匀测序整条转录本,标签型只捕获转录本的5’或3’端。不同定量方式需要自己对应的计算分析方法。全长方案理论上可以对整个转录本进行均匀测序,但实际上总会有测序覆盖偏好性的存在。标签型的主要优点是可以与唯一的分子标识符(UMIs)结合进行更精确定量。其缺点是,测序限制在转录本的5’或3’端,可能会降低比对率,并且难以区分不同剪接体的表达。

捕获的策略决定了实验通量、细胞如何被选择和除测序外的哪些额外信息可获得。最常用的三种捕获方式是基于微孔- (microwell-),微流- (microfluidic-),液滴- (droplet-)组合标签(Plate based)等。

  • Plate based:SMART-seq2, CEL-seq2, STRT-seq
  • Droplet based (Lecture from Susan and Miao)

液滴型方法是将单独的细胞和一个包含建库所学酶的珠粒 (bead)包裹在一个纳米级液滴里面。特殊地,每个珠粒(bead)包含一段独特的条形码序列 (barcode),会加到所有来自于液滴里面这个细胞的序列上,用于区分不同细胞的转录本。因此所有的液滴可以混合在一起测序,然后再根据barcode序列确定其是否归属于同一细胞。液滴型平台通常有最高的通量,因为文库的准备成本很低,约为0.05美元/每个细胞。随之而来的,测序成本往往是其限制因素,通常测序深度比较低,只检测几千个转录本的表达。

本文讲着重介绍由10x genomics平台产出的数据进行分析的流程和方法。

10x genomics平台测序原理:利用微流控技术进行单个细胞分选,将带有条形码和引物的凝胶珠和单个细胞包裹在油滴中;在每个油滴内,凝胶珠溶解,细胞裂解释放mRNA,通过逆转录产生用于测序的带条形码的cDNA;液体油层破坏后,cDNA后续进行文库构建,使用Illumina测序平台对文库进行测序检测,即可一次性获得大量单细胞的基因表达数据,10min内自动完成多至80,000个细胞的捕获,从而达到在单细胞水平进行表达测序的目的。

​ 10 x Chromium Single Cell Gene Expression Solution技术原理

目前单细胞分析用到的软件主要是FastQC、Cellranger和R包Seurat、monocle;数据库有相应物种的参考基因组KEGG、GO;数据分析部分主要基于count矩阵和差异表达数据用R或者Python来做。

名词介绍

  • Barcoding:给每个细胞加上独一无二的DNA序列(就是条形码barcode,就是为了识别),然后测序时将相同的barcode序列归为同一个细胞来源
    单细胞转录组可以在polyT引物5’端加上barcode。

  • Spike-in:每个细胞都是独特的,和普通的Bulk RNA-seq不同,材料不容易获得,不太好做重复,因此通过生物学重复来评价技术手段/数据质量的方法不靠谱。但是数据质量还是需要评价的,那么就通过向每个细胞裂解液中加入已知序列与一定数量的合成mRNA,例如 external RNA control consortium (ERCC,外源RNA对照联盟)开发的“内参”,可以根据RNA读数判断样本间差异。

  • UMI(Unique molecular identifier):一段随机序列,每一个DNA分子都有自己的UMI序列。可以大大降低PCR误差(比如:原来两个样本中某基因表达量相同,但是由于两个样本扩增效率不同,样本1为99%,样本2只有95%,那么同时扩增40个循环,这同一个基因就有了0.99^40 / 0.95^40 = 5.2倍差异,因此本来没有差异也会因为外界因素扩增效率的影响而产生“假阳性”)。UMI只用在3’转录本测序的方法中,如CEL-seq2, Drop-seq, MARS-seq。

  • Dropout:基因在一个细胞中有表达,但在另一个细胞中未检测到(按照道理,每个基因应该都可以检测到,只是表达量多少)。可能源于RNA总量少导致扩增建库丢失 或者 RNA表达随机性。

从reads到matrix

数据下载

本次要练手的数据来源于文章:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA。文章解读见 单细胞天地。共有两名患者:

  • GSE数据库根据编号(GSE117988、GSE118056)进行搜索,拖到下方,点击SRA Run Selector

    1
    2
    discovery/index patient: GSE117988 2586-4 六个样本
    validation patient: GSE118056 9245-3 四个样本
  • 选中需要的样本(全部)点击 MetadataAccession List

  • 下载SRA

    1
    2
    3
    4
    5
    6
    for i in `cat SRR_Acc_List.txt` ;
    do
    /disk/share/toolkits/enaBrowserTools-1.6/python3/enaDataGet -f sra -a $i -d ./sra
    # -f fastq可直接下载fastq文件,但只有一个,不满足后续cellranger需要三个文件的需求,故下载sra格式,后期用fastq-dump进行转化
    fastq-dump --gzip --split-files -A $i ./sra/$i/${i}.sra
    done

解释fastq文件

10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads

引用

单细胞实战(一)数据下载

参考文章如引起任何侵权问题,可以与我联系,谢谢。

-------- 本文结束 感谢阅读 --------
# 添加内容