运行

运行示例

示例1:基本用法

mkdir -p /demo/myproject/
cd /demo/myproject/
seeksoultools rna run \ 
--fq1 /demo/data/demo3k_R1_001.fastq.gz \ 
--fq2 /demo/data/demo3k_R2_001.fastq.gz \ 
--samplename demo3k \ 
--outdir /demo/myproject/ \ 
--genomeDir /demo/refdata/GRCh38-3.0.0/star \ 
--gtf /path/demo/refdata/GRCh38-3.0.0/genes/genes.gtf \ 
--chemistry MM \ 
--core 4

示例2:指定其他版本STAR进行分析,保证与–genomeDir的STAR版本兼容

mkdir /demo/myproject/
cd /demo/myproject/
seeksoultools rna run \
--fq1 /demo/data/demo3k_R1_001.fastq.gz \
--fq2 /demo/data/demo3k_R2_001.fastq.gz \
--samplename demo3k \
--outdir /demo/myproject/ \
--genomeDir /demo/refdata/GRCh38/star \
--gtf /path/demo/refdata/GRCh38/genes/genes.gtf \
--chemistry MM \
--core 4 \
--star_path /path/to/cellranger-5.0.0/lib/bin/STAR

示例3:一个样本有多组fastq数据

mkdir /demo/myproject/
cd /demo/myproject/
seeksoultools rna run \
--fq1 /demo/data/demo_S1_L001_R1_001.fastq.gz \
--fq1 /demo/data/demo_S1_L002_R1_001.fastq.gz \
--fq2 /demo/data/demo_S1_L001_R2_001.fastq.gz \
--fq2 /demo/data/demo_S1_L002_R2_001.fastq.gz \
--samplename demo \
--outdir /demo/myproject/ \
--genomeDir /demo/refdata/GRCh38/star \
--gtf /demo/refdata/GRCh38/genes/genes.gtf \
--chemistry MM \
--core 4

示例4:自定义R1结构

seeksoultools rna run \
--fq1 /demo/data/demo3k_R1_001.fastq.gz \
--fq2 /demo/data/demo3k_R2_001.fastq.gz \
--samplename demo \
--outdir /demo/myproject/ \
--genomeDir /demo/refdata/GRCh38/star \
--gtf /demo/refdata/GRCh38/genes/genes.gtf \
--barcode /demo/utils/CLS1.txt \
--barcode /demo/utils/CLS2.txt \
--barcode /demo/utils/CLS3.txt \
--linker /demo/utils/Linker1.txt \
--linker /demo/utils/Linker2.txt \
--structure B9L12B9L13B9U8 \
--core 4
  • B9L12B9L13B9U8表示read1的结构为:9个碱基barcode+12个碱基linker+9个碱基barcode+13个碱基linker+9个碱基barcode+9碱基UMI,整体cellbarcode有3段,共27个碱基(9*3),UMI为8个碱基

  • 使用--barcode依次指定3段barcode,--linker依次指定2段linker。

软件参数说明

参数

参数说明

–fq1

R1 fastq数据路径。

–fq2

R2 fastq数据路径。

–samplename

样本名称,会在outdir目录下创建以样本名称命名的目录。仅支持数字,字母和下划线。

–outdir

结果输出目录。默认值:./。

–genomeDir

STAR构建的参考基因组路径, 版本需要与seeksoultools使用的STAR一致。

–gtf

相应物种的gtf路径。

–core

分析使用的线程数。

–chemistry

试剂类型,每种对应一组--shift--pattern--structure--barcode--sc5p的组合,可选值:DDV1,DDV2,DD5V1,MM,MM-D,DD-Q;
DDV1 对应DD平台3’转录组V1版本试剂;
DDV2 对应DD平台3‘转录组V2版本试剂;
DD5V1 对应DD平台5‘转录组V1版本试剂;
MM 对应MM平台3’转录组数据;
MM-D 对应MM大孔径;
DD-Q 对应DD全序列。

–skip_misB

barcode不允许碱基错配,默认允许一个碱基错配。

–skip_misL

linker不允许碱基错配,默认允许一个碱基错配。

–skip_multi

舍弃能纠错为多个白名单barocde的reads,默认纠错为比例最高的barcode。

–expectNum

预估的捕获细胞数目。

–forceCell

当正常分析得到的细胞数⽬不理想时,选⽤此参数,后⾯加⼀个预期的数值N,seeksoultools软件会按照UMI从⾼到低取前N个细胞。

–include-introns

不启用时,只会选择exon reads⽤于定量;启用时,intron reads也会⽤于定量。

–star_path

指定其他版本的STAR路径进行比对,版本需要与--genomeDir版本兼容,默认的--star_path为环境下的STAR。