常见问题

如何构建参考基因组?

参考基因组的构建请参考如何构建参考基因组?

如何选择chemistry?

chemistry参数的设定跟所用试剂类型相关,比如全序列和FFPE产品选择DD-Q,DD单细胞3’转录组试剂盒请选择DD—V2, DD单细胞5’转录组试剂盒选择DD5V1等。如果chemistry参数选择错误可直接在log日志中查找“valid barcode rate of”相关信息,后面的比例太低则表示chemistry不正确。或者在samplename_summary.json文件中可查看valid 和total的比例。

为什么出现FASTQ相关报错?

软件报错"Error while decompressing extra concatenatedgzip files on *fastq.gz\n"? 根据提示,输出的fq文件应该是不完成的,请核对参数–fq1 --fq2参数的文件是否完整。同样是fq数据不完整,也可能出现如下错误信息"FileFormatError: Error in sequence file at unknown line: Reads are improperly paired. There are more reads in file 1 than in file 2." 或者"Error in FASTQ file at line 4: Premature end of file encountered. The incomplete final record was: '@A01565:134:HKFGNDSX3:1:1101:11080:2957 1:N:0:CACTTCGA+ACAGCTGC\nCCATCACTACGGAAGGTTGAGCTCTATGATTTTTT…ATTATTATT\n+\n' err!!!",总而言之,请一定确保自己的fq文件是完整且配对的。

为什么没有barcodes.tsv.gz文件?

软件报错"No such file or directory: '/outputpath/samplename/step3/filtered_feature_bc_matrix/barcodes.tsv.gz'" ? 首先查看输出目录,如果有raw_feature_bc_matrix,并且该目录下的三个文件大小没有异常小,此时可以单独运行一个细胞判定的脚本Rscript /path/seeksoultools/lib/python3.XX/site-packages/seeksoultools/utils/cell_identify.R -i outputpath/step3/raw_feature_bc_matrix -e 3000(该命令在日志中有输出) ,当执行此脚本时应该会出现报错信息,比如缺少某个R包的问题,此时请确认,1.2.1版本之前的,在脚本执行的时候先激活环境,比如请执行 source activate seeksoultools,或者export PATH=/path/seeksoultools/bin:$PATH,激活环境后重新运行脚本。另外温馨提示,在安装seeksoultools软件时不要把它软链到另一个磁盘等,请直接安装,并且保证环境名称是唯一的,在运行脚本的时候使用绝对路径。

如果检查输出目录中raw_feature_bc_matrix目录下的文件大小异常小,比如只有几个字节大小,此时可能是gtf文件有问题。具体的gtf格式说明及要求,可以参考如何构建参考基因组?

为什么出现samtools报错?

软件报错"stderr: samtools sort: failed to read header from '/outputpath/samplename/.test/test_1M_Aligned.out.bam'"? 根据提示bam文件有问题,此时请查看/outputpath/samplename/.test/test_1M_Log.out。文件可能会提示'FATAL INPUT ERROR: unrecognized parameter name "genomeType" in input "genomeParameters.txt"',或者'EXITING because of FATAL ERROR: Genome version: 2.7.1a is INCOMPATIBLE with running STAR version: 2.7.10a SOLUTION: please re-generate genome from scratch with running version of STAR, or with version: 2.7.4a'也会提示索引的版本和STAR软件的版本。报错原因是二者版本不一致,请给软件传递参数–star_path 给定构建索引用的STAR软件路径。

用1.2.2版本seeksoultools分析完数据得到的web sumarry中线粒体比例都是0?

seeksoultools是根据gtf中gene_name的value中是否以Mt- 或者mt- 开头来判断线粒体基因的,如果gtf中gene_name的value没有进行这种修改就会导致报告中mt比例均为0.

为什么没有rnaseq_qc_results.txt?

软件报错"No such file or directory: '/outputpath/samplename/step2/STAR/rnaseq_qc_results.txt'" 根据提示,软件在qualimap步骤运行失败,对于1.2.1及其之前的版本,需要在下载完软件包之后进行unpack。具体操作方式为:"source ./bin/activate ; ./bin/conda-unpack"

为什么出现biotype的问题?

软件运行报错"gene_biotype = re.search(r'(gene_type|gene_biotype|transcript_biotype|transcript_type) "(.*?)";', ids).group(2) AttributeError: 'NoneType' object has no attribute 'group'" 在1.2.1及其之前版本fast模块要求gtf文件的attribute列中有记录gene的biotype,当出现这个提示的时候,可以修改gtf文件,确保gene有biotype,或者可以用1.2.2及其之后的版本,当读取不到基因的biotype是,默认type为"undefine"。

关注的某个基因,最后矩阵中为什么表达量都是0?

在进行定量的时候,如果某条reads即比对到A基因又比对到B基因,在1.2.0之前的版本是直接丢掉,1.2.0及其之后的版本会对基因的位置做进一步判定,如果只有某个基因比对到的是exon区间,其他基因比对的是非exon区间,则将该reads判定给该基因。进行排查时,首先从step2/featureCounts/*_SortedByName.bam里面提取出'XT'tag中包含该基因(ensemble id 而非symbol)的reads,然后针对这些reads逐条检查,是不是XTtag中包含的多个基因,且目标基因比对的区域非exon或者XTtag包含的基因中有多个是比对的exon区域。