Skip to content

SRA下载及格式转换

分享者:bio0020


更新时间:20241029

NCBI SRA****上下载的原始数据**.sra****格式转换为****.fastq****格式用于后续分析:**

**Fastq****介绍:**是一种用于存储高通量测序数据的常用文件格式,包含每条测序序列的碱基信息和质量信息。Fastq格式结合了fasta文件的序列信息和质量分数,是目前最广泛使用的测序数据格式之一。

主要功能**:**

Ø fastq文件是下游分析的输入文件,用于各种生物信息学分析中,如质量控制、序列比对等

代码:

fasterq-dump --split-files SRR1234567.sra -t /platform_data/User/bio0020/fastq

-split-files:双端序列将读段分为两个文件,-t:保存路径

Fastp****介绍:快速、多功能的FASTQ预处理工具,用于高通量测序数据的质量控制和过滤。

主要功能**:**

Ø 质量过滤:移除质量低的碱基和低质量的读段,以提升数据的整体质量

Ø 序列剪切:对低质量末端进行自动剪切,同时支持自定义长度的前端和末端剪切

Ø 去接头:自动检测和去除接头序列,避免接头污染对后续分析的影响

Ø 长度过滤:移除过短或过长的读段,可自定义长度阈值

Ø 复杂度过滤:移除低复杂度序列(如简单重复),以防止低质量序列影响分析结果。

代码:

fastp -i {} -o '"$OUTPUT_DIR"'/${base_name}_filtered.fastq \-h '"$REPORT_DIR"'/${base_name}_report.html \-j '"$REPORT_DIR"'/${base_name}_report.json \-q 20 -u 30'

-i:输入fastq文件,-o:输出过滤后的fastq文件,-h和-j:生成HTML和JSON格式的质控报告,-q 20:最低质量阈值设为20,-u 30:高质量碱基占比需达到30%以上

Fastp之后可能会出现双端读段不成对,导致组装失败,因此需要修复之后再进行组装

Bbtools repaired.sh****介绍:专门用于修复双端测序数据对(pair)的工具,确保双端FASTQ文件中每一条序列在两个文件(R1和R2)中都是成对的。

主要功能**:**

Ø 修复不匹配的双端对:在测序数据预处理中,某些处理步骤可能导致双端读段不成对,repair.sh会找到这些不匹配的读段,将其分离到单端文件中

Ø 过滤无效对:如果一个读段在某一端丢失,repair.sh可以将该对从双端文件中移出,以确保双端文件完全匹配

Ø 生成单端输出:修复完成后,生成单端文件,包含那些在双端文件中无法配对的序列。

代码:

repair.sh in1=sample_R1.fastq in2=sample_R2.fastq out1=cleaned_R1.fastq out2=cleaned_R2.fastq outs=unpaired.fastq

-in1:指定第一个输入FASTQ文件(R1),-in2:指定第二个输入FASTQ文件(R2),-out1:指定第1个输入FASTQ文件(R1),-out2:指定第2个输入FASTQ文件(R2),-outs:将不匹配的读段输出到单端文件