SRA下载及格式转换¶

分享者：bio0020

更新时间：20241029¶

NCBI SRA****上下载的原始数据**.sra****格式转换为****.fastq****格式用于后续分析：**

**Fastq****介绍：**是一种用于存储高通量测序数据的常用文件格式，包含每条测序序列的碱基信息和质量信息。Fastq格式结合了fasta文件的序列信息和质量分数，是目前最广泛使用的测序数据格式之一。

主要功能**:**

Ø fastq文件是下游分析的输入文件，用于各种生物信息学分析中，如质量控制、序列比对等

代码：

fasterq-dump --split-files SRR1234567.sra -t /platform_data/User/bio0020/fastq

-split-files：双端序列将读段分为两个文件，-t：保存路径

Fastp****介绍：快速、多功能的FASTQ预处理工具，用于高通量测序数据的质量控制和过滤。

主要功能**:**

Ø 质量过滤：移除质量低的碱基和低质量的读段，以提升数据的整体质量

Ø 序列剪切：对低质量末端进行自动剪切，同时支持自定义长度的前端和末端剪切

Ø 去接头：自动检测和去除接头序列，避免接头污染对后续分析的影响

Ø 长度过滤：移除过短或过长的读段，可自定义长度阈值

Ø 复杂度过滤：移除低复杂度序列（如简单重复），以防止低质量序列影响分析结果。

代码：

fastp -i {} -o '"$OUTPUT_DIR"'/${base_name}_filtered.fastq \-h '"$REPORT_DIR"'/${base_name}_report.html \-j '"$REPORT_DIR"'/${base_name}_report.json \-q 20 -u 30'

-i：输入fastq文件，-o：输出过滤后的fastq文件，-h和-j：生成HTML和JSON格式的质控报告，-q 20：最低质量阈值设为20，-u 30：高质量碱基占比需达到30%以上

Fastp之后可能会出现双端读段不成对，导致组装失败，因此需要修复之后再进行组装

Bbtools repaired.sh****介绍：专门用于修复双端测序数据对（pair）的工具，确保双端FASTQ文件中每一条序列在两个文件（R1和R2）中都是成对的。

主要功能**:**

Ø 修复不匹配的双端对：在测序数据预处理中，某些处理步骤可能导致双端读段不成对，repair.sh会找到这些不匹配的读段，将其分离到单端文件中

Ø 过滤无效对：如果一个读段在某一端丢失，repair.sh可以将该对从双端文件中移出，以确保双端文件完全匹配

Ø 生成单端输出：修复完成后，生成单端文件，包含那些在双端文件中无法配对的序列。

代码：

repair.sh in1=sample_R1.fastq in2=sample_R2.fastq out1=cleaned_R1.fastq out2=cleaned_R2.fastq outs=unpaired.fastq

-in1：指定第一个输入FASTQ文件（R1），-in2：指定第二个输入FASTQ文件（R2），-out1:指定第1个输入FASTQ文件（R1）,-out2：指定第2个输入FASTQ文件（R2），-outs：将不匹配的读段输出到单端文件