RepeatMasker¶
分享者:bio0011
更新时间:20241030¶
RepeatMasker 是一个广泛使用的生物信息学工具,专门用于识别和屏蔽(mask)基因组序列中的重复序列。它可以有效地帮助研究人员识别不同种类的重复元素,包括短散在重复序列(SINEs)、长散在重复序列(LINEs)、转座子、简单重复序列等。
我的应用:
屏蔽重复序列: RepeatMasker 可以用特定符号(如 "N" 或 "X")替换被检测出的重复序列(真菌),从而屏蔽这些区域,防止它们在下游分析(如基因预测或比对)中造成干扰。
#!/bin/bash
#SBATCH -J Repeat
#SBATCH -o %j.out
#SBATCH -e %j.err
#SBATCH -D /platform_data/User/bio0011/fungi/Data/
#SBATCH -p compute_nodes
#SBATCH -N 1
#SBATCH -n 60
repeatmasker_dir=/platform_data/Software/RepeatMasker
database_dir=/platform_data/User/bio0011/fungi/Libraries/RMRBSeqs.embl
cd "$repeatmasker_dir"
./configure -lib "$database_dir"
find "$/platform_data/User/bio0011/fungi/Data/Candida_albicans_Data" -type f -name "*.fna" -exec ./RepeatMasker -species fungi -dir /platform_data/User/bio0011/fungi/Data/Ca_al_result -c 60