- 理解比对(mapping, alignment)的含义
- 理解全局比对和局部比对的区别和应用
- 掌握应用bwa, minimap2, samtools的使用
- 理解SAM, BAM文件格式
将短的reads回帖到长的参考基因组上,这一过程称之为mapping。
- Volume of data
- Garbage reads
- Errors in reads, and quality scores
- Repeat elements and multicopy sequence
- SNPs/SNVs
- Indels
- Splicing (transcriptome)
- How many mismatches to allow?
- Report how many matches?
- Require best match, or first/any that fit criteria?
- Global alignment
- Local alignment
我们熟悉的blast和blat均属于第二类。
另外,不同长度的reads比对所用的策略也不一样,对于短reads,基于local alignment的软件如blast, blat不适合。
著名基因组软件:bwa, soap, bowtie, novoalign
著名转录组软件:STAR, hisat
$ source /opt/miniconda3/bin/activate
$ conda activate genomelab$ cd YourStudentID/genomicLab
$ mkdir lab2
$ cd lab2
$ mkdir data
$ mkdir results/data/stdata/genomic/lab02/data/ref.fa (参考序列)
/data/stdata/genomic/lab02/data/reads_1.fq.gz, /data/stdata/genomic/lab02/data/reads_2.fq.gz (illumina reads)
/data/stdata/genomic/lab02/data/pb_ecoli_0001.fastq (pacbio reads)
3.3 使用 bwa 将reads比对到参考基因组
$ cd data
$ ln -s /data/stdata/genomic/lab02/data/reads_* ./
$ ln -s /data/stdata/genomic/lab02/data/ref.fa ./
$ ln -s /data/stdata/genomic/lab02/data/pb_ecoli_0001.fastq ./$ samtools faidx ref.fa
$ mkdir index
$ cd index
$ ln -s ../ref.fa ./work_bwaIndex.sh
#!/bin/bash
#$ -S /bin/bash
#$ -N INDEX
#$ -j y
#$ -cwd
bwa index ref.fa# 用qsub提交任务至计算节点
$ qsub work_bwaIndex.shcd ../../resultswork_bwa.sh
#!/bin/bash
#$ -S /bin/bash
#$ -N bwa
#$ -j y
#$ -cwd
bwa mem ../data/index/ref.fa ../data/reads_1.fq.gz ../data/reads_2.fq.gz | \
samtools view -b - | \
samtools sort -o mapping.sort.bwa.bam -
samtools index mapping.sort.bwa.bam# 用qsub提交任务至计算节点
$ qsub work_bwa.sh3.4 使用 minimap2 将reads比对到参考基因组
work_minimap2.sh
#!/bin/bash
#$ -S /bin/bash
#$ -N minimap2
#$ -j y
#$ -cwd
minimap2 -ax sr ../data/ref.fa ../data/reads_1.fq.gz ../data/reads_2.fq.gz | \
samtools view -b - | \
samtools sort -o mapping.sort.mm.bam -
samtools index mapping.sort.mm.bam# 用qsub提交任务至计算节点
$ qsub work_minimap2.sh3.5 使用 minimap2 将三代测序reads比对到参考基因组
work_minimap_pb.sh
#!/bin/bash
#$ -S /bin/bash
#$ -N mm_map-pb
#$ -j y
#$ -cwd
minimap2 -ax map-pb ../data/ref.fa ../data/pb_ecoli_0001.fastq | \
samtools view -b - | \
samtools sort -o mapping.sort.pb.bam -
samtools index mapping.sort.pb.bam# 用qsub提交任务至计算节点
$ qsub work_minimap_pb.sh使用IGV查看比对结果

- 先组装,得到contigs (assemble short reads using SPAdes, assemble pacbio long reads using canu | mecat | miniasm)
- 然后将contigs用bwa mem比对到参考基因组上
- 用igv显示比对结果