Il s'agit dune pipeline automatisé pour l'analyse et la visualisation de variants à partir de données de sequencage génomique (NGS). Dans notre exemple nous avons utilisé la sequence de reference de l'espece Mycobacterium tuberculosis. Cette pipeline permet notamment de :
- Quantifier les reads qui s'alignent sur le génome de M.uberculosis (Reference : AL123456)
- Identifier les variants et les SNPs présent
- Faire le filtrage et la visualisation des variants avec IGV
- Pour votre analyse remplacer les fichiers fastq et fasta par vos propres fichiers : Ce sont des données d'exemples pour la pipeline
- Installer tous les outils et fichiers dans les repertoires correspondant pour une meilleure efficacité
- Tous les scripts sont interactifs : Cette pipeline vous guide étape par étape jusqu'à la visualisation de vos variants
- Le filtrage DP ≥ 3 est le plus recommandé pour réduire les faux positifs
- L'ordre d'exécution des scripts est important (respectez la séquence indiquée)
- BWA pour l'alignement de séquences
- Samtools pour la manipulation de fichiers BAM/SAM
- Bcftools pour la génération de fichiers BCF/VCF
- Kallisto pour la quantification des reads
- SnpsefF.jar pour le filtrage des SNPs
sudo apt-get update
sudo apt-get install bwa
sudo apt-get install samtools
sudo apt-get install bcftools
Uitliser le lien pour recuperer les fichiers correspondant : https://github.com/COMBINE-lab/salmon/releases
sudo apt-get install kallisto
cd ~
git clone https://github.com/pachterlab/kallisto
cd kallisto
mkdir build
cd build
cmake ..
make
sudo make install
- wget https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
- unzip snpEff_latest_core.zip``
- Aller au niveau du repertoire kallisto_tools en utilisant la commande suivante : cd kallisto_tools/
- Puis executer le fichier sh suivant : ./Taux_Mapping.sh
- Sélection du fichier FASTA de référence
- Création de l'index Kallisto si nécessaire
- Choix des fichiers FASTQ à analyser
- Génération automatiquement des statistiques d'alignement
- Nombre total de lectures traitées
- Nombre de lectures pseudoalignées
- Taux de mapping (pourcentage d'alignement)
Les résultats seront ensuite transférer dans le dossier kallisto_output/
- Aller au niveau du repertoire sam_tools en utilisant la commande suivante : cd salmon_tools/
- Puis executer le fichier sh suivant : ./FastQ_TO_Bam.sh
- Toujours dans le meme repertoire executer le fichier sh suivant :./Bam_Filtered.sh Cette étape :
- Trie les fichiers BAM par coordonnées génomiques
- Indexe les fichiers BAM triés
- Pour les fichiers BAM non trié effectuer la commande suivante : samtools view aln-se.1.bam | head
- Pour les fichiers BAM non trié effectuer la commande suivante : samtools view aln-se-sort.1.bam | head
- Toujours dans le meme repertoire executer le fichier sh suivant : ./Bam_To_Bcf.sh
- Toujours dans le meme repertoire executer le fichier sh suivant : ./Bcf_To_Vcf_Filtered.sh Cette étape :
- Convertit BCF → VCF
- Filtre les SNPs avec une profondeur de lecture ≥ 3 (paramètre modifiable)
- Téléchargez IGV depuis le site officiel :
https://software.broadinstitute.org/software/igv/download
- Ou installation via ligne de commande linus :
wget https://data.broadinstitute.org/igv/projects/downloads/2.16/IGV_Linux_2.16.2_WithJava.zip
unzip IGV_Linux_2.16.2_WithJava.zip
cd IGV_Linux_2.16.2
./igv.sh
- Menu : Genomes → Load Genome from File
- Sélectionner : AL123456.3.fasta
- Menu : File → Load from File
- Sélectionner : aln-se-sort.1.bam (fichier BAM trié)
- Menu : File → Load from File
- Sélectionner : aln-se-sort-filter.1.vcf (variants filtrés)
- La piste BAM montre la couverture (coverage) et l'alignement des reads
- La piste VCF affiche uniquement les SNPs avec DP ≥ 3
- Zoomez sur une région pour voir les variants en détail
- Les SNPs présents sur moins de 3 reads ne sont pas affichés (filtrage)
Les fichiers VCF filtrés contiennent les SNPs détectés avec :
- Position chromosomique
- Nucléotide de référence
- Nucléotide alternatif (variant)
- Profondeur de lecture (DP)
- Qualité du variant
- El Hadji Omar Dia
- GitHub : @Omar03-maker
- Mail : elhadjiomardia@esp.sn