Les pipelines de profilage métagénomique améliorent la classification taxonomique des données de séquençage de l'amplicon 16S

Rapports scientifiques volume 13, Numéro d'article : 13957 (2023) Citer cet article

8834 Accès

122 Altmétrique

Détails des métriques

La plupart des expériences étudiant les microbiomes bactériens reposent sur l’amplification PCR de tout ou partie du gène de la sous-unité ARNr 16S, qui sert de biomarqueur pour identifier et quantifier les différents taxons présents dans un échantillon de microbiome. Il existe plusieurs méthodes informatiques pour analyser le séquençage de l’amplicon 16S. Cependant, les outils bioinformatiques les plus utilisés ne peuvent pas produire des appels taxonomiques de haute qualité au niveau du genre ou de l’espèce et peuvent sous-estimer l’exactitude potentielle de ces appels. Nous avons utilisé les données de séquençage 16S provenant de communautés bactériennes simulées pour évaluer la sensibilité et la spécificité de plusieurs pipelines bioinformatiques et bibliothèques de référence génomique utilisées pour les analyses du microbiome, en nous concentrant sur la mesure de l'exactitude des attributions taxonomiques au niveau des espèces des lectures d'amplicons 16S. Nous avons évalué les outils DADA2, QIIME 2, Mothur, PathoScope 2 et Kraken 2 en conjonction avec les bibliothèques de référence de Greengenes, SILVA, Kraken 2 et RefSeq. Les outils de profilage ont été comparés à l'aide de données communautaires simulées accessibles au public provenant de plusieurs sources, comprenant 136 échantillons présentant une richesse et une régularité variées en espèces, plusieurs régions amplifiées différentes au sein du gène de l'ARNr 16S, ainsi que des pointes d'ADN et de l'ADNc provenant de collections de cellules plaquées. PathoScope 2 et Kraken 2, deux outils conçus pour la métagénomique du génome entier, ont surpassé DADA2, QIIME 2 utilisant le plugin DADA2, et Mothur, théoriquement spécialisés pour les analyses 16S. Les évaluations des bibliothèques de référence ont identifié les bibliothèques SILVA et RefSeq/Kraken 2 Standard comme étant supérieures en termes de précision par rapport à Greengenes. Ces résultats soutiennent PathoScope et Kraken 2 en tant qu'options compétitives et pleinement performantes pour l'analyse des données de séquençage d'amplicons 16S au niveau du genre et de l'espèce, le séquençage du génome entier et les outils de données métagénomiques.

Le séquençage à haut débit a considérablement accéléré l’étude de la microbiomique, c’est-à-dire le domaine scientifique axé sur l’étude de la composition, de la diversité et de la fonction des communautés microbiennes et de leurs interactions avec leurs hôtes ou environnements1. La caractérisation de la composition des échantillons microbiens repose généralement sur l'amplification des séquences de la sous-unité ribosomale 16S, un gène omniprésent avec des régions hautement conservées. La sous-unité simplifie les efforts visant à isoler et à amplifier l’ARNr 16S avec des amorces PCR établies et des régions hypervariables pour établir l’identité et la phylogénie. Le séquençage de l’ARNr 16S et de l’ADNr peut être utilisé pour identifier les espèces procaryotes connues et servir de proxy pour quantifier les abondances relatives d’unités taxonomiques opérationnelles (OTU) dans les échantillons de microbiome.

Les méthodes de profilage taxonomique des séquences génétiques de l'ARN ribosomique permettent l'identification d'échantillons d'OTU en classant les séquences d'ARNr en groupes taxonomiques. Bien qu'une précision considérable dans l'identification au niveau de l'espèce soit possible avec les outils disponibles2, les logiciels de profilage actuels pour les données de séquençage de l'amplicon 16S hésitent à identifier jusqu'au niveau de l'espèce. Au lieu de cela, ils regroupent les lectures en fonction de la similarité des séquences pour attribuer des identifications de genre ou de niveau supérieur afin d'augmenter la spécificité et la sensibilité, ou ils utilisent directement des séquences filtrées par erreur pour la classification taxonomique3,4. À mesure que les capacités des plates-formes de séquençage modernes augmentent et que les bases de données du génome bactérien de référence se développent et s’améliorent, de plus en plus de possibilités d’obtenir des performances d’analyse 16S améliorées avec des méthodes alternatives plus couramment appliquées dans la métagénomique du génome entier.

Les logiciels les plus couramment utilisés actuellement pour l'analyse des données de séquençage de l'amplicon 16S sont DADA24, QIIME 25, son prédécesseur, QIIME 26 et Mothur7. QIIME 2 et Mothur ont tous deux été développés à l'origine peu de temps après l'invention du séquençage de nouvelle génération et, avec QIIME 2, suivent essentiellement le même flux de travail : les lectures sont généralement regroupées de novo en fonction de la similarité des séquences en unités taxonomiques opérationnelles (OTU) ou OTU débruitées. (beaucoup les appellent variantes de séquence d'amplicons ou ASV) selon que l'identité complète de la séquence est souhaitée pour le regroupement. L'étape de regroupement initiale sert à 1) améliorer l'efficacité informatique en limitant le nombre de séquences nécessitant un alignement sur un large ensemble de génomes de référence et 2) s'adapter aux faibles niveaux de variation génétique présents au sein d'une souche bactérienne donnée, atténuant ainsi les erreurs de séquençage. Pendant près d'une décennie, le seuil d'inclusion de l'OTU était de 97 % d'identité de séquence8,9, mais les recommandations actuelles en matière de seuils se situent désormais autour de 99 à 100 % d'identité de séquence3,10, généralement après une certaine forme de débruitage ou autre correction des erreurs de séquençage4,11.

128 GB) and runtimes on the order of several hours, whereas Kraken 2 in particular took mere minutes. Issues aside, PathoScope is likely to outperform QIIME 2, DADA2, and Mothur in identification regardless of the database used. This finding partly results from PathoScope’s Bayesian mixed modeling identification algorithm, which accounts for the possibility that multiple species can be present in the sample or that the target strain is not present in the reference database. PathoScope consistently outperformed Kraken 2 in most cases, although the difference was often slight and not statistically significantly better. Overall, these comparisons show that methods designed for general metagenomics analyses consistently outperform methods specifically designed for analyzing 16S data./p>