Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens
Résumé
Les technologies de séquençage à haut débit, comme le pyroséquençage Roche 454 et l’Illumina, peuvent permettre l’étude semi quantitative des organismes unicellulaires, en générant des centaines de milliers de courtes séquences « reads » provenant d’un seul échantillon environnemental. Par contre, identifier les taxons correspondant à ces reads demande une base de données fiable contenant des séquences de référence.
Nous avons établi des bases de données des taxons des trois domaines de la vie retrouvés dans les échantillons marins et d’eau douce des région arctique et subarctique du Canada, ainsi qu’un fichier en format Fasta des séquences de référence ayant subit un contrôle qualité. Ces fichiers sont appropriés pour le traitement des données avec des logiciels libres tels que QIIME, mothur ou UPARSE, avec lesquels l’utilisateur veut assigner les identités taxonomiques aux séquences courtes en fonction du pourcentage de similarité des séquences.
Tableau 1. Nombre de séquences et longueur des séquences pour les trois bases de données taxonomiques
La création de ces bases de données a été décrite dans Comeau et al. 2011 et 2012. Brièvement, nous avons ciblé la région variable V4 du gène 18S ARNr pour les Eukarya, et la région variable V6-V8 du gène 16S ARNr pour les Bacteria et Archaea. À l’origine, les séquences de référence ont été importées de la base de données SILVA pour les Archaea et la base de données Greengenes pour les Bacteria. Ces séquences sont identifiées avec les numéros d’accession de la base de données de l’origine. Par contre, la base de données Eukarya a été rassemblée de novo en fonction des taxons retrouvés dans nos différentes études. Nous avons modifié les identifications taxonomiques afin de refléter les évolutions récentes dans la littérature et nous avons inclus des séquences de haute qualité provenant des banques de clones représentant des clades répandues dans les environnements aquatique arctiques et subarctique. L’identification des clones non cultivés est basée sur des arbres phylogénétiques robustes et les chimères potentielles ont été exclues en utilisant UCHIME (Edgar et al. 2011).
L’accent est mis sur les organismes unicellulaires, c’est pourquoi la couverture de la base de données Eukaryota pour les Metazoa, Fungi et Streptophyta (les plantes terrestres) est suffisante pour identifier et enlever ces séquences dans un échantillon. Cependant l’utilisation de la base de données est déconseillée pour une analyse taxonomique détaillée au sein de ces groupes. Dans le même esprit, les séquences de référence des chloroplastes sont incluses dans la base de données Bacteria avec comme but principal de les identifier pour les enlever de l’analyse.
Ces bases de données ont été utilisées avec succès dans de nombreuses études des communautés microbiennes dans des environnements côtiers et en pleine mer à des hautes latitudes (p. ex. Comeau et al. 2011, Monier et al. 2014), ainsi que dans des lacs et mares de hautes latitudes (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).
Références
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381
Nous avons établi des bases de données des taxons des trois domaines de la vie retrouvés dans les échantillons marins et d’eau douce des région arctique et subarctique du Canada, ainsi qu’un fichier en format Fasta des séquences de référence ayant subit un contrôle qualité. Ces fichiers sont appropriés pour le traitement des données avec des logiciels libres tels que QIIME, mothur ou UPARSE, avec lesquels l’utilisateur veut assigner les identités taxonomiques aux séquences courtes en fonction du pourcentage de similarité des séquences.
Tableau 1. Nombre de séquences et longueur des séquences pour les trois bases de données taxonomiques
| Domaine | Nombre de séquences | Longueur de séquence moyenne (gamme) | Paires de base |
| Eukarya | 766 | 440 | (216-657) |
| Bacteria | 33,293 | 435 | (304–571) |
| Archaea | 2288 | 557 | (532–591) |
La création de ces bases de données a été décrite dans Comeau et al. 2011 et 2012. Brièvement, nous avons ciblé la région variable V4 du gène 18S ARNr pour les Eukarya, et la région variable V6-V8 du gène 16S ARNr pour les Bacteria et Archaea. À l’origine, les séquences de référence ont été importées de la base de données SILVA pour les Archaea et la base de données Greengenes pour les Bacteria. Ces séquences sont identifiées avec les numéros d’accession de la base de données de l’origine. Par contre, la base de données Eukarya a été rassemblée de novo en fonction des taxons retrouvés dans nos différentes études. Nous avons modifié les identifications taxonomiques afin de refléter les évolutions récentes dans la littérature et nous avons inclus des séquences de haute qualité provenant des banques de clones représentant des clades répandues dans les environnements aquatique arctiques et subarctique. L’identification des clones non cultivés est basée sur des arbres phylogénétiques robustes et les chimères potentielles ont été exclues en utilisant UCHIME (Edgar et al. 2011).
L’accent est mis sur les organismes unicellulaires, c’est pourquoi la couverture de la base de données Eukaryota pour les Metazoa, Fungi et Streptophyta (les plantes terrestres) est suffisante pour identifier et enlever ces séquences dans un échantillon. Cependant l’utilisation de la base de données est déconseillée pour une analyse taxonomique détaillée au sein de ces groupes. Dans le même esprit, les séquences de référence des chloroplastes sont incluses dans la base de données Bacteria avec comme but principal de les identifier pour les enlever de l’analyse.
Ces bases de données ont été utilisées avec succès dans de nombreuses études des communautés microbiennes dans des environnements côtiers et en pleine mer à des hautes latitudes (p. ex. Comeau et al. 2011, Monier et al. 2014), ainsi que dans des lacs et mares de hautes latitudes (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).
Références
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381
Citation des données
Lovejoy, C., Comeau, A., Thaler, M. 2016. Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens, v. 1.1. Nordicana D23, doi: 10.5885/45409XD-79A199B76BCC4110.
Carte de localisation
Publications clés
-
Comeau, A.M., T. Harding, P.E. Galand, W.F., Vincent, C. Lovejoy, 2012. Vertical distribution of microbial communities in a perennially stratified Arctic lake with saline, anoxic bottom waters. Scientific Reports, 2: 604.
DOI: 10.1038/srep00604 -
Comeau, A.M., W.K.W. Li, J.-É. Tremblay, E.C. Carmack, C. Lovejoy, 2011. Arctic Ocean microbial community structure before and after the 2007 record sea ice minimum. PLoS One, 6: e27492.
DOI: 10.1371/journal.pone.0027492 -
Crevecoeur, S., W.F. Vincent, J. Comte, C. Lovejoy, 2015. Bacterial community structure across environmental gradients in permafrost thaw ponds: methanotroph-rich ecosystems. Frontiers in Microbiology.
DOI: 10.3389/fmicb.2015.00192 -
Monier, A., J. Comte, M. Babin, A. Forest, A. Matsouka, C. Lovejoy, 2014. Oceanographic structure drives the assembly processes of microbial eukaryotic communities. ISME Journal.
DOI: 10.1038/ismej.2014.197 -
Negandhi, K., I. Laurion, C. Lovejoy, 2014. Bacterial communities and greenhouse gas emissions of shallow ponds in the High Arctic. Polar Biology.
DOI: 10.1007/s00300-014-1555-1
Collaborateurs
Comte, Jérôme
Université Laval
Crevecoeur, Sophie
Université Laval
Monier, Adam
University of Exeter
Onda, Deo
Université Laval
Potvin, Marianne
Université Laval
Historique des versions
-
Version 1.1 (2002–2008)Mise à jour le 1er mars 2016
-
Version 1.0 (2002–2008)Mise à jour le 11 décembre 2015
Vous pouvez faire une demande pour obtenir une ancienne version à nordicana@cen.ulaval.ca
Sites de mesure
| Site | Latitude | Longitude | Altitude (m) | |
|---|---|---|---|---|
| AO-NW01 | 75.99 | 156.87 | -5 | Plus d'info |
| Lake A | 83.03 | -75.43 | 5 | Plus d'info |
Documentation supplémentaire
Téléchargement
Les données disponibles au téléchargement sont au format ZIP. Veuillez citer correctement les données lorsque vous les utilisez.
