|
Nordicana D23 / DOI : 10.5885/45409XD-79A199B76BCC4110
|
Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens Curated reference database of SSU rRNA for northern marine and freshwater communities of Archaea, Bacteria and microbial eukaryotes
|
Connie Lovejoy 1, André Comeau 2, Mary Thaler 1
1 Université Laval 2 Dalhousie University
|
Résumé / Abstract
Les technologies de séquençage à haut débit, comme le pyroséquençage Roche 454 et l’Illumina, peuvent permettre l’étude semi quantitative des organismes unicellulaires, en générant des centaines de milliers de courtes séquences « reads » provenant d’un seul échantillon environnemental. Par contre, identifier les taxons correspondant à ces reads demande une base de données fiable contenant des séquences de référence.
Nous avons établi des bases de données des taxons des trois domaines de la vie retrouvés dans les échantillons marins et d’eau douce des région arctique et subarctique du Canada, ainsi qu’un fichier en format Fasta des séquences de référence ayant subit un contrôle qualité. Ces fichiers sont appropriés pour le traitement des données avec des logiciels libres tels que QIIME, mothur ou UPARSE, avec lesquels l’utilisateur veut assigner les identités taxonomiques aux séquences courtes en fonction du pourcentage de similarité des séquences.
Tableau 1. Nombre de séquences et longueur des séquences pour les trois bases de données taxonomiques
Domaine |
Nombre de séquences |
Longueur de séquence moyenne (gamme) |
Paires de base |
Eukarya |
766 |
440 |
(216-657) |
Bacteria |
33,293 |
435 |
(304–571) |
Archaea |
2288 |
557 |
(532–591) |
La création de ces bases de données a été décrite dans Comeau et al. 2011 et 2012. Brièvement, nous avons ciblé la région variable V4 du gène 18S ARNr pour les Eukarya, et la région variable V6-V8 du gène 16S ARNr pour les Bacteria et Archaea. À l’origine, les séquences de référence ont été importées de la base de données SILVA pour les Archaea et la base de données Greengenes pour les Bacteria. Ces séquences sont identifiées avec les numéros d’accession de la base de données de l’origine. Par contre, la base de données Eukarya a été rassemblée de novo en fonction des taxons retrouvés dans nos différentes études. Nous avons modifié les identifications taxonomiques afin de refléter les évolutions récentes dans la littérature et nous avons inclus des séquences de haute qualité provenant des banques de clones représentant des clades répandues dans les environnements aquatique arctiques et subarctique. L’identification des clones non cultivés est basée sur des arbres phylogénétiques robustes et les chimères potentielles ont été exclues en utilisant UCHIME (Edgar et al. 2011).
L’accent est mis sur les organismes unicellulaires, c’est pourquoi la couverture de la base de données Eukaryota pour les Metazoa, Fungi et Streptophyta (les plantes terrestres) est suffisante pour identifier et enlever ces séquences dans un échantillon. Cependant l’utilisation de la base de données est déconseillée pour une analyse taxonomique détaillée au sein de ces groupes. Dans le même esprit, les séquences de référence des chloroplastes sont incluses dans la base de données Bacteria avec comme but principal de les identifier pour les enlever de l’analyse.
Ces bases de données ont été utilisées avec succès dans de nombreuses études des communautés microbiennes dans des environnements côtiers et en pleine mer à des hautes latitudes (p. ex. Comeau et al. 2011, Monier et al. 2014), ainsi que dans des lacs et mares de hautes latitudes (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).
Références
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381
High throughput sequencing technologies, such as Roche 454 pyrosequencing and Illumina can enable semi-quantitative study of communities of single-celled organisms by generating hundreds of thousands of short sequence reads from a single environmental sample. However, to identify the taxa to which these reads belong requires a reliable database of reference sequences.
We maintain databases of taxa from all three domains of life found in marine and freshwater samples in the Canadian Arctic and subarctic, along with an accompanying file in Fasta format of the quality-checked reference sequences. These files are suitable for use in data-processing pipelines for next-generation sequencing using open-source software such as QIIME, mothur, or UPARSE, when the user wishes to assign taxonomic identities by sequence similarity to short reads.
Table 1. Number of sequences and sequence-length for three taxonomic databases
Domain |
Number of Sequences |
Mean sequence length (range) |
Base-pairs |
Eukarya |
766 |
440 |
(216-657) |
Bacteria |
33,293 |
435 |
(304–571) |
Archaea |
2288 |
557 |
(532–591) |
The creation of these databases has been described in Comeau et al. 2011 and 2012. Briefly, we targeted the V4 variable region of the 18S rRNA gene for Eukarya and the V6-V8 and V3-V5 variable regions of the 16S rRNA gene for Bacteria and Archaea respectively. Reference sequences were originally imported from the SILVA database for Archaea and the Greengenes database for Bacteria, and are labeled with the original accession numbers from these databases, while the Eukarya database was assembled de novo, based on taxa found in our studies. We have edited the taxonomic identifications to reflect recent developments in the literature and included high-quality sequences from environmental clone libraries alongside cultured representatives when the former represent clades that are widespread in arctic and subarctic aquatic environments. Taxonomic identification of uncultured clones is based on well-supported phylogenetic trees, and they have been rigorously screened for potential chimeras using UCHIME (Edgar et al. 2011).
Because our focus is on single-celled organisms, our coverage of Metazoa, Fungi, and Streptophyta (land plants) from the Eukaryota database is sufficient to identify and remove these sequences from a sample, but should not be used for detailed taxonomic analysis within these groups. By the same token, chloroplast reference sequences are included in the Bacteria database primarily with the goal of identifying and removing these sequences from analysis.
These databases have been successfully used in numerous studies of microbial communities in high-latitude coastal and offshore marine environments (e.g. Comeau et al. 2011, Monier et al. 2014), as well as high-latitude lakes and ponds (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).
References
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381
|
Citation des données / Data citation
|
Lovejoy, C., Comeau, A., Thaler, M. 2016. Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens, v. 1.1 (2002-2008). Nordicana D23, doi: 10.5885/45409XD-79A199B76BCC4110.
|
Lovejoy, C., Comeau, A., Thaler, M. 2016. Curated reference database of SSU rRNA for northern marine and freshwater communities of Archaea, Bacteria and microbial eukaryotes, v. 1.1 (2002-2008). Nordicana D23, doi: 10.5885/45409XD-79A199B76BCC4110.
|
Carte de localisation / Location map
|
Publications clés / Key references
|
| Comeau, A.M., T. Harding, P.E. Galand, W.F., Vincent, C. Lovejoy, 2012. Vertical distribution of microbial communities in a perennially stratified Arctic lake with saline, anoxic bottom waters. Scientific Reports, 2: 604. DOI: 10.1038/srep00604. |
| Comeau, A.M., W.K.W. Li, J.-É. Tremblay, E.C. Carmack, C. Lovejoy, 2011. Arctic Ocean microbial community structure before and after the 2007 record sea ice minimum. PLoS One, 6: e27492. DOI: 10.1371/journal.pone.0027492. |
| Crevecoeur, S., W.F. Vincent, J. Comte, C. Lovejoy, 2015. Bacterial community structure across environmental gradients in permafrost thaw ponds: methanotroph-rich ecosystems. Frontiers in Microbiology. DOI: 10.3389/fmicb.2015.00192. |
| Monier, A., J. Comte, M. Babin, A. Forest, A. Matsouka, C. Lovejoy, 2014. Oceanographic structure drives the assembly processes of microbial eukaryotic communities. ISME Journal. DOI: 10.1038/ismej.2014.197. |
| Negandhi, K., I. Laurion, C. Lovejoy, 2014. Bacterial communities and greenhouse gas emissions of shallow ponds in the High Arctic. Polar Biology. DOI: 10.1007/s00300-014-1555-1. |
|
|
Collaborateurs / Contributors
|
Comte, Jérôme (Université Laval)
|
Crevecoeur, Sophie (Université Laval)
|
Monier, Adam (University of Exeter)
|
Onda, Deo (Université Laval)
|
Potvin, Marianne (Université Laval)
|
|
Publié / Published
|
Historique des versions / Version history
|
Vous pouvez faire une demande pour obtenir les données des versions antérieures à nordicana@cen.ulaval.ca. You can request for data from previous versions at nordicana@cen.ulaval.ca.
|
Version 1.1 (2002-2008) - Mise à jour le 1 mars 2016 / Updated March 1, 2016
|
Version 1.0 (2002-2008) - Mise à jour le 11 décembre 2015 / Updated December 11, 2015
|
Sites de mesure / Measurement sites
|
|
Documentation supplémentaire / Supplementary material
|
|
Téléchargement (Cliquez le +/- pour les détails) Download (Click +/- for details)
|
Les fichiers téléchargés en format ZIP contiennent un fichier d'instruction et un fichier de données en format texte (ASCII). SVP! Citez toujours les données lorsque vous les utilisez.
|
Download ZIP file contains a readme file and a data file in text format (ASCII). Please! Always quote citation when using data.
|