--%>
 
Nordicana D23 / DOI : 10.5885/45409XD-79A199B76BCC4110
Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens
Curated reference database of SSU rRNA for northern marine and freshwater communities of Archaea, Bacteria and microbial eukaryotes
Connie Lovejoy 1, André Comeau 2, Mary Thaler 1

1 Université Laval
2 Dalhousie University

Résumé / Abstract
Les technologies de séquençage à haut débit, comme le pyroséquençage Roche 454 et l’Illumina, peuvent permettre l’étude semi quantitative des organismes unicellulaires, en générant des centaines de milliers de courtes séquences « reads » provenant d’un seul échantillon environnemental. Par contre, identifier les taxons correspondant à ces reads demande une base de données fiable contenant des séquences de référence.
Nous avons établi des bases de données des taxons des trois domaines de la vie retrouvés dans les échantillons marins et d’eau douce des région arctique et subarctique du Canada, ainsi qu’un fichier en format Fasta des séquences de référence ayant subit un contrôle qualité. Ces fichiers sont appropriés pour le traitement des données avec des logiciels libres tels que QIIME, mothur ou UPARSE, avec lesquels l’utilisateur veut assigner les identités taxonomiques aux séquences courtes en fonction du pourcentage de similarité des séquences.

Tableau 1. Nombre de séquences et longueur des séquences pour les trois bases de données taxonomiques

Domaine Nombre de séquences Longueur de séquence moyenne (gamme) Paires de base
Eukarya 766 440 (216-657)
Bacteria 33,293 435 (304–571)
Archaea 2288 557 (532–591)


La création de ces bases de données a été décrite dans Comeau et al. 2011 et 2012. Brièvement, nous avons ciblé la région variable V4 du gène 18S ARNr pour les Eukarya, et la région variable V6-V8 du gène 16S ARNr pour les Bacteria et Archaea. À l’origine, les séquences de référence ont été importées de la base de données SILVA pour les Archaea et la base de données Greengenes pour les Bacteria. Ces séquences sont identifiées avec les numéros d’accession de la base de données de l’origine. Par contre, la base de données Eukarya a été rassemblée de novo en fonction des taxons retrouvés dans nos différentes études. Nous avons modifié les identifications taxonomiques afin de refléter les évolutions récentes dans la littérature et nous avons inclus des séquences de haute qualité provenant des banques de clones représentant des clades répandues dans les environnements aquatique arctiques et subarctique. L’identification des clones non cultivés est basée sur des arbres phylogénétiques robustes et les chimères potentielles ont été exclues en utilisant UCHIME (Edgar et al. 2011).
L’accent est mis sur les organismes unicellulaires, c’est pourquoi la couverture de la base de données Eukaryota pour les Metazoa, Fungi et Streptophyta (les plantes terrestres) est suffisante pour identifier et enlever ces séquences dans un échantillon. Cependant l’utilisation de la base de données est déconseillée pour une analyse taxonomique détaillée au sein de ces groupes. Dans le même esprit, les séquences de référence des chloroplastes sont incluses dans la base de données Bacteria avec comme but principal de les identifier pour les enlever de l’analyse.
Ces bases de données ont été utilisées avec succès dans de nombreuses études des communautés microbiennes dans des environnements côtiers et en pleine mer à des hautes latitudes (p. ex. Comeau et al. 2011, Monier et al. 2014), ainsi que dans des lacs et mares de hautes latitudes (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).

Références
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381



High throughput sequencing technologies, such as Roche 454 pyrosequencing and Illumina can enable semi-quantitative study of communities of single-celled organisms by generating hundreds of thousands of short sequence reads from a single environmental sample. However, to identify the taxa to which these reads belong requires a reliable database of reference sequences.
We maintain databases of taxa from all three domains of life found in marine and freshwater samples in the Canadian Arctic and subarctic, along with an accompanying file in Fasta format of the quality-checked reference sequences. These files are suitable for use in data-processing pipelines for next-generation sequencing using open-source software such as QIIME, mothur, or UPARSE, when the user wishes to assign taxonomic identities by sequence similarity to short reads.

Table 1. Number of sequences and sequence-length for three taxonomic databases

Domain Number of Sequences Mean sequence length (range) Base-pairs
Eukarya 766 440 (216-657)
Bacteria 33,293 435 (304–571)
Archaea 2288 557 (532–591)


The creation of these databases has been described in Comeau et al. 2011 and 2012. Briefly, we targeted the V4 variable region of the 18S rRNA gene for Eukarya and the V6-V8 and V3-V5 variable regions of the 16S rRNA gene for Bacteria and Archaea respectively. Reference sequences were originally imported from the SILVA database for Archaea and the Greengenes database for Bacteria, and are labeled with the original accession numbers from these databases, while the Eukarya database was assembled de novo, based on taxa found in our studies. We have edited the taxonomic identifications to reflect recent developments in the literature and included high-quality sequences from environmental clone libraries alongside cultured representatives when the former represent clades that are widespread in arctic and subarctic aquatic environments. Taxonomic identification of uncultured clones is based on well-supported phylogenetic trees, and they have been rigorously screened for potential chimeras using UCHIME (Edgar et al. 2011).
Because our focus is on single-celled organisms, our coverage of Metazoa, Fungi, and Streptophyta (land plants) from the Eukaryota database is sufficient to identify and remove these sequences from a sample, but should not be used for detailed taxonomic analysis within these groups. By the same token, chloroplast reference sequences are included in the Bacteria database primarily with the goal of identifying and removing these sequences from analysis.
These databases have been successfully used in numerous studies of microbial communities in high-latitude coastal and offshore marine environments (e.g. Comeau et al. 2011, Monier et al. 2014), as well as high-latitude lakes and ponds (Comeau et al. 2012, Negandhi et al. 2014, Crevecoeur et al. 2015).

References
Edgar, R.C., B.J. Haas, J.C. Clemente, C. Quince, R. Knight, 2011. UCHIME improves sensitivity and speed of chimera detection. Bioinformatics. doi: 10.1093/bioinformatics/btr381
Citation des données / Data citation
Lovejoy, C., Comeau, A., Thaler, M. 2016. Base de données de référence du gène ARNr SSU pour les communautés marines et d'eau douce nordiques d’Archaea, Bacteria et eucaryotes microbiens, v. 1.1 (2002-2008). Nordicana D23, doi: 10.5885/45409XD-79A199B76BCC4110.
Lovejoy, C., Comeau, A., Thaler, M. 2016. Curated reference database of SSU rRNA for northern marine and freshwater communities of Archaea, Bacteria and microbial eukaryotes, v. 1.1 (2002-2008). Nordicana D23, doi: 10.5885/45409XD-79A199B76BCC4110.
Carte de localisation / Location map

Publications clés / Key references
Comeau, A.M., T. Harding, P.E. Galand, W.F., Vincent, C. Lovejoy, 2012. Vertical distribution of microbial communities in a perennially stratified Arctic lake with saline, anoxic bottom waters. Scientific Reports, 2: 604. DOI: 10.1038/srep00604.
Comeau, A.M., W.K.W. Li, J.-É. Tremblay, E.C. Carmack, C. Lovejoy, 2011. Arctic Ocean microbial community structure before and after the 2007 record sea ice minimum. PLoS One, 6: e27492. DOI: 10.1371/journal.pone.0027492.
Crevecoeur, S., W.F. Vincent, J. Comte, C. Lovejoy, 2015. Bacterial community structure across environmental gradients in permafrost thaw ponds: methanotroph-rich ecosystems. Frontiers in Microbiology. DOI: 10.3389/fmicb.2015.00192.
Monier, A., J. Comte, M. Babin, A. Forest, A. Matsouka, C. Lovejoy, 2014. Oceanographic structure drives the assembly processes of microbial eukaryotic communities. ISME Journal. DOI: 10.1038/ismej.2014.197.
Negandhi, K., I. Laurion, C. Lovejoy, 2014. Bacterial communities and greenhouse gas emissions of shallow ponds in the High Arctic. Polar Biology. DOI: 10.1007/s00300-014-1555-1.
Collaborateurs / Contributors
Comte, Jérôme (Université Laval)
Crevecoeur, Sophie (Université Laval)
Monier, Adam (University of Exeter)
Onda, Deo (Université Laval)
Potvin, Marianne (Université Laval)
Statut / Status
Publié / Published
Historique des versions / Version history
Vous pouvez faire une demande pour obtenir les données des versions antérieures à nordicana@cen.ulaval.ca.
You can request for data from previous versions at nordicana@cen.ulaval.ca.

Version 1.1 (2002-2008) - Mise à jour le 1 mars 2016 / Updated March 1, 2016
Version 1.0 (2002-2008) - Mise à jour le 11 décembre 2015 / Updated December 11, 2015

Sites de mesure / Measurement sites
 SiteLatitudeLongitudeAltitude (m)
Plus d'info
More info
AO-NW01
75.990156.870-5.0
Plus d'info
More info
Lake A
83.030-75.4305.0

Documentation supplémentaire / Supplementary material

Téléchargement (Cliquez le +/- pour les détails)
Download (Click +/- for details)
Les fichiers téléchargés en format ZIP contiennent un fichier d'instruction et un fichier de données en format texte (ASCII).
SVP! Citez toujours les données lorsque vous les utilisez.
Download ZIP file contains a readme file and a data file in text format (ASCII).
Please! Always quote citation when using data.
Masquer les détails / Hide details  
Skip Navigation Links.
- AO-NW01 - séquences du gène ARNr (Eukarya) - rRNA gene sequences (Eukarya)Obtenir le fichier / Get file
Fichier de données / Data file: Eukarya_SSU_V4_dec2015.fas
Taille / Size: 75 kb
Sites
AO-NW01
Données / Data
séquences du gène ARNr (Eukarya) / rRNA gene sequences (Eukarya)
08/2002 - 05/2008
- AO-NW01 - Taxonomie (Eukarya) - Taxonomy (Eukarya)Obtenir le fichier / Get file
Fichier de données / Data file: Eukarya_SSU_V4_dec2015.tax
Taille / Size: 129 kb
Sites
AO-NW01
Données / Data
Taxonomie (Eukarya) / Taxonomy (Eukarya)
08/2002 - 05/2008
- Lake A - séquences du gène ARNr (Archaea) - rRNA gene sequences (Archaea)Obtenir le fichier / Get file
Fichier de données / Data file: Archaea_SSU_rRNA__V35_fev2015.fas
Taille / Size: 106 kb
Sites
Lake A
Données / Data
séquences du gène ARNr (Archaea) / rRNA gene sequences (Archaea)
08/2002 - 05/2008
- Lake A - séquences du gène ARNr (Bacteria) - rRNA gene sequences (Bacteria)Obtenir le fichier / Get file
Fichier de données / Data file: Bacteria_SSU_V6V8_oct2015.fas
Taille / Size: 1878 kb
Sites
Lake A
Données / Data
séquences du gène ARNr (Bacteria) / rRNA gene sequences (Bacteria)
08/2002 - 05/2008
- Lake A - Taxonomie (Archaea) - Taxonomy (Archaea)Obtenir le fichier / Get file
Fichier de données / Data file: Archaea_SSU_rRNA_V35_fev2015.tax
Taille / Size: 123 kb
Sites
Lake A
Données / Data
Taxonomie (Archaea) / Taxonomy (Archaea)
08/2002 - 05/2008
- Lake A - Taxonomie (Bacteria) - Taxonomy (Bacteria)Obtenir le fichier / Get file
Fichier de données / Data file: Bacteria_SSU_V6V8_oct2015.tax
Taille / Size: 300 kb
Sites
Lake A
Données / Data
Taxonomie (Bacteria) / Taxonomy (Bacteria)
08/2002 - 05/2008