Tandem repeats lead to sequence assembly errors and impose multi-level challenges for genome and protein databases - Université de Montpellier Accéder directement au contenu
Article Dans Une Revue Nucleic Acids Research Année : 2019

Tandem repeats lead to sequence assembly errors and impose multi-level challenges for genome and protein databases

Ole Tørresen
  • Fonction : Auteur
Bastiaan Star
  • Fonction : Auteur
Pablo Mier
  • Fonction : Auteur
Miguel Andrade-Navarro
  • Fonction : Auteur
Alex Bateman
  • Fonction : Auteur
Patryk Jarnot
  • Fonction : Auteur
Aleksandra Gruca
  • Fonction : Auteur
Marcin Grynberg
  • Fonction : Auteur
Vasilis Promponas
  • Fonction : Auteur
Maria Anisimova
Kjetill Jakobsen
  • Fonction : Auteur
Dirk Linke
  • Fonction : Auteur

Résumé

The widespread occurrence of repetitive stretches of DNA in genomes of organisms across the tree of life imposes fundamental challenges for sequencing, genome assembly, and automated annotation of genes and proteins. This multi-level problem can lead to errors in genome and protein databases that are often not recognized or acknowledged. As a consequence, end users working with sequences with repetitive regions are faced with 'ready-to-use' deposited data whose trustworthiness is difficult to determine, let alone to quantify. Here, we provide a review of the problems associated with tandem repeat sequences that originate from different stages during the sequencing-assembly-annotationdeposition workflow, and that may proliferate in public database repositories affecting all downstream
Fichier principal
Vignette du fichier
Ole-NAR-2020.pdf (782.09 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03089273 , version 1 (30-12-2020)

Identifiants

Citer

Ole Tørresen, Bastiaan Star, Pablo Mier, Miguel Andrade-Navarro, Alex Bateman, et al.. Tandem repeats lead to sequence assembly errors and impose multi-level challenges for genome and protein databases. Nucleic Acids Research, 2019, 47 (21), pp.10994-11006. ⟨10.1093/nar/gkz841⟩. ⟨hal-03089273⟩
69 Consultations
176 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More