Construire l’infrastructure pour une science de la biodiversité reproductible – Blog des méthodes

BIEN 4.2 : Une norme reproductible pour les données mondiales sur la biodiversité végétale
Message fourni par le groupe de travail BIEN
Pendant des centaines d’années, les biologistes ont soigneusement collecté des informations sur les plantes, les animaux et d’autres organismes et ont créé et entretenu d’énormes bibliothèques de spécimens physiques provenant du monde entier. Les spécimens sont collectés avec toutes sortes d’informations – il y a souvent un exemple physique, mais au-delà de cela, les scientifiques enregistrent où et quand l’échantillon a été collecté, par qui et quel était le nom d’espèce de cet organisme à ce moment de l’histoire. Les collections de ces spécimens dans les musées, herbiers et autres bibliothèques ont été essentielles aux scientifiques qui étudient la biodiversité.
Mais les spécimens ne constituent qu’un flux de données sur la biodiversité. Au cours des dernières décennies, les inventaires de parcelles écologiques, les recensements forestiers, les enquêtes sur la végétation et les mesures de caractères se sont développés rapidement. Les équipes de terrain grimpent dans la canopée tropicale pour mesurer la chimie des feuilles et l’architecture des branches. Les chercheurs établissent des tracés permanents pour suivre l’évolution démographique. Les campagnes sur les caractères quantifient la surface foliaire, la densité du bois, la masse des graines et les performances physiologiques selon les gradients. Plus récemment, les observations de la science citoyenne ont ajouté une nouvelle dimension. Ensemble, ces flux complémentaires mais différents génèrent désormais d’énormes quantités d’observations de la biodiversité dans l’espace et dans le temps.

Les mégadonnées sur la biodiversité sont essentielles à de nombreux grands défis de l’Anthropocène et de la biologie comparée. Historiquement, des spécimens peuvent être expédiés partout dans le monde pour être étudiés directement. Plus récemment, une grande partie des données associées aux spécimens physiques ont été saisies sur des feuilles de calcul et compilées dans de grandes bases de données. Désormais, les écologistes peuvent télécharger des millions d’observations d’espèces et les fusionner avec des données sur les traits, des données d’enquête, des couches environnementales ou des ressources génomiques pour cartographier la richesse, créer des modèles de distribution des espèces, quantifier les changements de biodiversité et tester les relations traits-environnement. Les données sur la biodiversité sous forme virtuelle sont désormais au cœur de la biologie comparée, de l’écologie moderne et de la biologie du changement global. Ces données rendent possibles des analyses qui étaient inimaginables il y a dix ans à peine.

Néanmoins, l’ampleur, la diversité, les biais et les diverses manières dont les données sur la biodiversité sont collectées introduisent désormais de nouveaux défis et limites scientifiques – Les métadonnées géographiques doivent être validées. Les noms d’espèces obsolètes ou synonymes doivent être rapprochés. La provenance doit être clarifiée. Quiconque a essayé d’utiliser les données sur la biodiversité à grande échelle sait qu’elles arrivent rarement sous une forme prête à être utilisée par la science. Les noms des espèces ne correspondent pas ou sont suspects. Les taxonomies ne sont pas d’accord. Les coordonnées tombent dans l’océan ou atterrissent dans des endroits curieux. Les divisions politiques sont mal orthographiées ou incohérentes. Les enregistrements sont dupliqués. Certaines observations proviennent de jardins botaniques plutôt que de populations sauvages. D’autres sont attribués aux centroïdes géographiques de pays ou de provinces, ce qui leur donne un aspect précis alors qu’ils ne le sont pas.
Un ensemble de données qui semble énorme et prometteur peut rapidement devenir un casse-tête d’erreurs cachées, de biais et d’incertitudes. Ces frustrations ne sont pas rares. Ils constituent une partie courante et croissante de l’analyse de données volumineuses sur la biodiversité.
De grosses mauvaises données ? Les écologistes ne devraient peut-être pas être surpris[1]. Dans le domaine de l’analyse commerciale à grande échelle, les entreprises consacrent environ 80 % de leur temps à la préparation et à la gestion des données à analyser.[2]… De la même manière, en science des données, il est souvent cité que la plupart du travail se déroule avant qu’un algorithme ne soit appliqué, de sorte que « la science des données est une préparation à 99 % ».
La différence est pas que la science de la biodiversité se caractérise par des données désordonnées. C’est que nous avons manqué de normes communes et reproductibles pour résoudre ces problèmes. L’absence de normes communes pour l’intégration et la validation des données impose deux contraintes fondamentales à la science de la biodiversité. Premièrement, les conclusions tirées de vastes ensembles de données peuvent être biaisées et l’ampleur des effets peut être diluée par des erreurs non reconnues. Ces incohérences dans les données se propagent à travers les modèles et les prévisions, souvent de manière invisible. Deuxièmement, notre science devient difficile à reproduire car les décisions de nettoyage des données sont nombreuses, rarement standardisées et souvent peu transparentes. Le problème est qu’il devient difficile de déterminer si les différences entre les études reflètent des processus biologiques ou des sources de données et des choix de prétraitement divergents.
Si ces problèmes de données ne sont pas détectés à temps, ils peuvent façonner les conclusions scientifiques d’une manière difficile à détecter. Même lorsque les chercheurs sont prudents, il est souvent difficile de savoir si deux études diffèrent pour des raisons écologiques ou à cause de décisions de nettoyage des données qui n’ont jamais été entièrement documentées. Par exemple, les estimations de la richesse spécifique peuvent être gonflées parce que les synonymes sont traités comme des taxons distincts. Les cartes de répartition peuvent être déformées car une poignée de mauvaises coordonnées poussent les espèces vers les mauvais biomes. Les modèles peuvent devenir instables parce que les distributions « natives » incluent discrètement les enregistrements cultivés.
Pourquoi BIEN ? Nous avons construit le BIEN (le Réseau d’Information Botanique et d’Ecologie, voir http://www.biendata.org) pour éviter d’avoir à résoudre encore et encore ces mêmes problèmes de données (Figure 2). Le résultat est une suite d’analyses et de filtres qui aident à établir une norme reproductible pour la communauté scientifique de la biodiversité en matière d’intégration et de nettoyage des données.
BIEN a débuté en 2008 comme un effort communautaire visant à intégrer des données mondiales sur la biodiversité végétale. Au fil du temps, BIEN est devenu bien plus qu’une base de données. Il s’agit d’un effort international visant à développer un écosystème de flux de travail reproductible qui rend les données sur la biodiversité interopérables, transparentes et réutilisables.
Dans notre article récemment accepté dans Methods in Ecology and Evolution (BIEN : un écosystème informatique sur la biodiversité faisant progresser les flux de travail ouverts et reproductibles pour l’observation des plantes, les données sur les parcelles et les traits), nous décrivons les mises à jour majeures de BIEN : la version 4.2 de la base de données BIEN, ainsi qu’un ensemble croissant d’outils conçus pour résoudre les problèmes les plus courants liés aux données sur la biodiversité.

BIEN comprend quatre services de base de normalisation et de nettoyage des données pour intégrer des sources de données disparates. Beaucoup de ces outils peuvent être utilisés indépendamment ou ensemble comme pipeline pour les installations. et données animales, ainsi que d’autres données d’observation, et sont donc utiles pour d’autres applications et non spécialisées dans les occurrences végétales. Le résultat final est que ces services peuvent produire des ensembles de données prêts à être analysés.
● Le Service de résolution de noms taxonomiques (TNRS) normalise les noms scientifiques et résout les fautes d’orthographe et les synonymes. https://tnrs.biendata.org/
● Le Service de résolution de noms géographiques (GNRS) normalise les noms des divisions politiques dans tous les pays et régions. https://gnrs.biendata.org/
● Le service de validation de géocoordonnées (GVS) signale les coordonnées invalides ou suspectes, y compris les erreurs courantes de centroïde. https://gvs.biendata.org/
● Le résolveur d’espèces indigènes (NSR) aide à distinguer les enregistrements indigènes des occurrences introduites ou cultivées. https://nsr.biendata.org/
BIEN comprend également une base de données mondiale intégrée et standardisée d’observations de plantes. qui ont été transmises par le pipeline de normalisation des données BIEN. BIEN 4.2 est désormais l’une des plus grandes ressources standardisées de biodiversité végétale disponibles. Il intègre :
- 284 millions de relevés d’occurrences de plantes
- 363 258 parcelles écologiques
- 25 932 454 observations de traits
- 54 caractères végétaux standardisés
- cartes de répartition de près de 113 000 espèces végétales
Ces données comprennent des spécimens d’herbier, des inventaires de parcelles, des observations scientifiques citoyennes et des ensembles de données sur les traits rassemblés à partir de centaines d’études. Ces données sont désormais accessibles via le BIEN R package. Cependant, la contribution la plus importante du BIEN n’est pas simplement l’échelle. Il s’agit d’une infrastructure accessible et de qualité contrôlée pour la science de la biodiversité végétale.
BIEN joint les informations de contrôle qualité directement aux enregistrements, permettant aux utilisateurs de filtrer les données explicitement plutôt que de s’appuyer sur des hypothèses cachées. Ce faisant, BIEN déplace la biodiversité végétale d’ensembles de données fragmentés vers une infrastructure reproductible et prête à l’inférence, capable de soutenir la planification de la conservation, la macroécologie et la recherche sur les changements globaux.
Une leçon qui donne à réfléchir de BIEN est la fréquence à laquelle ces contrôles sont importants. Même dans les plus grands ensembles de données sur la biodiversité, environ 50 % des enregistrements d’observation sont erronés d’une manière ou d’une autre : Les erreurs incluent des incohérences taxonomiques, des problèmes géographiques ou une incertitude quant à savoir si les occurrences représentent des populations sauvages. Dans BIEN 4.2, seulement environ la moitié des enregistrements originaux passent des filtres de validation taxonomiques et géographiques combinés stricts.
Utilisations pratiques – Un exemple pratique vient de la conservation. En collaboration avec l’UNESCO, nous avons utilisé BIEN pour estimer l’étendue de la diversité végétale au sein des sites du patrimoine mondial de l’UNESCO. Cela nécessitait d’harmoniser les noms, de valider les coordonnées et de filtrer les enregistrements introduits et cultivés. À l’aide d’un flux de travail BIEN entièrement reproductible, nous estimons que les sites du patrimoine mondial de l’UNESCO contiennent environ 74 295 espèces végétales, dont plus de 2 000 espèces menacées. Sans normalisation, les estimations de richesse auraient été considérablement gonflées par des synonymes, une taxonomie incohérente et des données géographiques erronées. Ce résultat montre pourquoi l’informatique de la biodiversité n’est pas seulement un détail technique : elle façonne l’inférence écologique et les décisions de conservation.
En créant BIEN, nous visons à faire gagner du temps aux chercheurs, à éviter les erreurs évitables et à fournir des outils pour une science de la biodiversité reproductible. Malgré leur rôle fondamental dans les écosystèmes, les plantes sont souvent sous-représentées dans les priorités mondiales en matière de conservation – souvent réduites à des stocks de carbone ou à de grandes catégories de biomes plutôt que traitées comme des lignées évolutives diverses avec des rôles écologiques distincts. BIEN contribue à combler cette lacune en fournissant des données standardisées et validées sur l’occurrence des plantes, les parcelles et les caractères à une échelle sans précédent.
Nous espérons également que BIEN pourra aider la communauté écologique à construire une base commune et reproductible pour la science de la biodiversité. Enfin, nous prévoyons que la mise à disposition gratuite de ces données, ainsi que des outils open source, favorisera une adoption généralisée et favorisera les contributions et le perfectionnement continus de la communauté des chercheurs, des praticiens et des autres parties prenantes intéressées.
Lire l’article complet ici.
[1] https://dynamicecology.wordpress.com/2016/08/22/ten-commandments-for-good-data-management/
[2]https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-saysdata-cleaning les décisions sont des facteurs nuécologiques ou dus au nettoyage des données, nombreux, rarement standardisés, et souvent /
