Fermer

30/03/2026

Construire l’infrastructure pour une science de la biodiversité reproductible – Blog des méthodes


BIEN 4.2 : Une norme reproductible pour les données mondiales sur la biodiversité végétale

Message fourni par le groupe de travail BIEN

Pendant des centaines d’années, les biologistes ont soigneusement collecté des informations sur les plantes, les animaux et d’autres organismes et ont créé et entretenu d’énormes bibliothèques de spécimens physiques provenant du monde entier. Les spécimens sont collectés avec toutes sortes d’informations – il y a souvent un exemple physique, mais au-delà de cela, les scientifiques enregistrent où et quand l’échantillon a été collecté, par qui et quel était le nom d’espèce de cet organisme à ce moment de l’histoire. Les collections de ces spécimens dans les musées, herbiers et autres bibliothèques ont été essentielles aux scientifiques qui étudient la biodiversité.

Mais les spécimens ne constituent qu’un flux de données sur la biodiversité. Au cours des dernières décennies, les inventaires de parcelles écologiques, les recensements forestiers, les enquêtes sur la végétation et les mesures de caractères se sont développés rapidement. Les équipes de terrain grimpent dans la canopée tropicale pour mesurer la chimie des feuilles et l’architecture des branches. Les chercheurs établissent des tracés permanents pour suivre l’évolution démographique. Les campagnes sur les caractères quantifient la surface foliaire, la densité du bois, la masse des graines et les performances physiologiques selon les gradients. Plus récemment, les observations de la science citoyenne ont ajouté une nouvelle dimension. Ensemble, ces flux complémentaires mais différents génèrent désormais d’énormes quantités d’observations de la biodiversité dans l’espace et dans le temps.

Figure 1. (en haut) Un spécimen végétal de la flore de Cuba. Cette espèce a récemment été déplacée vers la famille des Phyllanthacées suite à une révision taxonomique d’experts. Les bases de données mondiales permettent aux scientifiques d’accéder aux spécimens sans se déplacer et peuvent fournir des informations taxonomiques à jour. Photo de E. Newman.

Les mégadonnées sur la biodiversité sont essentielles à de nombreux grands défis de l’Anthropocène et de la biologie comparée. Historiquement, des spécimens peuvent être expédiés partout dans le monde pour être étudiés directement. Plus récemment, une grande partie des données associées aux spécimens physiques ont été saisies sur des feuilles de calcul et compilées dans de grandes bases de données. Désormais, les écologistes peuvent télécharger des millions d’observations d’espèces et les fusionner avec des données sur les traits, des données d’enquête, des couches environnementales ou des ressources génomiques pour cartographier la richesse, créer des modèles de distribution des espèces, quantifier les changements de biodiversité et tester les relations traits-environnement. Les données sur la biodiversité sous forme virtuelle sont désormais au cœur de la biologie comparée, de l’écologie moderne et de la biologie du changement global. Ces données rendent possibles des analyses qui étaient inimaginables il y a dix ans à peine.

Figure 2 : Au Pérou, des chercheurs sur le terrain échantillonnent des branches et des feuilles de la canopée supérieure d’une forêt tropicale. Les enquêtes écologiques et les collections de traits génèrent désormais des millions d’observations supplémentaires sur la biodiversité qui complètent les spécimens de musée. Photo B. Blonder.

Néanmoins, l’ampleur, la diversité, les biais et les diverses manières dont les données sur la biodiversité sont collectées introduisent désormais de nouveaux défis et limites scientifiques – Les métadonnées géographiques doivent être validées. Les noms d’espèces obsolètes ou synonymes doivent être rapprochés. La provenance doit être clarifiée. Quiconque a essayé d’utiliser les données sur la biodiversité à grande échelle sait qu’elles arrivent rarement sous une forme prête à être utilisée par la science. Les noms des espèces ne correspondent pas ou sont suspects. Les taxonomies ne sont pas d’accord. Les coordonnées tombent dans l’océan ou atterrissent dans des endroits curieux. Les divisions politiques sont mal orthographiées ou incohérentes. Les enregistrements sont dupliqués. Certaines observations proviennent de jardins botaniques plutôt que de populations sauvages. D’autres sont attribués aux centroïdes géographiques de pays ou de provinces, ce qui leur donne un aspect précis alors qu’ils ne le sont pas.

Un ensemble de données qui semble énorme et prometteur peut rapidement devenir un casse-tête d’erreurs cachées, de biais et d’incertitudes. Ces frustrations ne sont pas rares. Ils constituent une partie courante et croissante de l’analyse de données volumineuses sur la biodiversité.

De grosses mauvaises données ? Les écologistes ne devraient peut-être pas être surpris[1]. Dans le domaine de l’analyse commerciale à grande échelle, les entreprises consacrent environ 80 % de leur temps à la préparation et à la gestion des données à analyser.[2]… De la même manière, en science des données, il est souvent cité que la plupart du travail se déroule avant qu’un algorithme ne soit appliqué, de sorte que « la science des données est une préparation à 99 % ».

La différence est pas que la science de la biodiversité se caractérise par des données désordonnées. C’est que nous avons manqué de normes communes et reproductibles pour résoudre ces problèmes. L’absence de normes communes pour l’intégration et la validation des données impose deux contraintes fondamentales à la science de la biodiversité. Premièrement, les conclusions tirées de vastes ensembles de données peuvent être biaisées et l’ampleur des effets peut être diluée par des erreurs non reconnues. Ces incohérences dans les données se propagent à travers les modèles et les prévisions, souvent de manière invisible. Deuxièmement, notre science devient difficile à reproduire car les décisions de nettoyage des données sont nombreuses, rarement standardisées et souvent peu transparentes. Le problème est qu’il devient difficile de déterminer si les différences entre les études reflètent des processus biologiques ou des sources de données et des choix de prétraitement divergents.

Si ces problèmes de données ne sont pas détectés à temps, ils peuvent façonner les conclusions scientifiques d’une manière difficile à détecter. Même lorsque les chercheurs sont prudents, il est souvent difficile de savoir si deux études diffèrent pour des raisons écologiques ou à cause de décisions de nettoyage des données qui n’ont jamais été entièrement documentées. Par exemple, les estimations de la richesse spécifique peuvent être gonflées parce que les synonymes sont traités comme des taxons distincts. Les cartes de répartition peuvent être déformées car une poignée de mauvaises coordonnées poussent les espèces vers les mauvais biomes. Les modèles peuvent devenir instables parce que les distributions « natives » incluent discrètement les enregistrements cultivés.

Pourquoi BIEN ? Nous avons construit le BIEN (le Réseau d’Information Botanique et d’Ecologie, voir http://www.biendata.org) pour éviter d’avoir à résoudre encore et encore ces mêmes problèmes de données (Figure 2). Le résultat est une suite d’analyses et de filtres qui aident à établir une norme reproductible pour la communauté scientifique de la biodiversité en matière d’intégration et de nettoyage des données.

BIEN a débuté en 2008 comme un effort communautaire visant à intégrer des données mondiales sur la biodiversité végétale. Au fil du temps, BIEN est devenu bien plus qu’une base de données. Il s’agit d’un effort international visant à développer un écosystème de flux de travail reproductible qui rend les données sur la biodiversité interopérables, transparentes et réutilisables.

Dans notre article récemment accepté dans Methods in Ecology and Evolution (BIEN : un écosystème informatique sur la biodiversité faisant progresser les flux de travail ouverts et reproductibles pour l’observation des plantes, les données sur les parcelles et les traits), nous décrivons les mises à jour majeures de BIEN : la version 4.2 de la base de données BIEN, ainsi qu’un ensemble croissant d’outils conçus pour résoudre les problèmes les plus courants liés aux données sur la biodiversité.

Graphique 2. Les problèmes liés aux données sur la biodiversité sont courants et comprennent de multiples problèmes. BIEN fournit des outils qui détectent précocement les problèmes courants et permettent un filtrage transparent pour des analyses reproductibles. Le workflow BIEN se compose de quatre services clés. Cette figure illustre le flux de travail modulaire de BIEN pour intégrer et harmoniser divers ensembles de données d’observation. Toutes les observations de données entrant dans le flux de travail BIEN sont transmises via quatre services clés : (1) le service de résolution de noms taxonomiques (TNRS), qui résout les incohérences taxonomiques ; (2) le Service de résolution de noms géographiques (GNRS), qui normalise les métadonnées géographiques ; (3) le service de validation des géocoordonnées (GVS), qui signale les erreurs spatiales et valide les coordonnées ; et (4) le Native Species Resolver (NSR), qui détermine le statut d’espèce indigène et cultivée. Ces services complètent chaque enregistrement d’observation avec de nombreuses informations supplémentaires et « drapeaux » que l’utilisateur peut utiliser pour filtrer et sous-ensembler les données pour diverses analyses de niveau supérieur. Ces services fonctionnent de manière indépendante ou synchronisée et sont accessibles via des API (interfaces de programmation d’applications) et le package BIEN R. Le flux de travail rationalise le nettoyage et la préparation des données, permettant aux chercheurs de générer des ensembles de données standardisés et fiables pour des analyses de biodiversité à grande échelle avec une harmonisation supplémentaire minimale. Ce système flexible et interopérable prend en charge la reproductibilité et une large applicabilité dans la recherche écologique et évolutive.

BIEN comprend quatre services de base de normalisation et de nettoyage des données pour intégrer des sources de données disparates. Beaucoup de ces outils peuvent être utilisés indépendamment ou ensemble comme pipeline pour les installations. et données animales, ainsi que d’autres données d’observation, et sont donc utiles pour d’autres applications et non spécialisées dans les occurrences végétales. Le résultat final est que ces services peuvent produire des ensembles de données prêts à être analysés.

Le Service de résolution de noms taxonomiques (TNRS) normalise les noms scientifiques et résout les fautes d’orthographe et les synonymes. https://tnrs.biendata.org/

Le Service de résolution de noms géographiques (GNRS) normalise les noms des divisions politiques dans tous les pays et régions. https://gnrs.biendata.org/

Le service de validation de géocoordonnées (GVS) signale les coordonnées invalides ou suspectes, y compris les erreurs courantes de centroïde. https://gvs.biendata.org/

Le résolveur d’espèces indigènes (NSR) aide à distinguer les enregistrements indigènes des occurrences introduites ou cultivées. https://nsr.biendata.org/

BIEN comprend également une base de données mondiale intégrée et standardisée d’observations de plantes. qui ont été transmises par le pipeline de normalisation des données BIEN. BIEN 4.2 est désormais l’une des plus grandes ressources standardisées de biodiversité végétale disponibles. Il intègre :

  • 284 millions de relevés d’occurrences de plantes
  • 363 258 parcelles écologiques
  • 25 932 454 observations de traits
  • 54 caractères végétaux standardisés
  • cartes de répartition de près de 113 000 espèces végétales

Ces données comprennent des spécimens d’herbier, des inventaires de parcelles, des observations scientifiques citoyennes et des ensembles de données sur les traits rassemblés à partir de centaines d’études. Ces données sont désormais accessibles via le BIEN R package. Cependant, la contribution la plus importante du BIEN n’est pas simplement l’échelle. Il s’agit d’une infrastructure accessible et de qualité contrôlée pour la science de la biodiversité végétale.

BIEN joint les informations de contrôle qualité directement aux enregistrements, permettant aux utilisateurs de filtrer les données explicitement plutôt que de s’appuyer sur des hypothèses cachées. Ce faisant, BIEN déplace la biodiversité végétale d’ensembles de données fragmentés vers une infrastructure reproductible et prête à l’inférence, capable de soutenir la planification de la conservation, la macroécologie et la recherche sur les changements globaux.

Une leçon qui donne à réfléchir de BIEN est la fréquence à laquelle ces contrôles sont importants. Même dans les plus grands ensembles de données sur la biodiversité, environ 50 % des enregistrements d’observation sont erronés d’une manière ou d’une autre : Les erreurs incluent des incohérences taxonomiques, des problèmes géographiques ou une incertitude quant à savoir si les occurrences représentent des populations sauvages. Dans BIEN 4.2, seulement environ la moitié des enregistrements originaux passent des filtres de validation taxonomiques et géographiques combinés stricts.

Utilisations pratiques – Un exemple pratique vient de la conservation. En collaboration avec l’UNESCO, nous avons utilisé BIEN pour estimer l’étendue de la diversité végétale au sein des sites du patrimoine mondial de l’UNESCO. Cela nécessitait d’harmoniser les noms, de valider les coordonnées et de filtrer les enregistrements introduits et cultivés. À l’aide d’un flux de travail BIEN entièrement reproductible, nous estimons que les sites du patrimoine mondial de l’UNESCO contiennent environ 74 295 espèces végétales, dont plus de 2 000 espèces menacées. Sans normalisation, les estimations de richesse auraient été considérablement gonflées par des synonymes, une taxonomie incohérente et des données géographiques erronées. Ce résultat montre pourquoi l’informatique de la biodiversité n’est pas seulement un détail technique : elle façonne l’inférence écologique et les décisions de conservation.

En créant BIEN, nous visons à faire gagner du temps aux chercheurs, à éviter les erreurs évitables et à fournir des outils pour une science de la biodiversité reproductible. Malgré leur rôle fondamental dans les écosystèmes, les plantes sont souvent sous-représentées dans les priorités mondiales en matière de conservation – souvent réduites à des stocks de carbone ou à de grandes catégories de biomes plutôt que traitées comme des lignées évolutives diverses avec des rôles écologiques distincts. BIEN contribue à combler cette lacune en fournissant des données standardisées et validées sur l’occurrence des plantes, les parcelles et les caractères à une échelle sans précédent.

Nous espérons également que BIEN pourra aider la communauté écologique à construire une base commune et reproductible pour la science de la biodiversité. Enfin, nous prévoyons que la mise à disposition gratuite de ces données, ainsi que des outils open source, favorisera une adoption généralisée et favorisera les contributions et le perfectionnement continus de la communauté des chercheurs, des praticiens et des autres parties prenantes intéressées.

Lire l’article complet ici.

[1] https://dynamicecology.wordpress.com/2016/08/22/ten-commandments-for-good-data-management/

[2]https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-saysdata-cleaning les décisions sont des facteurs nuécologiques ou dus au nettoyage des données, nombreux, rarement standardisés, et souvent /





Source link