Intégration de codes-barres multigènes avec l’apprentissage profond pour classer les escargots – Methods Blog

Message fourni par Bin Ye
Les animaux gastéropodes, tels que les escargots terrestres, d’eau douce et de mer, ont des formes diverses et des histoires de vie uniques, ce qui en fait une excellente fenêtre pour explorer la biodiversité. À l’ère de l’intégration accélérée de l’intelligence artificielle et de l’écologie, nous avons développé le SnailBaLLsp modèle de classification intelligent, visant à utiliser des algorithmes innovants pour résoudre les problèmes de classification traditionnels et mieux servir l’identification des espèces et la recherche évolutive avec des données ADN.

Pourquoi avons-nous développé SnailBaLLsp ?
L’identification traditionnelle des espèces repose sur l’expérience d’experts ou sur un seul fragment d’ADN (tel que le gène COI), ce qui rend difficile la gestion des situations dans lesquelles les espèces ont une morphologie similaire ou des variations génétiques complexes. La plupart des algorithmes existants sont développés sur la base de données massives sur les insectes et fonctionnent mal sur des taxons tels que les gastropodes. Ils ne parviennent pas non plus à utiliser la hiérarchie naturelle de classification (de l’ordre à l’espèce), ce qui entraîne une faible précision dans la classification d’ordre élevé. Nous espérions utiliser l’intelligence artificielle pour créer un outil intelligent capable d’intégrer plusieurs données de codes-barres ADN, de comprendre la logique de classification et d’être applicable aux taxons sans modèle, rendant ainsi l’identification des espèces plus efficace et plus fiable.
Comment fonctionne SnailBaLLsp ?
Nous proposons un framework d’apprentissage profond appelé SnailBaLLsp. Premièrement, nous utilisons les données génétiques COI avec la couverture la plus élevée pour entraîner le modèle et établir des capacités d’identification de base. Par la suite, une stratégie progressive a été adoptée pour intégrer progressivement les cinq autres données de codes-barres rares et incomplètes (16S, 18S, H3, ITS1 et ITS2) afin d’éviter que le modèle ne soit perturbé par des informations incomplètes. L’aspect le plus crucial est que nous avons conçu un mécanisme d’attention hiérarchique dans le modèle, qui suit explicitement la hiérarchie taxonomique lors de la prise de jugement – par exemple, déterminer d’abord « l’ordre », puis déduire « famille » et identifier ensuite le « genre », avec des informations de haut niveau guidant les prédictions de bas niveau, formant une chaîne de classification logiquement cohérente. En outre, nous avons également introduit une augmentation dynamique des données pour équilibrer les différences de taille d’échantillon et amélioré la capacité de généralisation du modèle à de nouvelles espèces grâce à l’adaptation de domaine.
Comment SnailBaLLsp peut-il vous aider ?
Les chercheurs ou les agents de conservation peuvent utiliser notre SnailBaLLsp open source pour analyser rapidement les séquences de codes-barres d’ADN à partir d’échantillons environnementaux (tels que l’eau, le sol) ou de spécimens. Même si les utilisateurs ne disposent que d’une seule donnée de code-barres de base du COI, le modèle peut produire des prédictions à plusieurs niveaux, de la famille à l’espèce, particulièrement apte à fournir des références de classification fiables d’ordre élevé lorsque les informations sur les espèces ne sont pas claires. Le modèle a été migré avec succès vers les données sur les bivalves, indiquant son potentiel d’applicabilité entre groupes, ce qui peut aider à effectuer la surveillance de la diversité des invertébrés, le dépistage des espèces envahissantes ou l’évaluation écologique. Les utilisateurs peuvent suivre le tutoriel pour utiliser SnailBaLLsp. Tous codes, modèleset ensembles de données de codes-barres multi-ADN de Gastropoda ont été rendus publics, soutenant le développement et l’application ultérieurs. Nous attendons avec impatience que ce travail contribue à la construction d’une plate-forme d’identification biométrique plus universelle, permettant à la technologie de mieux servir la sensibilisation à la biodiversité et les pratiques de conservation.
Que pouvons-nous faire à l’avenir ?
L’innovation principale de cette étude réside dans la combinaison de la fusion progressive de plusieurs gènes et de l’attention hiérarchique, fournissant de nouvelles idées pour gérer des données biologiques déséquilibrées et multimodales. À l’avenir, ce cadre pourra être étendu pour intégrer des données multi-sources telles que des images morphologiques et des informations géographiques, favorisant ainsi le développement d’une taxonomie intelligente vers une intégration multidimensionnelle. En outre, le dilemme de la reconnaissance de séquences à forte variation au sein des espèces par le modèle lui-même peut également inspirer de nouveaux problèmes en biologie évolutive.
Lire l’article complet ici.
