L’apprentissage automatique a un rôle important à jouer dans la conservation marine – The Applied Ecologist

Katharine Cleveland

il y a 4 ans

La surveillance écologique est essentielle pour les efforts de conservation, mais ces données présentent souvent de forts déséquilibres de classe qui compliquent le développement de modèles pour prédire de tels événements. Dans leur dernier rechercherMichael W. Wade et ses collègues proposent deux cadres de modélisation pour prédire le comportement d’agrégation exceptionnellement rare des requins taureaux et à pointes noires le long de la côte du golfe du Texas.

Dans de nombreux secteurs, les dirigeants ont commencé à tirer parti de l’immense potentiel de l’apprentissage automatique pour tirer des informations puissantes de vastes pools de données. Les capacités de traitement accrues et l’accès aux outils de programmation statistique ont permis aux utilisateurs d’appliquer ces outils pour identifier rapidement des modèles complexes et faire des prédictions très précises. L’apprentissage automatique est particulièrement utile pour prédire les événements anormaux, où les modèles précédents étaient peut-être trop conservateurs pour détecter ces cas rares.

Les données où des anomalies sont présentes, ou des données gonflées à zéro, sont courantes dans la conservation et la gestion de la faune. Cela est dû à la nature de la collecte de données par le biais de la surveillance, qui implique souvent des enquêtes communautaires aveugles dans plusieurs zones d’étude. Dans le golfe du Mexique, les populations de requins fournissent un exemple par leur comportement agrégatif peu commun mais écologiquement important.

Le Dr Phil Matich prend les mesures d’un requin bouledogue dans le golfe du Mexique

Depuis le début des années 1980, le département des parcs et de la faune du Texas surveille les populations de requins côtiers en menant des relevés de routine au filet maillant le long de plusieurs sites d’étude. Souvent, ces enquêtes enregistrent la présence d’un seul requin, le cas échéant. Dans de rares cas, plusieurs requins d’une ou plusieurs espèces seront enregistrés en un seul événement.

Ces agrégations, qui soutiennent l’alimentation et la reproduction, ont un objectif important non seulement pour les communautés de requins, mais aussi pour l’écosystème côtier au sens large. Par conséquent, il est essentiel que les groupes de gestion de la faune comprennent les facteurs qui soutiennent et déclenchent potentiellement ces événements dans la nature.

Tenter de concevoir des modèles statistiques traditionnels pour détecter des modèles entre les variables spatiales et environnementales et ces événements d’agrégation s’avère difficile en raison du fort déséquilibre de classe présent entre les occurrences de ces événements et leur absence écrasante plus courante. Imaginez ceci : si une agrégation n’est observée que 5 % du temps et qu’un modèle prédit qu’elle ne se produit jamais, elle sera précise à 95 %. Bien que cela puisse être présenté comme un modèle impressionnant, il est effectivement inutile pour ceux qui tentent d’identifier les futurs cas positifs.

Deux frameworks d’apprentissage automatique – gradient boosting et réseaux de neurones artificiels – offrent de puissantes alternatives aux modèles traditionnels. En fonction de plusieurs paramètres, les deux modèles sont aptes à extraire des modèles profondément complexes qui contribuent à des événements rares. Fait intéressant, cependant, chacun adopte une approche opérationnelle très différente.

Les arbres de régression boostés, une sous-classe de boosting de gradient, fonctionnent en créant d’abord un diagramme de branchement simple où la valeur d’une variable prédictive détermine le résultat le plus probable. Ce modèle simple est noté et des branches supplémentaires sont ajoutées de manière itérative jusqu’à ce qu’un modèle d’ensemble solide et flexible existe. Ces modèles ne sont pas rares dans la recherche écologique, constituant une base solide pour leur développement en tant que classificateurs de données fortement gonflées à zéro.

Dans notre étude, la couche d’entrée du réseau de neurones contenait treize nœuds d’entrée et une seule couche cachée contenant six nœuds

Les réseaux de neurones artificiels existent sous la forme d’une série de couches fortement interconnectées de nœuds individuels. La première couche, appelée couche d’entrée, contient un nœud unique pour chaque entité ou variable prédictive. Les valeurs de chaque nœud d’entrée sont ensuite transmises à travers au moins une couche cachée, contenant généralement moins de nœuds que la couche d’entrée. Le long de chaque chemin de bord entre les couches, une fonction d’activation et un terme de biais sont appliqués pour transformer mathématiquement les valeurs.

Enfin, ces valeurs sont transmises à la couche de sortie, contenant encore moins de nœuds. Un terme de biais final est appliqué, la rétropropagation est éventuellement appliquée et vous vous retrouvez avec un résultat prédit. Les réseaux de neurones, bien que coûteux en calcul et difficiles à interpréter, représentent une voie prometteuse pour les ensembles de données écologiques où de nombreuses observations sont disponibles.

Chacun de ces cadres de modélisation, en particulier lorsqu’il est combiné à un sous-échantillonnage aléatoire des cas négatifs pour augmenter artificiellement la proportion de cas positifs dans nos données d’apprentissage, a démontré sa capacité à classer les cas de comportement agrégatif. Alors que le réseau neuronal a fonctionné raisonnablement bien, identifiant correctement 82 % des cas positifs dans notre ensemble de données de validation, la machine de renforcement de gradient a démontré des performances supérieures et a correctement classé plus de 87 % des événements d’agrégation.

Un requin pointe noire près d’Andros, aux Bahamas (Annie Guttridge, http://www.savingtheblue.org)

Ces résultats démontrent l’efficacité et la flexibilité de l’application de techniques avancées d’apprentissage automatique pour analyser les données de surveillance écologique et suggèrent que même des ensembles de données d’enquête clairsemés peuvent être utilisés pour développer de puissants outils prédictifs. Peut-être plus important encore, l’extension de ces méthodes pourrait permettre aux gestionnaires de mieux anticiper les événements rares mais importants sur le plan écologique, permettant ainsi d’effectuer plus efficacement les relevés de surveillance dans les cas futurs.

Lire l’article complet Comparaison de deux cadres d’apprentissage automatique pour prédire le comportement agrégatif des requins dans Journal d’écologie appliquée

Source link

Comme ça:

Lié