Fermer

21/01/2026

Détection et classification des cris d’animaux à partir de données audio à l’aide de animal2vec – Methods Blog


Message fourni par Julian Schäfer-Zimmermann

Une introduction pour les personnes dépourvues de connaissances en apprentissage automatique

Nous fournissons une explication non technique du cadre animal2vec, y compris ses capacités et son potentiel d’utilisation dans la recherche sur le comportement animal, l’écologie et la conservation. Ce résumé est destiné à servir de point de départ aux personnes dépourvues de connaissances techniques (par exemple, les biologistes de terrain) souhaitant comprendre le fonctionnement du système et ce qui le rend unique et éventuellement l’appliquer à leurs propres recherches.

Que fait animal2vec ?

Imaginez que vous essayez d’apprendre une nouvelle langue. Vous commenceriez par écouter des locuteurs natifs, repérer des modèles récurrents et associer progressivement les sons à des significations ; animal2vec fait quelque chose de similaire. Il apprend d’abord à partir d’une quantité massive de données audio non étiquetées, essentiellement en « écoutant » divers sons d’animaux. C’est la phase de pré-entraînement. Ensuite, il affine sa compréhension à l’aide d’un ensemble de données étiquetées plus petit, dans lequel des vocalisations spécifiques sont identifiées et catégorisées. C’est la phase de mise au point. Ce processus en deux étapes permet à animal2vec de détecter et de classer les cris d’animaux (ou autres événements acoustiques) à partir d’enregistrements audio bruts.

Le système est conçu pour étiqueter les heures de début et de décalage des appels et les classer en types. Après la formation, le système peut être exécuté sur des fichiers audio continus (par exemple, wav ou d’autres types de fichiers audio) et génèrent un ensemble de détections, qui peuvent ensuite être utilisées pour des analyses en aval.

Comment fonctionne animal2vec et quelles sont ses caractéristiques uniques ?

À un niveau très basique, animal2vec fonctionne en entraînant un réseau neuronal profond pour classer les données d’un flux audio dans un ensemble de différentes catégories, par exemple les types d’appels. Comparé à d’autres approches d’apprentissage profond précédemment utilisées en bioacoustique, animal2vec présente deux caractéristiques principales uniques : (1) l’architecture du réseau neuronal et (2) le paradigme de formation.

En termes d’architecture, animal2vec est un modèle basé sur un transformateur. Un transformateur est une architecture de réseau neuronal qui « prête attention » aux informations contextuelles pertinentes dans un flux audio pour prédire si un extrait audio donné contient un appel. Par exemple, si les appels sont émis en séquences, le réseau peut utiliser les informations des appels voisins pour prédire si un instant donné contient un appel d’un type donné. Les transformateurs constituent une avancée récente dans l’apprentissage automatique qui a entraîné des améliorations massives dans divers domaines, y compris (le plus célèbre) de grands modèles de langage tels que le modèle de transformateur pré-entraîné générateur de chat (ChatGPT). Une explication non technique des modèles de transformateurs est disponible sur [1].

En termes de paradigme de formation, animal2vec est une approche d’apprentissage auto-supervisée. L’approche se compose de 2 étapes principales : (1) une phase de pré-entraînement où une grande quantité de données audio non étiquetées est utilisée pour générer une « bonne » façon de représenter mathématiquement les données audio (également appelée intégration) et (2) une phase de réglage fin où les données étiquetées sont utilisées pour entraîner le modèle à détecter des événements d’intérêt (par exemple, différents types d’appels). Le but de l’étape de pré-entraînement est de permettre au système d’apprendre les caractéristiques des données audio brutes qui seront ensuite utiles pour la tâche de détection et de classification des appels (c’est également ce qu’on appelle l’extraction de caractéristiques). Par exemple, certains exemples de caractéristiques interprétables par l’homme seraient la fréquence maximale et l’entropie, ce qui pourrait être utile pour déterminer si un extrait audio contient ou non une vocalisation. Cependant, lors de la pré-formation, le système d’apprentissage automatique apprend un ensemble très vaste et arbitrairement complexe de fonctionnalités, dont beaucoup ne sont pas interprétables par l’homme. Une fois que le réseau a appris une bonne façon de représenter les données audio, ces intégrations peuvent être utilisées pour entraîner un autre système de réseau neuronal à détecter les appels. Cette représentation mathématique générée dans la première étape permet au système d’apprendre beaucoup plus facilement à détecter et à classer les appels.

Il est important de noter que lors de l’étape de pré-entraînement, le réseau n’apprend pas à détecter les cris d’animaux. Au lieu de cela, il s’agit d’effectuer une tâche d’apprentissage différente qui, même si ce n’est pas la tâche que nous souhaitons résoudre en fin de compte, permet au réseau d’apprendre une bonne façon de représenter les données audio. Dans le cas de animal2vec (et du schéma auquel il est lié, data2vec 2.0 [2]), le modèle pendant le pré-entraînement apprend à régresser les sections audio qui ont été masquées par rapport à l’entrée d’origine. En raison de cette tâche différente, l’étape de pré-entraînement ne nécessite pas de données étiquetées, ce qui signifie que, généralement, une quantité beaucoup plus grande de données peut être utilisée. Les données étiquetées ne sont alors nécessaires que pour l’étape de réglage fin. Le résultat est que beaucoup moins de données d’entraînement étiquetées sont nécessaires pour obtenir de bons résultats de classification que si les intégrations pré-entraînées n’étaient pas utilisées.

Quelles sont les caractéristiques de l’ensemble de données MeerKAT (et d’autres ensembles de données bioacoustiques) qui le rendent particulièrement difficile ?

Les ensembles de données bioacoustiques peuvent présenter différents défis pour la détection et la classification automatisées des signaux d’intérêt en fonction de l’espèce, de l’environnement, de la technologie d’enregistrement et d’autres facteurs. Cependant, de nombreuses tâches bioacoustiques partagent certains défis communs.

Premièrement, les ensembles de données bioacoustiques sont souvent bruyants, avec des signaux intéressants enfouis dans des quantités relativement importantes de bruit de fond. Le volume relatif, la bande passante, la couverture et le type de bruit peuvent varier considérablement. Dans l’ensemble de données MeerKAT, un défi important se pose car la plupart des enregistrements proviennent de données audio enregistrées sur des colliers de suivi, et ces données ont été collectées pendant que les animaux se nourrissaient. Les suricates se nourrissent en creusant à la recherche de proies dans le sable, et le son de ce comportement de creusement – ​​entendu sous forme de bruits de « crash » ponctués à large bande – peut être entendu à un volume élevé et très fréquemment dans l’ensemble de données, masquant de nombreuses vocalisations. D’autre part, les enregistrements avec collier ont également un rapport signal/bruit élevé puisque le microphone est situé très près de l’animal produisant les sons d’intérêt, voir figure 1.

Deuxièmement, les ensembles de données bioacoustiques sont souvent clairsemés, ce qui signifie que les signaux d’intérêt se produisent moins fréquemment par rapport à la quantité d’enregistrements sans signaux.

Figure 1 : Suricates debout, portant leurs colliers d’enregistrement de données GPS, audio et accéléromètre. Prise au Centre de recherche du Kalahari, Afrique du Sud. ©Vlad Demartsev, Institut Max Planck du comportement animal.

Quelles sont les applications potentielles d’animal2vec ?

Le développement d’animal2vec est un processus et un défi continus avec des applications possibles infinies. À mesure que davantage de données provenant d’espèces et d’environnements divers seront incorporées dans des ensembles de données plus vastes, les capacités du modèle, après pré-entraînement et réglage fin, continueront de se développer. La vision ultime est de créer ce qu’on appelle un modèle fondateur. Un modèle fondamental est un très grand modèle qui a été pré-entraîné de manière si large et étendue qu’il peut facilement s’adapter à un large éventail de tâches. Imaginez un modèle pré-entraîné sur tous les langages humains. Il a vu lors de la pré-formation chaque langue pour laquelle il existe des données. L’ajustement fin d’un modèle aussi largement pré-entraîné à n’importe quelle tâche liée à n’importe quelle langue peut alors être réalisé en utilisant seulement très peu de données annotées.

animal2vec, en tant que modèle fondamental pour la bioacoustique, permettrait aux chercheurs d’affiner un modèle vaste et performant en fonction de leurs besoins et de leurs espèces d’intérêt sans infrastructure informatique coûteuse. De plus, animal2vec ne se limite pas à la classification, mais peut être utilisé pour toute tâche pouvant être résolue à l’aide de séries chronologiques, comme la bioacoustique. Nous prévoyons d’ajouter la prise en charge de davantage de modalités de données telles que les données GPS ou accéléromètres, comme cela est désormais courant dans les biologgers modernes. [3]permettant aux chercheurs de classer les états comportementaux avec des connaissances sans précédent à partir de toutes les modalités disponibles. En retour, cela permettrait à animal2vec d’aider dans les scénarios dans lesquels plusieurs flux de données doivent être combinés, comme c’est souvent le cas en écologie animale. [4, 5]comportement [3, 6]et conservation [7] recherche.

Lire l’article complet ici.

Références

[1] Alammar, Jay. Le transformateur illustré. https://jalammar.github.io/illustrated-transformer/. Consulté : 2023-06-18.

[2] Baevski, A., Babu, A., Hsu, W.-N. & Auli, M. Apprentissage auto-supervisé efficace avec des représentations cibles contextualisées pour la vision, la parole et le langage. Dans Conférence internationale sur l’apprentissage automatique, 1416-1429 (PMLR, 2023).

[3] Demartsev, V. et coll. Signalisation en groupe : Nouveaux outils pour l’intégration de la communication animale et du mouvement collectif. Méthodes Ecol. Évol. (2022).

[4] Penar, W., Magiera, A. & Klocek, C. Applications de la bioacoustique en écologie animale. Écol. Complexe. 43, 100847 (2020).

[5] Pichler, M. & Hartig, F. Apprentissage automatique et apprentissage profond : une revue pour les écologistes. Méthodes Ecol. Évol. 14, 994-1016 (2023).

[6] Fletcher, NH Bioacoustique animale. Springer Handbook of Acoustics, 821-841 (Springer New York, New York, NY, 2014).

[7] Laiolo, P. L’importance émergente de la bioacoustique dans la conservation des espèces animales. Biol. Conserver. 143, 1635-1645 (2010).





Source link