Suivi des requins Simplified – Blog de méthodes

Poster Chinmay Keshava Lalgudi.
L’imagerie de drones offre un moyen efficace de recueillir des données sur les animaux mobiles. Les drones sont utilisés pour les enquêtes démographiques, créant des modèles 3D d’habitat, et même étudiant comment les animaux se déplacent et se comportent dans leur environnement. Bien que la collecte de ces données soit relativement facile, l’annotation manuelle est minutieuse et lente. L’analyse de l’imagerie de drones peut souvent signifier passer des heures devant une séquence annotante de l’ordinateur. En fait, nous avons constaté que l’annoter des boîtes de délimitation autour des requins peut prendre des heures par minute de vidéo – un temps précieux qui serait mieux passé à réfléchir à des questions scientifiques intéressantes.
Notre équipe s’est concentrée sur le développement d’une technique pour analyser les requins dans la baie de Santa Elena, Costa Rica – un habitat essentiel pour le requin infirmière du Pacifique en voie de disparition. L’utilisation de drones nous a fourni la rare opportunité d’étudier l’écologie du mouvement de cette espèce sous-étudiée.

Pourquoi les modèles d’apprentissage en profondeur échouent dans la nature
Alors que de nombreuses études utilisent des approches d’apprentissage en profondeur pour analyser l’imagerie des drones des animaux, elles s’appuient généralement sur des modèles spécifiques aux espèces à partir d’un seul habitat. Bien que ces modèles fonctionnent souvent bien dans le cadre exact sur lequel ils ont été formés, ils peuvent souvent être très sensibles aux changements d’éclairage, de contraste, de distracteurs (tels que de nouveaux mouvements de végétation ou de marée), ainsi que des variations individuelles. Par exemple, un modèle formé sur les requins infirmières à partir de données recueillies vers la mi-journée pourrait lutter contre l’imagerie au même endroit, mais collectée autour du coucher du soleil.
En effet, lorsque nous avons formé nos propres modèles pour la première fois, nous avons également constaté que c’était le cas. Bien que nous ayons pu former des modèles avec de fortes performances dans le domaine (données collectées autour de la même zone dans les mêmes conditions), les modèles spécialisés ont grandement lutté avec des performances hors du domaine.
Ces modèles sont également difficiles à travailler car ils doivent constamment être formés et recyclés à mesure que les conditions changent. Chaque fois que vous souhaitez étudier une nouvelle espèce, travailler dans un endroit différent ou analyser des images collectées dans différentes conditions météorologiques, vous devez essentiellement recommencer à zéro – collecter de nouvelles données de formation, annoter manuellement des milliers d’images et passer des jours ou des semaines à s’entraîner et à valider un nouveau modèle. Cela crée un obstacle majeur pour les scientifiques essayant de se concentrer sur les questions biologiques. Par conséquent, nous avons décidé de développer un généralisable Solution pour les chercheurs – quelque chose qui ne nécessite pas de formation et qui est facile à utiliser pour quiconque!
La puissance des modèles de fondation
Des systèmes puissants comme GPT (qui fonctionnent avec le langage) et Clip (qui relie les images et le texte) ont complètement changé la façon dont nous résolvons les problèmes à l’aide de l’IA. Au lieu d’avoir besoin d’être recyclé pour chaque nouvelle tâche, ces modèles apprennent des ensembles de données énormes et divers et peuvent souvent relever de nouveaux défis immédiatement – une compétence connue sous le nom d’apprentissage «zéro».
Le segment du modèle de fondation tout ce que le modèle 2 (SAM 2) a attiré notre attention en raison de son compréhension vidéo capacités. Contrairement aux modèles de segmentation d’images traditionnels qui analysent chaque cadre un par un, SAM 2 peut utiliser des informations à partir de trames antérieures pour garder une trace des objets lorsqu’ils se déplacent dans une vidéo.
Cette conscience temporelle est extrêmement importante pour la recherche biologique – lorsqu’un requin disparaît brièvement derrière une vague ou est obscurci par l’éblouissement de l’eau, SAM 2 peut utiliser sa «mémoire» où l’animal était dans les cadres précédents pour maintenir la piste plutôt que de le perdre entièrement. Nous avons constaté que SAM 2 fonctionnait particulièrement bien dans notre environnement marin côtier difficile, où les animaux se déplacent toujours dans des conditions d’eau changeantes – avec des réflexions changeantes, des arrière-plans, des ombres et des ondulations de surface.
FLAIR
Notre nouvelle étude n’offre que ceci: un pipeline de traitement vidéo appelé alignement et suivi au niveau du cadre (FLAIR). Flair utilise les deux capacités de segmentation de Sam 2 ainsi que la capacité de Clip à classer les images. En passant des invites linguistiques (par exemple «un requin nager dans l’eau claire») à travers le clip, notre pipeline guide SAM 2 pour se concentrer sur les bons objets. L’innovation clé est la stratégie d’alignement de Flair – si un requin candidat est identifié par Clip et suivi par SAM 2 à plusieurs points de temps, il s’agit probablement d’un véritable requin plutôt que d’un faux positif, comme une ombre ou un morceau de débris.
Flair surpasse considérablement les approches traditionnelles, en particulier dans les conditions réelles du monde réel. Flair se généralise également à plusieurs espèces de requins, y compris les requins de récif blancs et noirs, ainsi que d’autres animaux entièrement, comme les zèbres!

Nous avons mené une étude d’utilisateurs pour voir combien Flair accélère vraiment le temps d’annotation. Alors que l’étiquetage d’une vidéo de drone typique de 5 minutes prendrait plus de 20 heures d’effort manuel, Flair termine l’ensemble du processus de segmentation en un peu moins d’une heure de traitement presque automatisé.
Nous montrons également qu’il est possible de calculer la biométrie comme la longueur du corps (essentielle aux données démographiques de la population) et la fréquence des battements de queue (qui peut révéler la dépense énergétique et l’efficacité de natation) à partir des masques de segmentation précise que notre système génère. Cela ouvre des portes aux questions de recherche qui autrement prendraient beaucoup de temps à étudier.
Open source
Nous avons construit Flair pour être accessible à tous. Pour aider les chercheurs à utiliser facilement l’outil, nous fournissons deux façons d’utiliser facilement Flair: un cahier Google Colab et un flux de travail Python. Dans l’une ou l’autre des options, vous pouvez importer votre vidéo, entrer une invite et commencer le suivi!
Pour en savoir plus, consultez notre papier et outil
Post édité par Swifenwe et Prayer Kanyile.