Site icon Blog Transition Eco

Pouvons-nous identifier les comportements animaux à partir de pièges à caméra sans entraîner de nouveaux modèles d’IA? – Blog de méthodes


Post fourni par Gaspard Dussert.

Je m’appelle Gaspard Dussert, et je suis un doctorant à l’Université Lyon 1, travaillant dans le laboratoire de biométrie et de biologie évolutive (LBBE). Mes recherches combinent l’intelligence artificielle (IA) avec l’écologie, en se concentrant sur l’automatisation de la surveillance de la faune à partir d’images de pièges à caméra.

Les pièges à caméra sont des caméras activées par le mouvement placées dans la nature. Ce sont des outils incroyablement puissants en écologie, nous aidant à observer les animaux dans leurs habitats naturels avec un minimum de perturbation et à fournir une fenêtre sur leurs comportements, leurs rythmes d’activité et leurs interactions. Mais voici le problème: ils génèrent des dizaines de milliers d’images et étiquetant manuellement ce qu’il y a (espèces, comportements) est lent et fastidieux.

Ces dernières années, l’identification automatique des espèces s’est considérablement améliorée grâce à l’apprentissage en profondeur. Mais quand il s’agit de reconnaître ce que sont réellement les animaux faire (manger, reposer, bouger) Nous sommes encore loin de l’automatisation. La classification comportementale automatisée à partir d’images de pièges à caméra est difficile: les ensembles de données sont rares et la formation des modèles d’IA spécialisés nécessite une expertise, du temps et des ressources informatiques.

Et si les écologistes pouvaient utiliser des modèles d’IA pré-formés existants, appelés «modèles de fondation», pour reconnaître les comportements animaux sans avoir besoin de former quelque chose de nouveau?

Une nouvelle approche: «Modèles de fondation» pour les écologistes

Les modèles de fondation et plus précisément les modèles de vision (VLMS) sont d’énormes modèles d’IA formés sur des milliards d’images et de légendes de texte collectées sur Internet. Ils ont appris à connecter le contenu visuel avec un langage descriptif, leur permettant d’effectuer des tâches auxquelles ils n’ont jamais explicitement formé, une capacité appelée «apprentissage zéro».

Mes superviseurs de doctorat et moi avons demandé: pourrions-nous simplement montrer des images de pièges à caméra à ces modèles et leur poser des questions simples comme, «Cet animal mange-t-il, reposait-il ou bouge-t-il?»sans leur enseigner quelque chose de nouveau?

Pour tester cela, nous nous sommes associés à des chercheurs du Centre de recherche pour les écosystèmes alpins (Crea Mont-Blanc) qui avaient un ensemble de données unique de plusieurs centaines de mille images de pièges à caméra pour lesquelles le comportement avait été annoté à l’aide d’une plate-forme scientifique citoyenne.

Nous avons évalué les performances de plusieurs modèles récents de la vision open-source (VLM), tels que Clip, Siglip, Paligemma et COGVLM, qui pourraient être utilisés librement par les écologistes.

Trois images de pièges à caméra de l’ensemble de données Crea Mont-Blanc, chacune avec sa prédiction de comportement du modèle de fondation le plus performant (COGVLM).

Résultats impressionnants, même sans formation

À notre grande surprise, même sans s’entraîner spécifiquement sur les images de la faune, les meilleurs modèles se sont remarquablement bien performés. L’un d’eux, COGVLM, a prédit le comportement correct sur 96% des images.

Nous avons décidé d’aller encore plus loin et d’utiliser les prédictions du modèle pour reconstruire les modèles d’activité: les graphiques montrant lorsque les animaux sont plus susceptibles de manger, de bouger ou de se reposer pendant la journée. Ces courbes sont précieuses pour les écologistes qui étudient comment le comportement change dans les saisons ou en réponse à la perturbation humaine. Encore une fois, les meilleurs modèles ont produit des modèles d’activité qui correspondaient étroitement aux étiquettes humaines, avec plus de 90% de chevauchement.

Modèles d’activité pour les trois comportements (montrent dans les colonnes) et les espèces (rangées) d’intérêt. Les courbes noires montrent des modèles dérivés des annotations humaines, tandis que les courbes vertes montrent celles basées sur les prédictions COGVLM. Le pourcentage indique combien les deux courbes se chevauchent.

Une leçon que nous avons apprise de ces expériences est que la façon dont nous avons formulé des questions à ces modèles, appelés «invites», peut vraiment avoir un impact sur les résultats. Des invites courtes ou vagues (par exemple, ne mentionnant pas le «piège de la caméra») ont diminué la précision, mais étonnamment, trop détaillées, telles que l’inclusion du nom de l’espèce, ont également conduit à des performances plus pires. Cela montre que les écologistes devront expérimenter pour tirer le meilleur parti de ces modèles de fondation.

Qu’est-ce que cela signifie pour l’écologie?

Ce travail ouvre de nouvelles possibilités pour les études de pièges à caméra: avec quelques lignes de code et une invite bien écrite, les écologistes peuvent désormais extraire automatiquement les informations pertinentes des images du piège de la caméra, quelque chose qui nécessite des heures d’annotation manuelle ou de formation de modèle complexe. Bien que nous illustons notre travail avec la prédiction du comportement, la flexibilité de la méthode le rend facilement adaptable à d’autres tâches écologiques: par exemple, il pourrait être possible de prédire les comportements humains ou les attributs de paysage en modifiant l’invite.

Avec de nouveaux modèles de fondation avec des capacités améliorées qui sont publiées presque tous les mois, nous encourageons les écologistes à explorer ces outils, à évaluer leurs performances et à apprendre à tirer le meilleur parti de leur potentiel.

Vous pouvez accéder et lire notre article complet ici.

Post édité par Swifenwe et Prayer Kanyile





Source link

Quitter la version mobile