Fermer

26/02/2025

L’histoire de Yolo-Behaviour pour le codage comportemental automatisé à partir de vidéos – Blog de méthodes


Post fourni par Alex Chan Hoi Hang, doctorant, Centre pour l’étude avancée du comportement collectif, Université de Konstanz

L’histoire de ce projet remonte à 2019, en tant que premier cycle de deuxième année en sciences biologiques à l’Imperial College de Londres, au Royaume-Uni, où j’ai suivi un cours de comportement animal. Pour l’une des sessions pratiques, la Dre Julia Schroeder (qui est devenue plus tard mon premier cycle et superviseur du projet Masters), est entrée dans la pièce et nous a donné plusieurs vidéos longues de 1,5 heure de moineaux de maison visitant un nichoir. Notre tâche était simple: téléchargez VLC Media Player, regardez les vidéos à une vitesse 4X, puis marquez chaque fois qu’un moineau entrait ou sortait d’un nichoir. C’était la première fois que je faisais des comportements de codage à partir de vidéos: après quelques heures, vous commencez à vous fatiguer, vos yeux d’eau, vous avez peur que vous ayez manqué un événement parce que vous avez cligné des yeux. Mais vous vous rendez compte que c’est le pain et le beurre pour les écologistes comportementaux: les chercheurs sortent une caméra, des vidéos de films d’animaux, puis les regardent manuellement pour coder pour coder les comportements d’intérêt. À mon avis, c’est ce que les séances pratiques devraient être: nous donner l’occasion de vraiment découvrir la façon dont la recherche est menée.

Un exemple de la maison Sparrow Nest Visit des vidéos prises sur Lundy Island, Royaume-Uni

Avance rapide deux ans plus tard, j’ai lancé un programme Masters sur les méthodes de calcul en écologie et en évolution, toujours à Imperial College, au Royaume-Uni. Là, co-supervisé par le Dr Julia Schroeder et le Dr Will Pearse, j’ai relevé le défi d’automatiser les visites parentales dans les vidéos Sparrow en utilisant la vision par ordinateur. Huit mois exténuants de codage (principalement dans mon dortoir dû à Covid) plus tard, aucune de mes tentatives pour automatiser complètement l’annotation n’a fonctionné. J’ai réussi à réduire considérablement le temps d’annotation en réduisant les vidéos de 1,5 heure sur de courts morceaux de clips vidéo à passer en revue par des annotateurs humains, puis publié les résultats (Chan, 2023). Bien que j’étais fier que mon projet Masters ait été publié, au fond, je savais que le travail n’était pas terminé, je n’ai toujours pas réussi à automatiser tout le pipeline, et je savais que c’était possible.

Je suis ensuite passé à faire un doctorat au Center for the Advanced Study of Collective Behavior, University of Konstanz, en Allemagne, avec le Dr Fumihiro Kano pour développer des outils de vision informatique pour le comportement animal; principalement axé sur l’estimation de la posture 3D chez les oiseaux. Un jour, j’ai regardé à travers mon bureau le post-doctorant assis à côté de moi, le Dr Prasetia Putra, alors qu’elle automatisait des vidéos de restauration humaine. Prasetia, avec un arrière-plan en génie informatique, a appliqué un modèle de détection d’objet simple appelé Yolo à ses vidéos. (Un modèle qui détecte des objets sur une image et prédit une boîte autour de lui). Au lieu de former le modèle pour identifier les objets, elle a formé le modèle pour identifier les événements alimentaires, ce qui signifie simplement détecter «lorsque la main touche la bouche». J’ai été époustouflé quand je l’ai vu, la méthode était si simple mais si efficace! À ce moment même, je savais que cette méthode fonctionnerait sur les vidéos de la maison avec lesquelles j’ai eu du mal pendant mes maîtres.

Le reste était de l’histoire. Je me suis d’abord assuré que Prasetia était bien avec moi en essayant la méthode pour quantifier le comportement des animaux, car je savais instantanément à quel point la sueur de sang et les larmes pourraient économiser pour les chercheurs essayant de coder des milliers de vidéos d’écologie comportementale. Et bien sûr, la première chose que j’ai faite a été d’essayer Yolo sur les vidéos Sparrow, et cela a fonctionné à merveille. Cela a été suivi d’un e-mail excité à mes anciens superviseurs de maîtres, Julia et Will, intitulés «Je l’ai fait :)». Après avoir rassemblé et testé quelques ensembles de données supplémentaires, j’ai présenté la robustesse de la méthode dans 5 études de cas: quantifier les visites parentales dans les moineaux, manger dans les jays et les humains sibériens, les pigeons courtisant et l’alimentation, et les zèbres et les girafes se déplaçant et naviguant. La méthode a très bien fonctionné, les modèles étaient faciles à entraîner, l’annotation n’a pas pris trop de temps.

Avec le cadre maintenant publié dans Methods in Ecology and Evolution, j’ai hâte de voir à quel point cela peut être efficace pour différents systèmes. J’ai fait de mon mieux pour que la documentation soit aussi détaillée que possible, afin que les biologistes puissent le reproduire facilement. Bien que les modèles YOLO puissent résoudre de nombreux problèmes de vision par ordinateur, ils ne sont peut-être pas la solution magique pour tous. En particulier, être capable de suivre automatiquement les identités individuelles est toujours un problème largement non résolu. Sans savoir quel animal fait chaque comportement, il n’y a souvent pas de intérêt à automatiser le codage comportemental. Espérons que bon nombre de ces problèmes seront lentement résolus dans les années à venir, et il peut y avoir un nouvel âge où la plupart des annotations vidéo peuvent être automatisées avec une vision par ordinateur, nous n’aurons donc plus besoin de coder manuellement les vidéos.

Si vous souhaitez essayer la méthode, consultez le code et la documentation! Et bien sûr, allez voir le papier!

Réfs:

Chan, Ahh, Liu, J., Burke, T., Pearse, Wd *, et Schroeder, J. * (2023). Comparaison des méthodes manuelles, d’apprentissage automatique et d’hybride pour l’annotation vidéo pour extraire les données de soins parentaux. Journal of Avian BiologyE03167.





Source link