Site icon Blog Transition Ecologique

A la recherche de mes potes (paléo) – Methods Blog


Article fourni par Bruno do Rosario Petrucci

La déduction des taux de diversification à partir des phylogénies et des fossiles est au centre de la biologie évolutive depuis des générations, car une compréhension quantitative de la dynamique de la spéciation et de l’extinction est nécessaire pour une image complète de l’histoire de la vie. Les méthodes informatiques et statistiques ayant cet objectif ont récemment connu une explosion de complexité et de puissance. Bien qu’excitante, cette exploration doit s’accompagner de tests exhaustifs, et je suis motivée par un tel travail depuis mes études de premier cycle.

La naissance d’une idée

Ce projet a commencé par un e-mail au Prof. Tiago Quental, à l’Université de São Paulo. Après deux ans en physique et un an en théorie de l’éco-évolution, j’ai décidé que la macroévolution était un excellent domaine pour appliquer mes compétences quantitatives tout en enquêtant sur des questions intéressantes sur la nature. Tiago m’a non seulement engagé, ce qui m’a permis de passer mon dernier été avant l’obtention de mon diplôme dans ma ville natale, mais m’a également dirigé vers des chercheurs incroyables de ma propre école, l’Université de Chicago. Cela m’a conduit à mon directeur de thèse de premier cycle, le professeur Michael Foote et le professeur Graham Slater, parmi beaucoup d’autres. En fin de compte, cela a conduit directement à mon doctorat, puisque tous mes mentors à UChicago m’ont recommandé de postuler auprès de mon conseiller actuel, le professeur Tracy Heath. Les premiers signes que c’était la ligne de travail pour moi, cependant, sont venus du travail dans le laboratoire de Tiago lui-même.

Initialement, le plan était de tester la précision de PyRate, un logiciel populaire pour déduire les taux de diversification à partir des archives fossiles. Pour mener ces tests, j’avais besoin de simuler la diversification des espèces. C’est ainsi que l’on teste généralement les méthodes d’inférence – simuler des données sous certains paramètres, comparer les paramètres de simulation à ceux déduits, puis obtenir un aperçu des forces et des faiblesses de la méthode. La macroévolution étant une science historique, la simulation de données est le seul moyen d’obtenir des données dont nous connaissons les véritables paramètres générateurs. En faisant varier la complexité de mes simulations, on peut bien jauger la robustesse d’un modèle donné.

Tout au long de ce travail, cependant, je suis devenu quelque peu frustré par les outils disponibles pour la simulation sur le terrain. De nombreux logiciels puissants manquaient de scénarios de simulation que je voulais tester, et pour exécuter des simulations sur la plage de paramètres souhaitée, j’aurais besoin d’utiliser plusieurs packages, avec plusieurs implémentations différentes, une organisation de sortie, etc.

Au milieu de ce conflit, j’ai eu un certain nombre de conversations stimulantes avec un autre membre du laboratoire de Tiago : Matheus Januário, maintenant candidat au doctorat sous la direction du professeur Daniel Rabosky. Son expérience avec R a été essentielle pour développer nos idées sur la simulation efficace de la diversification. Il possède également une intuition biologique qui complétait ma formation quantitative, d’autant plus que j’étais encore un biologiste non initié. Cependant, ses compétences quantitatives n’étaient pas à négliger – il travaillait comme assistant informatique de Tiago – et son expérience avec R était essentielle pour développer nos idées sur une simulation de diversification efficace.

Après de nombreux déjeuners et pauses-café de discussions sur les mathématiques et la programmation, et de nombreuses tentatives plus ou moins réussies de mise en œuvre de nos idées, nous avons présenté notre proposition à Tiago.

Tiago n’est rien sinon minutieux et nous a fait faire à juste titre notre diligence raisonnable. Après avoir réussi à le convaincre que ce serait un ajout précieux au domaine, mon projet d’été a pris un tournant. Nous écrivons un package R ! paleobuddy est né.

paleobuddy

Pour comprendre pourquoi nous nous sommes lancés dans ce voyage, laissez-moi vous présenter paleobuddy comme nous l’avons fait à Tiago il y a trois ans. La plupart des progiciels de simulation sur le terrain ont du mal à gérer des taux de diversification qui varient avec le temps. Si les taux sont constants, il suffit d’utiliser le rexp() Fonction R pour tirer les temps de spéciation et d’extinction d’une distribution exponentielle – ce processus est appelé processus de naissance-mort. S’ils dépendent du temps, cependant, les packages varient dans la manière dont ils traitent ce problème, mais la solution est généralement plutôt lente. En généralisant la rexp() R pour permettre des taux dépendant du temps, nous sommes en mesure de simuler une dépendance temporelle continue plus rapidement que presque n’importe quel autre package. Nous avons encore généralisé rexp() suivre la loi de Weibull, une distribution fréquemment utilisée pour modéliser la diversification en fonction de l’âge, c’est à dire probabilité de spéciation ou d’extinction changeant avec l’âge. Nous pouvons même combiner ces deux en faisant varier les paramètres de Weibull avec le temps, ce qui était l’un des scénarios qui m’a d’abord amené à commencer à écrire ce qui est devenu plus tard paleobuddy.

Bien que cette innovation ait permis à paleobuddy de disposer d’un certain nombre de scénarios de simulation auparavant indisponibles (voir tableau ci-dessous), le cadre construit autour de la généralisation rexp() a aussi ses propres avantages. Premièrement, l’élargissement de la gamme des scénarios de simulation est simple. Par exemple, j’ai récemment implémenté la diversification dépendante des traits (voir la branche dev_traits dans le github) en traduisant simplement le processus en une modification de notre rexp() fonction personnalisée. De plus, comme l’échantillonnage des fossiles est modélisé de manière similaire, nous pouvons transférer toute la flexibilité de nos simulations de diversification aux stratégies d’échantillonnage. paleobuddy est donc flexible, facilement extensible et capable de produire à la fois des archives fossiles et des arbres phylogénétiques à partir du même processus (voir la figure ci-dessous). J’espère qu’il est compréhensible pourquoi nous avons décidé d’abandonner l’idée initiale de ce projet et de nous concentrer sur le package.

Tableau 1 du papier. Notez que les packages ici contiennent des fonctionnalités non disponibles dans paleobuddy

Mais l’utilisez-vous ?

paleobuddy est devenu une partie substantielle de mes recherches à partir de ce moment-là. J’ai fait de son développement l’objet de ma thèse de premier cycle à UChicago, ce qui m’a permis d’intégrer de nombreuses idées de mon mentor, le professeur Michael Foote. Le paquet a été le sujet de ma première présentation par affiche et de mes premiers exposés de recherche. Je fais toujours la grande majorité des simulations pour ma recherche doctorale en paléoobuddy, et notre concentration sur l’extensibilité a porté ses fruits car la gamme de modèles que j’étudie ne cesse de s’élargir. Les conseils de Tiago sur la documentation exhaustive du package, principalement inspirés par un autre simulateur puissant sur le terrain, paléotree-–a également porté ses fruits chaque fois que je reviens pour modifier des fonctions que je n’ai pas examinées depuis des années. Le package est un élément central de mes recherches, et pour cause. Nous avons vu la macroévolution théorique se développer à un rythme rapide, et cela nécessite des outils de validation pour suivre le rythme. Un simulateur extensible et efficace, tel que paleobuddy, est une contribution précieuse à cette entreprise.

Figure 2 du papier. Différentes façons de visualiser les simulations dans paleobuddy. A. Durée de vie des espèces sous forme de lignes noires, avec des lignes pointillées montrant la relation parentale entre les espèces. Les points rouges indiquent les échantillons de fossiles. B. Arbre phylogénétique complet, y compris les espèces existantes et éteintes. C. Identique à A., mais les âges des fossiles sont dessinés sous forme de plages. D. Arbre phylogénétique des espèces existantes

Au cours des trois ans et demi qui se sont écoulés depuis que nous avons commencé à travailler dessus, paleobuddy a façonné le scientifique que je suis aujourd’hui. Le développer était un cours accéléré sur la façon dont nous faisons la théorie en macroévolution, et les compétences en résolution de problèmes qu’il m’a forcé à perfectionner peuvent parfois ressembler à des superpuissances. C’est fou de penser que je travaille dessus et que je l’utilise depuis aussi longtemps que je suis biologiste de l’évolution. Cela ressemble, dans un certain sens philosophique, à un paleobuddy est— jusqu’à présent, du moins — ma carrière universitaire. Il m’accompagne depuis mon arrivée et j’ai l’intention de le maintenir pendant que je suis ici. C’est peut-être pour ça que j’ai choisi ce nom. Plus qu’un pilier de ma carrière universitaire et une partie de ma contribution au domaine, peut-être que dans un certain sens émotionnel, je vois ce paquet comme un ami confortable au milieu des difficultés du milieu universitaire. Peu importe les obstacles que le travail me lance, je peux toujours revenir à mon petit paquet de code R et à tous les amis qu’il a apportés dans ma vie.

Cliquez sur ici pour lire l’article complet « paleobuddy : un package R pour des simulations flexibles de diversification et d’échantillonnage de fossiles” (https://doi.org/10.1111/2041-210X.13996)





Source link

Quitter la version mobile