interprétation de données corrélées – Methods Blog
Message fourni par Anthony Ives
Ce fut un véritable privilège d’être invité à écrire le revue inaugurale EC Pielou pour Méthodes en écologie et évolution. Le premier livre d’écologie que j’ai acheté en tant qu’étudiant de premier cycle était son Diversité écologique (1975) qui se trouve toujours sur ma bibliothèque pleine de notes marginales. L’écologie et l’évolution ont toutes deux une longue et riche histoire de travaux théoriques et empiriques, mais parfois la théorie et l’observation n’ont été que vaguement liées. Les travaux de Pielou ont permis de lier plus étroitement théorie et observation en fournissant des mesures quantitatives et statistiques pour décrire des modèles dans le monde qui peuvent être liés à la théorie..
D’énormes progrès statistiques ont eu lieu au cours des cinq dernières décennies. Vous avez maintenant à portée de main des outils statistiques dont vous rêviez seulement lorsque Chris Pielou a commencé sa carrière. Mon examen a été stimulé, cependant, par la crainte que les chercheurs ne tirent pas pleinement parti de ces outils pour analyser leurs données. Mon souci n’est pas que les chercheurs n’utilisent pas de nouvelles méthodes fantaisistes : les anciennes méthodes éprouvées sont souvent meilleures. Au lieu de cela, ma préoccupation est qu’après avoir analysé les données, les chercheurs ne profitent pas pleinement des fruits de leur analyse. Souvent, les informations produites dans une analyse statistique sont ignorées alors qu’elles pourraient être utilisées de manière productive pour répondre à des questions intéressantes.
Les métriques et modèles statistiques donnent les outils pour tester la théorie avec des données
Les méthodes statistiques en écologie et évolution se répartissent généralement en deux catégories : les métriques et les modèles. Des mesures statistiques, telles que L’indice de diversité de Pielou, prenez des données complexes telles que la composition spécifique des communautés écologiques et résumez-les avec un seul chiffre. Cela peut ensuite être utilisé pour comparer les communautés. La force de cette approche est qu’elle réduit les données complexes à la quantité essentielle d’intérêt. Cependant, cette force est également une faiblesse, car cela signifie nécessairement que de grandes quantités d’informations dans les données sont ignorées – toute information non capturée par un seul chiffre. Par conséquent, les résultats peuvent être moins riches que les modèles réellement présents dans les données, et peut-être pire, ignorer les informations pourrait entraîner des conclusions erronées à partir d’une métrique statistique.
Contrairement aux mesures statistiques, les modèles statistiques tentent de donner une description plus complète des données. Les modèles statistiques décrivent les données en termes de distributions statistiques caractérisées par moyens, écarts, covariances, et des moments statistiques plus élevés. Dans le domaine de l’écologie et de l’évolution, les principaux progrès réalisés au cours des quatre dernières décennies dans la modélisation statistique impliquent une caractérisation plus réaliste et plus précise des erreurs aléatoires.
Les «erreurs aléatoires» malheureusement mal nommées contiennent des modèles dans les données (variances, covariances, etc.) autres que ceux impliquant des moyennes. Vous connaissez probablement les modèles à effets aléatoires qui tiennent compte de la non-indépendance des erreurs aléatoires : les effets aléatoires génèrent une corrélation entre les erreurs aléatoires. Les erreurs aléatoires corrélées apparaissent omniprésentes, bien qu’elles prennent souvent des noms différents dans différents types de modèles. Effets aléatoires, corrélation spatiale, signal phylogénétique et temporel autocorrélation sont tous des types d’erreurs aléatoires corrélées, et bien qu’elles puissent apparaître dans des contextes très différents, elles partagent bon nombre des mêmes défis et solutions statistiques.
Tirez le meilleur parti de vos données
Bien que les modèles statistiques donnent potentiellement plus d’informations sur les données que les mesures statistiques, ces informations sont souvent ignorées. D’énormes efforts statistiques ont été faits pour développer des modèles qui peuvent ajuster des données complexes avec des erreurs aléatoires corrélées, mais ces modèles sont souvent utilisés de la même manière que les métriques : seules les valeurs simples comme les coefficients de régression sont conservées et les informations résidant dans les erreurs aléatoires sont ignorées. .
Si vous rencontrez des difficultés pour adapter un modèle statistique aux données, vous vous devez d’utiliser le modèle dans toute la mesure du possible. Les erreurs aléatoires ne sont généralement ni aléatoires ni erreurs : les corrélations entre erreurs aléatoires révélées par les modèles statistiques sont les produits de variables non mesurées. Bien que non mesurées, certaines informations sur ces variables peuvent être extraites des corrélations entre les erreurs aléatoires. Cela devrait être une pratique statistique de routine.
Mon objectif en l’article est de défendre les erreurs aléatoires en montrant certains des types d’informations qu’elles contiennent et comment les extraire.