Site icon Blog Transition Eco

des estimateurs sandwich aux modèles hiérarchiques corrélés – Methods Blog


Message fourni par Coralie Williams

Réaliser une méta-analyse implique une série de décisions, depuis le choix des données à extraire jusqu’à la sélection de la mesure des résultats. Mais vient ensuite la spécification du modèle : comment doit-il être formulé ?

Dans sa forme la plus simple, une méta-analyse peut être exprimée sous la forme d’un simple modèle de régression linéaire dont le résultat est une taille d’effet (ouije), qui est une mesure quantitative dérivée de statistiques descriptives ou inférentielles dans des études sélectionnées :

Cette formulation de base, semblable à une simple régression linéaire, suppose que les résultats sont indépendants. Mais c’est rarement le cas. Un défi courant dans le choix d’une approche de modélisation pour une méta-analyse consiste à prendre en compte les différentes sources de dépendance dans les données.

Dans notre article récent dans Methods in Ecology and Evolution nous avons évalué différentes approches de modélisation pour tenir compte de la dépendance. L’idée de notre étude est née d’une réflexion sur les choix de modélisation de méta-analyse dans notre laboratoire (avec les co-auteurs Yefeng Yang et Shinichi Nakagawa ; I-PARTIE), et des résultats d’une récente étude de simulation réalisée par Pustejovsky et Tipton présentant une nouvelle gamme de modèles de travail pour ajuster la méta-analyse avec des tailles d’effet dépendantes.

Je voulais comprendre comment ces approches de modélisation fonctionnaient dans le contexte de la méta-analyse de l’écologie et de l’évolution, qui a la particularité d’inclure souvent plusieurs espèces dans les études avec des relations évolutives.

La dépendance est courante

La dépendance est courante dans les ensembles de données écologiques et évolutives.

Dans les méta-analyses en particulier, les tailles d’effet sont généralement imbriquées dans les études et souvent partagées entre plusieurs espèces. D’une manière générale, il existe deux types de structures de dépendance dans la méta-analyse : la dépendance entre les tailles d’effet et la dépendance entre les erreurs d’échantillonnage.

Dépendance entre les tailles d’effet () survient lorsque plusieurs tailles d’effet proviennent du même groupe hiérarchique – par exemple, de la même étude, du même groupe de traitement, du même lieu ou d’espèces étroitement apparentées qui partagent une histoire évolutive. Un tel regroupement est fréquent en écologie et en évolution. Dans un méta-analyse récentepar exemple, 1 007 tailles d’effet provenant de 125 espèces de plantes ont été dérivées de seulement 43 études, ce qui signifie que plusieurs tailles d’effet ont été attribuées aux mêmes espèces et aux mêmes études.

Dépendance entre les erreurs d’échantillonnage () se produit lorsqu’un individu ou un échantillon contribue à plusieurs tailles d’effet. Cela peut se produire lors de mesures répétées ou lorsque plusieurs groupes de traitement sont comparés au même groupe témoin, ce qui rend les erreurs d’échantillonnage qui en résultent non indépendantes.

Le choix d’une approche de modélisation appropriée repose sur la compréhension de la structure des données sous-jacente, mais ce n’est parfois pas si simple. Et parfois, la source exacte de la dépendance est inconnue ou ne peut pas être mesurée directement, pouah !

Nouvelle gamme de modèles fonctionnels

Nous avons évalué trois approches de modélisation dans notre étude :

  • Méta-analyse à plusieurs niveaux (c’est-à-dire hiérarchique) : en ajoutant des effets aléatoires, nous modélisons la dépendance entre les tailles d’effet découlant de données imbriquées ou hiérarchiques. Cela capture le regroupement des effets réels, mais pas les corrélations dans les erreurs d’échantillonnage.
  • Méta-analyse corrélée : lorsque des études primaires rapportent ou impliquent des corrélations entre les erreurs d’échantillonnage, nous pouvons inclure ces informations dans le modèle. Cette approche modélise directement les erreurs dépendantes (parfois appelées méta-analyse corrélée ou multivariée ; J’ai écrit ici à quel point ces termes sont confus).
  • Estimation robuste de la variance par grappes (CRVE) : lorsque la structure de dépendance est inconnue ou non déclarée, estimation robuste de la variance par grappes (CRVE ; Hedges et al, 2010), un type d’estimateur sandwich, fournit des erreurs types robustes qui tiennent compte de la dépendance au sein d’une grappe sans avoir besoin de la modéliser explicitement.

Les chercheurs doivent souvent combiner ces stratégies de modélisation lorsqu’une dépendance apparaît à la fois dans l’ampleur des effets et dans les erreurs d’échantillonnage.

Nous avons mis cette idée à l’épreuve en appliquant les trois approches, individuellement et en combinaison, à plusieurs types de modèles, notamment des modèles à effets fixes, à effets aléatoires, multiniveaux et phylogénétiques avec un effet aléatoire d’espèce. Dans notre étude de simulation, nous avons généré des tailles d’effet génériques et supposé une constante dans les corrélations d’erreur de l’étude (φ = 0,2, 0,5, 0,8), en notant que les structures de dépendance réelles sont parfois plus complexes !

Nos résultats concordent avec ceux d’études précédentes : les modèles multiniveaux ont donné de meilleurs résultats dans tous les scénarios et le CRVE a amélioré la couverture lorsqu’il est associé à des modèles multiniveaux, même lorsque le modèle était mal spécifié. Cependant, CRVE n’a pas pu gérer les structures croisées, telles que les effets phylogénétiques partagés entre les études, car celles-ci ne correspondent pas à ses hypothèses de regroupement.

Enfin, lorsque nous avons spécifié la corrélation correcte des erreurs d’échantillonnage, nous avons obtenu des estimations précises des composantes aléatoires (c’est-à-dire des estimations de l’hétérogénéité).

Vous pouvez en savoir plus sur les résultats de notre étude de simulation ici : «Approches de modélisation pour les méta-analyses avec des tailles d’effet dépendantes en écologie et évolution».

Les modèles phylogénétiques multiniveaux (PML) perdent leur couverture dans le cadre du CRVE car les espèces sont réparties dans les études et non imbriquées dans celles-ci. CRVE suppose des données groupées indépendantes et sur-ajuste, réduisant ainsi la couverture. PML sans CRVE (« aucun ») fonctionne de manière plus cohérente.

Alors… quelle approche de modélisation devriez-vous utiliser ?

Comme le diront la plupart des statisticiens : ça dépend! Mais voici quelques conseils pratiques pour votre prochaine méta-analyse :

  • Rassemblez autant d’informations que possible à partir d’études primaires pour comprendre la structure des données.
  • Incluez des groupes imbriqués ou hiérarchiques comme effets aléatoires.
  • Si vous savez comment les données ont été collectées, utilisez ces connaissances pour éclairer la structure de variance-covariance de l’erreur d’échantillonnage. Par exemple, des mesures répétées au fil du temps peuvent justifier une structure d’autocorrélation, ou vous pouvez vous attendre à ce que les corrélations soient constantes au sein des études.
  • Utilisez CRVE lorsque vous n’êtes pas sûr des spécifications du modèle. Il fournit des estimations robustes de la variance pour les effets fixes, mais gardez ses hypothèses à l’esprit :
    • CRVE nécessite des clusters indépendants.
    • Si les grappes ne sont pas indépendantes (par exemple, effets phylogénétiques partagés), une solution de contournement consiste à ajuster un modèle plus simple sans l’effet aléatoire croisé et à comparer les estimations de la moyenne globale à titre de contrôle de sensibilité.
    • Pour les petits échantillons ou quelques grappes, utilisez des corrections pour petits échantillons (par exemple CR2 ou CR3).
  • Lorsque cela est possible, pensez à enregistrer votre choix de modèle à l’avance.

Si vous souhaitez aller plus loin, voici quelques éléments supplémentaires à prendre en compte lors de la modélisation en méta-analyse :





Source link

Quitter la version mobile