Fausses causes, rencontrez l’attracteur Dimension – Blog de méthodes

Post fourni par Yair Daon
Qui suis-je?
Je suis Yair Daon, un mathématicien devenu-épidémiologiste à la faculté de médecine de l’Université Bar-Ilan. La plupart du temps, je regarde les courbes de séries chronologiques qui affirment qu’une chose «en entraîne» une autre. Lorsque ces réclamations sont erronées, les décisions de santé publique peuvent dériver. Notre nouveau document Methods in Ecology & Evolution présente un moyen rapide de crier «Non!» avant que cela ne se produise.
Une amorce de deux minutes pour le non-spécialiste
Incorporer et attracteurs: Imaginez regarder une horloge mécanique à travers un trou de clé: vous n’enregistrez que la pointe de la seconde main. Un théorème de Takens (Takens, 1981) implique qu’en empilant la position d’aujourd’hui, d’hier, la veille, etc., vous pouvez toujours reconstruire les engrenages cachés. La plus petite pile qui fonctionne est la dimension d’intégration. La boucle des points que vous découvrez est l’attracteur du système; Son «épaisseur» est la dimension d’attracteur. Cela peut nous aider à comprendre la causalité de manière clé: si Cause Y causes Résultat xalors les choses nécessaires pour expliquer Résultat x = choses nécessaires pour expliquer Cause et + Peut-être plus de choses. «Les choses nécessaires à expliquer» déterminent la dimension d’attracteur, donc Cause doit être plus petit que Résultats.
Sugihara et al. (2012) ont enseigné aux écologistes un test intelligent: si le nombre passé de grippe vous permet de prédire l’humidité, la grippe code la grippe sur l’humidité, donc l’humidité provoque la grippe. Élégant? Oui. Mais dans les systèmes fortement synchronisés, la méthode crie parfois «Cause!» quand il ne devrait pas (Baskerville et Cobey, 2017).
Un puzzle en 2022
En 2022, je jouais avec des dimensions d’intégration – combien de coordonnées vous avez besoin pour reconstruire la dynamique d’un système à partir d’un seul observable. Rappelant une conversation de 2017 avec Sugihara, j’ai pensé à utiliser la dimension d’intégration comme critère de causalité. Mon ancien conseiller MSC, Omri Sarig, m’a suggéré de regarder la dimension de l’attracteur à la place. À peu près à la même époque, je lisais certains des livres de Judea Pearl sur l’inférence causale et j’ai noté que «les hypothèses causales sont codées (…) dans les liens manquants» (Pearl, 2016). Bien que le test de Sugihara soit excellent pour détecter les liens, si vous souhaitez réfuter un lien, vous avez besoin d’un test complémentaire. Le besoin s’est semblé encore plus urgent après avoir discuté avec mes conseillers postdocs Uri Obolski et Amit Huppert à propos de la «grippe entraîne-t-elle une humidité absolue?» papier. Le réfutation des relations causales se sentait soudainement à la fois urgente et réalisable.
Lorsque le téléphone a craqué
L’obstacle en ingénierie était lisse et la percée est venue dans une boutique de réparation de téléphone. Alors que j’attendais qu’un écran brisé soit remplacé, j’ai griffonné une serviette et j’ai réalisé que le seuil dur optimal (Gavish et Donoho, 2014) – à l’origine une astuce de débraillage pour les matrices – pourrait résoudre le filtrage des maux de tête dans les tests causaux. Trop de liberté dans le lissage permet à quiconque de fabriquer une réponse pratique; Le seuil de Gavish, replié en analyse du spectre singulier, m’a donné un moyen robuste et presque sans paramètre de laisser les données parler. Un seul numéro est nécessaire (la longueur de la fenêtre) et tant que cette fenêtre est un petit multiple de la période du système, les résultats changent à peine.

Rencontrez BCAD
Le flux de travail qui en résulte est étonnamment simple:
- Série lisse bruyante via l’analyse du spectre singulier et le seuil dur.
- Estimez la dimension d’attracteur de chaque série.
- Des attracteurs bootstrap pour trouver des intervalles de confiance.
- Réfuter: si Dim x

Pourquoi s’embêter? Parce que le rejet de fausses relations causales est cool, intéressant et permet d’économiser un énorme effort de modélisation. Dans «La grippe entraîne-t-elle une humidité absolue?» (Baskerville et Cobey, 2017), CCM a souvent affirmé que le virus avait affecté la météo. Le BCAD, exécuté sur les données de l’état américain, a rejeté cette liaison vers l’arrière dans 46 des 48 états tout en préservant le lien vers l’avant correct (l’humidité provoque la grippe).

Mises en garde en gras
Une forte synchronie fait mal. Lorsque les séries de conducteurs et de réponse sont presque identiques, leurs attracteurs fusionnent et le BCAD perd la puissance. La synchronisation moyenne et faible ne pose cependant aucun problème.
La longueur des données est importante. Les estimations de dimension fiables nécessitent des enregistrements contigus raisonnablement longs. Nous ne savons pas exactement quelle est la limite, mais les séries très courtes ou glisser-glisser peuvent certainement nous tromper.
Nous épelons ces limites – et quelques garanties algorithmiques – dans le papier.
Les gens qui ont allumé le chemin
Un merci spécial à Irena Vankova de m’avoir entraîné au séminaire de George Sugihara à l’Institut Courant il y a dix ans, à Omri Sarig pour l’étincelle originale de la dimension d’attracteur, et à Uri et Amit, qui ont fourni un optimisme et des vérifications de réalité sans fin tout au long du projet.
Prenez le code, donnez un coup de pied aux pneus
Papier: https://doi.org/10.1111/2041-210x.70066
Code et tutoriel: https://github.com/yairdaon/bcad.
Bonus: modèle de l’immunisation croisée accélérée par numérisation (GOG et Swinton, 2002) à https://github.com/yairdaon/fts.
Je suis sur X / Twitter en tant que @yairdaon. Tag / dm moi si vous voulez mieux comprendre les structures causales de votre système d’intérêt, repérer un bug ou frapper un cas d’angle étrange. En ce qui concerne les relations causales, réfuter les questions autant que la liaison.
Références:
Takens, Floris. « Détecter des attracteurs étranges dans les turbulences UID. » Systèmes dynamiques et turbulences 898 (1981): 366.
Sugihara, George, et al. «Détection de la causalité dans les écosystèmes complexes.» Science 338.6106 (2012): 496-500.
Baskerville, Edward B. et Cobey, Sarah. «La grippe entraîne-t-elle une humidité absolue?». Actes de la National Academy of Sciences 114.12 (2017): E2270-E2271.
Pearl, Judée. « Inférence causale dans les statistiques: un aperçu. » (2009): 96-146.
Gavish, Matan et Donoho, David L. «Le seuil dur optimal pour les valeurs singulières est de 4 / √3». Transactions IEEE sur la théorie de l’information 60.8 (2014): 5040-5053.