PROPENSITY WEIGHTING FOR SURVEY NONRESPONSE THROUGH MACHINE LEARNING - Institut Agro Rennes-Angers Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

PROPENSITY WEIGHTING FOR SURVEY NONRESPONSE THROUGH MACHINE LEARNING

David Haziza
  • Fonction : Auteur
  • PersonId : 974420
David Causeur

Résumé

We consider the problem of estimating the response probabilities in the context of weighting for unit nonresponse. The response probabilities may be estimated using either parametric or nonparametric methods. In practice, nonparametric methods are usually preferred because, unlike parametric methods, they protect against the misspeci cation of the nonresponse model. In this work, we conduct an extensive simulation study to compare methods for estimating the response probabilities in a nite population setting. In our study, we attempted to cover a wide range of (parametric and nonparametric) "simple" methods as well as aggregation methods like Bagging, Random Forests, Boosting. For each method, we assessed the performance of the propensity score estimator and the Hajek estimator in terms of relative bias and relative e ciency.
Recensements, enquêtes ou encore sources administratives, peu importe l'origine des don- nées, elles sont toutes susceptibles de présenter des données manquantes. Le traitement de la non-réponse est d'un intérêt pratique très important étant donnée la baisse constante du taux de réponse aux enquêtes depuis plusieurs décennies. Nous considérons le problème de l'estimation des probabilités de réponse dans un contexte de pondération pour correction de la non réponse totale. Les probabilités de réponse peuvent être estimées par des méthodes paramétriques ou non paramétriques. La classe des modèles paramétriques inclut la régression logistique comme cas particulier. Les méthodes paramétriques présentent cependant plusieurs inconvénients : (i) elles ne sont pas robustes par rapport à une mauvaise spéci cation de la forme du modèle, (ii) elles ne sont pas robustes à la non prise en compte d'éventuelles interactions entre prédicteurs ou de termes qua- dratiques, (iii) elles peuvent conduire à des probabilités estimées très proches de zéro, conduisant à des estimateurs potentiellement instables (Little et Vartivarian, 2005, et Beaumont 2005). La classe des méthodes non paramétriques comprend notamment la régression par polynômes locaux (Da Silva et Opsomer, 2009), la pondération de classes formées sur la base d'une estima- tion préliminaire des probabilités de réponse (Little, 1986, Eltinge et Yansaneh, 1997, Haziza et Beaumont, 2007), l'algorithme CHi square Automatic Interaction Detection (CHAID de Kass, 1980), Classi cation and Regression Trees (CART Breiman et al., 1984, Phipps et Toth, 2012), Conditional inference trees (Ctree) pour des cibles simples ou multiples (Hothorn et al. 2006). Nous présentons une vaste étude par simulation pour comparer un grand nombre de méthodes d'estimation des probabilités de réponse par apprentissage supervisé, dans un cadre de population nie. Nous couvrons un large champ de méthodes paramétriques ou non, avec des règles de décisions simples ou agrégées telles que Bagging, Random Forests (Breiman, 1996), Boosting (Freund et Shapire, 1996, Friedman et al. 2000) ; voir également Hastie et al. (2009) pour une revue très complète des méthodes d'apprentissage. Pour chaque méthode, ce sont les performances de l'estimateur par expansion et de l'estimateur de Hajek d'un total qui sont mesurées en termes de biais relatif et d'e cacité relative.
Fichier principal
Vignette du fichier
Causeur-2018_3_ACTE_GELEIN_JMS2018.pdf (1.29 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02076739 , version 1 (22-03-2019)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

  • HAL Id : hal-02076739 , version 1

Citer

Brigitte Gelein, David Haziza, David Causeur. PROPENSITY WEIGHTING FOR SURVEY NONRESPONSE THROUGH MACHINE LEARNING. 13es Journées de méthodologie statistique de l'Insee (JMS), Jun 2018, Paris, France. ⟨hal-02076739⟩
122 Consultations
364 Téléchargements

Partager

Gmail Facebook X LinkedIn More