Gestion des données manquantes en Analyse en Composantes Principales

Résumé : Une solution classique pour réaliser une Analyse en Composante Principale (ACP) sur données incomplètes consiste à chercher les axes et les composantes qui minimisent l'erreur de reconstitution sur les données présentes. Plusieurs algorithmes ont été proposés dans la littérature comme NIPALS, une approche par moindres carrés alternés pondérés et une approche par ACP itérative. Cette dernière consiste en une imputation itérative des données au cours du processus d'estimation et s'apparente à un algorithme EM d'un modèle particulier. Ces algorithmes sont décrits dans le cadre commun de la minimisation du critère. Cette présentation unifiée permet de mieux comprendre leurs propriétés et les difficultés qu'ils rencontrent. Nous nous focalisons ensuite sur le problème principal du surajustement et montrons comment la formulation probabiliste de l'ACP (Tipping & Bishop, 1997) offre un terme de régularisation adapté pour pallier à ce problème. Les performances de l'algorithme finalement proposé sont comparées à celles des autres algorithmes à partir de simulations.
Type de document :
Communication dans un congrès
Séminaire de laboratoire de mathématiques, Mar 2010, Bordeaux (FR), France
Liste complète des métadonnées

https://hal-agrocampus-ouest.archives-ouvertes.fr/hal-00729523
Contributeur : Céline Martel <>
Soumis le : vendredi 7 septembre 2012 - 15:44:41
Dernière modification le : jeudi 21 juin 2018 - 01:22:59

Identifiants

  • HAL Id : hal-00729523, version 1

Citation

Julie Josse, François Husson. Gestion des données manquantes en Analyse en Composantes Principales. Séminaire de laboratoire de mathématiques, Mar 2010, Bordeaux (FR), France. 〈hal-00729523〉

Partager

Métriques

Consultations de la notice

477