Si l’analyse factorielle dont l’ACP fait partie commence son histoire avec la parution de l’article de Karl Pearson On lines and planes of closest fit to systems of points in space dans Philosophical Magazine, c’est le développement de l’informatique qui lui permet de prendre son essor.
C’est une équipe française menée par Jean-Paul Benzécri qui a mis au point l’analyse factorielle des correspondances dans les années 1960.
Incontournable dans de nombreux domaines, elle permet de réduire le nombre de variables, de connaître les liens entre les variables et/ou les individus, de qualifier des groupes d’individus.
Elle est particulièrement utilisée en France.
Les analyses factorielles se réalisent toujours sur un jeu de données rectangulaire avec les individus en lignes (k lignes) et les mesures en colonnes (n colonnes).
Warning
Une seule ligne par individus !
Les k individus sont vus dans n dimensions.
3 grands types d’analyses factorielles :
_ ACP, Analyse en Composantes Principales : que des variables quantitatives
_ AF(D)M, Analyse Factorielle (des Données) Mixtes : variables quantitatives et qualitatives
_ A(F)CM, Analyse (Factorielle) des Correspondances Multiples : variables qualitatives uniquement
Visualisation en utilisant le package {tourr} qui permet de visuliser le nuage des k individus dans les n dimensions, ici 342 pingouins dans 5 dimensions.
$Dim.1
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
flipper_length_mm 0.9585908 1.552310e-187
body_mass_g 0.9054051 1.493199e-128
bill_length_mm 0.7526986 1.089066e-63
year 0.1592763 3.140610e-03
bill_depth_mm -0.6629540 1.173808e-44
$Dim.2
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
year 0.9856765 6.531669e-265
body_mass_g -0.1110509 4.011874e-02
$Dim.3
Link between the variable and the continuous variables (R-square)
=================================================================================
correlation p.value
bill_depth_mm 0.7027357 3.289288e-52
bill_length_mm 0.5208740 3.532738e-25
Utilisation du package missMDA pour le remplacement des valeurs manquantes (uniquement numériques ici).
penguins %>%filter(is.na(bill_depth_mm))
# A tibble: 2 × 8
species island bill_length_mm bill_depth_mm flipper_length_mm body_mass_g
<fct> <fct> <dbl> <dbl> <int> <int>
1 Adelie Torgersen NA NA NA NA
2 Gentoo Biscoe NA NA NA NA
# ℹ 2 more variables: sex <fct>, year <int>