
Segmentation client d'un site e-commerce
Définition de profils clients d'un site de e-commerce.
Contexte
Olist, une entreprise brésilienne qui propose une solution de vente en ligne, souhaite une segmentation de ses clients pour son service de e-commerce afin de définir des profils d’utilisateurs et adapter ses campagnes de communication ciblées.
L’objectif est donc de comprendre les différents types de clients à travers leur comportement, leurs habitudes et leurs données personnelles. La description actionable de la segmentation et sa logique sous-jacente doit être compréhensible au service marketing.
Une proposition de contrat de maintenance est finalement élaborée, basée sur une analyse de stabiluté des segments au cours du temps.
Données
Le jeu de données est disponible ici.
Les informations sont séparées en 9 datasets regroupant des informations sur les clients, leur lcoalisation, le type de produits achetés, les transferts monétaires, les avis laissés, les vendeurs.
Méthode de Segmentation
La méthode utilisée pour la segmentation des clients du site est la méthode RFM, qui permet de segmenter sa base clients selon l’intention d’achat et de les cibler efficacement.
La méthode est nommée RFM par le type de variables considérées pour la segmentation :
Récence : la date du dernier achat. Notez bien que l’on part du principe qu’une personne qui a acheté récemment sur le site a plus de chances de revenir commander.
Fréquence : le nombre d’achats réalisé sur une période donnée. Plus un client achète régulièrement sur le site, plus il y a de chances pour qu’il y achète à nouveau. On analyse ici son niveau de fidélité.
Montant : la somme des achats cumulés sur une période donnée. Les gros acheteurs répondent mieux que les petits. On mesure ici la valeur client.
D’autres variables peuvent être ajoutées pour renforcer le modèle, comme
Nombre d’articles moyen par panier
Note moyenne de satisfaction
Cette méthode va permettre entre autre de :
Sauver des coûts inutiles, en mettant de côté les clients peu ou pas actifs.
Accroitre le ROI des emails marketing significativement en envoyant aux clients fidèles pour renforcer cette fidélité.
Relancer les inscrits inactifs via une campagne de réengagement pour recapter leur intérêt.
Analyse exploratoire
Analyse Univariée
Récence

La distribution de la récence semble comprise entre 44 et 772 jours.
Fréquence

Une écrante majorité (97%) des clients n’ont commandé qu’une seule fois.
Montant

La majorité des montants se situe sous la barre des 50 BRL. L’écart-type est cependant important.
Note de satisfaction

Les notes de satisfaction présentent une majorité de note maximale.
Nombre moyen d’articles par panier

Analyse Bivariée
Face à la possibilité d’ajouter des variables pour renforcer la segmentation, il est important de s’assurer que les variables ajoutées ne sont pas corrélées à celles déjà sélectionnées.

Aucunes variables ne semblent corrélées.
Modélisation
Hierarchical clustering
Agglomération des individus/clusters les plus proches en clusters de moins en moins nombreux. Le choix du nombre optima de clusers se fait visuellement.

Cependant, la complexité algorithmique de ce type de modèle est lourde et ne convient pas à un dataset important, comme celui étudié ici.
DBScan
La construction de clusters se fait par densité de voisinage, qui doit être défini par avance.

La densité choisie est de 100. Plusieurs tailles de voisinage ont été testées. Cependant, ce type de modèle n’est pas adapté aux densités d’individus trop faibles, comme dans le dataset étudié ici.
K-Means
Regroupe les observations avec une haute similarité.
Le nombre optimal de clusters doit être préléablement déterminé.

Le modèle est testé pour différents nombre de clusters, et la SSE (Sum of Squarred Errors) est calculée à chaque fois. Le nombre optimal de clusters est sélectionné au “coude” de la courbe, ici 5.
Il est également possible de déterminer le nombre optimal de clusters grâce au coeffcient de silhouette.

Afin d’obtenir des clusters de tailles et répartition équivalentes, on peut voir que le nombre de clusters optimal semble être de 5.
On fixe donc k = 5 pour le modèle.
Résultats
Clusters & Profils
Clusters | Utilisateurs | % utilisateurs | Récence moyenne (jours) | Fréquence moyenne | Montant moyen | Nombre moyen d'article | Note moyenne de satisfaction |
1 | 11295 | 12 | 441 +/- 95 | 1.032 +/- 0.19 | 158 +/- 206 | 1.09 +/- 0.32 | 3.7 +/- 0.48 |
2 | 15240 | 16 | 182 +/- 74 | 1.044 +/- 0.24 | 161 +/- 208 | 1.08 +/- 0.33 | 3.6 +/- 0.46 |
3 | 31550 | 33 | 170 +/- 72 | 1.038 +/- 0.23 | 160 +/- 210 | 1.08 +/- 0.29 | 4.9 +/- 0.04 |
4 | 13273 | 14 | 289 +/- 144 | 1.020 +/- 0.15 | 193 +/- 293 | 1.21 +/- 0.49 | 1.2 +/- 0.41 |
5 | 23362 | 25 | 436 +/- 95 | 1.030 +/- 0.19 | 163 +/- 227 | 1.09 +/- 0.30 | 5.0 +/- 0.03 |
Contrat de maintenance
Il est nécessaire de trouver la fréquence optimale de mise à jour pour la stabilité du système de segmentation (répartition des utilisateurs en groupes stables). Pour cela, on utilise l’ARI (Adjusted Rand Index), qui donne une mesure de la stabilité des groupes, et on calcule la moyenne de cette valeur en fonction de la période de mise à jour.

Conclusion
Il est possible d’identifier trois profils de clients :
Des clients déjà fidélisés : les groupes 2 et 3 viennent souvent, dépensent moins mais régulièrement et semblent satisfaits du site
Des clients à fort potentiel : le groupe 4 est venu le plus récemment, n’est pas encore fidélisé mais a dépensé plus que les autres, avec une note de satisfaction assez faible. Clients à relancer.
Deux groupes de clients peu intéressants pour notre étude, à laisser de côté.
La fréquence de mise à jour recommandée du système de segmentation est de 15 jours, qu’on peut pousser à 7 jours pour une meilleure stabilité.