top of page

Segmentation client d'un site e-commerce

Définition de profils clients d'un site de e-commerce.

Contexte


Olist, une entreprise brésilienne qui propose une solution de vente en ligne, souhaite une segmentation de ses clients pour son service de e-commerce afin de définir des profils d’utilisateurs et adapter ses campagnes de communication ciblées.


L’objectif est donc de comprendre les différents types de clients à travers leur comportement, leurs habitudes et leurs données personnelles. La description actionable de la segmentation et sa logique sous-jacente doit être compréhensible au service marketing.


Une proposition de contrat de maintenance est finalement élaborée, basée sur une analyse de stabiluté des segments au cours du temps.


Données


Le jeu de données est disponible ici.


Les informations sont séparées en 9 datasets regroupant des informations sur les clients, leur lcoalisation, le type de produits achetés, les transferts monétaires, les avis laissés, les vendeurs.


Méthode de Segmentation


La méthode utilisée pour la segmentation des clients du site est la méthode RFM, qui permet de segmenter sa base clients selon l’intention d’achat et de les cibler efficacement.


La méthode est nommée RFM par le type de variables considérées pour la segmentation :

  • Récence : la date du dernier achat. Notez bien que l’on part du principe qu’une personne qui a acheté récemment sur le site a plus de chances de revenir commander.

  • Fréquence : le nombre d’achats réalisé sur une période donnée. Plus un client achète régulièrement sur le site, plus il y a de chances pour qu’il y achète à nouveau. On analyse ici son niveau de fidélité.

  • Montant : la somme des achats cumulés sur une période donnée. Les gros acheteurs répondent mieux que les petits. On mesure ici la valeur client.


D’autres variables peuvent être ajoutées pour renforcer le modèle, comme

  • Nombre d’articles moyen par panier

  • Note moyenne de satisfaction


Cette méthode va permettre entre autre de :

  • Sauver des coûts inutiles, en mettant de côté les clients peu ou pas actifs.

  • Accroitre le ROI des emails marketing significativement en envoyant aux clients fidèles pour renforcer cette fidélité.

  • Relancer les inscrits inactifs via une campagne de réengagement pour recapter leur intérêt.


Analyse exploratoire


Analyse Univariée


Récence



La distribution de la récence semble comprise entre 44 et 772 jours.


Fréquence



Une écrante majorité (97%) des clients n’ont commandé qu’une seule fois.


Montant


La majorité des montants se situe sous la barre des 50 BRL. L’écart-type est cependant important.


Note de satisfaction



Les notes de satisfaction présentent une majorité de note maximale.


Nombre moyen d’articles par panier



Analyse Bivariée


Face à la possibilité d’ajouter des variables pour renforcer la segmentation, il est important de s’assurer que les variables ajoutées ne sont pas corrélées à celles déjà sélectionnées.




Aucunes variables ne semblent corrélées.


Modélisation

Hierarchical clustering


Agglomération des individus/clusters les plus proches en clusters de moins en moins nombreux. Le choix du nombre optima de clusers se fait visuellement.




Cependant, la complexité algorithmique de ce type de modèle est lourde et ne convient pas à un dataset important, comme celui étudié ici.


DBScan


La construction de clusters se fait par densité de voisinage, qui doit être défini par avance.




La densité choisie est de 100. Plusieurs tailles de voisinage ont été testées. Cependant, ce type de modèle n’est pas adapté aux densités d’individus trop faibles, comme dans le dataset étudié ici.


K-Means


Regroupe les observations avec une haute similarité.

Le nombre optimal de clusters doit être préléablement déterminé.




Le modèle est testé pour différents nombre de clusters, et la SSE (Sum of Squarred Errors) est calculée à chaque fois. Le nombre optimal de clusters est sélectionné au “coude” de la courbe, ici 5.


Il est également possible de déterminer le nombre optimal de clusters grâce au coeffcient de silhouette.




Afin d’obtenir des clusters de tailles et répartition équivalentes, on peut voir que le nombre de clusters optimal semble être de 5.


On fixe donc k = 5 pour le modèle.


Résultats


Clusters & Profils



Clusters

Utilisateurs

% utilisateurs

Récence moyenne (jours)

Fréquence moyenne

Montant moyen

Nombre moyen d'article

Note moyenne de satisfaction

1

11295

12

441 +/- 95

1.032 +/- 0.19

158 +/- 206

1.09 +/- 0.32

3.7 +/- 0.48

2

15240

16

182 +/- 74

1.044 +/- 0.24

161 +/- 208

1.08 +/- 0.33

3.6 +/- 0.46

3

31550

33

170 +/- 72

1.038 +/- 0.23

160 +/- 210

1.08 +/- 0.29

4.9 +/- 0.04

4

13273

14

289 +/- 144

1.020 +/- 0.15

193 +/- 293

1.21 +/- 0.49

1.2 +/- 0.41

5

23362

25

436 +/- 95

1.030 +/- 0.19

163 +/- 227

1.09 +/- 0.30

5.0 +/- 0.03



Contrat de maintenance


Il est nécessaire de trouver la fréquence optimale de mise à jour pour la stabilité du système de segmentation (répartition des utilisateurs en groupes stables). Pour cela, on utilise l’ARI (Adjusted Rand Index), qui donne une mesure de la stabilité des groupes, et on calcule la moyenne de cette valeur en fonction de la période de mise à jour.




Conclusion


Il est possible d’identifier trois profils de clients :

  • Des clients déjà fidélisés : les groupes 2 et 3 viennent souvent, dépensent moins mais régulièrement et semblent satisfaits du site

  • Des clients à fort potentiel : le groupe 4 est venu le plus récemment, n’est pas encore fidélisé mais a dépensé plus que les autres, avec une note de satisfaction assez faible. Clients à relancer.

  • Deux groupes de clients peu intéressants pour notre étude, à laisser de côté.


La fréquence de mise à jour recommandée du système de segmentation est de 15 jours, qu’on peut pousser à 7 jours pour une meilleure stabilité.

bottom of page