Articles

Segmentation des clients: Comment l’apprentissage automatique rend le marketing intelligent

Par Mona Eslamijam

 Segmentation des clients d'apprentissage automatique

Cet article fait partie de « Déconstruire l’intelligence artificielle », une série de publications qui explorent les détails du fonctionnement des applications d’IA.

L’un des principaux défis que les équipes marketing doivent résoudre est d’allouer leurs ressources de manière à minimiser le « coût par acquisition » (CPA) et à augmenter le retour sur investissement. Cela est possible grâce à la segmentation, le processus de division des clients en différents groupes en fonction de leur comportement ou de leurs caractéristiques.

La segmentation des clients peut aider à réduire le gaspillage dans les campagnes marketing. Si vous savez quels clients se ressemblent, vous serez mieux placé pour cibler vos campagnes auprès des bonnes personnes.

La segmentation de la clientèle peut également aider dans d’autres tâches marketing telles que les recommandations de produits, les prix et les stratégies de vente incitative.

La segmentation des clients était auparavant une tâche difficile et fastidieuse, qui nécessitait des heures de recherche manuelle sur différentes tables et d’interrogation des données dans l’espoir de trouver des moyens de regrouper les clients. Mais ces dernières années, c’est devenu beaucoup plus facile grâce à l’apprentissage automatique, des algorithmes d’intelligence artificielle qui trouvent des régularités statistiques dans les données. Les modèles d’apprentissage automatique peuvent traiter les données client et découvrir des modèles récurrents sur diverses fonctionnalités. Dans de nombreux cas, les algorithmes d’apprentissage automatique peuvent aider les analystes marketing à trouver des segments de clientèle qui seraient très difficiles à repérer grâce à l’intuition et à l’examen manuel des données.

La segmentation des clients est un exemple parfait de la façon dont la combinaison de l’intelligence artificielle et de l’intuition humaine peut créer quelque chose de plus grand que la somme de ses parties.

L’algorithme de clustering k-means

 clustering k-means
Le clustering K-means est un algorithme d’apprentissage automatique qui organise des points de données non étiquetés autour d’un nombre spécifique de clusters.

Les algorithmes d’apprentissage automatique sont disponibles en différentes versions, chacune adaptée à des types de tâches spécifiques. Parmi les algorithmes pratiques pour la segmentation des clients, il y a le clustering k-means.

Le clustering K-means est un algorithme d’apprentissage automatique non supervisé. Les algorithmes non supervisés n’ont pas de valeur de vérité au sol ou de données étiquetées pour évaluer leurs performances. L’idée derrière le clustering k-means est très simple: Organiser les données en clusters plus similaires.

Par exemple, si vos données client incluent l’âge, le revenu et le score de dépenses, un modèle k-means bien configuré peut vous aider à diviser vos clients en groupes où leurs attributs sont plus rapprochés. Dans ce paramètre, la similitude entre les clusters est mesurée en calculant la différence entre l’âge, le revenu et le score de dépenses des clients.

Lors de la formation d’un modèle k-means, vous spécifiez le nombre de clusters dans lesquels vous souhaitez diviser vos données. Le modèle commence par des centroïdes placés aléatoirement, des variables qui déterminent le centre de chaque grappe. Le modèle passe en revue les données de formation et les affecte au cluster dont le centroïde est le plus proche d’eux. Une fois que toutes les instances d’entraînement sont classées, les paramètres des centroïdes sont réajustés pour être au centre de leurs clusters. Le même processus se répète, les instances de formation étant réaffectées aux centroïdes précis et les centroïdes réajustés en fonction du réarrangement des points de données. À un moment donné, le modèle convergera, l’itération sur les données n’entraînera pas la commutation des clusters et des centroïdes des instances d’entraînement modifiant les paramètres.

 Affiche YouTube

Déterminer le bon nombre de segments de clients

Une des clés de l’utilisation réussie de l’algorithme d’apprentissage automatique k-means est de déterminer le nombre de clusters. Bien qu’un modèle converge sur un nombre quelconque de clusters que vous lui fournissez, toutes les configurations ne conviennent pas. Dans certains cas, une visualisation rapide des données peut révéler le nombre logique de clusters que le modèle doit contenir. Par exemple, dans l’image suivante, les données d’entraînement ont deux caractéristiques (x1 et x2), et leur mappage sur un nuage de points révèle cinq clusters facilement identifiables.

 k - signifie des données non regroupées

Lorsque votre problème comporte trois fonctionnalités (par exemple, x1, x2, x3), vos données peuvent être visualisées dans un espace 3D, où il est plus difficile de repérer les clusters. Au-delà de trois entités, il est impossible de visualiser toutes les entités dans une seule image et vous devez utiliser d’autres astuces, telles que l’utilisation d’une matrice de nuage de points pour visualiser les corrélations de différentes paires d’entités.

 matrice de nuage de points
La matrice de nuage de points visualise les corrélations entre différentes paires d’entités. Dans cet exemple, l’espace de problème se compose de quatre fonctionnalités.

Une autre astuce qui peut aider à regrouper les données est la réduction de la dimensionnalité, des techniques d’apprentissage automatique qui examinent les corrélations dans les points de données et suppriment les fonctionnalités qui sont fausses ou contiennent moins d’informations. La réduction de la dimensionnalité peut simplifier votre espace de problèmes et faciliter la visualisation des données et les opportunités de clustering ponctuel.

Mais dans de nombreux cas, le nombre de grappes n’est pas évident même avec l’utilisation des techniques susmentionnées. Dans ces cas, vous devrez expérimenter différents nombres de clusters jusqu’à ce que vous en trouviez un qui soit optimal.

Mais comment trouvez-vous la configuration optimale ? Les modèles K-means peuvent être comparés par leur inertie, qui est la distance moyenne entre les instances d’un cluster et son centroïde. En général, les modèles à inertie plus faible sont plus cohérents.

Mais l’inertie seule ne suffit pas à évaluer les performances de votre modèle d’apprentissage automatique. L’augmentation du nombre de clusters réduira toujours la distance entre les instances et leurs centroïdes de cluster. Et lorsque chaque instance devient son propre cluster, l’inertie tombe à zéro. Mais vous ne voulez pas avoir un modèle d’apprentissage automatique qui attribue un cluster par client.

Une technique efficace pour trouver le nombre optimal de clusters est la méthode du coude, dans laquelle vous augmentez progressivement votre modèle d’apprentissage automatique jusqu’à ce que vous trouviez le point où l’ajout de clusters n’entraînera pas une baisse significative de l’inertie. C’est ce qu’on appelle le coude du modèle d’apprentissage automatique. Par exemple, dans l’image suivante, le coude se trouve à quatre grappes. L’ajout de clusters supplémentaires entraînera un modèle d’apprentissage automatique inefficace.

 méthode du coude de clustering k-means
La méthode du coude trouve la configuration la plus efficace des modèles d’apprentissage automatique k-means en comparant la façon dont l’ajout de clusters se compare à la réduction de l’inertie.

Utiliser le clustering k-means et les segments de clients

Une fois formé, votre modèle d’apprentissage automatique peut déterminer le segment auquel appartiennent les nouveaux clients en mesurant leur distance à chacun des centroïdes du cluster. Il y a plusieurs façons de mettre cela à profit.

Par exemple, lorsque vous obtenez un nouveau client, vous voudrez lui fournir des recommandations de produits. Votre modèle d’apprentissage automatique vous aidera à déterminer le segment de vos clients et les produits les plus courants associés à ce segment.

En marketing produit, votre algorithme de clustering vous aidera à réajuster vos campagnes. Par exemple, vous pouvez lancer une campagne publicitaire avec un échantillon aléatoire de clients appartenant à différents segments. Après avoir exécuté la campagne pendant un certain temps, vous pouvez examiner quels segments sont les plus réactifs et affiner votre campagne pour afficher uniquement des publicités pour les membres de ces segments. Vous pouvez également exécuter plusieurs versions de votre campagne et utiliser l’apprentissage automatique pour segmenter vos clients en fonction de leurs réponses aux différentes campagnes. En général, vous disposerez de nombreux autres outils pour tester et ajuster vos campagnes publicitaires.

 apprentissage d'ensemble

K-signifie que le clustering est un algorithme d’apprentissage automatique rapide et efficace. Mais ce n’est pas une baguette magique qui transformera rapidement vos données en segments de clientèle logiques. Vous devez d’abord définir le paramétrage de vos campagnes marketing et le type de fonctionnalités qui leur seront pertinentes. Par exemple, si vos campagnes seront ciblées sur des lieux spécifiques, la localisation géographique ne sera pas une fonctionnalité pertinente, et vous feriez mieux de filtrer vos données pour cette région spécifique. De même, si vous faites la promotion d’un produit de santé pour hommes, vous devez filtrer vos données client pour n’inclure que les hommes et éviter d’inclure le sexe comme l’une des caractéristiques de votre modèle d’apprentissage automatique.

Et dans certains cas, vous voudrez inclure des informations supplémentaires, telles que les produits qu’ils ont achetés dans le passé. Dans ce cas, vous devrez créer une matrice client-produit, une table contenant les clients sous forme de lignes et les articles sous forme de colonnes et le nombre d’articles achetés à l’intersection de chaque client et article. Si le nombre de produits est trop élevé, vous pouvez envisager de créer une intégration, où les produits sont représentés sous forme de valeurs dans un espace vectoriel multidimensionnel.

Dans l’ensemble, l’apprentissage automatique est un outil très efficace dans le marketing et la segmentation des clients. Il ne remplacera probablement pas le jugement et l’intuition humains de sitôt, mais il peut aider à augmenter les efforts humains à des niveaux qui étaient auparavant impossibles.

À propos de l’auteur

 Mona Eslamijam

Mona Eslamijam est diplômée en analyse d’affaires (MSc) de l’Université du Texas à Dallas.