Articles

segmentação de Clientes: Como aprendizado de máquina faz marketing inteligente

Por Mona Eslamijam

aprendizado de máquina segmentação de clientes

Este artigo é parte da “Desconstrução inteligência artificial”, uma série de posts que explorar os detalhes de como o AI, aplicativos de trabalho.

um dos principais desafios que as equipes de marketing devem resolver é alocar seus recursos de uma forma que minimize o “custo por aquisição” (CPA) e aumente o retorno do investimento. Isso é possível por meio da segmentação, o processo de dividir os clientes em diferentes grupos com base em seu comportamento ou características.A segmentação de clientes pode ajudar a reduzir o desperdício em campanhas de marketing. Se você souber quais clientes são semelhantes entre si, estará mais bem posicionado para segmentar suas campanhas nas pessoas certas.A segmentação de clientes também pode ajudar em outras tarefas de marketing, como recomendações de produtos, preços e estratégias de up-selling.

a segmentação de clientes era anteriormente uma tarefa desafiadora e demorada, que exigia horas de análise manual de diferentes tabelas e consulta dos dados na esperança de encontrar maneiras de agrupar os clientes. Mas nos últimos anos, tornou-se muito mais fácil graças ao aprendizado de máquina, algoritmos de inteligência artificial que encontram regularidades estatísticas nos dados. Os modelos de aprendizado de máquina podem processar dados do cliente e descobrir padrões recorrentes em vários recursos. Em muitos casos, os algoritmos de aprendizado de máquina podem ajudar os analistas de marketing a encontrar segmentos de clientes que seriam muito difíceis de detectar por meio da intuição e do exame manual de dados.A segmentação de clientes é um exemplo perfeito de como a combinação de inteligência artificial e intuição humana pode criar algo que é maior do que a soma de suas partes.

O k-means algoritmo de clustering

k-means clustering
K-means clustering é um algoritmo de aprendizado de máquina que organiza sem rótulos de pontos de dados em torno de um determinado número de clusters.

algoritmos de aprendizado de máquina vêm em diferentes sabores, cada um adequado para tipos específicos de Tarefas. Entre os algoritmos que são convenientes para a segmentação de clientes está o agrupamento k-means.

K-significa que o agrupamento é um algoritmo de aprendizado de máquina não supervisionado. Algoritmos não supervisionados não têm um valor de verdade fundamental ou dados rotulados para avaliar seu desempenho. A ideia por trás do clustering k-means é muito simples: Organize os dados em clusters mais semelhantes.Por exemplo, se os dados do seu cliente incluem idade, renda e pontuação de gastos, um modelo k-means bem configurado pode ajudar a dividir seus clientes em grupos onde seus atributos estão mais próximos. Nesse cenário, a semelhança entre clusters é medida calculando a diferença entre a pontuação de idade, renda e gastos dos clientes.

ao treinar um modelo k-means, você especifica o número de clusters em que deseja dividir seus dados. O modelo começa com centróides colocados aleatoriamente, variáveis que determinam o centro de cada cluster. O modelo passa pelos dados de treinamento e os atribui ao cluster cujo centróide está mais próximo deles. Depois que todas as instâncias de treinamento são classificadas, os parâmetros dos centróides são reajustados para estarem no centro de seus clusters. O mesmo processo se repete, com as instâncias de treinamento sendo reatribuídas para os centróides finetuned e os centróides reajustados com base no rearranjo dos pontos de dados. Em um ponto, o modelo convergirá, iterar sobre os dados não resultará em instâncias de treinamento alternando clusters e centróides alterando parâmetros.

YouTube Cartaz

Determinar o número de segmentos de clientes

Uma das chaves para o sucesso na utilização do k-means algoritmo de aprendizado de máquina é a determinação do número de clusters. Enquanto um modelo convergirá em qualquer número de clusters que você fornecer, nem todas as configurações são adequadas. Em alguns casos, uma visualização rápida dos dados pode revelar o número lógico de clusters que o modelo deve conter. Por exemplo, na imagem a seguir, os dados de treinamento têm dois recursos (x1 e x2), e mapeá-los em um gráfico de dispersão revela cinco clusters facilmente identificáveis.

k-significa unclustered de dados

Quando o problema tem três características (por exemplo, x1, x2, x3), seus dados podem ser visualizados no espaço 3D, onde é mais difícil de detectar clusters. Além de três recursos, visualizar todos os recursos em uma imagem é impossível e você precisa usar outros truques, como usar uma matriz de gráfico de dispersão para visualizar as correlações de diferentes pares de recursos.

matriz scatterplot
a matriz scatterplot visualiza correlações entre diferentes pares de recursos. Neste exemplo, o espaço do problema consiste em quatro recursos.

outro truque que pode ajudar no agrupamento dos dados é a redução da dimensionalidade, técnicas de aprendizado de máquina que examinam as correlações nos pontos de dados e removem recursos que são espúrios ou contêm menos informações. A redução da dimensionalidade pode simplificar o espaço do problema e facilitar a visualização dos dados e as oportunidades de agrupamento de pontos.

mas, em muitos casos, o número de clusters não é evidente mesmo com o uso das técnicas acima mencionadas. Nesses casos, você terá que experimentar diferentes números de clusters até encontrar um que seja ideal.

mas como você encontra a configuração ideal? Os modelos K-means podem ser comparados por sua inércia, que é a distância média entre as instâncias em um cluster e seu centróide. Em geral, modelos com menor inércia são mais coerentes.

mas a inércia por si só não é suficiente para avaliar o desempenho do seu modelo de aprendizado de máquina. Aumentar o número de clusters sempre reduzirá a distância entre as instâncias e seus centróides de cluster. E quando cada instância se torna seu próprio cluster, a inércia cairá para zero. Mas você não quer ter um modelo de aprendizado de máquina que atribua um cluster por cliente.

uma técnica eficiente para encontrar o número ideal de clusters é o método elbow, onde você aumenta gradualmente seu modelo de aprendizado de máquina até encontrar o ponto em que adicionar mais clusters não resultará em uma queda significativa na inércia. Isso é chamado de cotovelo do modelo de aprendizado de máquina. Por exemplo, na imagem a seguir, o cotovelo fica em quatro grupos. Adicionar mais clusters além disso resultará em um modelo ineficiente de aprendizado de máquina.

k-means clustering elbow method
O método elbow Encontra a configuração mais eficiente dos modelos de aprendizado de máquina k-means, comparando como a adição de clusters se compara à redução da inércia.

colocando clustering k-means e segmentos de clientes para usar

uma vez treinado, seu modelo de aprendizado de máquina pode determinar o segmento ao qual os novos clientes pertencem medindo sua distância a cada um dos centróides do cluster. Existem muitas maneiras de colocar isso em uso.

por exemplo, quando você recebe um novo cliente, você vai querer fornecer-lhes recomendações de produtos. Seu modelo de aprendizado de máquina ajudará você a determinar o segmento de seu cliente e os produtos mais comuns associados a esse segmento.

no marketing de produtos, seu algoritmo de agrupamento ajudará a reajustar suas campanhas. Por exemplo, você pode iniciar uma campanha publicitária com uma amostra aleatória de clientes que pertencem a diferentes segmentos. Depois de executar a campanha por um tempo, você pode examinar quais segmentos são mais responsivos e refinar sua campanha para exibir apenas anúncios para membros desses segmentos. Como alternativa, você pode executar várias versões de sua campanha e usar o machine learning para segmentar seus clientes com base em suas respostas às diferentes campanhas. Em geral, você terá muito mais ferramentas para testar e ajustar suas campanhas publicitárias.

ensemble learning

K-means clustering é um algoritmo de aprendizado de máquina rápido e eficiente. Mas não é uma varinha mágica que rapidamente transformará seus dados em segmentos lógicos de clientes. Você deve primeiro definir a configuração de suas campanhas de marketing e o tipo de recursos que serão relevantes para elas. Por exemplo, se suas campanhas forem direcionadas para locais específicos, a localização geográfica não será um recurso relevante e é melhor filtrar seus dados para essa região específica. Da mesma forma, se você estiver promovendo um produto de saúde para homens, deve filtrar os dados do cliente para incluir apenas homens e evitar incluir gênero como um dos recursos do seu modelo de aprendizado de máquina.

e, em alguns casos, você deve incluir informações adicionais, como os produtos que eles compraram no passado. Nesse caso, você precisará criar uma matriz cliente-produto, Uma tabela que tenha clientes como linhas e os itens como colunas e o número de itens comprados na interseção de cada cliente e item. Se o número de Produtos for demais, você pode considerar a criação de uma incorporação, onde os produtos são representados como valores no espaço vetorial multidimensional.

no geral, o aprendizado de máquina é uma ferramenta muito eficaz em marketing e segmentação de clientes. Provavelmente não substituirá o julgamento e a intuição humanos tão cedo, mas pode ajudar a aumentar os esforços humanos em níveis que antes eram impossíveis.

Sobre o autor

Mona Eslamijam

Mona Eslamijam é um business analytics (Mestrado) pós-graduação da Universidade do Texas em Dallas.