Você quer saber como a Ciência de Dados trabalha no processo de Growth? Nesse artigo eu vou falar sobre NLP (Natural Language Processing ou Processamento de Linguagem Natural), mostrando como essa técnica de Aprendizado de Máquina nos auxilia na tomada de decisões e levantamento de hipóteses.
Se você quiser entender um pouco mais sobre o que é a metodologia de Growth Hacking, recomendo que você leia esses dois textos sobre Growth Hacking e modelo Hooked e Growth Hacking e economia comportamental.
Afinal, o que é NLP?
NLP é uma campo de atuação da ciência de dados que trabalha processando e classificando palavras, analisando os sentimentos e até gerando textos. Caso você tenha mais interesse sobre o assunto, recomendo que ouça o podcast do pessoal do Data Hackers falando sobre o tema.
O que o modelo NLP faz?
Uma aplicação prática de NLP é a classificação de textos, ou seja, entender mensagens que possuem um assunto em comum e categorizá-las em um mesmo grupo. Entretanto, para que seja possível criar um modelo de classificação assertivo, é necessário ter uma etapa de pré processamento.
Após essa etapa, temos o texto limpo para passar pelo modelo de aprendizado de máquina.
Aplicação com growth
Possuir um modelo de classificação de motivo de contato, quando se trata da classificação de textos, pode trazer diversas informações quando aplicado a canais de comunicação entre a empresa e os seus clientes.
Sendo assim, as informações geradas por esse tipo de modelo pode auxiliar na compreensão dos motivos pelos quais os usuários não voltam a usar o produto ou serviço.
Exemplo prático
Vou mostrar um modelo de classificação aplicado a comentários de loja – o dataset utilizado é público e foi baixado no Kaggle. Neste dataset, era possível observar os comentários de diversos aplicativos feitos na PlayStore, porém resolvi escolher um que possuía um grande volume de comentários, no caso, o jogo Angry Birds.
A primeira etapa do processo conta com a separação dos dados em um dataset de treino e outro de teste, e para isso foi utilizado um modelo chamado K means.
Estas foram as etapas de processamento:
- Limpeza dos textos: Pelos comentários estarem em inglês não foi necessário remover acentos (mas é necessário fazer essa remoção). Aqui o todo o texto também é transformado em letra minúscula.
- Remoção de stopwords: nessa etapa do processo foi utilizado um dicionário com palavras que poderiam ser removidas do texto, palavras que são consideradas vazias e não são relevantes para a análise, como por exemplo “a, e, então”.
- TfidfVectorizer: Talvez a etapa mais complexa de se explicar de maneira simples seja essa, entretanto, nessa etapa do processo é feito a conversão do texto para números, mais especificamente em matrizes, e são com esses números que trabalharemos agora.
- Nuvem de palavras: Após gerar os clusters (categorias de informações) com os dados de treino, foi gerado uma nuvem para palavras, assim a nuvem de palavras mostra os termos que mais apareceram em um tamanho maior. Como no exemplo abaixo:
- Similaridade de cossenos: Para definir quais eram os melhores exemplos para fazerem parte do dataset de treino, foi realizado a técnica de similaridade de cossenos. Clique aqui para saber mais sobre esta técnica.
- Teste com os dados de treino: Após gerar os dados de treino, foi feito um teste mostrando a acurácia – proximidade de um resultado com o seu valor de referência real – do modelo frente aos dados já classificados.
Após todo esse processo, temos como resultado um modelo de classificação treinado e um dataset de treino. Além disso, caso o modelo seja colocado em produção, é possível construir uma estrutura de engenharia de dados que rotule os comentários na periodicidade definida (dia-1 ou até mesmo em tempo real).
Imaginando que o jogo Angry Birds tivesse uma queda muito grande na retenção dos seus usuários, as informações levantadas nesse exemplo poderiam auxiliar bastante, porque a maioria dos comentários analisados falam sobre o número de propagandas e erros que congelam a tela do usuário. Dessa forma, as pessoas de produto do time Rovio Entertainment, empresa que desenvolveu o jogo, podem pensar em estratégias para resolver estes problemas.
Como cientista de dados, ainda há muitas perguntas para serem respondidas, como por exemplo:
- Qual a relação entre as notas e essas categorias de comentários?
- Quanto tempo esses usuários jogam ou jogaram o jogo?
- Quantas propagandas um usuário assiste até desinstalar o app?
Além dessas perguntas, que possuem como objetivo entender as ações dos usuários antes de fazer essas reclamações, é possível levantar informações como o modelo do celular utilizado pelos usuários que reclamam da tela congelado, informação que pode ser útil para o time de desenvolvimento.
Conclusão
Sem dúvida nenhuma existem diversas perguntas que podem ser feitas sobre esse problema, minha ideia foi mostrar como a ciência de dados ajuda no desenvolvimento de produtos digitais, ainda mais quando se tem uma estratégia sólida que direciona o trabalho da equipe, algo que é facilitado com a metodologia de Growth Hacking. Tomando como base a classificação dos comentários, é possível direcionar diversos experimentos dentro do aplicativo, algo que foi alcançado utilizando NLP.
Quer conhecer mais sobre Growth em Produtos digitais?
Se você quer liderar o crescimento exponencial da sua empresa, se consolidando e expandindo no seu mercado, confira o nosso novo curso de Growth (Product Growth).
Aprenda com + de 17 dos maiores nomes do Growth nacional em +40 horas de conteúdo e cases reais de empresas como OLX, Maxmilhas, Singu, Grupo Zap, VTEX, Xerpa, entre outras grandes tech companies brasileiras.
Confira a ementa completa do curso aqui!
Que tal trazer mais transparência para as iniciativas que vão impactar a vida dos seus clientes? Confira nosso Framework de Go-To-Market!
Elimine o vácuo na comunicação entre os times de produto, vendas, suporte, marketing e leve valor de verdade para o seu cliente.