O que fazer quando não se tem tráfego suficiente para testar

Você está morrendo de vontade de rodar um Teste AB naquele site / produto / app / recurso que você acha que pode melhorar. Mas o tráfego de usuários ali é tão baixo que parece ser estatisticamente inviável rodar esse teste.

Essa situação acima já aconteceu com você? Se não, provavelmente ainda irá. 🙂

Mas não se preocupe porque nesta edição da G&H vamos discutir o que fazer em cenários assim.

Infelizmente, um limitador muito comum para quem quer fazer um teste AB é o volume de pessoas disponível para participar do mesmo. Ou seja: o volume de tráfego do “local” (página, feature, etc.) onde o teste irá rodar.

Isso porque, assim como em qualquer experimento científico sério, para um Teste AB chegar a resultados confiáveis, você precisa de um volume mínimo de participantes (tráfego). Caso contrário, você pode acabar tirando conclusões em cima de números que são apenas obra do acaso. Simplesmente sorte ou azar.

Mas o que é um “resultado confiável”?

Não é meu objetivo neste artigo entrar em detalhes estatísticos (até porque eu não sou estatístico). Mas, em alguns momentos, precisarei passar por alguns conceitos vitais para evitar atrocidades em experimentos.

Um desses conceitos é a significância estatística. Este é um número normalmente expresso nas ferramentas de Testes AB em porcentagem, variando de 0 a 100%.

A significância apresenta quais são as chances percentuais da diferença na taxa de conversão entre Controle (“A”) e Variação (“B”) identificada durante o Teste AB ser “real” ou mera obra do acaso.

(Tecnicamente, o conceito é um pouco mais chato do que isso. Mas não é necessário para o nosso papo hoje.)

Existe um certo padrão no mercado de considerar um “resultado confiável” aquele com significância estatística igual ou superior a 95%. Ou seja: 5% de chance do resultado ser só uma questão de sorte/azar no momento.

Mas quanto tráfego é preciso para rodar um Teste AB confiável?

Essa é uma pergunta clássica que tem aquela tradicional resposta deprimente: depende.

Não existe um número exato de visitantes necessário para rodar um Testes AB com resultado confiável. Isso porque, a quantidade de pessoas necessária para um teste vai depender de diversas variáveis.

Vamos lá que eu explico as principais, com exemplos:

1. A taxa de conversão

Quanto maior for a taxa de conversão que você quer otimizar, menos tráfego será necessário para o seu teste.

Veja neste exemplo usando uma calculadora do VWO:

No alt text provided for this image

A página que queremos otimizar tem 1.000 visitas diárias e uma taxa de conversão de 2%. No cenário desenhado (que tem outra variável importante que explico em seguida), precisaríamos de 103 dias (ou 103 mil visitantes) para chegar a um resultado confiável. Uma eternidade.

Mas veja só o que acontece quando vamos otimizar uma página como essa, mas com uma taxa de conversão de 10%:

No alt text provided for this image

Apenas por ser uma página com uma taxa de conversão maior, a duração do teste (ou seja, a quantidade de visitas que ele precisa acumular) caiu brutalmente para 29 dias (29 mil visitantes).

2. A diferença entre A e B

Quanto maior for a diferença na taxa de conversão entre A e B, menos visitas são necessárias para se alcançar um resultado com alta significância estatística.

Vamos novamente a um exemplo. No nosso cenário acima, repare na informação “Minimum improvement in conversion rate you want to detect”:

No alt text provided for this image

Esses “10%” querem dizer que a Variação do teste precisa conseguir alcançar pelo menos 10% de melhoria na taxa de conversão em relação a página original para que o teste alcance um resultado confiável no cenário acima.

Qualquer melhoria abaixo desses 10% não será detectada com validade estatística nesse mesmo período (ou com esse volume de tráfego).

Veja como as coisas mudam quando queremos conseguir detectar um aumento de apenas 5% na taxa de conversão:

No alt text provided for this image

O tempo necessário para esse teste aumenta de 29 para 115 dias (115 mil visitantes).

Por outro lado, se estivermos interessados apenas em conseguirmos detectar aumentos de conversão de 20% ou mais, veja o que acontece com o tempo/tráfego necessário:

No alt text provided for this image

Sim, se aumentarmos a conversão em 20%, precisamos de apenas 7 dias para ter um resultado com alta significância estatística.

Portanto, o quanto você quer ser granular na sua capacidade de detectar uma melhoria na sua taxa de conversão é um fator importantíssimo para definir a viabilidade de se rodar um teste.

Mais abaixo, falaremos mais sobre como usar essa variável com sabedoria.

3. A significância estatística

Mais acima, eu disse que existe um padrão do mercado de definir a significância estatística “confiável” (a chance do resultado não ser pura sorte/azar) em 95%.

Mas é importante dizer que esse número de 95% não passa de uma “convenção geral”. Não existe nada de mágico nele e você não deve segui-lo cegamente. Por exemplo: algumas das melhores empresas em experimentação do mundo ficam mais do que satisfeitas na maioria dos seus testes com uma significância de 90% ou até menos.

Tudo depende de quanto risco você quer correr ao confiar no resultado do teste.

Muitas vezes, o custo de oportunidade é muito alto para se esperar chegar a uma significância de 95%. Mas se você está rodando um teste que informará uma decisão muito estratégica para a empresa, talvez você queira sim uma significância mais alta.

Ou seja: se você está testando o texto de um anúncio, a sua tolerância ao risco é uma. Se você está testando um novo tipo de diagnóstico de câncer, a tolerância é outra. 95% de significância é apenas uma referência, mas que tem alguma flexibilidade.

OK. Depende. Mas tem algum número de referência?

Espero que os exercícios logo acima tenham te mostrado o quanto o tráfego necessário para um teste pode variar. Nós variamos um mesmo teste entre 115 mil visitantes e menos de 7 mil.

OK. Eu sei que a resposta “depende” não satisfaz ninguém. Então, vou dar uma referência geral: um teste tende a ficar viável em interfaces que possam te entregar pelo menos alguns milhares de visitas mensais e 100 conversões por versão (A, B, C, etc.).

Mas de novo: o ideal mesmo é você usar uma calculadora como a que mostrei e avaliar seu cenário específico.

Nem todo mundo pode fazer Teste AB. Mas todo mundo pode fazer CRO.

Como vimos, nem todo mundo (e nem toda área de um site/produto) é viável para testes AB. Mas por favor, não confunda as coisas.

O fato de que você não pode rodar um teste AB não quer dizer que você não pode fazer CRO.

Todo o processo de diagnóstico e boas práticas de CRO para construção de hipóteses e melhoria de interfaces se aplica da mesma forma. A única diferença é que no final você não terá a facilidade de validar o resultado com um teste AB.

O ideal seria poder rodar o teste? Claro. Eu não vou mentir: como já mostrei em outras edições da newsletter, absolutamente nenhum método é tão preciso para avaliar os resultados de uma mudança quanto o teste AB.

Mas até mesmo para “substituir” a aparente inviabilidade do Teste AB, existem estratégias interessantes.

Vamos finalmente a elas?

Estratégia para tráfego reduzido #1:

Use conversões de topo de funil

No melhor dos mundos, você vai executar experimentos que mensuram o seu impacto na métrica mais “perto do dinheiro” possível. Por exemplo, em um e-commerce, essa métrica seria a receita ou o número de transações. Num site de geração de leads, poderia ser algo como o número de formulários preenchidos ou de leads qualificados.

Mas o problema é que quanto mais “fundo” no funil está a nossa conversão, menor o número de vezes em que a mesma acontece. E quanto menor o número de conversões, você já sabe, mais difícil é rodar um teste.

Mas se você tem poucas conversões de fundo de funil, isso não é motivo para não fazer testes. Você pode colher muitos benefícios rodando testes que mensuram etapas anteriores do funil, onde naturalmente o número de conversões é maior.

Não existe problema algum em um e-commerce que não pode rodar testes para transações usar como meta a métrica de adições ao carrinho ou inícios de checkout.

No alt text provided for this image

Mesmo não sendo o cenário perfeito, geralmente, existe uma grande correlação entre o aumento de conversão em uma etapa do funil e suas etapas posteriores.

Estratégia para tráfego reduzido #2:

Use o mínimo de Variantes possível

Quando estamos empolgados montando uma nova versão de uma página para um Teste AB, é muito comum rapidamente surgirem ideias de variações para aquela página que rapidamente transformam esse Teste AB num ABC, ABCD, ABCDEFG…Z. Né?

Afinal… Esse botão que você está fazendo com azul talvez fique melhor com roxo? E a imagem abaixo seria melhor na versão X ou Y? E por aí vai.

Muita gente que já trabalhou comigo, sabe que eu sempre pego no pé para fugirmos dessa tentação.

O motivo simples: quanto mais variações, mais tráfego será necessário para um teste alcançar significância estatística.

Veja nesta simples tabela abaixo quanto tráfego é necessário para se atingir 95% de significância estatística para um aumento de 10% em um site com 5% de taxa de conversão:

No alt text provided for this image

Versões em teste Tráfego necessário para 95% de significância 2 (AB) 61.000 3 (ABC) 91.000 4 (ABCD) 122.000 E normalmente as alterações entre as versões X, Y e Z da nova página são coisas pequenas, que não vão representar nenhuma melhoria relevante no resultado de 99,9% dos sites.

Se o seu tráfego é reduzido, considere sempre com carinho essa estratégia. Faça o máximo para limitar seus testes a apenas duas versões: a original e a variante.

Obviamente, às vezes existem sim, excelentes motivos para rodar um ABC, ABCD, etc. Por exemplo, quando realmente há uma diferença significativa na experiência que o usuário terá nas diferentes versões da variação.

Mas nos outros casos, adicionar mais Variantes a um Teste AB normalmente é perda de tempo e dinheiro.

Estratégia para tráfego reduzido #3:

Aumente suas chances embasando seus testes

Em um site com pouco tráfego, você não pode “dar uma de Booking.com” e rodar 1.000 testes simultâneos. Seu ritmo será necessariamente mais lento.

E como você não poderá rodar muitos testes ao longo do ano, cada um deles é importante.

Por isso, procure garantir que suas ideias de teste são embasadas em dados confiáveis de Analytics ou de entrevistas com usuários, pesquisas, etc. Isso aumentará as chances de cada um dos seus testes trazer resultados positivos.

Não que perder um teste seja péssimo. Muitas vezes, quando esses testes são bem conduzidos, mesmo perdendo, eles podem trazer aprendizados mais valiosos do que muitas vitórias.

Mas, rodando poucos testes por ano, você realmente não pode se dar ao luxo de perder 90% dos seus testes.

Estratégia para tráfego reduzido #4:

Rode testes mais audaciosos

Com pouco tráfego, você não pode se dar ao luxo de rodar testes com pequenas alterações que vão aumentar a conversão em 0,5 ou 1%. Lembre-se que quanto menor o impacto na taxa de conversão, mais tráfego é necessário para alcançar significância estatística.

Por isso, seja uma pessoa ousada e rode testes com mudanças mais agressivas.

É muito divertido ver cases onde o Google ou o Facebook apenas mudaram um botão de uma cor X para uma cor Y e conseguiram aumentar sua conversão. Mas em um site menor, se você rodar um teste desses, é muito provável que você não será capaz de identificar mudança nenhuma.

(A não ser que a cor atual do seu botão realmente esteja dificultando a experiência do usuário, o que normalmente não é o caso. Normalmente é um papo de psicologia das cores ou algo do tipo que dá à luz futuros testes inconclusivos.)

O impacto será pequeno demais para ser identificado com significância estatística.

Ao invés disso, combine a estratégia 3 a esta. Identifique os problemas ou inseguranças que estão fazendo com que seus visitantes não convertam. Tente resolvê-los com mudanças que tentam realmente serem fortes o suficientes para convencer alguém que não iria comprar a comprar.

Com essa estratégia, quando você realmente acerta a mão, a sua chance de causar um impacto considerável na taxa de conversão (ou seja, que alcançará significância estatística) é muito maior.

Estratégia para tráfego reduzido #5:

Valide mudanças qualitativamente

Se o seu tráfego é tão pequeno que você realmente não consegue rodar um teste nem com as ideias acima, você pode pegar emprestado dos times de Product Discovery uma prática alternativa.

Crie sua Variante e recrute alguns usuários para usarem as mesmas como em “Testes de Usabilidade”. Veja se o que você planejou realmente acontece com esses usuários. Faça perguntas sobre os detalhes de suas experiências.

Uma outra opção um pouco mais escalável é publicar sua Variante em um Teste AB com o objetivo de que alguns usuários passem por ela. Assim, você poderá registrar a interação deles com a página através de ferramentas de Analytics (como o Google Analytics) e Session Recording (como o Hotjar).

Esse teste continuará não alcançando significância estatística, mas você terá um volume legal de interações de usuários com a nova página para tentar colher insights.

É importante deixar muito claro que esses dois métodos nem se comparam em precisão e confiabilidade com os Testes AB.

Mas se você não tem tráfego para Testes, seguir esses métodos é muito mais eficiente e data-driven do que simplesmente publicar suas mudanças e torcer para darem certo.

Estratégia para tráfego reduzido #6:

Considere diminuir a significância estatística que você aceita

Como já vimos acima, a significância estatística de 95% é um “padrão” do mercado, mas ela não é mágica. Você não precisa segui-la cegamente.

Na prática, a regra que você deve seguir para tomar suas decisões em um resultado de teste é: quanto menor a significância estatística, maior o risco daquele resultado que você está vendo ser mera obra do acaso.

De forma rasteira, se a vitória de uma Variante sua foi com significância estatística foi de 80%, as chances de termos um resultado “falso” são de 20%. Se você está confortável com esse risco, vá em frente! Declare a Variante vencedora, publique-a em definitivo e siga para o próximo teste!

Conclusão

Seguindo as estratégias deste artigo, muitos sites, produtos e segmentos que à primeira vista parecem “intestáveis” podem passar a usar Experimentação para melhorarem suas performances de uma forma muito mais data-driven do que simplesmente “mudar e ver o que acontece”.

Se, como a maioria das pessoas, você não tem o inventário virtualmente infinito de tráfego das Big Techs, identifique sempre o que você precisa fazer para estar o mais próximo possível do método científico para experimentos no seu cenário. Muitas vezes, você chegará a soluções que, mesmo não estando no “padrão ouro” da ciência (o teste AB, ou experimento controlado randomizado), irá te ajudar muito a tomar decisões de forma inteligente. Respeite o cientista que há dentro de você.

No alt text provided for this image

1 comentário em “O que fazer quando não se tem tráfego suficiente para testar”

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima