Introduc ¸ãoO e-commerce brasileiro segue em rápida expansão e faturou mais de R$ 161 bilhões em 2021 [5]. O cartão de crédito é uma das principais formas de pagamento utilizadas na modalidade, entretanto o crescimento de sua popularidade o tornou visado pelos fraudadores. A fraude é uma preocupac ¸ão constante dos e-commerces brasileiros, que sofre mais de R$ 3.6 mil em tentativas de fraudes por minuto [1]. Por este motivo, o tema chama atenc ¸ão de pesquisadores e trabalhos científicos e se tornou um tópico de pesquisa frequente com o crescimento do interesse em big data e aprendizado de máquina [6]. Existem diversos desafios encontrados na literatura para a criac ¸ão de modelos de aprendizado de máquina na previsão de fraudes, alguns exemplos são o desbalanceamento entre as classes, a tendência não estacionária da distribuic ¸ão e a falta de dados públicos para análise. O desbalanceamento entre classes acontece pois o número de compras não fraudulentas é muito maior do que de tentativas de fraudes, já que a quantidade de bons consumidores é muito grande. Já a distribuic ¸ão não estacionária se dá pela mudanc ¸a de comportamento de bons consumidores, por exemplo devido à períodos promocionais, e de fraudadores, dado que eles podem mudam seu comportamento a fim de burlar os sistemas de detecc ¸ão [8], esse problema também é conhecido como concept drift. Por fim, os dados para pesquisas acadêmicas sobre o tema são escassos devido à características sensíveis das informac ¸ões, pois existem muitas informac ¸ões pessoais, como CPF e e-mail, e informac ¸ões sensíveis, como informac ¸ões do cartão de crédito utilizado na compra. O presente trabalho tem como objetivo comparar diferentes algoritmos de aprendizado de máquina em uma base real de compras online e estudar o impacto do concept drift na predic ¸ão.
MetodologiaUtilizaremos uma base de dados real de compras online de uma loja de e-commerce composta por 11.211.709 transac ¸ões realizadas entre julho/2021 e outubro/2021, sendo 419.895 com marcac ¸ões de fraude, 3.745% do total de transac ¸ões. As marcac ¸ões podem ocorrer pelo processo