Machine Learning na prevenção de perdas no e-commerce
o uso da regressão logística para identificação de pedidos fraudulentos
DOI:
https://doi.org/10.26853/Refas_ISSN-2359-182X_v11n04_04Palavras-chave:
Regressão logística, Modelo estatístico, Fraude, e-commerce, AlgoritmoResumo
Nos últimos 25 anos, diversos meios de detecção e prevenção de fraude foram desenvolvidos. Nos dias atuais os modelos de aprendizado de máquina, “machine learning”, são os mais avançados. Neste trabalho foi desenvolvido um modelo estatístico de machine learning cujo objetivo é identificar, por meio da técnica de regressão logística, a probabilidade de um pedido ser fraude. O modelo foi desenvolvido no software R e o dataset utilizado contém 13216 observações e 15 variáveis. Como resultado o modelo obteve 91,4% de acurácia, 87,31% de especificidade e 97,7% de sensibilidade, tal performance resultou em uma área abaixo da curva ROC de 95,1% e um Coeficiente de GINI de 90,21%. Como principais contribuições desta obra destacam-se a promoção e divulgação da utilização de técnicas de machine learning para resolução de problemas reais e cotidianos no e-commerce, e o esclarecimento e fomento do processo de desenvolvimento de modelos de regressão logística, bem como dos seus principais parâmetros de validação e indicadores de performance. Com base nos resultados já apresentados é possível afirmar que o objetivo desta pesquisa foi atingido, pois o modelo desenvolvido é altamente eficaz na prevenção de fraudes.
Downloads
Referências
BOCHIE, Kaylani et al. Aprendizado profundo em redes desafiadoras: Conceitos e aplicações. Sociedade Brasileira de Computação, 2020.
ClearSale. (2023). Mapa da fraude 1º semestre de 2023. disponivel em: https://br.clear.sale/hubfs/marketing/CRM/Mapa%20da%20Fraude%201%C2%BA%20semestre%202023/MapaDaFraude2023-1Sem_Ebook.pdf. Acesso em 8 de set. 2023
DE SOUZA, Daniel Henrique Miguel; BORDIN JR, Claudio J. Detecção de fraude de cartão de crédito por meio de algoritmos de aprendizado de máquina. , v. 15, n. 1, p. 1-11, 2023.
CORRAR, Luiz; PAULO, Edilson; DIAS FILHO, José Maria. Análise multivariada para os cursos de administração, ciências contábeis e economia. 2007.
ECKERT, Alex; MILAN, Gabriel Sperandio; TONI, Deonir de. Intenção de recompra no contexto de compras on-line. Perspectivas em Ciência da Informação, v. 24, p. 25-50, 2020.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier Brasil, 2017.
FÁVERO, Luiz Paulo Lopes et al. Análise de dados: modelagem multivariada para tomada de decisões. 2009.
FEITOSA, Douglas de Lima; GARCIA, Leandro Sumida. Sistemas de reputação: um estudo sobre confiança e reputação no comércio eletrônico brasileiro. Revista de administração contemporânea, v. 20, n. 1, p. 84-105, 2016.
FERNANDES, Antônio Alves Tôrres et al. Leia este artigo se você quiser aprender regressão logística. Revista de Sociologia e Política, v. 28, p. 006, 2021
FU, Liping; WANG, Yuhui; HE, Lanping. Factors associated with the psychological health of caregiving older parents and support from their grown children: results from the China health and retirement longitudinal study. International Journal of Environmental Research and Public Health, v. 17, n. 2, p. 556, 2020.
GHOLAMNIA, Khalil et al. Comparisons of diverse machine learning approaches for wildfire susceptibility mapping. Symmetry, v. 12, n. 4, p. 604, 2020.
GUJARATI, Damodar N.; PORTER, Dawn C. Basic econometrics. McGraw-hill, 2009.
HOSMER, David W.; LEMESBOW, Stanley. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, v. 9, n. 10, p. 1043-1069, 1980.
HUANG, Jia‐Yen; LIU, Jin‐Hao. Using social media mining technology to improve stock price forecast accuracy. Journal of Forecasting, v. 39, n. 1, p. 104-116, 2020.
IMDADULLAH, Muhammad; ASLAM, Muhammad; ALTAF, Saima. mctest: An R Package for Detection of Collinearity among Regressors. R J., v. 8, n. 2, p. 495, 2016.
KLEINBAUM, David G. et al. Logistic regression. New York: Springer-Verlag, 2008.
MERGHADI, Abdelaziz et al. Machine learning methods for landslide susceptibility studies: A comparative overview of algorithm performance. Earth-Science Reviews, v. 207, p. 103225, 2020.
MENDONÇA, Júlio César Gomes et al. Transação com partes relacionada como instrumento de fraudes corporativas em bancos brasileiros. Revista Contabilidade Vista & Revista, v. 32, n. 3, p. 195-216, 2021.
MOREIRA, Robson Antonio. O Comércio Eletrônico, os métodos de pagamentos e os mecanismos de segurança. Refas-Revista Fatec Zona Sul, v. 3, n. 1, p. 16-30, 2016.
MORTEZA; ARIAS‐ARANDA, Daniel; BENITEZ‐AMADO, Jose. Adoption of e‐commerce applications in SMEs. Industrial Management & Data Systems, v. 111, n. 8, p. 1238-1269, 2011.
MUKHOTY, Bhaskar; DEY, Debojyoti; KAR, Purushottam. Corruption-tolerant algorithms for generalized linear models. In: Proceedings of the AAAI Conference on Artificial Intelligence. 2023. p. 9243-9250.
NELDER, John A; LEE, Youngjo. Hierarchical generalized linear models. Journal of the Royal Statistical Society Series B: Statistical Methodology, v. 58, n. 4, p. 619-656, 1972.
NielsenIQ. (2022). A evolução do e-commerce a nível mundial. disponivel em: https://nielseniq.com/global/pt/insights/analysis/2022/a-evolucao-do-e-commerce-a-nivel-mundial/. acesso em 8 de set. de 2023
Novikova, Olha, and Kuan Zhang. "Analyses of the E-Commerce Development in the World and China." Modern Economics. 2020.
OLMUŞ, Hülya; NAZMAN, Ezgi; ERBAŞ, Semra. Comparison of penalized logistic regression models for rare event case. Communications in Statistics-Simulation and Computation, v. 51, n. 4, p. 1578-1590, 2022.
ORDANINI, Andrea; RUBERA, Gaia. How does the application of an IT service innovation affect firm performance? A theoretical framework and empirical analysis on e-commerce. Information & Management, v. 47, n. 1, p. 60-67, 2010.
PLACKETT, Robin L. Karl Pearson and the chi-squared test. International statistical review/revue internationale de statistique, p. 59-72, 1983.
SCHWARZ, Gideon. Estimating the dimension of a model. The annals of statistics, p. 461-464, 1978.
VASELI, Saeed et al. DISCOVERING CORPORATE FRAUD AND ACCOUNTANT FAILURE: CAUSES AND SOLUTIONS. Lex Humana (ISSN 2175-0947), v. 13, n. 2, p. 190-214, 2021.
XIAHOU, Xiancheng; HARADA, Yoshio. B2C E-commerce customer churn prediction based on K-means and SVM. Journal of Theoretical and Applied Electronic Commerce Research, v. 17, n. 2, p. 458-475, 2022.
YU, Ying et al. E-commerce logistics in supply chain management: Practice perspective. Procedia Cirp, v. 52, p. 179-185, 2016.
ZABOR, Emily C. et al. Logistic regression in clinical studies. International Journal of Radiation Oncology* Biology* Physics, v. 112, n. 2, p. 271-277, 2022.
Zellner, D., Keller, F., & Zellner, G. E. (2004). Variable selection in logistic regression models. Communications in Statistics-Simulation and Computation, 33(3), 787-805.
ZHANG, Xinwei et al. HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture. Information Sciences, v. 557, p. 302-316, 2021.
ZHANG, Xiaoli. AHI: growth and improvement of cross-border e-commerce using IVAS. International Journal of Cooperative Information Systems, v. 32, n. 03, p. 2150011, 2023.
ZHANG, Zhongheng. Variable selection with stepwise and best subset approaches. Annals of translational medicine, v. 4, n. 7, 2016.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2025 Refas - Revista Fatec Zona Sul

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
1 - As fontes dos dados, as autorizações pertinentes e os textos publicados na revista são de inteira responsabilidade de seus autores.
2 - É permitida a reprodução, desde que citada a fonte e o autor.
3 - Após o artigo aprovado, o autor principal deverá enviar declaração, conforme o modelo:
Refas - Revista Fatec Zona Sul
Autorização par publicação
(Nome do autor), (no caso de vários autores citar todos), autorizo (ou autorizam, no caso de diversos autores) a publicação do artigo (nome do artigo), com exclusividade para a primeira publicação pela Revista Fatec Zona Sul, em meio eletrônico.
A contribuição é original e inédita, e não está sendo avaliada para publicação por outra revista; caso contrário, deve-se justificar em "Comentários ao editor".
Dados de todos os autores:
Nome completo:
Instituição:
E-mail:
Telefone:
Obs.: Informar os códigos dos serviços DDD e DDI.
Assinatura do autor principal: ____________________________________
Aviso de Direito Autoral
Autores que publicam nesta revista concordam com os seguintes termos:
a) Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
b) Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.
c)Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons CC Attribution-NonCommercial-NoDerivatives 4.0, acessável em Licença Creative Commons Attribution, que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.