Machine Learning na prevenção de perdas no e-commerce

o uso da regressão logística para identificação de pedidos fraudulentos

Autores

DOI:

https://doi.org/10.26853/Refas_ISSN-2359-182X_v11n04_04

Palavras-chave:

Regressão logística, Modelo estatístico, Fraude, e-commerce, Algoritmo

Resumo

Nos últimos 25 anos, diversos meios de detecção e prevenção de fraude foram desenvolvidos. Nos dias atuais os modelos de aprendizado de máquina, “machine learning”, são os mais avançados. Neste trabalho foi desenvolvido um modelo estatístico de machine learning cujo objetivo é identificar, por meio da técnica de regressão logística, a probabilidade de um pedido ser fraude. O modelo foi desenvolvido no software R e o dataset utilizado contém 13216  observações e 15 variáveis. Como resultado o modelo obteve 91,4% de acurácia, 87,31% de especificidade e 97,7% de sensibilidade, tal performance resultou em uma área abaixo da curva ROC de 95,1% e um Coeficiente de  GINI de 90,21%. Como principais contribuições desta obra destacam-se a promoção e divulgação da utilização de técnicas de machine learning para resolução de problemas reais e cotidianos no e-commerce, e o esclarecimento e fomento do processo de desenvolvimento de modelos de regressão logística, bem como dos seus principais parâmetros de validação e indicadores de performance. Com base nos resultados já apresentados é possível afirmar  que o objetivo desta pesquisa foi atingido, pois o modelo desenvolvido  é altamente eficaz na prevenção de fraudes.

Downloads

Não há dados estatísticos.

Biografia do Autor

Kevin William Matos Paixão, USP-ESALQ

Especialista em Ciência de dados.

Gabrielle Maria Romeiro Lombardi, Professora Orientadora - Pecege

Doutora em Genética e Melhoramento de Plantas.

Paulo Ricardo de Andrade Barroso, USP-ESALQ

Especialista em ciência de dados.

Referências

BOCHIE, Kaylani et al. Aprendizado profundo em redes desafiadoras: Conceitos e aplicações. Sociedade Brasileira de Computação, 2020.

ClearSale. (2023). Mapa da fraude 1º semestre de 2023. disponivel em: https://br.clear.sale/hubfs/marketing/CRM/Mapa%20da%20Fraude%201%C2%BA%20semestre%202023/MapaDaFraude2023-1Sem_Ebook.pdf. Acesso em 8 de set. 2023

DE SOUZA, Daniel Henrique Miguel; BORDIN JR, Claudio J. Detecção de fraude de cartão de crédito por meio de algoritmos de aprendizado de máquina. , v. 15, n. 1, p. 1-11, 2023.

CORRAR, Luiz; PAULO, Edilson; DIAS FILHO, José Maria. Análise multivariada para os cursos de administração, ciências contábeis e economia. 2007.

ECKERT, Alex; MILAN, Gabriel Sperandio; TONI, Deonir de. Intenção de recompra no contexto de compras on-line. Perspectivas em Ciência da Informação, v. 24, p. 25-50, 2020.

FÁVERO, Luiz Paulo; BELFIORE, Patrícia. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier Brasil, 2017.

FÁVERO, Luiz Paulo Lopes et al. Análise de dados: modelagem multivariada para tomada de decisões. 2009.

FEITOSA, Douglas de Lima; GARCIA, Leandro Sumida. Sistemas de reputação: um estudo sobre confiança e reputação no comércio eletrônico brasileiro. Revista de administração contemporânea, v. 20, n. 1, p. 84-105, 2016.

FERNANDES, Antônio Alves Tôrres et al. Leia este artigo se você quiser aprender regressão logística. Revista de Sociologia e Política, v. 28, p. 006, 2021

FU, Liping; WANG, Yuhui; HE, Lanping. Factors associated with the psychological health of caregiving older parents and support from their grown children: results from the China health and retirement longitudinal study. International Journal of Environmental Research and Public Health, v. 17, n. 2, p. 556, 2020.

GHOLAMNIA, Khalil et al. Comparisons of diverse machine learning approaches for wildfire susceptibility mapping. Symmetry, v. 12, n. 4, p. 604, 2020.

GUJARATI, Damodar N.; PORTER, Dawn C. Basic econometrics. McGraw-hill, 2009.

HOSMER, David W.; LEMESBOW, Stanley. Goodness of fit tests for the multiple logistic regression model. Communications in statistics-Theory and Methods, v. 9, n. 10, p. 1043-1069, 1980.

HUANG, Jia‐Yen; LIU, Jin‐Hao. Using social media mining technology to improve stock price forecast accuracy. Journal of Forecasting, v. 39, n. 1, p. 104-116, 2020.

IMDADULLAH, Muhammad; ASLAM, Muhammad; ALTAF, Saima. mctest: An R Package for Detection of Collinearity among Regressors. R J., v. 8, n. 2, p. 495, 2016.

KLEINBAUM, David G. et al. Logistic regression. New York: Springer-Verlag, 2008.

MERGHADI, Abdelaziz et al. Machine learning methods for landslide susceptibility studies: A comparative overview of algorithm performance. Earth-Science Reviews, v. 207, p. 103225, 2020.

MENDONÇA, Júlio César Gomes et al. Transação com partes relacionada como instrumento de fraudes corporativas em bancos brasileiros. Revista Contabilidade Vista & Revista, v. 32, n. 3, p. 195-216, 2021.

MOREIRA, Robson Antonio. O Comércio Eletrônico, os métodos de pagamentos e os mecanismos de segurança. Refas-Revista Fatec Zona Sul, v. 3, n. 1, p. 16-30, 2016.

MORTEZA; ARIAS‐ARANDA, Daniel; BENITEZ‐AMADO, Jose. Adoption of e‐commerce applications in SMEs. Industrial Management & Data Systems, v. 111, n. 8, p. 1238-1269, 2011.

MUKHOTY, Bhaskar; DEY, Debojyoti; KAR, Purushottam. Corruption-tolerant algorithms for generalized linear models. In: Proceedings of the AAAI Conference on Artificial Intelligence. 2023. p. 9243-9250.

NELDER, John A; LEE, Youngjo. Hierarchical generalized linear models. Journal of the Royal Statistical Society Series B: Statistical Methodology, v. 58, n. 4, p. 619-656, 1972.

NielsenIQ. (2022). A evolução do e-commerce a nível mundial. disponivel em: https://nielseniq.com/global/pt/insights/analysis/2022/a-evolucao-do-e-commerce-a-nivel-mundial/. acesso em 8 de set. de 2023

Novikova, Olha, and Kuan Zhang. "Analyses of the E-Commerce Development in the World and China." Modern Economics. 2020.

OLMUŞ, Hülya; NAZMAN, Ezgi; ERBAŞ, Semra. Comparison of penalized logistic regression models for rare event case. Communications in Statistics-Simulation and Computation, v. 51, n. 4, p. 1578-1590, 2022.

ORDANINI, Andrea; RUBERA, Gaia. How does the application of an IT service innovation affect firm performance? A theoretical framework and empirical analysis on e-commerce. Information & Management, v. 47, n. 1, p. 60-67, 2010.

PLACKETT, Robin L. Karl Pearson and the chi-squared test. International statistical review/revue internationale de statistique, p. 59-72, 1983.

SCHWARZ, Gideon. Estimating the dimension of a model. The annals of statistics, p. 461-464, 1978.

VASELI, Saeed et al. DISCOVERING CORPORATE FRAUD AND ACCOUNTANT FAILURE: CAUSES AND SOLUTIONS. Lex Humana (ISSN 2175-0947), v. 13, n. 2, p. 190-214, 2021.

XIAHOU, Xiancheng; HARADA, Yoshio. B2C E-commerce customer churn prediction based on K-means and SVM. Journal of Theoretical and Applied Electronic Commerce Research, v. 17, n. 2, p. 458-475, 2022.

YU, Ying et al. E-commerce logistics in supply chain management: Practice perspective. Procedia Cirp, v. 52, p. 179-185, 2016.

ZABOR, Emily C. et al. Logistic regression in clinical studies. International Journal of Radiation Oncology* Biology* Physics, v. 112, n. 2, p. 271-277, 2022.

Zellner, D., Keller, F., & Zellner, G. E. (2004). Variable selection in logistic regression models. Communications in Statistics-Simulation and Computation, 33(3), 787-805.

ZHANG, Xinwei et al. HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture. Information Sciences, v. 557, p. 302-316, 2021.

ZHANG, Xiaoli. AHI: growth and improvement of cross-border e-commerce using IVAS. International Journal of Cooperative Information Systems, v. 32, n. 03, p. 2150011, 2023.

ZHANG, Zhongheng. Variable selection with stepwise and best subset approaches. Annals of translational medicine, v. 4, n. 7, 2016.

Downloads

Publicado

30/04/2025

Como Citar

Paixão, K. W. M., Lombardi, G. M. R., & Barroso, P. R. de A. (2025). Machine Learning na prevenção de perdas no e-commerce: o uso da regressão logística para identificação de pedidos fraudulentos. Refas - Revista Fatec Zona Sul, 11(4), 1–17. https://doi.org/10.26853/Refas_ISSN-2359-182X_v11n04_04

Edição

Seção

Análise e Desenvolvimento de Sistemas

Métricas