LGBM모델을 활용한 금융거래사기 예측 모델 구현 – 신용카드를 중심으로 - 진휘진
작성일2025년 9월 30일
LGBM모델을 활용한 금융거래사기 예측 모델 구현 – 신용카드를 중심으로
Implementation of a financial transaction fraud prediction model using the LGBM model – Focusing on credit cards
참고문헌 표기 Citation
- KITPA Style:
진휘진, "LGBM모델을 활용한 금융거래사기 예측 모델 구현 – 신용카드를 중심으로", 한국정보기술진흥원 학술지, Vol. 2, No. 2, pp. 173-179, 2025. - APA 7th Style:
Hwi Jin, J. (2025). Implementation of a financial transaction fraud prediction model using the LGBM model – Focusing on credit cards. Korea Information Technology Promotion Agency Journal, 2(2), 173-179. - APA 7th Style (KR):
진휘진. (2025). LGBM모델을 활용한 금융거래사기 예측 모델 구현 – 신용카드를 중심으로. 한국정보기술진흥원 학술지, 2(2), 173-179.
저자 Author
진휘진*
* 한영고등학교
Jin Hwi Jin*
* Hanyoung High School
초록 Abstract
본 연구는 인공지능·정보기술(IT)의 융합을 통해 신용카드 거래에서 발생하는 금융 사기를 사전에 예측할 수 있는 모델을 구현‧검증하는 데 목적이 있다. 최근 온라인 쇼핑, 모바일 간편결제, 해외 직구 등 비대면 결제의 급증으로 신용카드 결제 규모가 폭발적으로 성장하고 있으며, 이에 비례하여 사기(Fraud) 또한 지능화·대형화되고 있다. 단순 모니터링이나 규칙 기반(Rule-Based) 시스템만으로는 복잡한 패턴을 포착하기 어렵기 때문에, 본 연구에서는 트리 기반 부스팅 알고리즘인 Light Gradient Boosting Machine(LGBM)을 중심으로 예측 모델을 학습·평가하였다. 실험에는 공개 신용카드 거래 데이터셋 28만여 건을 사용하였으며, 거래 금액·거래 속도·계정 생성일·이상 접속지(IP) 등 25개 특성을 전처리·엔지니어링하여 입력 변수로 활용하였다. 불균형 클래스 문제를 완화하기 위해 SMOTE와 클래스 가중치 조정 전략을 적용했고, 하이퍼파라미터 탐색(Grid Search & Stratified K-Fold CV)을 통해 최적 모델을 선별하였다. 최종 LGBM 모델은 F1-score 0.924, ROC-AUC 0.987, 전체 정확도 98.1 %의 성능을 기록했으며 특히 정상 거래(클래스 0)에 대해 0.993의 정밀도를 보였다. 본 연구 결과는 인공지능 기반 실시간 사기 탐지 시스템이 실제 금융보안 인프라에 도입될 가능성을 제시하며, 데이터 기반 의사결정의 중요성을 강조한다. 또한 모델 해석(Feature Importance, SHAP)을 통해 거래 속도와 계정 생성일이 사기 여부를 결정짓는 주요 변수임을 규명하였다.
The purpose of this study is to implement and validate a model that can predict financial fraud in credit card transactions through the convergence of artificial intelligence and information technology (IT). Recently, the scale of credit card payments has exploded due to the rapid growth of non-face-to-face payments such as online shopping, mobile payments, and overseas direct purchases, and fraud is becoming more intelligent and large-scale. Since it is difficult to capture complex patterns with simple monitoring or rule-based systems, this study trained and evaluated a prediction model centered on the Light Gradient Boosting Machine (LGBM), a tree-based boosting algorithm. We used a public credit card transaction dataset of 280,000 transactions and preprocessed and engineered 25 characteristics such as transaction amount, transaction speed, account creation date, and IP address as input variables. To mitigate the problem of unbalanced classes, SMOTE and class weight adjustment strategies were applied, and the best model was selected through hyperparameter exploration (Grid Search & Stratified K-Fold CV). The final LGBM model performed with an F1-score of 0.924, ROC-AUC of 0.987, and an overall accuracy of 98.1%, with a precision of 0.993 for legitimate transactions (class 0). The results of this study suggest the potential for AI-based real-time fraud detection systems to be adopted in real-world financial security infrastructures and emphasize the importance of data-driven decision-making. The model analysis (Feature Importance, SHAP) also revealed that transaction speed and account creation date are the main variables that determine whether a transaction is fraudulent or not.
키워드 Keyword
신용카드 사기, LGBM, 금융보안, 머신러닝, 데이터 불균형
Credit-card Fraud, LGBM, Financial Security, Machine Learning, Class Imbalance