악성 댓글 감지 모델 개발을 통한 온라인 환경 개선 - 화희권
작성일2025년 9월 30일
악성 댓글 감지 모델 개발을 통한 온라인 환경 개선
Malicious Comment Detection Model to Improve Online Experiences
참고문헌 표기 Citation
- KITPA Style:
화희권, "악성 댓글 감지 모델 개발을 통한 온라인 환경 개선", 한국정보기술진흥원 학술지, Vol. 2, No. 2, pp. 106-113, 2025. - APA 7th Style:
Hee Gwon, H. (2025). Malicious Comment Detection Model to Improve Online Experiences. Korea Information Technology Promotion Agency Journal, 2(2), 106-113. - APA 7th Style (KR):
화희권. (2025). 악성 댓글 감지 모델 개발을 통한 온라인 환경 개선. 한국정보기술진흥원 학술지, 2(2), 106-113.
저자 Author
화희권*
* 서라벌고등학교
Hwa Hee Gwon*
* Sorabol High School
초록 Abstract
인터넷과 SNS의 발달로 온라인 상에서 활발한 의사소통이 이루어지고 있지만, 악성 댓글로 인한 피해가 심각한 사회 문제로 떠오르고 있다. 본 연구에서는 자연어 처리와 머신러닝 기법을 활용하여 악성 댓글을 자동으로 감지하고 차단하는 모델을 개발하였다. Kaggle의 Jigsaw 악성 댓글 데이터셋을 활용하여 댓글 텍스트를 TF-IDF 특성으로 변환하고, 이를 나이브 베이즈 분류기를 통해 여섯 가지 유해 댓글 유형(욕설, 심각한 욕설, 음란성, 위협, 모욕, 정체성 혐오)을 예측하였다. 모델의 성능을 정확도와 혼동 행렬을 통해 평가한 결과, 전체적으로 91% 이상의 정확도를 보였으며 대부분의 유해 댓글을 효과적으로 감지하였다. 다만 위협과 정체성 혐오처럼 드물게 발생하는 유형의 경우 재현율(recall)이 낮아 실제 악성 댓글을 놓치는 한계가 있었다. 본 연구는 비교적 단순한 기계학습 모델로도 온라인상의 유해한 콘텐츠를 상당 부분 걸러낼 수 있음을 보여주며, 향후 데이터 불균형 개선 및 심층학습 도입을 통해 모델의 성능을 향상시킬 가능성을 제시한다.
The development of the Internet and SNS has led to active communication online, but the damage caused by malicious comments has emerged as a serious social problem. In this study, we developed a model to automatically detect and block malicious comments by utilizing natural language processing and machine learning techniques. We utilized Kaggle's Jigsaw malicious comment dataset to convert comment text into TF-IDF features, which were then used to predict six types of harmful comments (profanity, serious abuse, obscenity, threats, insults, and identity hatred) using a Naïve Bayes classifier. We evaluated the model's performance using accuracy and confusion matrices, and found that it was over 91% accurate overall, effectively detecting most toxic comments. However, for rarely occurring types, such as threats and identity hatred, the recall was low, which may have led to the model missing actual malicious comments. Our study shows that a relatively simple machine learning model can filter out a significant amount of harmful content online, and suggests the possibility of improving the performance of the model by improving data imbalance and introducing deep learning in the future.
키워드 Keyword
악성 댓글, 자연어 처리, 머신러닝, 나이브 베이즈, 유해 콘텐츠 감지
Malicious comments, Natural language processing, Machine learning, Naïve Bayes, Harmful content detection