2026 동계 청소년 IT학술대회 개최 안내바로가기

한국정보기술진흥원

증명서발급신문

악성 댓글 감지 모델 개발을 통한 온라인 환경 개선 - 화희권

게시판한국정보기술진흥원 학술지 Vol.2 No.2

작성일2025년 9월 30일

악성 댓글 감지 모델 개발을 통한 온라인 환경 개선

Malicious Comment Detection Model to Improve Online Experiences

참고문헌 표기 Citation

저자 Author

화희권*
* 서라벌고등학교

Hwa Hee Gwon*
* Sorabol High School

초록 Abstract

인터넷과 SNS의 발달로 온라인 상에서 활발한 의사소통이 이루어지고 있지만, 악성 댓글로 인한 피해가 심각한 사회 문제로 떠오르고 있다. 본 연구에서는 자연어 처리와 머신러닝 기법을 활용하여 악성 댓글을 자동으로 감지하고 차단하는 모델을 개발하였다. Kaggle의 Jigsaw 악성 댓글 데이터셋을 활용하여 댓글 텍스트를 TF-IDF 특성으로 변환하고, 이를 나이브 베이즈 분류기를 통해 여섯 가지 유해 댓글 유형(욕설, 심각한 욕설, 음란성, 위협, 모욕, 정체성 혐오)을 예측하였다. 모델의 성능을 정확도와 혼동 행렬을 통해 평가한 결과, 전체적으로 91% 이상의 정확도를 보였으며 대부분의 유해 댓글을 효과적으로 감지하였다. 다만 위협과 정체성 혐오처럼 드물게 발생하는 유형의 경우 재현율(recall)이 낮아 실제 악성 댓글을 놓치는 한계가 있었다. 본 연구는 비교적 단순한 기계학습 모델로도 온라인상의 유해한 콘텐츠를 상당 부분 걸러낼 수 있음을 보여주며, 향후 데이터 불균형 개선 및 심층학습 도입을 통해 모델의 성능을 향상시킬 가능성을 제시한다.

The development of the Internet and SNS has led to active communication online, but the damage caused by malicious comments has emerged as a serious social problem. In this study, we developed a model to automatically detect and block malicious comments by utilizing natural language processing and machine learning techniques. We utilized Kaggle's Jigsaw malicious comment dataset to convert comment text into TF-IDF features, which were then used to predict six types of harmful comments (profanity, serious abuse, obscenity, threats, insults, and identity hatred) using a Naïve Bayes classifier. We evaluated the model's performance using accuracy and confusion matrices, and found that it was over 91% accurate overall, effectively detecting most toxic comments. However, for rarely occurring types, such as threats and identity hatred, the recall was low, which may have led to the model missing actual malicious comments. Our study shows that a relatively simple machine learning model can filter out a significant amount of harmful content online, and suggests the possibility of improving the performance of the model by improving data imbalance and introducing deep learning in the future.

키워드 Keyword

악성 댓글, 자연어 처리, 머신러닝, 나이브 베이즈, 유해 콘텐츠 감지

Malicious comments, Natural language processing, Machine learning, Naïve Bayes, Harmful content detection

페이지: /

다음 글AI기반 콘텐츠 신뢰도 분석 웹사이트 개발-‘진실의 눈’ 프로젝트 - 김지완·이우진·손유안 이전 글슈퍼스타 알고리즘: 미디어 노출이 엘리트 축구선수의 경기 퍼포먼스에 영향을 미치는가? - 정서윤·차동윤·박재은