sailorCat
작성일
2022. 3. 18. 14:13
작성자
sailorCat
728x90

프로젝트는 혐오발언 식별기로 정해졌다.

프론트, 백에서 감성일기보다 구현 가능성이 좋고, 비슷한 기능을 하는 앱이 많지 않기 때문에 적합하다고 생각했다.

 

우선 데이터셋을 구하기 위해 인터넷에서

악플, 악성댓글, 비하발언을 포함한 자연어 말뭉치 데이터 셋을 찾았고 네 개를 발견했다.

 

 

 

 

jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets (github.com)

 

GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Dat

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets - GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Cr...

github.com

https://github.com/ZIZUN/korean-malicious-comments-dataset

 

GitHub - ZIZUN/korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋

한국어 악성댓글 데이터셋. Contribute to ZIZUN/korean-malicious-comments-dataset development by creating an account on GitHub.

github.com

https://github.com/songys/Toxic_comment_data

 

GitHub - songys/Toxic_comment_data: Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화

Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화. Contribute to songys/Toxic_comment_data development by creating an account on GitHub.

github.com

https://github.com/kocohub/korean-hate-speech

 

GitHub - kocohub/korean-hate-speech: Korean HateSpeech Dataset

Korean HateSpeech Dataset. Contribute to kocohub/korean-hate-speech development by creating an account on GitHub.

github.com

 

 

 

 

 

 

각각의 데이터가 모두 다른 feature를 가지고 있기 때문에 먼저 열어보고 살펴보았다.

결측치를 제거하고 쓸 수 있는 문장과 데이터를 살펴보니 약 30000여개가 나왔다.

728x90