프로젝트는 혐오발언 식별기로 정해졌다.
프론트, 백에서 감성일기보다 구현 가능성이 좋고, 비슷한 기능을 하는 앱이 많지 않기 때문에 적합하다고 생각했다.
우선 데이터셋을 구하기 위해 인터넷에서
악플, 악성댓글, 비하발언을 포함한 자연어 말뭉치 데이터 셋을 찾았고 네 개를 발견했다.
GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Dat
APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets - GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Cr...
github.com
https://github.com/ZIZUN/korean-malicious-comments-dataset
GitHub - ZIZUN/korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋
한국어 악성댓글 데이터셋. Contribute to ZIZUN/korean-malicious-comments-dataset development by creating an account on GitHub.
github.com
https://github.com/songys/Toxic_comment_data
GitHub - songys/Toxic_comment_data: Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화
Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화. Contribute to songys/Toxic_comment_data development by creating an account on GitHub.
github.com
https://github.com/kocohub/korean-hate-speech
GitHub - kocohub/korean-hate-speech: Korean HateSpeech Dataset
Korean HateSpeech Dataset. Contribute to kocohub/korean-hate-speech development by creating an account on GitHub.
github.com
각각의 데이터가 모두 다른 feature를 가지고 있기 때문에 먼저 열어보고 살펴보았다.
결측치를 제거하고 쓸 수 있는 문장과 데이터를 살펴보니 약 30000여개가 나왔다.
'포트폴리오 Portfolio > AI Project' 카테고리의 다른 글
스마일게이트 악플 데이터셋 추가 (0) | 2022.03.29 |
---|---|
NLP 비하 차별 혐오 악성 발언, 댓글 데이터셋 정리 (0) | 2022.03.18 |
한국어 NLP 전처리 (0) | 2022.03.18 |
감성일기, 혐오단어 식별기 비교 자료조사 (0) | 2022.03.11 |
프로젝트 주제 선정 (0) | 2022.03.10 |