« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

비하발언, 악플, 악성댓글, 차별발언 데이터셋

카테고리

포트폴리오 Portfolio/AI Project

작성일

2022. 3. 18. 14:13

작성자

sailorCat

728x90

프로젝트는 혐오발언 식별기로 정해졌다.

프론트, 백에서 감성일기보다 구현 가능성이 좋고, 비슷한 기능을 하는 앱이 많지 않기 때문에 적합하다고 생각했다.

우선 데이터셋을 구하기 위해 인터넷에서

악플, 악성댓글, 비하발언을 포함한 자연어 말뭉치 데이터 셋을 찾았고 네 개를 발견했다.

jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets (github.com)

GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Dat

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-generated Hate Speech Evaluation Datasets - GitHub - jason9693/APEACH: APEACH: Attacking Pejorative Expressions with Analysis on Cr...

github.com

https://github.com/ZIZUN/korean-malicious-comments-dataset

GitHub - ZIZUN/korean-malicious-comments-dataset: 한국어 악성댓글 데이터셋

한국어 악성댓글 데이터셋. Contribute to ZIZUN/korean-malicious-comments-dataset development by creating an account on GitHub.

github.com

https://github.com/songys/Toxic_comment_data

GitHub - songys/Toxic_comment_data: Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화

Naver sentiment movie corpus v1.0_감성분석 레이블링 상세화. Contribute to songys/Toxic_comment_data development by creating an account on GitHub.

github.com

https://github.com/kocohub/korean-hate-speech

GitHub - kocohub/korean-hate-speech: Korean HateSpeech Dataset

Korean HateSpeech Dataset. Contribute to kocohub/korean-hate-speech development by creating an account on GitHub.

github.com

각각의 데이터가 모두 다른 feature를 가지고 있기 때문에 먼저 열어보고 살펴보았다.

결측치를 제거하고 쓸 수 있는 문장과 데이터를 살펴보니 약 30000여개가 나왔다.

728x90

'포트폴리오 Portfolio > AI Project' 카테고리의 다른 글

스마일게이트 악플 데이터셋 추가 (0)	2022.03.29
NLP 비하 차별 혐오 악성 발언, 댓글 데이터셋 정리 (0)	2022.03.18
한국어 NLP 전처리 (0)	2022.03.18
감성일기, 혐오단어 식별기 비교 자료조사 (0)	2022.03.11
프로젝트 주제 선정 (0)	2022.03.10

'포트폴리오 Portfolio > AI Project' 카테고리의 다른 글

티스토리툴바