아직 프로젝트가 회의단계에 있기 때문에
개인적으로 데이터셋을 살펴보는 코드를 작성했다.
욕설 관련 데이터셋 7개를 모았고 그 중에서 1개는 쓰지 않기로 했다.
스마일게이트와 카카오톡의 데이터 2개는 레이블이 정확히 나눠어져 있고 괜찮은 데이터였다.
나머지 3개 데이터는 다시 라벨링 해줘야 모델 학습에 쓸수 있을 것으로 보인다.
먼저 같은 label을 가진 데이터들의 train, test셋을 합쳐서 보기로 했다.
나중에 다 섞어서 다시 train, test셋을 나눠야 하기 때문이다.
각각의 데이터에서 결측치 NaN이 있는 부분을 살펴보고 처리했다.
데이터에 결측치가 있는 부분을 부니 삭제해도 되는 부분이어서 삭제했다.
hatespeech의 약 35만개의 댓글을 제외하고 나머지 데이터를 전부 모으면 약 60000개 정도가 모여있다.
여기서 unsmile 데이터와 discrimination 데이터 두가지로 먼저 모델 학습을 할 예정이다.
22000개의 데이터로 할 수 있을지 고민이 된다.
정제한 데이터셋들을 저장했다.
마지막으로 악성과 비악성 데이터를 이진 분류해서 수를 세어봤다.
악성은 1.0 비악성은 0.0으로 전체를 레이블링 해줬다.
그리고 data라는 하나의 데이터 셋으로 묶어줬다.
전체 데이터의 길이는 60852이다.
Null값이 없다.
비악성 댓글은 약 20000개 조금 안되게 있고 악성 댓글은 약 40000개 이상인 것을 볼 수 있다.
혼자서 먼저 데이터를 정리해보니 앞으로 나아갈 방향이 보이는 것 같아서 팀원들에게도 소개했다.
'포트폴리오 Portfolio > AI Project' 카테고리의 다른 글
방법론 조사 (0) | 2022.04.13 |
---|---|
모델링 방법 조사 BinaryClassification, Multi label, Multi class Classification (0) | 2022.04.12 |
악플 데이터 셋 추가 (0) | 2022.03.30 |
스마일게이트 악플 데이터셋 추가 (0) | 2022.03.29 |
NLP 비하 차별 혐오 악성 발언, 댓글 데이터셋 정리 (0) | 2022.03.18 |