728x90
반응형
toxicspeechdetection
-
[TOXIC SPEECH DETECTION] Dataset 정리Project/Toxic speech detection 2021. 7. 13. 23:14
https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천! 1. Single sentence dataset Kaggle dataset *각 라벨에 대한 분류 기준 확인할 수 없음 Jigsaw toxic comment classification challenge 출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 특징 - 150k Wikipedia comments (Tr..