Project/Toxic speech detection
-
[TOXIC SPEECH DETECTION] Dataset 정리Project/Toxic speech detection 2021. 7. 13. 23:14
https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천! 1. Single sentence dataset Kaggle dataset *각 라벨에 대한 분류 기준 확인할 수 없음 Jigsaw toxic comment classification challenge 출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 특징 - 150k Wikipedia comments (Tr..
-
[TOXIC SPEECH DETECTION] PLAN + REFERENCEProject/Toxic speech detection 2021. 6. 17. 16:19
Toxic, offensive, hate and sexual speech detection under specific context. 06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악 06.18 ~ 06.25 Build dataset (→ 07.01 까지 늘어지는 중..) - 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요 - 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요 → 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지 - Dataset 여러가지 버전으로 구성하기 06.26 ~ 07.03 Modeling..