-
[TOXIC SPEECH DETECTION] Dataset 정리Project/Toxic speech detection 2021. 7. 13. 23:14728x90반응형
https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천!
1. Single sentence dataset
Kaggle dataset
*각 라벨에 대한 분류 기준 확인할 수 없음
Jigsaw toxic comment classification challenge
출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
특징
- 150k Wikipedia comments (Train dataset)
- toxic/ severe toxic/ obscene/ threat/ insult/ identity_hate 6개의 라벨로 구분된 multi labels dataset
- 6개 label 중 하나라도 라벨이 부여되어 있는 data 16,225개/ 라벨이 없는(non-toxic) 데이터 143,346개
처리 방법
- 6개 label 중 어떤 라벨 하나에라도 속하면 toxic, 아니면 non-toxic으로 라벨 부여 (binary classification으로 변환)
Jigsaw Unintended Bias in Toxicity Classification
출처: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
특징
- Toxic 세부 라벨 6개 (severe toxic/ obscene/ threat/ insult/ identity_attack)와 결국 해당 문장이 toxic인지 아닌지에 대한 라벨(target)이 확률값으로 (0~1) 부여됨
- Target probability 0.5 기준으로 toxic 여부를 1/0으로 나누었을 때 toxic data 144,334개/ non-toxic data 1,660,540개
처리 방법
- Singlesentence dataset에는 target probability 0.5 기준으로 toxic으로 부여된 data만 뽑아서 사용
- Context dataset ver2에는 target probability 0.8 기준으로 toxic으로 부여된 data만 뽑아서 사용 (조금 더 심각한 코멘트들만 활용하기 위해)
Quora Insincere Questions Classification
출처: https://www.kaggle.com/c/quora-insincere-questions-classification/data
라벨링 기준
특정 집단의 특징을 강조하기 위해 과장된 어조를 가지거나 사회적 취약 계층에 대한 고정관념이나 차별적인 생각을 제시하거나 확증을 구하는 질문, 집단의 특징 중 고칠 수 없거나 측정할 수 없는 특징에 대한 폄하가 포함된 질문, 거짓된 정보를 가지고 있는 질문, 성적인 내용을 포함하며 답을 구하는 것이 아닌 질문.
특징
- Toxic data 80,810개, non-toxic data 1,225,312개 (총 1,306,122개)
- 모두 질문의 형태로 구성되어 있음
Twitter dataset
Sexual Harrasment Classification dataset
출처: https://github.com/whopriyam/CyberPolice-Classification-of-Cyber-Sexual-Harassment
*라벨에 대한 분류 기준 확인할 수 없음
특징
- Toxic data 2,423개, non-toxic data 2,149개 (총 4,572개)
- 라벨링이 잘못 되어있는 코멘트들 일부 존재
2. Context dataset
Gap/Reddit dataset
A Benchmark Dataset for Learning to Intervene in Online Hate Speech 논문에서 사용한 dataset
출처: https://github.com/jing-qian/A-Benchmark-Dataset-for-Learning-to-Intervene-in-Online-Hate-Speech
라벨링 기준
인종, 민족, 종교, 성별, 카스트, 질병 또는 장애를 향한 직접적 공격일 경우 toxic speech로 판단 (Facebook의 hate speech 정의를 따름)
세 명의 annotator중 2명 이상이 toxic speech라고 판단한 경우에만 최종 toxic speech label 부여
e.g.)
Text:
1. Hi there, i,m Keith, i hope you are doing well, i would be very honored to get to know you if you would be interested?
2. Fuck off
3. wow, what a rude cuntLabel: 3 2번의 Fuck off 는 그냥 꺼지라는 말이기 때문에 어떠한 특징을 기반으로 한 모욕적 발언이 아닌 단순히 개인을 향한 말이라 toxic speech로 간주 되지 않고, 3번 문장은 여성을 비하하는 'cunt'라는 단어가 사용되었기 때문에 toxic speech로 분류 된 것으로 보임.
*다른 dataset과 조합시 고려해야할 부분으로 보인다.
특징
- Gap 11,825 datas (656 unlabelled datas), Reddit 5,020 datas (1,173 unlabelled datas)
- text는 넘버링 된 여러 개의 댓글로 구성. hate_speech_idx는 각 댓글 중 몇 번째 댓글이 hate speech인지 표시
- 라벨링이 잘못되어있는 데이터 굉장히 많음.. (e.g. 문장이 14개 밖에 없는데 toxic label이 20으로 부여되어 있거나 toxic comment지만 라벨링이 안 되어 있는 경우, toxic comment가 아니지만 라벨링이 되어있는 경우)
- 중간중간 [deleted]나 [removed]로 되어있는 코멘트 존재
- 독일어로 된 문장 포함
Fox News dataset
Detecting Online Hate Speech Using Context Aware Models 논문에서 사용한 dataset
출처: https://github.com/sjtuprog/fox-news-comments
라벨링 기준
개인 또는 집단의 성적, 종교적, 민족적 등의 identity를 향한 암시적/명시적 혐오 발언일 경우 toxic speech로 판단
- 익명의 사용자들에 대한 모욕은 toxic speech로 간주하지 않음
특징
- 뉴스의 타이틀에 따라 댓글이 toxic인지 아닌지에 대한 라벨 부여
- 총 10개의 뉴스 제목, toxic data 435개, non-toxic data 1093개 (총 1,528개)
- 뉴스 타이틀 & 댓글 쌍이기 때문에 정확히 context를 반영한 데이터라고는 할 수 없음
Wikipidia talkpage dataset
Toxicity Detection: Does Context Really Matter? 논문에서 사용한 dataset
출처: https://github.com/ipavlopoulos/context_toxicity/tree/master/data
라벨링 기준공격적이거나 무례한 말들 또는 annotator끼리 상의하여 toxic speech라고 동의한 문장일 경우 toxic speech로 판단* 위의 두 dataset과 labelling 기준이 다름
특징- Context를 제공해주는 parent와 해당 parent문장에 따라 toxic인지 아닌지 판단 대상이 되는 text 문장으로 이루어져 있음- Toxic data 9,849개, non-toxic data 151개 (총 10,000개)- 라벨링 기준이 너무 넓어서 크게 toxic speech가 아닌 문장들에도 toxic label이 부여되어있는 데이터들이 있음
중요 point
1. 연구 목적을 분명히 설정함: 해당 모델을 어디에 사용할 것인지
2. 연구 목적에 합당한 수준의 toxic speech 기준을 명확히 세움
3. 해당 수준과 동일한 기준으로 labeling이 된 dataset 확보
728x90반응형'Project > Toxic speech detection' 카테고리의 다른 글
[TOXIC SPEECH DETECTION] PLAN + REFERENCE (0) 2021.06.17