[TOXIC SPEECH DETECTION] Dataset 정리

[TOXIC SPEECH DETECTION] Dataset 정리

Project/Toxic speech detection 2021. 7. 13. 23:14

728x90

반응형

https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천!

1. Single sentence dataset

Kaggle dataset

*각 라벨에 대한 분류 기준 확인할 수 없음

Jigsaw toxic comment classification challenge

출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data

특징

- 150k Wikipedia comments (Train dataset)

- toxic/ severe toxic/ obscene/ threat/ insult/ identity_hate 6개의 라벨로 구분된 multi labels dataset

- 6개 label 중 하나라도 라벨이 부여되어 있는 data 16,225개/ 라벨이 없는(non-toxic) 데이터 143,346개

처리 방법

- 6개 label 중 어떤 라벨 하나에라도 속하면 toxic, 아니면 non-toxic으로 라벨 부여 (binary classification으로 변환)

Jigsaw Unintended Bias in Toxicity Classification

출처: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

특징

- Toxic 세부 라벨 6개 (severe toxic/ obscene/ threat/ insult/ identity_attack)와 결국 해당 문장이 toxic인지 아닌지에 대한 라벨(target)이 확률값으로 (0~1) 부여됨

- Target probability 0.5 기준으로 toxic 여부를 1/0으로 나누었을 때 toxic data 144,334개/ non-toxic data 1,660,540개

처리 방법

- Singlesentence dataset에는 target probability 0.5 기준으로 toxic으로 부여된 data만 뽑아서 사용

- Context dataset ver2에는 target probability 0.8 기준으로 toxic으로 부여된 data만 뽑아서 사용 (조금 더 심각한 코멘트들만 활용하기 위해)

Quora Insincere Questions Classification

출처: https://www.kaggle.com/c/quora-insincere-questions-classification/data

라벨링 기준

특정 집단의 특징을 강조하기 위해 과장된 어조를 가지거나 사회적 취약 계층에 대한 고정관념이나 차별적인 생각을 제시하거나 확증을 구하는 질문, 집단의 특징 중 고칠 수 없거나 측정할 수 없는 특징에 대한 폄하가 포함된 질문, 거짓된 정보를 가지고 있는 질문, 성적인 내용을 포함하며 답을 구하는 것이 아닌 질문.

특징

- Toxic data 80,810개, non-toxic data 1,225,312개 (총 1,306,122개)

- 모두 질문의 형태로 구성되어 있음

Twitter dataset

Sexual Harrasment Classification dataset

출처: https://github.com/whopriyam/CyberPolice-Classification-of-Cyber-Sexual-Harassment

*라벨에 대한 분류 기준 확인할 수 없음

특징

- Toxic data 2,423개, non-toxic data 2,149개 (총 4,572개)

- 라벨링이 잘못 되어있는 코멘트들 일부 존재

2. Context dataset

Gap/Reddit dataset

A Benchmark Dataset for Learning to Intervene in Online Hate Speech 논문에서 사용한 dataset

출처: https://github.com/jing-qian/A-Benchmark-Dataset-for-Learning-to-Intervene-in-Online-Hate-Speech

라벨링 기준

인종, 민족, 종교, 성별, 카스트, 질병 또는 장애를 향한 직접적 공격일 경우 toxic speech로 판단 (Facebook의 hate speech 정의를 따름)

세 명의 annotator중 2명 이상이 toxic speech라고 판단한 경우에만 최종 toxic speech label 부여

e.g.)

Text:
1. Hi there, i,m Keith, i hope you are doing well, i would be very honored to get to know you if you would be interested?
2. Fuck off
3. wow, what a rude cunt

Label: 3

2번의 Fuck off 는 그냥 꺼지라는 말이기 때문에 어떠한 특징을 기반으로 한 모욕적 발언이 아닌 단순히 개인을 향한 말이라 toxic speech로 간주 되지 않고, 3번 문장은 여성을 비하하는 'cunt'라는 단어가 사용되었기 때문에 toxic speech로 분류 된 것으로 보임.

*다른 dataset과 조합시 고려해야할 부분으로 보인다.

특징

- Gap 11,825 datas (656 unlabelled datas), Reddit 5,020 datas (1,173 unlabelled datas)

- text는 넘버링 된 여러 개의 댓글로 구성. hate_speech_idx는 각 댓글 중 몇 번째 댓글이 hate speech인지 표시

- 라벨링이 잘못되어있는 데이터 굉장히 많음.. (e.g. 문장이 14개 밖에 없는데 toxic label이 20으로 부여되어 있거나 toxic comment지만 라벨링이 안 되어 있는 경우, toxic comment가 아니지만 라벨링이 되어있는 경우)

- 중간중간 [deleted]나 [removed]로 되어있는 코멘트 존재

- 독일어로 된 문장 포함

Fox News dataset

Detecting Online Hate Speech Using Context Aware Models 논문에서 사용한 dataset

출처: https://github.com/sjtuprog/fox-news-comments

라벨링 기준

개인 또는 집단의 성적, 종교적, 민족적 등의 identity를 향한 암시적/명시적 혐오 발언일 경우 toxic speech로 판단

- 익명의 사용자들에 대한 모욕은 toxic speech로 간주하지 않음

특징

- 뉴스의 타이틀에 따라 댓글이 toxic인지 아닌지에 대한 라벨 부여

- 총 10개의 뉴스 제목, toxic data 435개, non-toxic data 1093개 (총 1,528개)

- 뉴스 타이틀 & 댓글 쌍이기 때문에 정확히 context를 반영한 데이터라고는 할 수 없음

Wikipidia talkpage dataset

Toxicity Detection: Does Context Really Matter? 논문에서 사용한 dataset

출처: https://github.com/ipavlopoulos/context_toxicity/tree/master/data

라벨링 기준공격적이거나 무례한 말들 또는 annotator끼리 상의하여 toxic speech라고 동의한 문장일 경우 toxic speech로 판단* 위의 두 dataset과 labelling 기준이 다름

특징- Context를 제공해주는 parent와 해당 parent문장에 따라 toxic인지 아닌지 판단 대상이 되는 text 문장으로 이루어져 있음- Toxic data 9,849개, non-toxic data 151개 (총 10,000개)- 라벨링 기준이 너무 넓어서 크게 toxic speech가 아닌 문장들에도 toxic label이 부여되어있는 데이터들이 있음

중요 point

1. 연구 목적을 분명히 설정함: 해당 모델을 어디에 사용할 것인지

2. 연구 목적에 합당한 수준의 toxic speech 기준을 명확히 세움

3. 해당 수준과 동일한 기준으로 labeling이 된 dataset 확보

728x90

반응형

저작자표시

'Project > Toxic speech detection' 카테고리의 다른 글

[TOXIC SPEECH DETECTION] PLAN + REFERENCE (0) 2021.06.17
관련글 관련글 더보기
- [TOXIC SPEECH DETECTION] PLAN + REFERENCE
댓글

ABOUT ME

머신러닝을 배웠던 데이터 엔지니어 머신러닝을 배웠던 데이터 엔지니어

1. Single sentence dataset

Kaggle dataset

Twitter dataset

2. Context dataset

Gap/Reddit dataset

Fox News dataset

Wikipidia talkpage dataset

중요 point

'Project > Toxic speech detection' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. Single sentence dataset

Kaggle dataset

Twitter dataset

2. Context dataset

Gap/Reddit dataset

Fox News dataset

Wikipidia talkpage dataset

중요 point

'Project > Toxic speech detection' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바