ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [TOXIC SPEECH DETECTION] Dataset 정리
    Project/Toxic speech detection 2021. 7. 13. 23:14
    728x90
    반응형

    https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천!

    1. Single sentence dataset

    Kaggle dataset

    *각 라벨에 대한 분류 기준 확인할 수 없음

     

    Jigsaw toxic comment classification challenge

    출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data

     

    특징

    - 150k Wikipedia comments (Train dataset)

    - toxic/ severe toxic/ obscene/ threat/ insult/ identity_hate 6개의 라벨로 구분된 multi labels dataset

    - 6개 label 중 하나라도 라벨이 부여되어 있는 data 16,225개/ 라벨이 없는(non-toxic) 데이터 143,346개

     

    처리 방법

    - 6개 label 중 어떤 라벨 하나에라도 속하면 toxic, 아니면 non-toxic으로 라벨 부여 (binary classification으로 변환)

     

    Jigsaw Unintended Bias in Toxicity Classification

    출처: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

     

    특징

    - Toxic 세부 라벨 6개 (severe toxic/ obscene/ threat/ insult/ identity_attack)와 결국 해당 문장이 toxic인지 아닌지에 대한 라벨(target)이 확률값으로 (0~1) 부여됨

    - Target probability 0.5 기준으로 toxic 여부를 1/0으로 나누었을 때 toxic data 144,334개/ non-toxic data 1,660,540개

     

    처리 방법

    - Singlesentence dataset에는 target probability 0.5 기준으로 toxic으로 부여된 data만 뽑아서 사용

    - Context dataset ver2에는 target probability 0.8 기준으로 toxic으로 부여된 data만 뽑아서 사용 (조금 더 심각한 코멘트들만 활용하기 위해)

     

    Quora Insincere Questions Classification

    출처: https://www.kaggle.com/c/quora-insincere-questions-classification/data

     

    라벨링 기준

    특정 집단의 특징을 강조하기 위해 과장된 어조를 가지거나 사회적 취약 계층에 대한 고정관념이나 차별적인 생각을 제시하거나 확증을 구하는 질문, 집단의 특징 중 고칠 수 없거나 측정할 수 없는 특징에 대한 폄하가 포함된 질문, 거짓된 정보를 가지고 있는 질문, 성적인 내용을 포함하며 답을 구하는 것이 아닌 질문.

     

    특징

    - Toxic data 80,810개, non-toxic data 1,225,312개 (총 1,306,122개)

    - 모두 질문의 형태로 구성되어 있음

     

     

    Twitter dataset

    Sexual Harrasment Classification dataset

    출처: https://github.com/whopriyam/CyberPolice-Classification-of-Cyber-Sexual-Harassment

    *라벨에 대한 분류 기준 확인할 수 없음

     

    특징

    - Toxic data 2,423개, non-toxic data 2,149개 (총 4,572개)

    - 라벨링이 잘못 되어있는 코멘트들 일부 존재

     

    2. Context dataset

    Gap/Reddit dataset

    A Benchmark Dataset for Learning to Intervene in Online Hate Speech 논문에서 사용한 dataset

    출처: https://github.com/jing-qian/A-Benchmark-Dataset-for-Learning-to-Intervene-in-Online-Hate-Speech

     

    라벨링 기준

    인종, 민족, 종교, 성별, 카스트, 질병 또는 장애를 향한 직접적 공격일 경우 toxic speech로 판단 (Facebook의 hate speech 정의를 따름)

    세 명의 annotator중 2명 이상이 toxic speech라고 판단한 경우에만 최종 toxic speech label 부여

     

    e.g.)

    Text:
    1. Hi there, i,m Keith, i hope you are doing well, i would be very honored to get to know you if you would be interested? 
    2.  Fuck off
    3.  wow, what a rude cunt 
    Label: 3

     

    2번의 Fuck off 는 그냥 꺼지라는 말이기 때문에 어떠한 특징을 기반으로 한 모욕적 발언이 아닌 단순히 개인을 향한 말이라 toxic speech로 간주 되지 않고, 3번 문장은 여성을 비하하는 'cunt'라는 단어가 사용되었기 때문에 toxic speech로 분류 된 것으로 보임.

    *다른 dataset과 조합시 고려해야할 부분으로 보인다.

     

    특징

    - Gap 11,825 datas (656 unlabelled datas), Reddit 5,020 datas (1,173 unlabelled datas)

    - text는 넘버링 된 여러 개의 댓글로 구성. hate_speech_idx는 각 댓글 중 몇 번째 댓글이 hate speech인지 표시

    - 라벨링이 잘못되어있는 데이터 굉장히 많음.. (e.g. 문장이 14개 밖에 없는데 toxic label이 20으로 부여되어 있거나 toxic comment지만 라벨링이 안 되어 있는 경우, toxic comment가 아니지만 라벨링이 되어있는 경우)

    - 중간중간 [deleted]나 [removed]로 되어있는 코멘트 존재

    - 독일어로 된 문장 포함

     

    Fox News dataset

    Detecting Online Hate Speech Using Context Aware Models 논문에서 사용한 dataset

    출처: https://github.com/sjtuprog/fox-news-comments

     

    라벨링 기준

    개인 또는 집단의 성적, 종교적, 민족적 등의 identity를 향한 암시적/명시적 혐오 발언일 경우 toxic speech로 판단

    - 익명의 사용자들에 대한 모욕은 toxic speech로 간주하지 않음

     

    특징

    - 뉴스의 타이틀에 따라 댓글이 toxic인지 아닌지에 대한 라벨 부여

    -  총 10개의 뉴스 제목, toxic data 435개, non-toxic data 1093개 (총 1,528개)

    - 뉴스 타이틀 & 댓글 쌍이기 때문에 정확히 context를 반영한 데이터라고는 할 수 없음

     

    Wikipidia talkpage dataset

    Toxicity Detection: Does Context Really Matter? 논문에서 사용한 dataset

    출처: https://github.com/ipavlopoulos/context_toxicity/tree/master/data

     

    라벨링 기준공격적이거나 무례한 말들 또는 annotator끼리 상의하여 toxic speech라고 동의한 문장일 경우 toxic speech로 판단* 위의 두 dataset과 labelling 기준이 다름

     

    특징- Context를 제공해주는 parent와 해당 parent문장에 따라 toxic인지 아닌지 판단 대상이 되는 text 문장으로 이루어져 있음- Toxic data 9,849개, non-toxic data 151개 (총 10,000개)- 라벨링 기준이 너무 넓어서 크게 toxic speech가 아닌 문장들에도 toxic label이 부여되어있는 데이터들이 있음


    중요 point

    1. 연구 목적을 분명히 설정함: 해당 모델을 어디에 사용할 것인지

    2. 연구 목적에 합당한 수준의 toxic speech 기준을 명확히 세움

    3. 해당 수준과 동일한 기준으로 labeling이 된 dataset 확보

    728x90
    반응형

    'Project > Toxic speech detection' 카테고리의 다른 글

    [TOXIC SPEECH DETECTION] PLAN + REFERENCE  (0) 2021.06.17

    댓글