Project/Toxic speech detection

[TOXIC SPEECH DETECTION] PLAN + REFERENCE

Hyunie 2021. 6. 17. 16:19
728x90
반응형

<Subject>

Toxic, offensive, hate and sexual speech detection under specific context.

 

<PLAN>

06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악

 

06.18 ~ 06.25 Build dataset

(→ 07.01 까지 늘어지는 중..)

- 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요

- 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요

→ 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지

- Dataset 여러가지 버전으로 구성하기

 

06.26 ~ 07.03 Modeling

- Tokenization 모델 결정 ( 임베딩 Fasttext 확인)

- CPU에서 inference time 50ms이하인 모델 선정 필요

(Mobile BERT, Electra BERT등 2019년 이후 transformer model 살펴보기)

- Confidence에 따라서 추가 모델 결합 필요?

- 첫 번째 모델 선정 이후 dataset version에 따른 성능 비교 후 최종 dataset 결정

- 모델 2~3종류 돌려보기

- Optimization 조정

 

07.04 ~ 07.07 Distribution

-Bento ML

 

 

<관련 논문>

 

Toxic Speech Detection

Predictive Embeddings for Hate Speech Detection on Twitter : https://arxiv.org/pdf/1809.10644.pdf

BERT and fastText Embeddings for Automatic Detection of Toxic Speech: https://hal.inria.fr/hal-02448197v2/document

Defining and Detecting Toxicity on Social Media: Context and Knowledge are Key: https://arxiv.org/pdf/2104.10788.pdf

Using Transfer-based Language Models to Detect Hateful and Offensive Language Online: https://www.aclweb.org/anthology/2020.alw-1.3.pdf

 

 

<Dataset>

Kaggle: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge

White Supremacy Forum: https://github.com/Vicomtech/hate-speech-dataset

논문 내 여러 dataset 소개: https://arxiv.org/pdf/2006.00998.pdf

728x90
반응형