[TOXIC SPEECH DETECTION] PLAN + REFERENCE

[TOXIC SPEECH DETECTION] PLAN + REFERENCE

Project/Toxic speech detection 2021. 6. 17. 16:19

728x90

반응형

<Subject>

Toxic, offensive, hate and sexual speech detection under specific context.

<PLAN>

06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악

06.18 ~ 06.25 Build dataset

(→ 07.01 까지 늘어지는 중..)

- 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요

- 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요

→ 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지

- Dataset 여러가지 버전으로 구성하기

06.26 ~ 07.03 Modeling

- Tokenization 모델 결정 ( 임베딩 Fasttext 확인)

- CPU에서 inference time 50ms이하인 모델 선정 필요

(Mobile BERT, Electra BERT등 2019년 이후 transformer model 살펴보기)

- Confidence에 따라서 추가 모델 결합 필요?

- 첫 번째 모델 선정 이후 dataset version에 따른 성능 비교 후 최종 dataset 결정

- 모델 2~3종류 돌려보기

- Optimization 조정

07.04 ~ 07.07 Distribution

-Bento ML

<관련 논문>

Toxic Speech Detection

Predictive Embeddings for Hate Speech Detection on Twitter : https://arxiv.org/pdf/1809.10644.pdf

BERT and fastText Embeddings for Automatic Detection of Toxic Speech: https://hal.inria.fr/hal-02448197v2/document

Defining and Detecting Toxicity on Social Media: Context and Knowledge are Key: https://arxiv.org/pdf/2104.10788.pdf

Using Transfer-based Language Models to Detect Hateful and Offensive Language Online: https://www.aclweb.org/anthology/2020.alw-1.3.pdf

<Dataset>

Kaggle: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge

White Supremacy Forum: https://github.com/Vicomtech/hate-speech-dataset

논문 내 여러 dataset 소개: https://arxiv.org/pdf/2006.00998.pdf

728x90

반응형

저작자표시 (새창열림)

'Project > Toxic speech detection' 카테고리의 다른 글

[TOXIC SPEECH DETECTION] Dataset 정리 (0) 2021.07.13
관련글 관련글 더보기
- [TOXIC SPEECH DETECTION] Dataset 정리
댓글

ABOUT ME

머신러닝을 배웠던 데이터 엔지니어 머신러닝을 배웠던 데이터 엔지니어

'Project > Toxic speech detection' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Project > Toxic speech detection' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바