-
[TOXIC SPEECH DETECTION] PLAN + REFERENCEProject/Toxic speech detection 2021. 6. 17. 16:19728x90반응형
<Subject>
Toxic, offensive, hate and sexual speech detection under specific context.
<PLAN>
06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악
06.18 ~ 06.25 Build dataset
(→ 07.01 까지 늘어지는 중..)
- 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요
- 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요
→ 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지
- Dataset 여러가지 버전으로 구성하기
06.26 ~ 07.03 Modeling
- Tokenization 모델 결정 ( 임베딩 Fasttext 확인)
- CPU에서 inference time 50ms이하인 모델 선정 필요
(Mobile BERT, Electra BERT등 2019년 이후 transformer model 살펴보기)
- Confidence에 따라서 추가 모델 결합 필요?
- 첫 번째 모델 선정 이후 dataset version에 따른 성능 비교 후 최종 dataset 결정
- 모델 2~3종류 돌려보기
- Optimization 조정
07.04 ~ 07.07 Distribution
-Bento ML
<관련 논문>
Predictive Embeddings for Hate Speech Detection on Twitter : https://arxiv.org/pdf/1809.10644.pdf
BERT and fastText Embeddings for Automatic Detection of Toxic Speech: https://hal.inria.fr/hal-02448197v2/document
Defining and Detecting Toxicity on Social Media: Context and Knowledge are Key: https://arxiv.org/pdf/2104.10788.pdf
Using Transfer-based Language Models to Detect Hateful and Offensive Language Online: https://www.aclweb.org/anthology/2020.alw-1.3.pdf
<Dataset>
Kaggle: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
White Supremacy Forum: https://github.com/Vicomtech/hate-speech-dataset
논문 내 여러 dataset 소개: https://arxiv.org/pdf/2006.00998.pdf
728x90반응형'Project > Toxic speech detection' 카테고리의 다른 글
[TOXIC SPEECH DETECTION] Dataset 정리 (0) 2021.07.13