분류 전체보기
-
Colab 런타임 끊김 방지하기Tips 2021. 7. 7. 01:11
Colab은 일정 시간 동안 활동이 없으면 런타임을 끊어버린다. 하기 코드를 Console창에 붙여넣으면 1분마다 활동을 활성시켜서 런타임 끊김을 방지할 수 있다. 추가로 열려있는 인터넷 창이 많으면 충돌(?) 같은게 일어나서 I'm not a robot 메세지 때문에 런타임이 끊길 수도 있으니 모델을 오래 훈련시킬거면 인터넷 창은 왠만하면 거의 닫아두는게 좋은 것 같다. F12 (또는 오른쪽 마우스> 검사) > Console > 맨 마지막 열에 붙여넣고 enter 눌러서 숫자 뜨면 성공 function ClickConnect(){ console.log("Working"); document .querySelector('#top-toolbar > colab-connect-button') .shadowRoo..
-
[논문리뷰보다는 해석에 가까운] HateXplain: A Benchmark Dataset for Explainable Hate Speech DetectionDeep Learning 2021. 6. 28. 17:26
https://arxiv.org/pdf/2012.10289v1.pdf Dec-2020 발행 문제 제기 많은 기존 연구들이 일반화에 실패함 모델이 너무 복잡해서 해석이 어려움 (어떤 근거로 모델이 분류를 했는지) hate speech와 abusive/offensive한 말들(모욕감, 불쾌감을 주는 표현)을 혼용해서 사용함 (e.g) words like hoe and bitch are used commonly in rap lyrics 해당 문제를 극복하기 위해 HateXplain이라는 dataset 구축 단어와 구문 단위의 라벨링을 포함하고 있으며 class를 hate/ offensive/ normal 세 가지로 나눔. 특히 해당 논문은 설명력 확보에 중점을 두었는데 annotator들이 labeling을 ..
-
[논문리뷰보다는 해석에 가까운] AngryBERT: Joint Learning Target andEmotion for Hate Speech DetectionDeep Learning 2021. 6. 25. 20:05
https://arxiv.org/pdf/2103.11800.pdf Mar-2021 발행 기존 진행된 연구의 한계 지도학습을 사용하여 이미 Annotate된 dataset에 과하게 의존 → 불균형 dataset: 혐오표현 학습을 위한 training sample이 너무 적음 → 현재 사용되고 있는 data augmentation 방법은 성능 향상에 미치는 정도가 미미함 해당 문제를 개선하기 위해 본 논문에서는 1차 task로 hate speech detection을 하되 2차 task로 감정 분류와 타겟 인식을 함께 수행하는 Angry BERT 모델을 제시 Multi-task learning: 여러 관련된 task에서 유용한 정보들을 활용함으로써 task의 일반화 성능을 높이는 기계학습 방법 AngryBE..
-
[TOXIC SPEECH DETECTION] PLAN + REFERENCEProject/Toxic speech detection 2021. 6. 17. 16:19
Toxic, offensive, hate and sexual speech detection under specific context. 06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악 06.18 ~ 06.25 Build dataset (→ 07.01 까지 늘어지는 중..) - 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요 - 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요 → 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지 - Dataset 여러가지 버전으로 구성하기 06.26 ~ 07.03 Modeling..