Deep Learning
-
[논문리뷰보다는 해석에 가까운] GPT-1 : Improving Language Understanding by Generative Pre-TrainingDeep Learning 2021. 8. 22. 21:14
2018 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 해당 논문은 OpenAI에서 발표한 NLP모델인 GPT 시리즈 중 첫 번째 모델인 GPT-1에 대한 논문이다. 본 포스팅은 논문 내용 뿐 아니라 이해에 도움이 되는 추가적인 설명도 포함하고 있다. Introduction 딥러닝 모델은 대부분 지도학습을하기 때문에 레이블링이 필요하지만, 구할 수 있는 대부분의 데이터는 레이블링이 되어있지 않다는 한계가 있다. 그래서 본 논문에서는 레이블링이 되어있지 않은 데이터로 모델을 학습시켜 레이블링 데이터를 이용했을 때의 단점을 극복하고 사람이 알지 못하는 데이터의 특성까지 모델이 학습하게 하고, 이 후 작은 수정만으로 효과적인 t..
-
[논문리뷰보다는 해석에 가까운] Beyond Goldfish Memory: Long-Term Open-Domain ConversationDeep Learning 2021. 8. 11. 20:54
15-Jul-2021 https://arxiv.org/pdf/2107.07567.pdf Abstract 현재까지의 open domain dialog model들은 2~15 turn, 128 token으로 구성된 짧은 대화와 하나의 대화 세션으로만 이루어진 문맥으로만 훈련되고 평가되었다 (Meena, Blenderbot 1.0) 본 연구에서는 여러 session으로 이루어진 대화들로 구성된 human-human dataset과 해당 dataset은 지난 대화에서 알게 된 내용을 가지고 discussion하고 서로의 관심사를 알아나가는 대화 연구 결과 이전 모델들은 길게 session을 가져가는 대화에서 성능이 굉장히 안 좋은 것으로 확인 되었다. 대화에서 장기 기억을 가져가는 것은 사용자의 관심을 포착함으..
-
21/08/11 논문 스터디Deep Learning 2021. 8. 11. 20:43
어떻게하면 질 좋은 데이터를 생성할 것인가? 데이터셋: Reddit (Pre-training) - Toxic한 표현들 다수 포함 - Group discussion ConvAI2 - 사람과 같이 대화하는 것, 참여도: 화두를 계속 던질 수 있는 것 Empathetic Dialogues - 공감을 할 수 있는 것 Wizard of Wikipedia - 전문적인 대화(Wikipedia 기반) 페르소나가 주어지고 세 가지 데이터 셋 각각으로 훈련된 모델은 세 가지 답변, 사람이 그 중에 하나를 선택하거나 아니면 새로운 답변을 생성 여러 데이터 셋을 활용함으로써 multi task가 가능하게 함 이 multi task를 어떻게 잘 섞을 것인가: Blended skill talk 전처리 - 9개의 휴리스틱한 rul..
-
[논문리뷰보다는 해석에 가까운] HateXplain: A Benchmark Dataset for Explainable Hate Speech DetectionDeep Learning 2021. 6. 28. 17:26
https://arxiv.org/pdf/2012.10289v1.pdf Dec-2020 발행 문제 제기 많은 기존 연구들이 일반화에 실패함 모델이 너무 복잡해서 해석이 어려움 (어떤 근거로 모델이 분류를 했는지) hate speech와 abusive/offensive한 말들(모욕감, 불쾌감을 주는 표현)을 혼용해서 사용함 (e.g) words like hoe and bitch are used commonly in rap lyrics 해당 문제를 극복하기 위해 HateXplain이라는 dataset 구축 단어와 구문 단위의 라벨링을 포함하고 있으며 class를 hate/ offensive/ normal 세 가지로 나눔. 특히 해당 논문은 설명력 확보에 중점을 두었는데 annotator들이 labeling을 ..
-
[논문리뷰보다는 해석에 가까운] AngryBERT: Joint Learning Target andEmotion for Hate Speech DetectionDeep Learning 2021. 6. 25. 20:05
https://arxiv.org/pdf/2103.11800.pdf Mar-2021 발행 기존 진행된 연구의 한계 지도학습을 사용하여 이미 Annotate된 dataset에 과하게 의존 → 불균형 dataset: 혐오표현 학습을 위한 training sample이 너무 적음 → 현재 사용되고 있는 data augmentation 방법은 성능 향상에 미치는 정도가 미미함 해당 문제를 개선하기 위해 본 논문에서는 1차 task로 hate speech detection을 하되 2차 task로 감정 분류와 타겟 인식을 함께 수행하는 Angry BERT 모델을 제시 Multi-task learning: 여러 관련된 task에서 유용한 정보들을 활용함으로써 task의 일반화 성능을 높이는 기계학습 방법 AngryBE..