Project
-
[CI/CD 구축] EC2 인스턴스 생성 - Ubuntu & WindowsProject/CICD 2022. 1. 24. 23:46
[Project workflow] EC2로 윈도우/리눅스 EC2 생성 Mac에서 EC2 접속 test (테스트 빌드용) 로컬 젠킨스 서버 배포 젠킨스 프로젝트 생성 및 빌드 코드 짜기 배포된 젠킨스 서버와 깃헙 웹훅 연결 코드 merge시 EC2에서 빌드되는지 테스트 Ubuntu와 Windows의 과정이 동일함. 1. AWS 콘솔 > EC2 > 인스턴스 > 인스턴스 시작 2-1. '프리 티어만'에 필터 걸기 (아니면 돈폭탄 맞음) 2-2. 원하는 os 검색 - windows면 windows 검색 2-3. 최신 버전(업데이트하기 귀찮으므로)에서 프로세서 선택 - Windows의 경우 x86 밖에 없음. 대신 with container냐 아니냐를 선택해야하는데 딱히 윈도우 컨테이너 쓸 일이 없어서 없는 버전..
-
[장기기억 챗봇] 챗봇, 금붕어 기억력에서 벗어나다: Introduction to Blenderbot 2.0Project 2021. 8. 9. 01:27
*Introduction link *github Facebook AI Reasearch(FAIR)에서 7/16일 인터넷 검색을 통해 장기기억과 실시간 인터넷 검색을 통해 정교한 대화를 할 수 있는 chatbot인 Blenderbot 2.0을 발표했다. 인터넷 검색을 활용함으로써 모델은 훈련된 정보가 아닌 가장 최신의 정보를 전달할 수 있으며, 대부분의 주제에 대해 대화가 가능하게되었다. 또한 대화 중 필요한 정보를 장기기억에 저장함으로써 몇 개월 동안 이어지는 대화에도 저장한 지식을 계속 활용할 수 있도록 했다 - 한 달전에 어떤 사용자와 박지성에 대해 얘기했다면, 이를 통해 이 후 '축구'라는 주제를 대화에서 언급할 수 있다. 이 때 데이터는 각 대화하는 상대마다 따로 저장되기 때문에 한 대화에서 저장..
-
[TOXIC SPEECH DETECTION] Dataset 정리Project/Toxic speech detection 2021. 7. 13. 23:14
https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천! 1. Single sentence dataset Kaggle dataset *각 라벨에 대한 분류 기준 확인할 수 없음 Jigsaw toxic comment classification challenge 출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 특징 - 150k Wikipedia comments (Tr..
-
[TOXIC SPEECH DETECTION] PLAN + REFERENCEProject/Toxic speech detection 2021. 6. 17. 16:19
Toxic, offensive, hate and sexual speech detection under specific context. 06.17 Attention + Transformer 모델 복습, 혐오발언 검출 경향 파악 06.18 ~ 06.25 Build dataset (→ 07.01 까지 늘어지는 중..) - 어떤 발언이 toxic, offensive, hate, sexcual speech인가에 대한 명확한 정의 필요 - 여러가지 dataset을 조합하여 필요한 정보들을 최대한 많이 추출하는 것 필요 → 데이터가 부족할 경우, 추가로 어떻게 수집할 것인지, 추가로 수집한 데이터는 어떻게 labeling 할 것인지 - Dataset 여러가지 버전으로 구성하기 06.26 ~ 07.03 Modeling..