AWS
-
Lamda로 서로 다른 vpc에 있는 redshift에서 rds로 reverse ETL하기 (VPC peering)Data Engineering/AWS, Spark 2023. 5. 9. 00:32
AWS에서 작업을 하다보면 항상 가장 힘든게 네트워크 설정인 것 같다. 오늘은 Lamda로 서로 다른 private subnet에 있는 redshift에서 rds로 reverse ETL 파이프라인을 구성했던 방법을 기록해보려한다. 기본적으로 Lambda는 public network에 위치하고, private network로는 접근할 수 없다. 따라서 lamda에서 RDS나 redshift에 접근하기 위해서는 Lamda 함수를 생성한 후, 해당 함수의 configuration에서 접근하고자하는 VPC와 subnet, 그리고 보안그룹을 선택해서 람다가 해당 private network에 위치하도록 해주어야한다. 하지만 이렇게 했을 때 문제점은, Lamda가 특정 private subnet에 들어가기 때문에 ..
-
Glue Spark UI 서버 띄워서 Job 상세 실행 내역 확인하기Data Engineering/AWS, Spark 2023. 1. 6. 11:33
1. aws glue sample 레포지토리에서 Glue 버전에 맞는 docker file과 pom.xml을 다운받는다. 2. 다음 명령어로 도커 이미지를 빌드한다. docker build -t glue/sparkui:latest 3. 다음 중 하나의 방법으로 컨테이너를 띄운다. Glue job event log s3 uri는 s3://.. 가 아닌 s3a://... 로 넣어야한다. 만약 자주 실행한다면 로그 디렉토리 경로 등을 환경변수로 저장해놓는 것이 편하다. 이 포스팅을 볼 정도면 다들 알겠지만 백그라운드로 실행하고 싶지 않다면 -itd가 아닌 -it로 run하면 된다. Beijing, Ningxia 리전의 경우 추가적인 옵션이 필요하다. 위 레포지토리의 README.md를 참고하면 된다. 1) A..