전체 글
-
테드창의 숨을 통해 생각하게 된 인간, 사회 그리고 과학기술Data Engineering/Books 2024. 9. 3. 00:06
이전부터 읽어보고 싶었던 책인데, 마침 이번 북클럽 도서로 선정되어 읽게 되었다 (강제성이 없으면 절대 안 읽는..). 컴퓨터 공학과 출신의 소설 작가라니, 굉장히 멋있다는 생각이 들었다. 역시나 책 전반에 과학적 - 특히 컴퓨터 기술적 - 지식이 많이 녹아들어있는 것을 알 수 있었다. 숨겨진 과학적 기반은 무엇일까 생각하며 읽었는데, 솔직히 말해 뒤로 갈수록 집중력이 떨어져서 어렵게 느껴졌다. 베르나르 베르베르의 라는 소설을 좋아했는데, 이 책과 꽤 닮은 점이 있다. 미래를 이야기하는 책이라는 것과 단편집이라는 것. 그렇지만 는 정말 공상과학적인 내용이라면, 은 상상한 미래로부터 인간과 사회, 가치에 대한 질문을 던지는 느낌이었다 (를 너무 오래전에 읽어 잘못 기억하는 걸 수도 있음..). 아무튼 2..
-
오늘, 또 일을 미루고 말았다를 읽고 되새긴 시간 관리와 관련 없을 수 있는 생각들Data Engineering/Books 2024. 7. 28. 00:16
사실 Data Engineering과 관계있는 내용은 아닌데, 저자가 MS 개발자란 이유로(그리고 책 관련 카테고리가 이것 밖에 없는 이유로) 여기에 이 카테고리에 끼워넣게 되었다. 자기 계발 서적을 손에 잡는 편이 아니라, 정말 오랜만에 이런 책을 읽었다. 특히나 이런 시간 관리에 관한 책은 하는 이야기들이 뻔하다는 고정 관념을 갖고 있었는데, Part3부터는 막연하게 스스로 문제라고 생각하고 있던 점을 문장으로 짚어주었던 점이 개인적으로 유의미한 책이었다. 1. 머릿속에 있는 것을 형상화하라, 일단 시작하라. 손이 움직이면 머리도 움직인다. 생각은 머릿속에 존재하는 것이 아니라 체계적이지 않다. 따라서 허점을 발견할 수 없다. 그렇기 때문에 일단 머릿속에 있는 아이디어(설계도, pseudo code..
-
Redshift에서의 where ... in과 inner join 성능 비교Tips 2023. 10. 30. 18:56
비교 쿼리: explain select {컬럼} from {테이블} as o inner join ( select {조건 컬럼 1} , {조건 컬럼 2} from {테이블} ... ) as t on o.{조건 컬럼 1} = t.{조건 컬럼 2} and o.{조건 컬럼 1} = t.{조건 컬럼 2} explain select {컬럼} from {테이블} where ({조건 컬럼 1}, {조건 컬럼 2}) in ( select {조건 컬럼 1} , {조건 컬럼 2} from {테이블} ... ) 결과: 실행계획을 살펴보니 where ... in 쿼리도 inner join으로 수행되었다. 아마도 분석 후 inner join으로 실행하는 것이 더 효율적이라 그렇게 실행한 것 같다. 일반적으로 RDBMS에서 whe..
-
따옴표 또는 쌍따옴표가 포함된 문자열을 DB API로 적재하기Tips 2023. 10. 24. 18:50
python에서는 문자열을 표현하는 기호로 쌍따옴표(")와 따옴표(')를 모두 사용하므로, 문자열 안에 쌍따옴표나 따옴표가 포함될 경우 알아서 escape 기호(\)를 사용하거나 문자열 표현자를 쌍따옴표 또는 따옴표를 선택해서 사용함으로써 인식한다. 하지만 SQL에서 쌍따옴표는 컬럼명을 의미하므로, 문자열에는 ' 만 사용할 수 있고, 문자열 내부에 '가 포함되는 경우 escape 기호를 사용해서 넣으면 된다. 부딪힌 상황은 외부 api를 사용해 받은 응답값을 DB에 저장하는데 해당 응답 문자열에 ' 또는 "가 포함되는 경우가 있었고,(예시 - "이름은 'abc'입니다.") 해당 문자열을 executeone 함수로 insert했을 때 syntax error가 발생했다. 해결 방법은 두 가지가 있는데, 첫 ..
-
colab에서 mecab 설치 실패시 해결 방법 (error: subprocess-exited-with-error)Tips 2023. 8. 24. 18:51
로컬에서 Mecab 설치할 때는 m1이라고 애먹이더니 코랩에서 설치하니 또 왜 안돼는지 모르게 안됐다. (심지어 어제까진 됐음..;) 빌드파일에 에러가 있는 것 같아 pip --upgrade도 해보고, 자바도 다시 설치해보고, 블로그 상위에 나오는 글들은 다 시도해봤지만 안됐는데 다음 구문으로 설치 했다. !pip install cython !pip install 'nemo_toolkit['all']' !curl -s https://raw.githubusercontent.com/teddylee777/machine-learning/master/99-Misc/01-Colab/mecab-colab.sh | bash
-
Ubuntu EC2의 메모리 사용량 모니터링하기Data Engineering/AWS, Spark 2023. 8. 23. 19:24
AWS의 모든 인프라는 Cloudwatch로 모니터링한다. 몇일 전부터 사내용 api가 간헐적으로 죽어서 모니터링 지표를 봤는데, 특별히 api가 죽을만한 이유가 없어보였고, 코드 로직 상 데이터가 늘어나면 메모리 부하가 생길 수 있는 구조라 메모리 부하는 아닌가 했는데 cloudwatch가 메모리는 트래킹하지 않고 있었다 (기본적인 지표 아니냐며...). 이유를 대충 찾아보니 baremetal단에 접근해야해서 어쩌구저쩌구 하는데 암튼 안되는 거니 되는 방법을 찾아봤고, cloudwatch agent라는 것을 사용하면 된다고 해서 설치 방법을 적어보려고한다. 괜히 블로그 글 참고했다가 실패하지 말고(내 얘기) 언제나 공식문서를 따르자 1. IAM 만들고 연결 1. IAM > Roles들어가서 create..