-
02.05. 공부정리궁금점의 기록 2022. 2. 5. 12:56728x90반응형
- 데이터 민주화, 기술 민주화를 하는 이유 = 오픈 소스
Data driven decision: 오직 데이터만을 기반으로 (나의 생각x) 결정을 내리겠다 - 데이터가 이야기 하는대로 따라감
Data informed decision: 나의 생각이 있고 데이터를 참고해서 결정을 내리겠다
데이터를 기반으로 현재 진행하고 있는 operation을 최적화 하거나 소비자 경험을 개선시킴. 이 결정을 지원하기 위해 데이터 인프라를 구축하는 것이 데이터 엔지니어.
DS: 머신러닝 알고리즘을 이용하여 데이터 패턴을 파악하는 것을 통해 운영을 개선함. 머신러닝 지식, 경험 필요, 모델링을 위한 코딩 실력 필요 (기본 파이썬, 스파크, SQL은 기본) - 고객은 외부 사용자들
DA: BI팀에 속해서 KPI등 지표를 데이터 기반으로 개선하고 대시보드 제작. 경영팀의 의사 결정을 도움. 내부 팀들의 질문(영업팀: 이번 분기에 매출이 떨어졌는데 왜 떨어졌나요?)를 데이터를 기반으로 대답해줌 - 고객은 내부 직원들, 경영진
DE: A/B 테스트(실제 사용자들에게 노출)를 할 수 있는 환경을 만들어 주기
집중형: 데이터 팀이 중앙에 DS, DA, DE가 한 팀으로 구성. 현업 부서들의 요청이 우선순위에 따라 delay될 수 있다는 단점
기능형: 각 현업 부서에 데이터 관련 직무자가 속하는 것. 팀 안에서 데이터 직무자의 기여도가 적고, 성과가 제대로 평가되지 않기 때문에 인재 유출, 각 팀에서 중복된 업무를 하게되는 비효율이 발생할 수 있음
분산형: 중앙에 데이터 팀이 있고, 현업 부서에 데이터 팀 직원을 파견
박사학위의 의미: 어려운 토픽을 붙들고 늘어진 경험들이 있다.
DW: AWS Redshift, GCP BigQuery, Snowflask (Redshift보다 더 큰 볼륨의 데이터라면 BigQuery나 Snowflask 사용)
모델의 정확도를 위해 데이터 엔지니어도 모델링에 대한 기본적인 지식이 필요할 것 같다. 엔지니어가 수집한 데이터로 모델이 학습되니까.
데이터 조직에서 중요한것: 우리 조직에서 한 일이 매출 성장에 얼마나 기여했는가를 객관적인 지표로 만들어내는 것
데이터 카탈로그가 중요한 이유: 쌓여있는 데이터 중 어떤 것을 사용해야할 지 몰라 다시 데이터를 저장하는 업무를 수행하는 것
네이밍 컨벤션 중요: 사용자가 복수/단수, dash/underscore 등 이름을 찾기 위해 보내는 시간을 아껴줘야함
* 정량적 지표의 중요성
* 빠르게 실험하기 - 내가 생각하지 못했던 issue들을 빨리 파악할 수 있음
728x90반응형'궁금점의 기록' 카테고리의 다른 글
String형태로 들어온 시간 리스트의 총합을 구하는 법 (0) 2022.09.09 02.26 공부 정리 (0) 2022.02.26 OS관련 질문 (0) 2021.12.28 통계 (0) 2021.07.25 BERT (0) 2021.07.22