ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 02.05. 공부정리
    궁금점의 기록 2022. 2. 5. 12:56
    728x90
    반응형

    - 데이터 민주화, 기술 민주화를 하는 이유 = 오픈 소스

     

    Data driven decision: 오직 데이터만을 기반으로 (나의 생각x) 결정을 내리겠다 - 데이터가 이야기 하는대로 따라감

    Data informed decision: 나의 생각이 있고 데이터를 참고해서 결정을 내리겠다

     

    데이터를 기반으로 현재 진행하고 있는 operation을 최적화 하거나 소비자 경험을 개선시킴. 이 결정을 지원하기 위해 데이터 인프라를 구축하는 것이 데이터 엔지니어.

     

    DS: 머신러닝 알고리즘을 이용하여 데이터 패턴을 파악하는 것을 통해 운영을 개선함. 머신러닝 지식, 경험 필요, 모델링을 위한 코딩 실력 필요 (기본 파이썬, 스파크, SQL은 기본) - 고객은 외부 사용자들

     

    DA: BI팀에 속해서 KPI등 지표를 데이터 기반으로 개선하고 대시보드 제작. 경영팀의 의사 결정을 도움. 내부 팀들의 질문(영업팀: 이번 분기에 매출이 떨어졌는데 왜 떨어졌나요?)를 데이터를 기반으로 대답해줌 - 고객은 내부 직원들, 경영진

     

    DE: A/B 테스트(실제 사용자들에게 노출)를 할 수 있는 환경을 만들어 주기

     

    집중형: 데이터 팀이 중앙에 DS, DA, DE가 한 팀으로 구성. 현업 부서들의 요청이 우선순위에 따라 delay될 수 있다는 단점

    기능형: 각 현업 부서에 데이터 관련 직무자가 속하는 것. 팀 안에서 데이터 직무자의 기여도가 적고, 성과가 제대로 평가되지 않기 때문에 인재 유출, 각 팀에서 중복된 업무를 하게되는 비효율이 발생할 수 있음

    분산형: 중앙에 데이터 팀이 있고, 현업 부서에 데이터 팀 직원을 파견

     

    박사학위의 의미: 어려운 토픽을 붙들고 늘어진 경험들이 있다.

     

    DW: AWS Redshift, GCP BigQuery, Snowflask (Redshift보다 더 큰 볼륨의 데이터라면 BigQuery나 Snowflask 사용)

     

    모델의 정확도를 위해 데이터 엔지니어도 모델링에 대한 기본적인 지식이 필요할 것 같다. 엔지니어가 수집한 데이터로 모델이 학습되니까.

     

    데이터 조직에서 중요한것: 우리 조직에서 한 일이 매출 성장에 얼마나 기여했는가를 객관적인 지표로 만들어내는 것

    데이터 카탈로그가 중요한 이유: 쌓여있는 데이터 중 어떤 것을 사용해야할 지 몰라 다시 데이터를 저장하는 업무를 수행하는 것

    네이밍 컨벤션 중요: 사용자가 복수/단수, dash/underscore 등 이름을 찾기 위해 보내는 시간을 아껴줘야함

     

    * 정량적 지표의 중요성

    * 빠르게 실험하기 - 내가 생각하지 못했던 issue들을 빨리 파악할 수 있음

    728x90
    반응형

    '궁금점의 기록' 카테고리의 다른 글

    String형태로 들어온 시간 리스트의 총합을 구하는 법  (0) 2022.09.09
    02.26 공부 정리  (0) 2022.02.26
    OS관련 질문  (0) 2021.12.28
    통계  (0) 2021.07.25
    BERT  (0) 2021.07.22

    댓글