분류 전체보기
-
몫과 나머지 구하기Data Engineering/SQL 2021. 8. 9. 00:04
몫은 FLOOR 함수, 나머지는 MOD 또는 REMAINDER함수로 구할 수 있다. 어떤 DB에서는 %도 사용 가능한 것 같긴 한데.. Oracle이 표준이니까 일단 함수로 공부하는 것이 좋을 듯 하다. - Oracle에서는 %연산자가 없다 - MSSQL에는 %연산자가 사용 가능하다고 한다 MOD함수와 REMAINDER 함수는 결과값은 일치하나 내부적으로 연산 방법이 다르다고 한다. 속도면에서는 큰 차이가 없다고 하니 아무거나 쓰면 될 것 같다. -15를 3으로 나누고 싶다면 나눌 값은 15, 나누는 값은 3 - 몫 구하기 FLOOR(나눌 값/나누는 값) - 나머지 구하기 MOD(나눌 값,나누는 값) REMAINDER(나눌 값,나누는 값)
-
문자열 합치기 - CONCAT과 ||Data Engineering/SQL 2021. 8. 8. 23:55
SQL에서 문자열을 합치는 방법은 CONCAT 함수를 사용하는 것과 ||(Double vertical bars)를 사용하는 방법 두 가지가 있다. 여러 개의 문자열을 합치고자 할 때, 각 DB별로 방법이 다를 수 있기 때문에 주의해야한다. ORACLE, MYSQL 제외 DB SELECT CONCAT(first_name, ' ' ,last_name) FROM EMPOYEES SELECT first_name || ' ' || last_name FROM EMPOYEES 두 코드의 실행 결과가 동일하다. ORACLE 오라클의 CONCAT함수는 매개변수를 두 개만 받는다. 따라서 두 개 이상의 값/행을 연결하기 위해서는 중첩 concat을 사용하거나 ||를 사용해야한다. 어느 행에 결측치가 존재할 경우, 결측치를..
-
프로그래밍 통계2: 가설 검정의 종류와 자료의 형태Statistics 2021. 7. 17. 01:17
통계 검정 방법에는 여러가지가 있으나 대표적으로 T 검정, ANOVA검정, 카이제곱검정, F검정을 들 수 있다. 각각 어떤 검정통계량을 기준으로 가설 검정을 시행하느냐에 따라 나뉜다. 검정법 비교대상 표본의 수 대상 T 검정 표본의 평균 (차이 분석) 1~2개 연속형(numerical) 자료 ANOVA(아노바) 표본의 분산을 분석하여 평균을 분석 3개 이상 연속형(numerical) 자료 카이제곱검정 표본의 분산 (상관관계 분석) 1~2개 ( 모집단 1개) 범주형(catergorical) 자료 F검정 표본의 분산 (상관관계 분석) 2개 (모집단 2개) 범주형(catergorical) 자료 자료의 형태는 하기와 같이 나뉜다. 자료의 형태를 구분하는 것은 어떤 검정법을 시행하는 것이 적절할 지 결정하는 데에..
-
프로그래밍 통계1: 표본 추출의 방법과 pandas/ python에서 샘플 추출하기Statistics 2021. 7. 16. 01:35
*해당 글은 본인의 naver blog에 2012.1.14 작성된 글에서 추가 보완한 글입니다. 조사 방법 전수조사: 관심의 대상이 되는 모집단 전체를 대상으로 조사하는 것 표본조사: 모집단에서 표본을 추출하여 표본을 대상으로 조사를 시행하는 것이다. 전수조사가 정확한 결과를 도출할 수는 있으나, 비용이나 현실적 제약이 따르기 때문에 표본조사를 시행하는 경우가 많다. 이 때, 표본은 모집단을 대표할 수 있는 근거가 명확한 기준으로 추출되어야 한다. 표본추출 시, 과잉 대표나 최소 대표로 인해 표본추출 오차가 발생할 수 있다. 과잉대표 : 중복선택 등이 원인이 되어 모집단이 반복 또는 중복된 데이터만으로 규정이 되는 현상 최소 대표: 추출된 표본이 실제 모집단의 대표성을 나타낸 표본이 아닌 다린 데이터가 ..
-
프로그래밍 통계0: 통계 기본 중의 기본 개념과 용어 정리 (분산이란? 표준편차란? 자유도란?)Statistics 2021. 7. 15. 02:29
*해당 글은 본인의 naver blog에 2012.1.14 작성된 글입니다. 통계학의 목적 여러가지 목적이 있겠지만, 데이터 분석 분야에서 통계학의 가장 큰 목표는 주어진 데이터를 통계값들을 통해 가장 잘 기술 하기 위해서 통계학을 사용한다. 가설 검정 (Hypothesis Test)이란? 주어진 상황에서 하고자 하는 주장(=가설)이 맞는지 아닌지를 판정하는 과정. 모집단의 실제 값에 대한 샘플(표본)의 통계치를 사용하여 통계적으로 유의한지 아닌지 여부를 판정한다. 귀무가설 (Null Hypothesis, H0): 통계학적 증거를 통해 유의하거나 유의하지 않다는 것을 증명하려는 명제. 대안가설 (Alternative Hypothesis, H1): 귀무가설에 대립하는 명제. 통계학적 증거를 통해 귀..
-
[TOXIC SPEECH DETECTION] Dataset 정리Project/Toxic speech detection 2021. 7. 13. 23:14
https://github.com/julian-risch/toxic-comment-collection 에 가면 toxic speech dataset 모음집을 볼 수 있다. 해당 레포에서 받을 수 있는 데이터는 많이 정제된 데이터라 list만 확인하고 data는 따로 검색해서 원 출처에서 다운받는 것을 추천! 1. Single sentence dataset Kaggle dataset *각 라벨에 대한 분류 기준 확인할 수 없음 Jigsaw toxic comment classification challenge 출처: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 특징 - 150k Wikipedia comments (Tr..