-
프로그래밍 통계0: 통계 기본 중의 기본 개념과 용어 정리 (분산이란? 표준편차란? 자유도란?)Statistics 2021. 7. 15. 02:29728x90반응형
*해당 글은 본인의 naver blog에 2012.1.14 작성된 글입니다.
통계학의 목적
여러가지 목적이 있겠지만, 데이터 분석 분야에서 통계학의 가장 큰 목표는 주어진 데이터를 통계값들을 통해 가장 잘 기술 하기 위해서 통계학을 사용한다.
가설 검정 (Hypothesis Test)이란?
주어진 상황에서 하고자 하는 주장(=가설)이 맞는지 아닌지를 판정하는 과정.
모집단의 실제 값에 대한 샘플(표본)의 통계치를 사용하여 통계적으로 유의한지 아닌지 여부를 판정한다.
- 귀무가설 (Null Hypothesis, H0): 통계학적 증거를 통해 유의하거나 유의하지 않다는 것을 증명하려는 명제.
- 대안가설 (Alternative Hypothesis, H1): 귀무가설에 대립하는 명제. 통계학적 증거를 통해 귀무가설이 통계적으로 유의하지 않다는 것이 증명 될 경우 채택되는 명제이다.
가설 검정전 알아야 할 통계 용어들
- 모집단(Population): 정보를 얻고자 하는 관심집단의 전체 집단. 보통 정규분포를 따른다고 가정한다.
- 모수(Parameter): 모집단의 특성값. 즉, 모집단의 평균, 분산, 편차..등등. 모수를 알면 모집단의 분포, 특성을 묘사할 수 있지만 모수를 정확히 아는 것은 불가능 하므로 이것을 어떻게 잘 추정할 수 있을까?라는 질문에서 가설 검정 방법들이 시행된다.
- 표본(Samples): 모집단의 부분집단. 모집단을 전수조사하는 것이 현실적으로 불가능하기 때문에 표본을 추출하여 데이터를 얻는다.
- 표본 통계량(Staticstic): 표본의 특성값. 추출된 표본들을 통계적으로 기술하는 값들을 의미한다. 즉, 표본 평균, 표준 편차, 표본 비율 등등을 아우르며 모두 모수의 추정치가 될 수 있다. 단, 추정치이기 때문에 항상 오차를 수반한다.
- 분산(Variance): 변수가 평균으로부터 얼마나 떨어져 있는지를 표현하는 수치이다. 변수에서 평균을 뺀 값을 제곱한 총 합을 변수의 수로 나누어 구한다. 제곱의 평균이기 때문에 언제나 양수이며 분산이 클 수록 데이터들이 평균에서 멀리 떨어져 있음을 의미한다.
- 정규분포(Normal distribution): 연속형 변수(continous variable)가 우연적 상태에서 무한히 집합할 때, 중심 값(평균) 근처에 대다수가 밀집되는 분포를 보이며 이를 정규 분포라고 정의한다. 그래프로 그리면 종모양의 좌우 대칭 그래프가 나타난다. 평균과 표준편차에 의해 모양이 결정된다.
- 자유도(Degree of freedom): 서로 독립적인 정보의 수. 표본에서 전체 정보의 개수를 n개라고 하면 자유도는 n-1이다. (자유도 이해하는데 도움이 되었던 유투브 영상: https://www.youtube.com/watch?v=O4bpaGOd4Hg)
import numpy as np np.var() #분산 np.std() #표준편차 np.sqrt(np.var()) #표준편차
외에도 연속변수, 비연속 변수, 이산변수 등등이 있고, 추후 포스팅에서 차차 다룰 예정이다.
728x90반응형'Statistics' 카테고리의 다른 글
프로그래밍 통계2: 가설 검정의 종류와 자료의 형태 (0) 2021.07.17 프로그래밍 통계1: 표본 추출의 방법과 pandas/ python에서 샘플 추출하기 (0) 2021.07.16